RLHF (Učenje s krepitvijo iz povratnih informacij)

Kaj je RLHF?

Reinforcement Learning from Human Feedback je tehnika usposabljanja, ki usklajuje modele UI s človeškimi preferencami in vrednotami. Za razliko od standardnega nadzorovanega učenja na parih poizvedba-odgovor, RLHF se uči iz relativnih preferenc.

Trifazni proces RLHF

Faza 1: SFT — fino nastavljanje modela na visokokakovostnih primerih. Faza 2: usposabljanje modela nagrade — ljudje razvrstijo pare odgovorov. Faza 3: PPO — LLM je optimiziran za maksimizacijo nagrade. Različica: DPO — učinkovitejša, brez modela nagrade.

Posledice za poslovno rabo

RLHF je razlog, zakaj so modeli koristni in varni za pogovor. Za fino nastavljanje poslovnih modelov: zbiranje preferenc od domenskih strokovnjakov.

Kaj je RLHF?

Trifazni proces RLHF

Posledice za poslovno rabo

Povezani pojmi