Kaj je RLHF?
Reinforcement Learning from Human Feedback je tehnika usposabljanja, ki usklajuje modele UI s človeškimi preferencami in vrednotami. Za razliko od standardnega nadzorovanega učenja na parih poizvedba-odgovor, RLHF se uči iz relativnih preferenc.
Trifazni proces RLHF
Faza 1: SFT — fino nastavljanje modela na visokokakovostnih primerih. Faza 2: usposabljanje modela nagrade — ljudje razvrstijo pare odgovorov. Faza 3: PPO — LLM je optimiziran za maksimizacijo nagrade. Različica: DPO — učinkovitejša, brez modela nagrade.
Posledice za poslovno rabo
RLHF je razlog, zakaj so modeli koristni in varni za pogovor. Za fino nastavljanje poslovnih modelov: zbiranje preferenc od domenskih strokovnjakov.