Što je RLHF?
Reinforcement Learning from Human Feedback (RLHF) je tehnika treniranja koja poravnava AI modele s ljudskim preferencijama i vrijednostima. Za razliku od standardnog nadziranog učenja na parovima upita-odgovor, RLHF uči iz relativnih preferencija (koji odgovor je bolji?) što je intuitivnije za ljudske anotatore i hvata nijanse koje hard labeli propuštaju.
Trifazni RLHF proces
Faza 1: SFT (Supervised Fine-Tuning) — fino podešen model na primjerima visoke kvalitete. Faza 2: trening modela nagrade — ljudi rangiraju parove odgovora, RM uči predviđati ljudske preferencije. Faza 3: PPO (Proximal Policy Optimization) — LLM je optimiziran da maksimizira nagradu od RM-a. Varijante: DPO (Direct Preference Optimization) — efikasnije, bez RM-a.
Implikacije za poslovnu primjenu
RLHF je razlog zašto su modeli korisni i sigurni za razgovor. Za fine-tuning poslovnih modela: prikupljanje preferencija od domenskih stručnjaka, ne generalnih annotatora. DPO je popularnija alternativa RLHF-u za resurs-ograničena okruženja.