Povratak na rječnik Umjetna inteligencija

RLHF (Učenje pojačanjem iz povratnih informacija)

Tehnika fine-tuninga koja poravnava AI modele s ljudskim preferencijama kroz iterativne povratne informacije — metoda koja pokreće ChatGPT i Claude.

Što je RLHF?

Reinforcement Learning from Human Feedback (RLHF) je tehnika treniranja koja poravnava AI modele s ljudskim preferencijama i vrijednostima. Za razliku od standardnog nadziranog učenja na parovima upita-odgovor, RLHF uči iz relativnih preferencija (koji odgovor je bolji?) što je intuitivnije za ljudske anotatore i hvata nijanse koje hard labeli propuštaju.

Trifazni RLHF proces

Faza 1: SFT (Supervised Fine-Tuning) — fino podešen model na primjerima visoke kvalitete. Faza 2: trening modela nagrade — ljudi rangiraju parove odgovora, RM uči predviđati ljudske preferencije. Faza 3: PPO (Proximal Policy Optimization) — LLM je optimiziran da maksimizira nagradu od RM-a. Varijante: DPO (Direct Preference Optimization) — efikasnije, bez RM-a.

Implikacije za poslovnu primjenu

RLHF je razlog zašto su modeli korisni i sigurni za razgovor. Za fine-tuning poslovnih modela: prikupljanje preferencija od domenskih stručnjaka, ne generalnih annotatora. DPO je popularnija alternativa RLHF-u za resurs-ograničena okruženja.