Späť na slovník Umelá inteligencia

RLHF (Reinforcement Learning from Human Feedback)

RLHF je technika trenovania AI modelov, kde ludski hodnotitelia poskytuju feedback na vystupy modelu, ktory sa pouziva na trenovanie reward modelu a nasledne na doladenie AI pomocou reinforcement learningu.

Co je RLHF?

Reinforcement Learning from Human Feedback (RLHF) je klucova technika, ktora transformovala LLM od jazykovych modelov na uzitocnych asistentov. ChatGPT, Claude a Gemini by bez RLHF poskytovali technicky presny, ale casto neuzitatocny alebo nealignuvany vystup.

RLHF adreasuje fundamentalny problem: ako naucit model spravat sa tak, ako si ludia zelaaju, ked je tazke formalizovat tieto preferencie matematicky.

Trojfazovy trenovaci proces

RLHF prebieha v troch fazach. Supervised Fine-Tuning (SFT): model sa doladuje na kuratorovanych prikladoch ziadanych odpovedi. Reward Model Training: ludia porovnavaju viacero odpovedi modelu a hodnotia ich kvalitu; tieto hodnotenia trenuju oddeleny reward model, ktory predikuje ludske preference.

RL faza: pomocou PPO (Proximal Policy Optimization) sa hlavny model doladuje tak, aby maximalizoval skore reward modelu, pricom zostava blizko povodnej distribucii (KL divergence penalizacia).

Variaty a nasledovnici RLHF

RLHF je narocne na implementaciu a vyzaduje vela ludskych hodnotitelov. Direct Preference Optimization (DPO) a Constitutional AI (CAI) su alternativne pristupy, ktore budu zachovavaju ciel alignmentu, ale su jednoduchsie na trenovanie. RLAIF (RLHF s AI feedback namiesto ludskym) znizuje naklady na zber preferenci.