RLHF (Reinforcement Learning from Human Feedback)

Co je RLHF?

Reinforcement Learning from Human Feedback (RLHF) je klucova technika, ktora transformovala LLM od jazykovych modelov na uzitocnych asistentov. ChatGPT, Claude a Gemini by bez RLHF poskytovali technicky presny, ale casto neuzitatocny alebo nealignuvany vystup.

RLHF adreasuje fundamentalny problem: ako naucit model spravat sa tak, ako si ludia zelaaju, ked je tazke formalizovat tieto preferencie matematicky.

Trojfazovy trenovaci proces

RLHF prebieha v troch fazach. Supervised Fine-Tuning (SFT): model sa doladuje na kuratorovanych prikladoch ziadanych odpovedi. Reward Model Training: ludia porovnavaju viacero odpovedi modelu a hodnotia ich kvalitu; tieto hodnotenia trenuju oddeleny reward model, ktory predikuje ludske preference.

RL faza: pomocou PPO (Proximal Policy Optimization) sa hlavny model doladuje tak, aby maximalizoval skore reward modelu, pricom zostava blizko povodnej distribucii (KL divergence penalizacia).

Variaty a nasledovnici RLHF

RLHF je narocne na implementaciu a vyzaduje vela ludskych hodnotitelov. Direct Preference Optimization (DPO) a Constitutional AI (CAI) su alternativne pristupy, ktore budu zachovavaju ciel alignmentu, ale su jednoduchsie na trenovanie. RLAIF (RLHF s AI feedback namiesto ludskym) znizuje naklady na zber preferenci.

Co je RLHF?

Trojfazovy trenovaci proces

Variaty a nasledovnici RLHF

Súvisiace pojmy