Co je RLHF?
Reinforcement Learning from Human Feedback (RLHF) je klucova technika, ktora transformovala LLM od jazykovych modelov na uzitocnych asistentov. ChatGPT, Claude a Gemini by bez RLHF poskytovali technicky presny, ale casto neuzitatocny alebo nealignuvany vystup.
RLHF adreasuje fundamentalny problem: ako naucit model spravat sa tak, ako si ludia zelaaju, ked je tazke formalizovat tieto preferencie matematicky.
Trojfazovy trenovaci proces
RLHF prebieha v troch fazach. Supervised Fine-Tuning (SFT): model sa doladuje na kuratorovanych prikladoch ziadanych odpovedi. Reward Model Training: ludia porovnavaju viacero odpovedi modelu a hodnotia ich kvalitu; tieto hodnotenia trenuju oddeleny reward model, ktory predikuje ludske preference.
RL faza: pomocou PPO (Proximal Policy Optimization) sa hlavny model doladuje tak, aby maximalizoval skore reward modelu, pricom zostava blizko povodnej distribucii (KL divergence penalizacia).
Variaty a nasledovnici RLHF
RLHF je narocne na implementaciu a vyzaduje vela ludskych hodnotitelov. Direct Preference Optimization (DPO) a Constitutional AI (CAI) su alternativne pristupy, ktore budu zachovavaju ciel alignmentu, ale su jednoduchsie na trenovanie. RLAIF (RLHF s AI feedback namiesto ludskym) znizuje naklady na zber preferenci.