Ce este RLHF?
Învățarea prin întărire din feedback uman (RLHF) este o procedură în mai mulți pași pentru ajustarea fină a modelelor AI pentru o mai bună aliniere cu preferințele umane. După pre-antrenarea inițială și ajustarea fină supervizată de bază, RLHF aplică date de la oameni pentru a forma comportamentul modelului.
Procesul RLHF
Colectarea datelor de antrenament: evaluatorii umani evaluează și clasifică perechile de ieșiri AI, determinând care este mai bună. Antrenarea modelului de recompensă pe datele de preferință umane pentru a face predicții despre ieșirile mai bune. Învățarea prin întărire aplică algoritmul PPO pentru ajustarea fină a LLM-ului pentru a maximiza recompensa.
Alternative RLHF
Constitutional AI folosește ajustare fină bazată pe principii și autocritică. DPO (Direct Preference Optimization) simplifică RLHF fără antrenarea explicită a modelului de recompensă.