Înapoi la glosar Inteligență artificială

RLHF — Învățare prin întărire din feedback uman

Tehnica de ajustare fină a modelelor AI pe baza feedback-ului de preferință uman, îmbunătățind utilitatea, inofensivitatea și alinierea etică.

Ce este RLHF?

Învățarea prin întărire din feedback uman (RLHF) este o procedură în mai mulți pași pentru ajustarea fină a modelelor AI pentru o mai bună aliniere cu preferințele umane. După pre-antrenarea inițială și ajustarea fină supervizată de bază, RLHF aplică date de la oameni pentru a forma comportamentul modelului.

Procesul RLHF

Colectarea datelor de antrenament: evaluatorii umani evaluează și clasifică perechile de ieșiri AI, determinând care este mai bună. Antrenarea modelului de recompensă pe datele de preferință umane pentru a face predicții despre ieșirile mai bune. Învățarea prin întărire aplică algoritmul PPO pentru ajustarea fină a LLM-ului pentru a maximiza recompensa.

Alternative RLHF

Constitutional AI folosește ajustare fină bazată pe principii și autocritică. DPO (Direct Preference Optimization) simplifică RLHF fără antrenarea explicită a modelului de recompensă.