RLHF — Învățare prin întărire din feedback uman — Glosar AI

Ce este RLHF?

Învățarea prin întărire din feedback uman (RLHF) este o procedură în mai mulți pași pentru ajustarea fină a modelelor AI pentru o mai bună aliniere cu preferințele umane. După pre-antrenarea inițială și ajustarea fină supervizată de bază, RLHF aplică date de la oameni pentru a forma comportamentul modelului.

Procesul RLHF

Colectarea datelor de antrenament: evaluatorii umani evaluează și clasifică perechile de ieșiri AI, determinând care este mai bună. Antrenarea modelului de recompensă pe datele de preferință umane pentru a face predicții despre ieșirile mai bune. Învățarea prin întărire aplică algoritmul PPO pentru ajustarea fină a LLM-ului pentru a maximiza recompensa.

Alternative RLHF

Constitutional AI folosește ajustare fină bazată pe principii și autocritică. DPO (Direct Preference Optimization) simplifică RLHF fără antrenarea explicită a modelului de recompensă.

RLHF — Învățare prin întărire din feedback uman

Ce este RLHF?

Procesul RLHF

Alternative RLHF

Termeni înrudiți