Atpakaļ uz vārdnīcu Mākslīgais intelekts

RLHF (pastiprinātā mācīšanās no cilvēku atgriezeniskās saites)

Apmācības metodoloģija, kas saskaņo MI modeļus ar cilvēku preferencēm, izmantojot atgriezeniskās saites balstītu pastiprinātās mācīšanās ciklu.

Kas ir RLHF?

RLHF (Reinforcement Learning from Human Feedback) ir apmācības metodoloģija, kas saskaņo MI modeļus ar cilvēku preferencēm un vērtībām. Process ietver trīs galvenos posmus: sākotnējo modeļa apmācību, atlīdzības modeļa apmācību no cilvēku preferencēm un modeļa optimizāciju, izmantojot pastiprinātās mācīšanās algoritmus (piemēram, PPO).

Cilvēki vērtētāji salīdzina modeļa izvades pārus un norāda, kura ir labāka — veidojot preferenču datu kopu. No šiem datiem tiek apmācīts atlīdzības modelis, kas prognozē cilvēku preferences. Pēc tam galvenais modelis tiek optimizēts, lai maksimizētu atlīdzības modeļa vērtējumu, vienlaikus saglabājot sākotnējo spēju daudzveidību.

Nozīme uzņēmumiem

RLHF ir kritisks, lai MI sistēmas būtu drošas, noderīgas un godīgas. Organizācijām, kas izstrādā vai pielāgo MI modeļus, RLHF ļauj saskaņot modeļa uzvedību ar konkrētām biznesa prasībām, ētiskajām vadlīnijām un lietotāju gaidām.