Zpět na slovník Umělá inteligence

RLHF (zpetnovazebni uceni z lidske spatne vazby)

Technika trenovani zarovnavajici AI modely s lidskymi hodnotami prostrednictvim zpetne vazby a posilnouciho uceni.

Co je RLHF?

Reinforcement Learning from Human Feedback (RLHF) je technika trenovani pouzivana k zarovnani AI jazykovych modelu s preferecemi a hodnotami lidskych uzivatelu. Preklene propast mezi pred-trenovaci objetivo -- predikovat nasledujici token -- a pozadovanym chovani jak byti uzitecny, bezpecny a pravdivy. RLHF transformoval obecne jazykove modely do chatbotu priatelskych k uzivatelum a asistentuu, jako soucasne genrace AI asistentuu vcetne ChatGPT, Claude a Gemini.

Trenovaci proces RLHF

RLHF obicejne probiha v tri fazich. Nejprve supervised fine-tuning (SFT) trenvuje model na demonstracich pozadovaneho chovani. Potom model odmeny je trenovam pouzivavim lidskych hodnoceni porovnavajicich model vystupuv, ucici se predpovedat co lidsti hodnotitele uprednostnuji. Nakonec model policy je optimalizovam pomoci posilnovaciho uceni -- specificke Proximal Policy Optimization (PPO) -- aby maximalizoval predpovedi model odmeny. Priame preference optimalizace (DPO) nabizi zjednodusenu alternativu vylucovani explicit modelu odmeny.

Podnikove implikace

Pro podnikove AI tymy RLHF navrhy informuji jak prizpusobit zakladni modely pro specificke aplikace. Domain-specificke fine-tuning s lidsky kuratorovanyumi predferenci pairy muze prispusobit model chovani pro konkretni podnikove kontexty, profily konzistentnich zakaznikuu nebo technicke domeny. Rozumeni RLHF pomaha organizacim rozmyslet eticky, kdyz vybira dat pro model fine-tuning a hodnotitele pro zpetnou vazbu na model chovani.