Vissza a szójegyzékhez Mesterséges intelligencia

RLHF — Emberi visszajelzésen alapuló megerősítéses tanulás

Technika AI-modellek finomhangolásához emberi preferencia-visszajelzések alapján, javítva a hasznosságot, az ártalmatlanságot és az etikai illeszkedést.

Mi az RLHF?

Az Emberi visszajelzésen alapuló megerősítéses tanulás (RLHF) egy többlépéses eljárás az AI-modellek finomhangolásához az emberi preferenciákkal való jobb összhang érdekében. Az előzetes betanítás és az alap szupervizált finomhangolás után az RLHF emberektől kapott adatokat alkalmaz a model viselkedésének formálásához.

Az RLHF folyamat

A betanítási adatok összegyűjtése során az emberi értékelők értékelik és rangsorolják az AI-kimenetek párjait, meghatározva, hogy melyik a jobb. A jutalom modelljük betanítása az emberi preferencia-adatokon betanul a jobb kimenetekre vonatkozó előrejelzések adásához. A megerősítéses tanulás alkalmazza a Proximal Policy Optimization (PPO) algoritmust az LLM finomhangolásához a jutalom maximalizálásához.

RLHF alternatívái

Az alkotmányos AI (Constitutional AI) elveken és önkritikán alapuló finomhangolást alkalmaz. Az Emberi visszajelzés nélküli közvetlen preferencia-optimalizálás (DPO) egyszerűsíti az RLHF-et a jutalom modell explicit képzése nélkül. Az ezeket kombináló megközelítések különböző kompromisszumokat kínálnak a skálázhatóság, az adatkövetelmények és az eredmények között.