Tagasi sõnastikku Tehisintellekt

RLHF — Tugevdusõpe inimese tagasisidest

Tehnika tehisintellekti mudelite peenhäälestamiseks inimese eelistuste tagasiside põhjal, parandades kasulikkust, kahjutust ja eetilist joondamist.

Mis on RLHF?

Inimese tagasisidest tugevdusõpe (RLHF) on mitmeetapiline protseduur tehisintellekti mudelite peenhäälestamiseks paremaks joondamiseks inimese eelistustega. Pärast algset eeltreenimist ja põhilist juhendatud peenhäälestamist rakendab RLHF inimestelt pärinevaid andmeid mudeli käitumise kujundamiseks.

RLHF protsess

Treenimisandmete kogumine: inimese hindajad hindavad ja järjestavad tehisintellekti väljundite paare, määrates, kumb on parem. Preemiamudelite treenimine inimese eelistuste andmetel parematele väljunditele ennustuste tegemiseks. Tugevdusõpe rakendab PPO algoritmi LLM-i peenhäälestamiseks preemia maksimeerimiseks.

RLHF alternatiivid

Põhiseaduslik tehisintellekt kasutab põhimõtetel ja enesekriitikal põhinevat peenhäälestamist. DPO (Direct Preference Optimization) lihtsustab RLHF-i ilma preemiamudeli selge treenimiseta.