RLHF — Tugevdusõpe inimese tagasisidest — Tehisintellekti sõnastik

Mis on RLHF?

Inimese tagasisidest tugevdusõpe (RLHF) on mitmeetapiline protseduur tehisintellekti mudelite peenhäälestamiseks paremaks joondamiseks inimese eelistustega. Pärast algset eeltreenimist ja põhilist juhendatud peenhäälestamist rakendab RLHF inimestelt pärinevaid andmeid mudeli käitumise kujundamiseks.

RLHF protsess

Treenimisandmete kogumine: inimese hindajad hindavad ja järjestavad tehisintellekti väljundite paare, määrates, kumb on parem. Preemiamudelite treenimine inimese eelistuste andmetel parematele väljunditele ennustuste tegemiseks. Tugevdusõpe rakendab PPO algoritmi LLM-i peenhäälestamiseks preemia maksimeerimiseks.

RLHF alternatiivid

Põhiseaduslik tehisintellekt kasutab põhimõtetel ja enesekriitikal põhinevat peenhäälestamist. DPO (Direct Preference Optimization) lihtsustab RLHF-i ilma preemiamudeli selge treenimiseta.

RLHF — Tugevdusõpe inimese tagasisidest

Mis on RLHF?

RLHF protsess

RLHF alternatiivid

Seotud mõisted