Как работи RLHF
RLHF обикновено работи на три фази: (1) Обучение на модел за награда - хората класират или сравняват отговорите на модела, а тези класирания се използват за обучение на модел за награда, предсказващ предпочитанията на хората; (2) Оптимизация на политиката - основният модел се обучава за подобряване на наградата; (3) Итерация - допълнителни обучаващи кръгове могат да продължат да усъвършенстват разбирането на модела за човешките предпочитания.
Успех
RLHF е крайъгълен камък при обучението на съвременни chatbot модели - обичайният начин за правене на модели по-полезни, безвредни и честни, отколкото е възможно само с езиково обучение.
Ограничения
Предизвикателствата на RLHF включват: висока цена на човешка обратна връзка, предубеждение на оценителите и риск от хакване на награда (моделът, намиращ начини да получи висока награда без показване на желаното поведение).