RLHF (Обучение с подкрепление от обратна връзка от хора)

RLHF (Reinforcement Learning from Human Feedback) е техника за обучение, изравняваща поведението на модела с човешките предпочитания чрез използване на човешки оценители за класиране на отговорите.

Как работи RLHF

RLHF обикновено работи на три фази: (1) Обучение на модел за награда - хората класират или сравняват отговорите на модела, а тези класирания се използват за обучение на модел за награда, предсказващ предпочитанията на хората; (2) Оптимизация на политиката - основният модел се обучава за подобряване на наградата; (3) Итерация - допълнителни обучаващи кръгове могат да продължат да усъвършенстват разбирането на модела за човешките предпочитания.

Успех

RLHF е крайъгълен камък при обучението на съвременни chatbot модели - обичайният начин за правене на модели по-полезни, безвредни и честни, отколкото е възможно само с езиково обучение.

Ограничения

Предизвикателствата на RLHF включват: висока цена на човешка обратна връзка, предубеждение на оценителите и риск от хакване на награда (моделът, намиращ начини да получи висока награда без показване на желаното поведение).

RLHF (Обучение с подкрепление от обратна връзка от хора)

Как работи RLHF

Успех

Ограничения

Свързани термини