Wróć do słownika Sztuczna inteligencja

RLHF (Reinforcement Learning from Human Feedback)

Metoda treningu modeli AI z wykorzystaniem ludzkiej oceny odpowiedzi, kluczowa dla bezpieczeństwa i użyteczności współczesnych asystentów AI.

Czym jest RLHF?

RLHF (Reinforcement Learning from Human Feedback) to technika dostrajania modeli językowych, w której ludzie oceniają jakość odpowiedzi generowanych przez model, a te oceny służą do dalszego treningu. Proces ten sprawia, że model uczy się generować odpowiedzi bardziej pomocne, bezpieczne i zgodne z intencjami użytkownika. RLHF jest kluczowym etapem tworzenia współczesnych asystentów AI, takich jak ChatGPT czy Claude.

Jak działa RLHF?

Proces przebiega w trzech etapach: najpierw model bazowy jest fine-tunowany na przykładach pożądanych odpowiedzi (SFT — Supervised Fine-Tuning). Następnie ludzie porównują pary odpowiedzi modelu i wskazują lepszą, co pozwala wytrenować model nagrody (reward model). Na koniec model językowy jest optymalizowany algorytmem PPO (Proximal Policy Optimization), aby maksymalizować ocenę modelu nagrody, zachowując przy tym bliskość do modelu bazowego.

Znaczenie dla zastosowań biznesowych

RLHF jest powodem, dla którego współczesne modele AI potrafią prowadzić naturalne rozmowy, przestrzegać instrukcji i odmówić wykonania niebezpiecznych poleceń. W kontekście enterprise RLHF zapewnia, że agenci AI zachowują się przewidywalnie i bezpiecznie — co jest kluczowe w systemach autonomicznych podejmujących decyzje biznesowe.