Reinforcement Learning from Human Feedback (RLHF)

Was ist RLHF?

Reinforcement Learning from Human Feedback (RLHF) ist eine Trainingstechnik, die dazu dient, KI-Modelle an menschliche Werte und Präferenzen anzupassen. Es kombiniert Supervised Fine-Tuning, das Training eines Belohnungsmodells auf menschlichen Bewertungen und Reinforcement Learning zur Optimierung des Hauptmodells gemäß diesem Belohnungsmodell.

RLHF-Prozess

Der typische RLHF-Prozess umfasst drei Phasen: 1) Supervised Fine-Tuning auf Demonstrations-Daten, 2) Training eines Reward-Modells, bei dem menschliche Bewerter Modellausgaben vergleichen und ranken, 3) Optimierung des Hauptmodells per PPO (Proximal Policy Optimization), um die Belohnungen zu maximieren. Varianten wie DPO (Direct Preference Optimization) vereinfachen diesen Prozess.

Bedeutung für sichere KI

RLHF ist der Hauptgrund, warum moderne LLMs wie GPT-4, Claude und Gemini sicherer, hilfreicher und weniger schädlich sind als reine Next-Token-Prediction-Modelle. Es macht Modelle besser darin, menschliche Absichten zu verstehen, hilfreiche statt nur wahrscheinliche Antworten zu geben und schädliche Inhalte zu vermeiden.

Was ist RLHF?

RLHF-Prozess

Bedeutung für sichere KI

Verwandte Begriffe