Was ist RLHF?
Reinforcement Learning from Human Feedback (RLHF) ist eine Trainingstechnik, die dazu dient, KI-Modelle an menschliche Werte und Präferenzen anzupassen. Es kombiniert Supervised Fine-Tuning, das Training eines Belohnungsmodells auf menschlichen Bewertungen und Reinforcement Learning zur Optimierung des Hauptmodells gemäß diesem Belohnungsmodell.
RLHF-Prozess
Der typische RLHF-Prozess umfasst drei Phasen: 1) Supervised Fine-Tuning auf Demonstrations-Daten, 2) Training eines Reward-Modells, bei dem menschliche Bewerter Modellausgaben vergleichen und ranken, 3) Optimierung des Hauptmodells per PPO (Proximal Policy Optimization), um die Belohnungen zu maximieren. Varianten wie DPO (Direct Preference Optimization) vereinfachen diesen Prozess.
Bedeutung für sichere KI
RLHF ist der Hauptgrund, warum moderne LLMs wie GPT-4, Claude und Gemini sicherer, hilfreicher und weniger schädlich sind als reine Next-Token-Prediction-Modelle. Es macht Modelle besser darin, menschliche Absichten zu verstehen, hilfreiche statt nur wahrscheinliche Antworten zu geben und schädliche Inhalte zu vermeiden.