Qu'est-ce que le RLHF ?
L'apprentissage par renforcement à partir des retours humains (RLHF) est une technique d'entraînement conçue pour aligner les modèles d'IA sur les valeurs et préférences humaines. Il combine le fine-tuning supervisé, l'entraînement d'un modèle de récompense sur des évaluations humaines et l'apprentissage par renforcement pour optimiser le modèle principal selon ce modèle de récompense.
Processus RLHF
Le processus RLHF typique comprend trois phases : 1) fine-tuning supervisé sur des données de démonstration, 2) entraînement d'un modèle de récompense, où des évaluateurs humains comparent et classent les sorties du modèle, 3) optimisation du modèle principal via PPO (Proximal Policy Optimization) pour maximiser les récompenses. Des variantes comme DPO (Direct Preference Optimization) simplifient ce processus.
Importance pour l'IA sûre
Le RLHF est la principale raison pour laquelle les LLM modernes comme GPT-4, Claude et Gemini sont plus sûrs, plus utiles et moins nuisibles que les modèles de prédiction du prochain token purs. Il rend les modèles plus capables de comprendre les intentions humaines, de donner des réponses utiles plutôt que simplement probables et d'éviter les contenus nuisibles.