¿Qué es el RLHF?
El aprendizaje por refuerzo con retroalimentación humana (RLHF) es una técnica de entrenamiento diseñada para alinear los modelos de IA con los valores y preferencias humanos. Combina el ajuste fino supervisado, el entrenamiento de un modelo de recompensa a partir de evaluaciones humanas y el aprendizaje por refuerzo para optimizar el modelo principal según este modelo de recompensa.
Proceso RLHF
El proceso RLHF típico comprende tres fases: 1) ajuste fino supervisado sobre datos de demostración, 2) entrenamiento de un modelo de recompensa, donde evaluadores humanos comparan y clasifican salidas del modelo, 3) optimización del modelo principal mediante PPO (Proximal Policy Optimization) para maximizar las recompensas. Variantes como DPO (Direct Preference Optimization) simplifican este proceso.
Importancia para la IA segura
El RLHF es la principal razón por la que los LLMs modernos como GPT-4, Claude y Gemini son más seguros, útiles y menos dañinos que los modelos de predicción del siguiente token puro. Hace que los modelos sean mejores en comprender las intenciones humanas, dar respuestas útiles en lugar de simplemente probables y evitar contenido dañino.