Apprendimento per Rinforzo dal Feedback Umano (RLHF)

Cos'è l'RLHF?

L'apprendimento per rinforzo dal feedback umano (RLHF) è una tecnica di addestramento progettata per allineare i modelli di IA ai valori e alle preferenze umane. Combina il fine-tuning supervisionato, l'addestramento di un modello di ricompensa su valutazioni umane e l'apprendimento per rinforzo per ottimizzare il modello principale secondo questo modello di ricompensa.

Processo RLHF

Il tipico processo RLHF comprende tre fasi: 1) fine-tuning supervisionato su dati di dimostrazione, 2) addestramento di un modello di ricompensa, dove valutatori umani confrontano e classificano gli output del modello, 3) ottimizzazione del modello principale tramite PPO (Proximal Policy Optimization) per massimizzare le ricompense. Varianti come DPO (Direct Preference Optimization) semplificano questo processo.

Importanza per l'IA sicura

L'RLHF è il motivo principale per cui i moderni LLM come GPT-4, Claude e Gemini sono più sicuri, utili e meno dannosi dei modelli di predizione del token successivo puri. Rende i modelli più capaci di comprendere le intenzioni umane, fornire risposte utili anziché semplicemente probabili ed evitare contenuti dannosi.

Cos'è l'RLHF?

Processo RLHF

Importanza per l'IA sicura

Termini correlati