Cos'è RAG?
Il Retrieval-Augmented Generation (RAG) combina due fasi: retrieval (ricerca di documenti rilevanti da una base di conoscenza) e generation (generazione di risposte basate sui materiali trovati). Il modello non si affida alla memoria di addestramento ma ai dati attuali forniti.
Come funziona una pipeline RAG?
1. L'utente pone una domanda. 2. Il sistema cerca frammenti di documenti rilevanti in un database vettoriale (embedding + ricerca di similarità). 3. I frammenti trovati vengono aggiunti al prompt come contesto. 4. Il modello genera una risposta citando le fonti.
RAG vs fine-tuning
Usare RAG quando i dati cambiano (base di conoscenza, documentazione, normative). Usare il fine-tuning quando si vuole cambiare il comportamento del modello (stile di risposta, formato, specializzazione di dominio). Nella pratica aziendale, entrambi gli approcci vengono solitamente combinati.