Qu'est-ce que le RAG ?
Le Retrieval-Augmented Generation (RAG) combine deux étapes : la recherche (trouver des documents pertinents dans une base de connaissances) et la génération (générer des réponses basées sur les matériaux trouvés). Le modèle ne se fie pas à sa mémoire d'entraînement mais aux données actuelles fournies.
Comment fonctionne un pipeline RAG ?
1. L'utilisateur pose une question. 2. Le système recherche des fragments de documents pertinents dans une base de données vectorielle (embedding + recherche de similarité). 3. Les fragments trouvés sont ajoutés au prompt comme contexte. 4. Le modèle génère une réponse en citant les sources.
RAG vs fine-tuning
Utilisez le RAG quand les données changent (base de connaissances, documentation, réglementations). Utilisez le fine-tuning quand vous voulez modifier le comportement du modèle (style de réponse, format, spécialisation de domaine). En pratique entreprise, les deux approches sont généralement combinées.