O que é RAG?
O Retrieval-Augmented Generation (RAG) combina duas etapas: retrieval (pesquisa de documentos relevantes numa base de conhecimento) e generation (geração de respostas com base nos materiais encontrados). O modelo não depende da memória de treino mas dos dados atuais fornecidos.
Como funciona um pipeline RAG?
1. O utilizador faz uma pergunta. 2. O sistema pesquisa fragmentos de documentos relevantes numa base de dados vetorial (embedding + pesquisa de similaridade). 3. Os fragmentos encontrados são adicionados ao prompt como contexto. 4. O modelo gera uma resposta citando as fontes.
RAG vs fine-tuning
Use RAG quando os dados mudam (base de conhecimento, documentação, regulamentos). Use fine-tuning quando quer alterar o comportamento do modelo (estilo de resposta, formato, especialização de domínio). Na prática empresarial, ambas as abordagens são geralmente combinadas.