Voltar ao glossário Tecnologia

Fragmentação de Documentos (Chunking)

O processo de dividir documentos em segmentos menores e significativos otimizados para recuperação e processamento de IA em sistemas RAG.

O que é o Chunking?

O chunking é o processo de dividir documentos grandes em segmentos menores e gerenciáveis — chunks — que podem ser indexados numa base de dados vetorial e recuperados de forma eficiente por sistemas de IA. O objetivo é criar unidades que sejam suficientemente granulares para recuperação precisa, mas suficientemente completas para fornecer contexto significativo. Estratégias de chunking mal concebidas são uma das causas mais comuns de mau desempenho de RAG.

Estratégias de Chunking

O chunking por tamanho fixo divide o texto em chunks de tamanho uniforme com sobreposição opcional — simples mas cego à estrutura do conteúdo. O chunking semântico identifica limites de parágrafo e seção para preservar a coerência do contexto. O chunking hierárquico mantém múltiplas granularidades — documentos, seções, parágrafos — ligados numa árvore, permitindo que os sistemas recuperem ao nível de detalhe adequado. O chunking específico do conteúdo aplica lógicas especializadas para estruturas conhecidas como contratos, relatórios ou código.

Otimização para Sistemas RAG

O tamanho ótimo do chunk equilibra especificidade de recuperação (chunks menores) com suficiência de contexto (chunks maiores). A sobreposição entre chunks consecutivos preserva o contexto que de outra forma seria perdido nas fronteiras. Os metadados ricos — fonte, data, seção, autor — aumentam os chunks com contexto que melhora a relevância da recuperação e a citabilidade das respostas.