Chunking de documentos

Por qué importa el chunking

El chunking de documentos es el proceso de dividir documentos en segmentos semánticamente significativos más pequeños para almacenarlos en bases de datos vectoriales y ser recuperados por sistemas de IA. Es un paso crítico en la construcción de pipelines RAG. La calidad del chunking impacta directamente en la precisión de la recuperación: chunks demasiado grandes diluyen la relevancia, mientras que chunks demasiado pequeños pierden contexto importante. Acertar el chunking puede mejorar el rendimiento de RAG más que actualizar el modelo de lenguaje.

El desafío fundamental es preservar el significado a nivel de segmento manteniendo los chunks lo suficientemente pequeños para una recuperación precisa.

Estrategias de chunking

El chunking de tamaño fijo divide el texto a intervalos regulares — simple pero a menudo corta a mitad de oración. El splitting recursivo por caracteres divide en límites naturales (párrafos, oraciones) dentro de límites de tamaño. El chunking semántico usa similitud de embeddings para agrupar contenido relacionado. El chunking consciente de la estructura del documento respeta encabezados, secciones y formato.

Para documentos estructurados como manuales técnicos o contratos, el chunking jerárquico preserva las relaciones padre-hijo entre secciones.

Técnicas de optimización

El solapamiento entre chunks consecutivos asegura que los conceptos que abarcan límites no se pierdan — típicamente un 10–20 % funciona bien. El enriquecimiento con metadatos añade títulos de sección, fuente y números de página. El tamaño de chunk debe ajustarse empíricamente: pruebe diferentes tamaños y mida la calidad de recuperación. Considere crear múltiples tamaños del mismo contenido. Evalúe regularmente la calidad del chunking a medida que evoluciona su corpus.

Por qué importa el chunking

Estrategias de chunking

Técnicas de optimización

Términos relacionados