Torna al glossario Tecnologia

Suddivisione di Documenti (Chunking)

La tecnica di divisione dei documenti lunghi in segmenti più piccoli per migliorare la qualità del recupero nei sistemi RAG e nei database vettoriali.

Perché il Chunking è Importante

La suddivisione dei documenti è il processo di divisione di testi lunghi in segmenti più piccoli e gestibili per l'elaborazione nei sistemi di recupero IA. Poiché i modelli linguistici hanno finestre di contesto limitate e i database vettoriali funzionano in modo più efficiente con segmenti di lunghezza media, il chunking è un'operazione fondamentale in qualsiasi sistema RAG (Retrieval-Augmented Generation). La strategia di chunking ha un impatto diretto sulla qualità del recupero e quindi sulla qualità delle risposte dell'intero sistema.

Strategie di Chunking

Il chunking fisso divide il testo per numero di caratteri — semplice, ma ignora la struttura del documento. Il chunking semantico tenta di creare segmenti semanticamente coerenti, spesso raggruppando frasi o paragrafi che trattano lo stesso argomento. I chunk sovrapposti garantiscono che i confini non perdano informazioni importanti. Il chunking gerarchico crea segmenti a più livelli di granularità.

Considerazioni Aziendali

Scegliete strategie di chunking in base ai vostri tipi di documenti: la documentazione tecnica con sezioni strutturate beneficia del chunking basato sulle sezioni, i contratti legali del chunking basato sulle clausole. Sperimentate e misurate la qualità del recupero con i vostri dati specifici invece di affidarvi a raccomandazioni generali.