Retour au glossaire Technologie

Découpage de documents (Chunking)

La technique de division des longs documents en segments plus petits pour améliorer la qualité de récupération dans les systèmes RAG et les bases de données vectorielles.

Pourquoi le chunking est important

Le découpage de documents est le processus de division de longs textes en segments plus petits et gérables pour le traitement dans les systèmes de récupération IA. Comme les modèles de langage ont des fenêtres de contexte limitées et les bases de données vectorielles fonctionnent le plus efficacement avec des segments de longueur moyenne, le chunking est une opération fondamentale dans tout système RAG (Retrieval-Augmented Generation). La stratégie de chunking a un impact direct sur la qualité de la récupération et donc sur la qualité des réponses du système global.

Stratégies de chunking

Le chunking fixe divise le texte par nombre de caractères — simple, mais ignore la structure du document. Le chunking sémantique tente de créer des segments sémantiquement cohérents, en regroupant souvent des phrases ou paragraphes traitant du même sujet. Les chunks chevauchants s'assurent que les frontières ne perdent pas d'informations importantes. Le chunking hiérarchique crée des segments à plusieurs niveaux de granularité.

Considérations pour les entreprises

Choisissez des stratégies de chunking selon vos types de documents : la documentation technique avec des sections structurées bénéficie du chunking basé sur les sections, les contrats juridiques du chunking basé sur les clauses. Expérimentez et mesurez la qualité de récupération avec vos données spécifiques plutôt que de vous fier à des recommandations générales.