Atpakaļ uz vārdnīcu Tehnoloģija

Dokumentu sadalīšana segmentos (Chunking)

Chunking sadala lielus dokumentus mazākos, semantiski jēgpilnos segmentos, ko AI sistēmas var efektīvi apstrādāt, meklēt un izmantot RAG konveijeros.

Kas ir Chunking?

Chunking ir process, kurā lieli dokumenti tiek sadalīti mazākos segmentos (chunks), ko AI sistēmas var efektīvi apstrādāt. Tas ir būtisks RAG (Retrieval-Augmented Generation) konveijeru elements — pareiza sadalīšana nodrošina, ka meklēšana atrod relevantāko informāciju un valodas modelis saņem pietiekami kontekstuālu, bet ne pārāk garu tekstu.

Sadalīšanas stratēģijas

Fiksēta izmēra sadalīšana dala tekstu noteikta garuma segmentos (piemēram, 512 tokenus) ar pārklāšanos. Semantiskā sadalīšana izmanto AI, lai noteiktu tēmu robežas un sadalītu pēc satura jēgas. Struktūras bāzēta sadalīšana izmanto dokumenta struktūru — virsrakstus, rindkopas, sarakstus. Rekursīvā sadalīšana piemēro hierarhisku pieeju — vispirms dala pa lielākiem blokam, tad mazākiem pēc vajadzības.

Labākā prakse

Optimāls segmenta izmērs ir atkarīgs no lietojuma — parasti 256-1024 tokeni RAG sistēmām. Izmantojiet pārklāšanos (10-20%) starp segmentiem, lai nezaudētu kontekstu uz robežām. Saglabājiet metadatus — dokumenta nosaukumu, sadaļas virsrakstu, pozīciju — uzlabotai meklēšanai. Testējiet dažādas stratēģijas ar reāliem vaicājumiem un mērot iegūšanas kvalitāti. Apsveriet daudzlīmeņu sadalīšanu — īsie segmenti meklēšanai, garāki kontekstam.