Nazaj na slovar Tehnologija

Delitev dokumentov (Chunking)

Strategija delitve dolgih dokumentov na manjše segmente za učinkovito vektorsko indeksiranje in RAG — ključna za kakovost odgovorov UI.

Kaj je chunking?

Chunking je proces delitve dolgih dokumentov na manjše, upravljive segmente za vektorsko shranjevanje in semantično iskanje. Strategija segmentiranja neposredno vpliva na relevantnost najdenih kontekstov in kakovost RAG odgovorov.

Strategije chunkinga

Fiksna velikost: enaki segmenti z prekrivanjem. Rekurzivno po znakih: delitev po odstavkih, nato stavkih. Semantičen chunking: model ML prepozna tematske spremembe. Na podlagi strukture: ohranja hierarhijo dokumenta.

Optimizacija za produkcijo

Manjši deli: večja natančnost, a izguba konteksta. Večji deli: več konteksta, a manjši signal. Prekrivanje preprečuje izgubo informacij na mejah.