Kaj je chunking?
Chunking je proces delitve dolgih dokumentov na manjše, upravljive segmente za vektorsko shranjevanje in semantično iskanje. Strategija segmentiranja neposredno vpliva na relevantnost najdenih kontekstov in kakovost RAG odgovorov.
Strategije chunkinga
Fiksna velikost: enaki segmenti z prekrivanjem. Rekurzivno po znakih: delitev po odstavkih, nato stavkih. Semantičen chunking: model ML prepozna tematske spremembe. Na podlagi strukture: ohranja hierarhijo dokumenta.
Optimizacija za produkcijo
Manjši deli: večja natančnost, a izguba konteksta. Večji deli: več konteksta, a manjši signal. Prekrivanje preprečuje izgubo informacij na mejah.