Povratak na rječnik Tehnologija

Dijeljenje dokumenata (Chunking)

Strategija dijeljenja dugih dokumenata na manje segmente za efikasno vektorsko indeksiranje i RAG — ključna za kvalitetu odgovora AI-ja.

Što je chunking?

Chunking je proces dijeljenja dugih dokumenata na manje, upravljive segmente radi vektorskog pohranivanja i semantičkog pretraživanja. Budući da vektorske baze podataka indeksiraju i pretražuju chunk po chunk, strategija segmentiranja izravno utječe na relevantnost pronađenih konteksta i, u konačnici, na kvalitetu RAG odgovora.

Strategije chunkinga

Fiksna veličina: jednaki segmenti od N tokena s preklapanjem — jednostavno ali neciljano. Rekurzivno prema znakovima: dijeljenje prema odlomcima, zatim rečenicama — čuva semantičke granice. Semantičko chunking: ML model prepoznaje tematske promjene za optimalne granice. Na temelju strukture dokumenta: čuva hijerarhiju (poglavlja, sekcije, tablice). Agentic chunking: LLM odlučuje kako segmentirati na temelju razumijevanja sadržaja.

Optimizacija za produkciju

Veličina chunka utječe na preciznost i odziv pretrage. Manji chunkovi: veća preciznost, ali gubitak konteksta. Veći chunkovi: više konteksta, ali manji 'signal'. Preklapanje (overlap) između chunkova sprječava gubitak informacija na granicama. Testiranje različitih strategija na vašim dokumentima je neophodan korak.