Grįžti į žodyną Technologijos

Dokumentų segmentavimas (Chunking)

Dokumentų skaidymo į mažesnius, prasminius segmentus, optimizuotus dirbtinio intelekto paieškai ir apdorojimui RAG sistemose, procesas.

Kodėl segmentavimas svarbus

Dokumentų segmentavimas (Chunking) yra dokumentų dalijimo į mažesnius, semantiškai prasminius segmentus procesas, skirtas saugojimui vektorinėse duomenų bazėse ir dirbtinio intelekto sistemų paieškai. Tai kritinis, tačiau dažnai nepakankamai vertinamas žingsnis kuriant RAG (Retrieval-Augmented Generation) konvejerius. Segmentavimo kokybė tiesiogiai veikia paieškos tikslumą: per dideli segmentai sumažina aktualumą, o per maži — praranda svarbų kontekstą. Teisingas segmentavimas gali pagerinti RAG veikimą labiau nei paties kalbinio modelio atnaujinimas.

Pagrindinis iššūkis — išsaugoti prasmę segmento lygmeniu, kartu palaikant segmentus pakankamai mažus tiksliai paieškai ir neviršijant modelio konteksto lango ribų.

Segmentavimo strategijos

Fiksuoto dydžio segmentavimas dalija tekstą reguliariais simbolių ar žetonų intervalais — paprastas, bet dažnai nutraukia sakinio ar koncepto viduryje. Rekursyvus simbolių dalijimas skaido tekstą natūraliose ribose (pastraipose, sakiniuose) laikantis dydžio apribojimų. Semantinis segmentavimas naudoja įterpinių panašumą susijusiam turiniui grupuoti, kuriant segmentus, atspindinčius nuoseklias idėjas. Dokumento struktūrą atpažįstantis segmentavimas gerbia antraštes, skyrius ir formatavimą, išlaikydamas autoriaus organizacinę logiką.

Struktūrizuotiems dokumentams, tokiems kaip techniniai vadovai ar teisinės sutartys, hierarchiją atpažįstantis segmentavimas išsaugo tėvo-vaiko ryšius tarp skyrių ir poskyrių, leidžiant paieškos sistemai grąžinti kontekstą kartu su konkrečiomis detalėmis.

Optimizavimo technikos

Gretimų segmentų persidengimas užtikrina, kad koncepcijos, apimančios segmentų ribas, nebūtų prarastos — paprastai 10–20 % persidengimas veikia gerai. Metaduomenų praturtinimas prideda skyriaus pavadinimus, dokumento šaltinį ir puslapių numerius prie kiekvieno segmento geresniam filtravimui ir atribucijai. Segmento dydis turėtų būti empiriškai suderintas jūsų konkrečiam naudojimo atvejui: testuokite skirtingus dydžius ir matuokite paieškos kokybę su reprezentatyviomis užklausomis. Apsvarstykite kelių segmentų dydžių kūrimą iš to paties turinio — mažus segmentus tiksliai paieškai ir didesnius kontekstui teikti kalbiniam modeliui. Reguliariai vertinkite segmentavimo kokybę, kai jūsų dokumentų korpusas evoliucionuoja.