Zpět na slovník Technologie

Chunking dokumentu

Proces rozdeleni dokumentu na mensi, smysluplne segmenty optimalizovane pro AI vyhledavani a zpracovani v RAG systemech.

Proc zalezi na chunkingu

Chunking dokumentu je proces deleni dokumentu na mensi, semanticky smysluplne segmenty pro ukladani ve vektorovych databazich a vyhledavani AI systemy. Je to kriticky krok pri budovani RAG pipeline. Kvalita chunkingu primo ovlivnuje presnost vyhledavani: prilis velke chunky zreduji relevanci, zatimco prilis male chunky ztraceji dulezity kontext.

Strategie chunkingu

Chunking pevne velikosti rozdeli text v pravidelnych intervalech znaku nebo tokenu. Rekurzivni deleni znaku rozdeli text na prirozene hranice (odstavce, vety). Semanticky chunking vyuziva podobnost embeddingu k seskupovani souvisejiciho obsahu. Chunking s vedomi struktury dokumentu respektuje nadpisy, sekce a formatovani k zachovani organizacni logiky autora.

Optimalizacni techniky

Prekryti po sobe jdoucich chunku zajistuje, ze koncepty prekryvajici se pres hranice chunku nejsou ztraceny. Obohaceni metadat pripojuje nazvy sekci, zdroj dokumentu a cisla stranek ke kazdemu chunku pro lepsi filtrovani a prirazovani. Velikost chunku by mela byt empiricky vyladena pro specificky pripad pouziti.