Proc zalezi na chunkingu
Chunking dokumentu je proces deleni dokumentu na mensi, semanticky smysluplne segmenty pro ukladani ve vektorovych databazich a vyhledavani AI systemy. Je to kriticky krok pri budovani RAG pipeline. Kvalita chunkingu primo ovlivnuje presnost vyhledavani: prilis velke chunky zreduji relevanci, zatimco prilis male chunky ztraceji dulezity kontext.
Strategie chunkingu
Chunking pevne velikosti rozdeli text v pravidelnych intervalech znaku nebo tokenu. Rekurzivni deleni znaku rozdeli text na prirozene hranice (odstavce, vety). Semanticky chunking vyuziva podobnost embeddingu k seskupovani souvisejiciho obsahu. Chunking s vedomi struktury dokumentu respektuje nadpisy, sekce a formatovani k zachovani organizacni logiky autora.
Optimalizacni techniky
Prekryti po sobe jdoucich chunku zajistuje, ze koncepty prekryvajici se pres hranice chunku nejsou ztraceny. Obohaceni metadat pripojuje nazvy sekci, zdroj dokumentu a cisla stranek ke kazdemu chunku pro lepsi filtrovani a prirazovani. Velikost chunku by mela byt empiricky vyladena pro specificky pripad pouziti.