Späť na slovník Technológie

Chunking dokumentov

Proces rozdelovania dokumentov na mensie, zmysluplné segmenty optimalizované pre AI vyhladavanie a spracovanie v RAG systemoch.

Preco zalézi na chunkingu

Chunking dokumentov je process delenia dokumentov na mensie, sémanticky zmysluplné segmenty pre ukladanie vo vektorovych databazach a vyhladavanie AI systemmi. Je to kritický, ale casto podceňovaný krok pri budovani RAG pipeline. Kvalita chunkingu priamo ovplyvnuje presnost vyhladavania: príliš velaké chunky znizuju relevanciu, zatial co príliš malé chunky strácaju dôlezitý kontext.

Stratégie chunkingu

Chunking pevnej velakonosti rozdelí text v pravidelnych intervaloch znakov alebo tokenov. Rekurzívne delenie znakov rozdelí text na prirodzených hraniciach (odseky, vety). Sémanticský chunking vyuziva podobnost embeddingov na zoskupovanie súvisiacého obsahu. Chunking s povedomim o strukture dokumentu rešpektuje nadpisy, sekcie a formatovanie na zachovanie organizacnej logiky autora.

Optimalizacné techniky

Prekrytie po sebe nasledujucich chunkov zabezpecuje, ze koncepty presahujuce hranice chunkov nie su stratené — typicky funguje dobre 10–20 % prekrytie. Obohatenie metadát pripája nazvy sekcii, zdroj dokumentu a cisla strán ku kazdemu chunku pre lepsie filtrovanie.