Vissza a szójegyzékhez Technológia

Chunking — szöveg darabolása AI-alkalmazásokhoz

A szöveg kisebb szegmensekre bontásának stratégiája a RAG-rendszerek és más NLP-alkalmazások hatékonyságának javítása érdekében.

Miért fontos a chunking?

A chunking az a folyamat, amelynek során szövegdokumentumokat vagy más tartalmat kisebb szegmensekre darabolunk fel az AI-feldolgozáshoz. A vektoros adatbázisok beágyazásainak tárolásakor és a Retrieval-Augmented Generation (RAG) rendszerek felépítésekor a chunking stratégiája alapvetően befolyásolja a visszakeresési relevanciát és a végső válasz minőségét.

Chunking stratégiák

A fix méretű chunking a szöveget rögzített token- vagy karakterszámon osztja fel — egyszerű, de megszakíthat mondatokat és bekezdéseket. Az átfedéses chunking egymást átfedő szegmenseket hoz létre, hogy megőrizze a kontextust a határok között. A szemantikai chunking NLP-t alkalmaz természetes megszakítási pontoknál való szétbontáshoz. A dokumentumstruktúra-alapú chunking a meglévő dokumentumszerkezetet, például fejezeteket és bekezdéseket tiszteli.

Optimalizálási szempontok

Az optimális chunk-méret felhasználási esettől függ. A kis darabok pontosabb visszakeresést, de több darabot eredményeznek. A nagy darabok több kontextust tartalmaznak, de kevésbé célzott visszakeresést eredményeznek. A hibrid megközelítések közepes méretű darabokat, kisebb szomszédos darabokkal összefűzve, a szándékos visszakeresést finomabb kontextussal kombinálják.