Chunking — szöveg darabolása AI-alkalmazásokhoz — AI szójegyzék

Miért fontos a chunking?

A chunking az a folyamat, amelynek során szövegdokumentumokat vagy más tartalmat kisebb szegmensekre darabolunk fel az AI-feldolgozáshoz. A vektoros adatbázisok beágyazásainak tárolásakor és a Retrieval-Augmented Generation (RAG) rendszerek felépítésekor a chunking stratégiája alapvetően befolyásolja a visszakeresési relevanciát és a végső válasz minőségét.

Chunking stratégiák

A fix méretű chunking a szöveget rögzített token- vagy karakterszámon osztja fel — egyszerű, de megszakíthat mondatokat és bekezdéseket. Az átfedéses chunking egymást átfedő szegmenseket hoz létre, hogy megőrizze a kontextust a határok között. A szemantikai chunking NLP-t alkalmaz természetes megszakítási pontoknál való szétbontáshoz. A dokumentumstruktúra-alapú chunking a meglévő dokumentumszerkezetet, például fejezeteket és bekezdéseket tiszteli.

Optimalizálási szempontok

Az optimális chunk-méret felhasználási esettől függ. A kis darabok pontosabb visszakeresést, de több darabot eredményeznek. A nagy darabok több kontextust tartalmaznak, de kevésbé célzott visszakeresést eredményeznek. A hibrid megközelítések közepes méretű darabokat, kisebb szomszédos darabokkal összefűzve, a szándékos visszakeresést finomabb kontextussal kombinálják.

Chunking — szöveg darabolása AI-alkalmazásokhoz

Miért fontos a chunking?

Chunking stratégiák

Optimalizálási szempontok

Kapcsolódó fogalmak