Обратно към речника Технологии

Разделяне на документи на части (Chunking)

Chunking-ът е процесът на разделяне на по-големи документи на по-малки части за ефективно вграждане и извличане в RAG системи.

Защо chunking-ът е важен

RAG системите изискват документи, извлечени в управляеми части в рамките на ограниченията за контекст на модела. Прекомерният chunking губи семантичния смисъл. Недостатъчният chunking прави частите толкова големи, че нарушава извличането.

Стратегии за chunking

Общите стратегии включват chunking с фиксиран размер (части от 512 или 1024 токена с припокриване), структурно-осъзнат chunking (разбиване на границите на абзаци) и семантичен chunking (генериране на части въз основа на семантична кохерентност).

Съображения при дизайна

Експериментирайте с размерите на частите на вашите специфични данни. Оптималният размер на частта варира в зависимост от типа на документа.