Επιστροφή στο γλωσσάριο Τεχνολογία

Κατακερματισμός Εγγράφων (Chunking)

Η διαδικασία διαίρεσης εγγράφων σε μικρότερα, ουσιαστικά τμήματα βελτιστοποιημένα για ανάκτηση και επεξεργασία ΤΝ σε συστήματα RAG.

Τι Είναι το Chunking;

Το chunking είναι η διαδικασία διαίρεσης μεγάλων εγγράφων σε μικρότερα, διαχειρίσιμα τμήματα — chunks — που μπορούν να ευρετηριαστούν σε μια διανυσματική βάση δεδομένων και να ανακτηθούν αποτελεσματικά από συστήματα ΤΝ. Στρατηγικές chunking κακής σχεδίασης είναι μια από τις πιο συνηθισμένες αιτίες κακής απόδοσης RAG.

Στρατηγικές Chunking

Το chunking σταθερού μεγέθους χωρίζει κείμενο σε ομοιόμορφα τμήματα με προαιρετική επικάλυψη. Το σημασιολογικό chunking εντοπίζει όρια παραγράφων και ενοτήτων. Το ιεραρχικό chunking διατηρεί πολλαπλές λεπτομέρειες συνδεδεμένες σε δέντρο.

Βελτιστοποίηση για Συστήματα RAG

Το βέλτιστο μέγεθος chunk εξισορροπεί ειδικότητα ανάκτησης με επάρκεια πλαισίου. Πλούσια μεταδεδομένα — πηγή, ημερομηνία, ενότητα, συγγραφέας — ενισχύουν τα chunks με πλαίσιο που βελτιώνει τη συνάφεια ανάκτησης.