Τι Είναι το Chunking;
Το chunking είναι η διαδικασία διαίρεσης μεγάλων εγγράφων σε μικρότερα, διαχειρίσιμα τμήματα — chunks — που μπορούν να ευρετηριαστούν σε μια διανυσματική βάση δεδομένων και να ανακτηθούν αποτελεσματικά από συστήματα ΤΝ. Στρατηγικές chunking κακής σχεδίασης είναι μια από τις πιο συνηθισμένες αιτίες κακής απόδοσης RAG.
Στρατηγικές Chunking
Το chunking σταθερού μεγέθους χωρίζει κείμενο σε ομοιόμορφα τμήματα με προαιρετική επικάλυψη. Το σημασιολογικό chunking εντοπίζει όρια παραγράφων και ενοτήτων. Το ιεραρχικό chunking διατηρεί πολλαπλές λεπτομέρειες συνδεδεμένες σε δέντρο.
Βελτιστοποίηση για Συστήματα RAG
Το βέλτιστο μέγεθος chunk εξισορροπεί ειδικότητα ανάκτησης με επάρκεια πλαισίου. Πλούσια μεταδεδομένα — πηγή, ημερομηνία, ενότητα, συγγραφέας — ενισχύουν τα chunks με πλαίσιο που βελτιώνει τη συνάφεια ανάκτησης.