Miks tükeldamine on oluline?
Tükeldamine on protsess, millega tekstidokumendid või muu sisu jagatakse väiksemateks segmentideks tehisintellekti töötlemiseks. Vektoriandmebaaside manuste salvestamisel ja Retrieval-Augmented Generation (RAG) süsteemide ehitamisel mõjutab tükeldamisstrateegia põhimõtteliselt otsingu asjakohasust ja lõpliku vastuse kvaliteeti.
Tükeldamisstrateegiad
Fikseeritud suurusega tükeldamine jagab teksti fikseeritud tokenite või märkide arvu juures — lihtne, kuid võib lauseid katkestada. Kattuvad tükeldamised loovad kattuvaid segmente konteksti säilitamiseks. Semantiline tükeldamine rakendab NLP-d loomulikes katkestuspunktides jagamiseks. Dokumendi struktuuri põhine tükeldamine austab olemasolevat hierarhiat.
Optimeerimiskaalutlused
Optimaalne tükk suurus sõltub kasutusjuhtumist. Väiksed tükid toodavad täpsemat otsingut. Suuremad tükid sisaldavad rohkem konteksti, kuid vähem sihipärast otsingut. Hübriidlähenemised kombineerivad keskmise suurusega tükke peenema konteksti otsimisega.