Tagasi sõnastikku Tehnoloogia

Tükeldamine — teksti jagamine tehisintellekti rakenduste jaoks

Strateegia teksti jagamiseks väiksemateks segmentideks RAG-süsteemide ja teiste NLP-rakenduste tõhususe parandamiseks.

Miks tükeldamine on oluline?

Tükeldamine on protsess, millega tekstidokumendid või muu sisu jagatakse väiksemateks segmentideks tehisintellekti töötlemiseks. Vektoriandmebaaside manuste salvestamisel ja Retrieval-Augmented Generation (RAG) süsteemide ehitamisel mõjutab tükeldamisstrateegia põhimõtteliselt otsingu asjakohasust ja lõpliku vastuse kvaliteeti.

Tükeldamisstrateegiad

Fikseeritud suurusega tükeldamine jagab teksti fikseeritud tokenite või märkide arvu juures — lihtne, kuid võib lauseid katkestada. Kattuvad tükeldamised loovad kattuvaid segmente konteksti säilitamiseks. Semantiline tükeldamine rakendab NLP-d loomulikes katkestuspunktides jagamiseks. Dokumendi struktuuri põhine tükeldamine austab olemasolevat hierarhiat.

Optimeerimiskaalutlused

Optimaalne tükk suurus sõltub kasutusjuhtumist. Väiksed tükid toodavad täpsemat otsingut. Suuremad tükid sisaldavad rohkem konteksti, kuid vähem sihipärast otsingut. Hübriidlähenemised kombineerivad keskmise suurusega tükke peenema konteksti otsimisega.