Ar ais go dtí an ghluais Teicneolaíocht

Briseadh Doiciméad ina Smiotáin (Chunking)

Is an próiseas é chunking ina ndéantar doiciméid mhóra a roinnt ina smiotáin níos lú le haghaidh ionsamhlú agus aisghabháil éifeachtach i gcórais RAG — ag cothromú comhthéacs agus éifeachtúlacht.

Cén Fáth a bhfuil Chunking Tábhachtach

Éilíonn córais RAG (Retrieval-Augmented Generation) doiciméid a aisghabháil ina smiotáin inbhainistithe a oireann laistigh de theorainneacha comhthéacs samhla. Déanann chunking iomarcach — smiotáin an-bheag — ciall ábhartha a chaillteanas. Déanann chunking neamhleor smiotáin chomh mór sin go gcuireann sé isteach ar aisghabháil nó a théann thar fad comhthéacs.

Straitéisí Chunking

Cuimsíonn straitéisí chomhchoiteanna chunking méid sheasta (smiotáin de 512 nó 1024 comhartha le forluí), chunking atá feasach ar struchtúr (ag briseadh ar theorainneacha fhísiúla cosúil le hait nó cinn), agus chunking séimeantach (smiotáin a tháirgeadh bunaithe ar chomhléireacht séimeantach).

Cúinsí Deartha

Déan turgnamh le méideanna chunk agus straitéisí ar do chuid sonraí sainiúla. Cuimhnigh go n-athraíonn méid chunk is fearr le cineál doiciméid — doiciméid dlí vs nuacht vs treoir teicniúil éilíonn cur chuige éagsúil.