Mi a tokenizáció?
A tokenizáció szöveg (karakterlánc) tokenek sorozatává való átalakítási folyamata — olyan egységekké, amelyeket az AI-modell feldolgoz. Egy token jellemzően egy szótöredék (3–4 karakter az európai nyelvekben).
Miért számít a tokenizáció?
A tokenizáció közvetlenül befolyásolja: a költségeket (az API-k tokenek alapján számláznak), a kontextuskorlátokat (a kontextusablakokat tokenekben mérik) és a minőséget (az elsősorban angolra betanított modellek más nyelveket kevésbé hatékonyan tokenizálnak, több tokent igényelnek és rosszabb eredményeket produkálnak).
Költségoptimalizálás
Vállalati környezetben a tokenizáció optimalizálása valós megtakarításokat hoz: tömör promptok a szóáradatok helyett, ismétlődő lekérdezések gyorsítótárazása, az adott nyelvhez hatékony tokenizálókkal rendelkező modellek választása, és egyszerű feladatok irányítása alacsonyabb tokenfogyasztású, olcsóbb modellekhez.