Tagasi sõnastikku Tehnoloogia

Tehisintellekti tokeniseerimine

Teksti teisendamine tokeniteks (sõna-/tähefragmentideks), mida tehisintellekti mudel mõistab — mõjutab otseselt kulusid ja kvaliteeti.

Mis on tokeniseerimine?

Tokeniseerimine on teksti (tähemärgijada) teisendamine tokenite jadaks — üksusteks, mida tehisintellekti mudel töötleb. Token on tavaliselt sõnafragment (3–4 tähemärki Euroopa keeltes).

Miks on tokeniseerimine oluline?

Tokeniseerimine mõjutab otseselt: kulusid (API-d küsivad tasu tokeni kohta), konteksti piiranguid (kontekstiaknaid mõõdetakse tokenites) ja kvaliteeti (peamiselt inglise keelel treenitud mudelid tokeniseerivad teisi keeli vähem tõhusalt, nõudes rohkem tokeneid ja halvendades tulemusi).

Kulude optimeerimine

Ärikeskkonnas toob tokeniseerimise optimeerimine reaalset kokkuhoidu: lühidalt viibad pikkade asemel, korduvate päringute vahemällu salvestamine, teie keelele tõhusate tokeniseerijatega mudelite valimine ja lihtsate ülesannete suunamine odavamatele mudelitele väiksema tokenite tarbimisega.