Hvad er tokenisering?
Tokenisering er processen med at konvertere tekst (tegnstreng) til en sekvens af tokens — enheder som AI-modellen behandler. Et token er typisk et ordfragment (3-4 tegn i europæiske sprog).
Hvorfor er tokenisering vigtig?
Tokenisering påvirker direkte: omkostninger (API'er opkræver per token), kontekstbegrænsninger (kontekstvinduer måles i tokens) og kvalitet (modeller, der primært er trænet på engelsk, tokeniserer andre sprog mindre effektivt, hvilket kræver flere tokens og forringer resultaterne).
Omkostningsoptimering
I virksomheder giver tokeniseringsoptimering reelle besparelser: koncise prompts i stedet for udførlige, caching af repetitive forespørgsler, valg af modeller med effektive tokeniseringsalgoritmer for dit sprog og dirigering af simple opgaver til billigere modeller med lavere tokenforbrug.