Co je tokenizace?
Tokenizace je proces převodu textu (řetězce znaků) na sekvenci tokenů — jednotek, které AI model zpracovává. Token je typicky fragment slova (3–4 znaky v evropských jazycích).
Proč na tokenizaci záleží?
Tokenizace přímo ovlivňuje: náklady (API účtují podle tokenů), limity kontextu (kontextová okna se měří v tokenech) a kvalitu (modely trénované primárně na angličtině tokenizují ostatní jazyky méně efektivně, vyžadují více tokenů a zhoršují výsledky).
Optimalizace nákladů
V podnicích optimalizace tokenizace přináší reálné úspory: stručné prompty místo rozvláčných, cachování opakujících se dotazů, volba modelů s efektivními tokenizéry pro váš jazyk a směrování jednoduchých úloh na levnější modely s nižší spotřebou tokenů.