¿Qué es la tokenización?
La tokenización es el proceso de conversión de texto (cadena de caracteres) en una secuencia de tokens — unidades que el modelo de IA procesa. Un token es típicamente un fragmento de palabra (3–4 caracteres en lenguas europeas).
¿Por qué importa la tokenización?
La tokenización impacta directamente en: el coste (las APIs cobran por token), los límites de contexto (las ventanas de contexto se miden en tokens) y la calidad (los modelos entrenados principalmente en inglés tokenizan otros idiomas de forma menos eficiente, requiriendo más tokens y degradando los resultados).
Optimización de costes
En la empresa, la optimización de la tokenización genera ahorros reales: prompts concisos en lugar de verbosos, caché de consultas repetitivas, elección de modelos con tokenizadores eficientes para tu idioma y enrutamiento de tareas simples a modelos más baratos con menor consumo de tokens.