Voltar ao glossário Tecnologia

Tokenização IA

Processo de conversão de texto em tokens (fragmentos de palavras/caracteres) que o modelo de IA compreende — impacta diretamente custos e qualidade.

O que é a tokenização?

A tokenização é o processo de conversão de texto (cadeia de caracteres) numa sequência de tokens — unidades que o modelo de IA processa. Um token é tipicamente um fragmento de palavra (3–4 caracteres em línguas europeias).

Porque é que a tokenização importa?

A tokenização impacta diretamente: o custo (as APIs cobram por token), os limites de contexto (as janelas de contexto são medidas em tokens) e a qualidade (modelos treinados principalmente em inglês tokenizam outras línguas de forma menos eficiente, exigindo mais tokens e degradando os resultados).

Otimização de custos

Na empresa, a otimização da tokenização gera poupanças reais: prompts concisos em vez de verbosos, cache de consultas repetitivas, escolha de modelos com tokenizadores eficientes para a sua língua e encaminhamento de tarefas simples para modelos mais baratos com menor consumo de tokens.

Serviços e produtos relacionados