Voltar ao glossário Tecnologia

Inferência IA

O processo de geração de respostas por um modelo de IA treinado — a fase de produção em que o modelo processa entradas e devolve resultados.

O que é a inferência?

A inferência é o processo em que um modelo de IA treinado processa dados de entrada e gera um resultado (resposta, classificação, previsão). É a fase de «utilização» do modelo — por oposição ao treino, que o cria.

Custos e desempenho da inferência

Em produção, a inferência é o custo de IA dominante: cada consulta = tokens = taxa API. As otimizações incluem: quantização (redução da precisão do modelo, por ex. fp16 para int8 — 2x mais rápido, 2x mais barato), batching (agrupamento de consultas), speculative decodingKV cache.

Inferência local vs cloud

A inferência local (em servidores empresariais) elimina custos de API e preocupações de privacidade, mas requer hardware GPU. A inferência na cloud é flexível mas gera custos e riscos de conformidade. O encaminhamento multinível combina ambas as abordagens.

Serviços e produtos relacionados