O que é a inferência?
A inferência é o processo em que um modelo de IA treinado processa dados de entrada e gera um resultado (resposta, classificação, previsão). É a fase de «utilização» do modelo — por oposição ao treino, que o cria.
Custos e desempenho da inferência
Em produção, a inferência é o custo de IA dominante: cada consulta = tokens = taxa API. As otimizações incluem: quantização (redução da precisão do modelo, por ex. fp16 para int8 — 2x mais rápido, 2x mais barato), batching (agrupamento de consultas), speculative decoding e KV cache.
Inferência local vs cloud
A inferência local (em servidores empresariais) elimina custos de API e preocupações de privacidade, mas requer hardware GPU. A inferência na cloud é flexível mas gera custos e riscos de conformidade. O encaminhamento multinível combina ambas as abordagens.