Què és la Inferència?
La inferència és el procés on un model d'IA entrenat processa dades d'entrada i genera un resultat (resposta, classificació, predicció). Aquesta és l'etapa d'«ús» del model — en contrast amb l'entrenament, que el crea.
Costos i rendiment de la inferència
En producció, la inferència és el cost dominant de la IA: cada consulta = tokens = tarifa d'API. L'optimització inclou: quantització (reducció de la precisió del model, p. ex. fp16 a int8 — 2x més ràpid, 2x més econòmic), agrupament (agrupar consultes), speculative decoding i KV cache.
Inferència local vs al núvol
La inferència local (en servidors de l'empresa) elimina els costos d'API i les preocupacions de privacitat però requereix maquinari GPU. La inferència al núvol és flexible però genera costos i riscos de conformitat. L'encaminament multinivell combina ambdós enfocaments.