Inferència d'IA

Què és la Inferència?

La inferència és el procés on un model d'IA entrenat processa dades d'entrada i genera un resultat (resposta, classificació, predicció). Aquesta és l'etapa d'«ús» del model — en contrast amb l'entrenament, que el crea.

Costos i rendiment de la inferència

En producció, la inferència és el cost dominant de la IA: cada consulta = tokens = tarifa d'API. L'optimització inclou: quantització (reducció de la precisió del model, p. ex. fp16 a int8 — 2x més ràpid, 2x més econòmic), agrupament (agrupar consultes), speculative decoding i KV cache.

Inferència local vs al núvol

La inferència local (en servidors de l'empresa) elimina els costos d'API i les preocupacions de privacitat però requereix maquinari GPU. La inferència al núvol és flexible però genera costos i riscos de conformitat. L'encaminament multinivell combina ambdós enfocaments.

Què és la Inferència?

Costos i rendiment de la inferència

Inferència local vs al núvol

Termes relacionats

Serveis i productes relacionats