Qu'est-ce que l'inférence ?
L'inférence est le processus par lequel un modèle IA entraîné traite des données d'entrée et génère un résultat (réponse, classification, prédiction). C'est la phase d'« utilisation » du modèle — par opposition à l'entraînement qui le crée.
Coûts et performances de l'inférence
En production, l'inférence est le coût IA dominant : chaque requête = tokens = frais API. Les optimisations incluent : la quantification (réduction de la précision du modèle, par ex. fp16 vers int8 — 2x plus rapide, 2x moins cher), le batching (regroupement des requêtes), le speculative decoding et le KV cache.
Inférence locale vs cloud
L'inférence locale (sur les serveurs de l'entreprise) élimine les coûts API et les préoccupations de confidentialité mais nécessite du matériel GPU. L'inférence cloud est flexible mais génère des coûts et des risques de conformité. Le routage multi-niveaux combine les deux approches.