Cos'è l'inferenza?
L'inferenza è il processo in cui un modello IA addestrato elabora i dati di input e genera un risultato (risposta, classificazione, previsione). È la fase di «utilizzo» del modello — al contrario dell'addestramento, che lo crea.
Costi e prestazioni dell'inferenza
In produzione, l'inferenza è il costo IA dominante: ogni query = token = tariffa API. Le ottimizzazioni includono: quantizzazione (riduzione della precisione del modello, ad es. da fp16 a int8 — 2x più veloce, 2x più economico), batching (raggruppamento di query), speculative decoding e KV cache.
Inferenza locale vs cloud
L'inferenza locale (sui server aziendali) elimina costi API e problemi di privacy ma richiede hardware GPU. L'inferenza cloud è flessibile ma genera costi e rischi di conformità. Il routing multi-livello combina entrambi gli approcci.