Înapoi la glosar Tehnologie

Inferența AI

Procesul de generare a răspunsurilor de către un model AI antrenat — etapa de producție în care modelul procesează intrările și returnează rezultate.

Ce este inferența?

Inferența este procesul în care un model AI antrenat procesează datele de intrare și generează un rezultat (răspuns, clasificare, predicție). Aceasta este etapa de „utilizare" a modelului — spre deosebire de antrenament, care îl creează.

Costurile și performanța inferenței

În producție, inferența este costul dominant al AI: fiecare interogare = tokeni = taxă API. Optimizarea include: cuantizare (reducerea preciziei modelului, de ex. din fp16 în int8 — de 2 ori mai rapid, de 2 ori mai ieftin), batching (gruparea interogărilor), decodare speculativă și KV cache.

Inferență locală vs cloud

Inferența locală (pe serverele companiei) elimină costurile API și preocupările legate de confidențialitate, dar necesită hardware GPU. Inferența cloud este flexibilă, dar generează costuri și riscuri de conformitate. Rutarea multi-nivel combină ambele abordări.