Ce este inferența?
Inferența este procesul în care un model AI antrenat procesează datele de intrare și generează un rezultat (răspuns, clasificare, predicție). Aceasta este etapa de „utilizare" a modelului — spre deosebire de antrenament, care îl creează.
Costurile și performanța inferenței
În producție, inferența este costul dominant al AI: fiecare interogare = tokeni = taxă API. Optimizarea include: cuantizare (reducerea preciziei modelului, de ex. din fp16 în int8 — de 2 ori mai rapid, de 2 ori mai ieftin), batching (gruparea interogărilor), decodare speculativă și KV cache.
Inferență locală vs cloud
Inferența locală (pe serverele companiei) elimină costurile API și preocupările legate de confidențialitate, dar necesită hardware GPU. Inferența cloud este flexibilă, dar generează costuri și riscuri de conformitate. Rutarea multi-nivel combină ambele abordări.