Povratak na rječnik Tehnologija

AI inferencija

Proces generiranja odgovora treniranog AI modela — produkcijska faza u kojoj model obrađuje ulaze i vraća rezultate.

Što je inferencija?

Inferencija je proces u kojem trenirani AI model obrađuje ulazne podatke i generira rezultat (odgovor, klasifikaciju, predikciju). To je faza "korištenja" modela — za razliku od treniranja, koje ga stvara.

Troškovi i performanse inferencije

U produkciji, inferencija je dominantni trošak AI-ja: svaki upit = tokeni = naknada za API. Optimizacija uključuje: kvantizaciju (smanjenje preciznosti modela, npr. fp16 na int8 — 2x brže, 2x jeftinije), grupiranje (grupiranje upita), spekulativno dekodiranje i KV cache.

Lokalna vs cloud inferencija

Lokalna inferencija (na poslužiteljima tvrtke) eliminira troškove API-ja i brige o privatnosti, ali zahtijeva GPU hardver. Cloud inferencija je fleksibilna, ali generira troškove i rizike usklađenosti. Višerazinsko usmjeravanje kombinira oba pristupa.

Povezane usluge i proizvodi