Zer da Inferentzia?
Inferentzia entrenatutako AA eredu batek sarrerako datuak prozesatzen eta emaitza bat sortzen duen (erantzuna, sailkapena, iragarpena) prozesua da. Hau ereduaren «erabilera» etapa da — sortzen duen entrenamendua ez bezala.
Inferentziaren kostuak eta errendimendua
Ekoizpenean, inferentzia AA-ren kostu nagusia da: kontsulta bakoitza = tokenak = API tarifa. Optimizazioak honako hauek biltzen ditu: kuantizazioa (ereduaren doitasuna murriztea, adib. fp16-tik int8-ra — 2x azkarragoa, 2x merkeagoa), batching (kontsultak taldekatzea), speculative decoding eta KV cache.
Inferentzia lokala vs hodeian
Inferentzia lokalak (enpresaren zerbitzarietan) API kostuak eta pribatutasun-kezkak ezabatzen ditu baina GPU hardwarea behar du. Hodei-inferentzia malgua da baina kostuak eta betetze-arriskuak sortzen ditu. Maila anitzeko bideratze-sistemak bi ikuspegiak konbinatzen ditu.