Glosategiara itzuli Teknologia

AA Inferentzia

Entrenatutako AA eredu batek erantzunak sortzeko prozesua — ekoizpen-etapa non ereduak sarrerak prozesatzen dituen eta emaitzak itzultzen.

Zer da Inferentzia?

Inferentzia entrenatutako AA eredu batek sarrerako datuak prozesatzen eta emaitza bat sortzen duen (erantzuna, sailkapena, iragarpena) prozesua da. Hau ereduaren «erabilera» etapa da — sortzen duen entrenamendua ez bezala.

Inferentziaren kostuak eta errendimendua

Ekoizpenean, inferentzia AA-ren kostu nagusia da: kontsulta bakoitza = tokenak = API tarifa. Optimizazioak honako hauek biltzen ditu: kuantizazioa (ereduaren doitasuna murriztea, adib. fp16-tik int8-ra — 2x azkarragoa, 2x merkeagoa), batching (kontsultak taldekatzea), speculative decoding eta KV cache.

Inferentzia lokala vs hodeian

Inferentzia lokalak (enpresaren zerbitzarietan) API kostuak eta pribatutasun-kezkak ezabatzen ditu baina GPU hardwarea behar du. Hodei-inferentzia malgua da baina kostuak eta betetze-arriskuak sortzen ditu. Maila anitzeko bideratze-sistemak bi ikuspegiak konbinatzen ditu.

Lotutako zerbitzuak eta produktuak