Conas a Oibríonn Cainníochtú
Stórálann samhlaí meácháin samhla de ghnáth mar uimhreacha snámhphointe 32-giotán (float32). Laghdaíonn cainníochtú na huimhreacha seo chuig léirithe 16-giotán (float16 nó bfloat16), 8-giotán (int8), nó fiú 4-giotán, ag cailleadh cruinneas ach ag gnóthú suntasach i méid agus luas.
Trádálacha
Mar fhoghlam ginearálta, tá cainníochtú int8 anois coitianta do LLManna mhóra agus mbeadh cailleadh cáilíochta maolaithe ann — níos lú ná 1% i bhformhór na cásanna. Cruthaíonn cainníochtú 4-giotán caillteanas níos suntasaí ach laghdaíonn sé méid samhla de 75% agus cuireann sé ar chumas ionsamhlú ar GPUnna níos lú.
Cleachtais Nua-aimseartha
Tá teicnící cainníochtúcháin, cosúil le GPTQ agus AWQ, tar éis dul chun cinn tríd an gcainníochtú a chuimsiú ina hoptamú samhla ar leithligh, ag cinntiú go bhfuil iarmhairt ar fheidhmíocht beag. Ceadaíonn córais cosúil le llama.cpp agus Ollama ionsamhlú samhla cannanaithe ar chrua-earraí tomhaltóra.