Nazaj na slovar Tehnologija

Pretakanje odgovorov UI

Tehnika dostave odgovorov UI žeton za žetonom v realnem času — odpravlja čakanje, izboljšuje zaznano latenco in omogoča interaktivnost.

Kaj je pretakanje odgovorov?

LLM-ji generirajo besedilo avtoregresivno — žeton za žetonom. Brez pretakanja uporabnik čaka, dokler se ne generira celoten odgovor, kar potencialno traja 5–30 sekund. Pretakanje dostavi žetone takoj po generiranju.

Tehnične implementacije

Strežniško poslane ereignisse (SSE): preprosto, enosmerno pretakanje prek HTTP — najpogosteje uporabljeno za vmesnike klepeta LLM. WebSockets: dvosmerno pretakanje za interaktivne aplikacije. Vsi večji API-ji LLM podpirajo pretakanje SSE.

Premisleki za produkcijo

Pretakanje prinaša izzive: ravnanje z delnimi odgovori v UI, upravljanje prekinjenih povezav in pravilno razčlenjevanje JSON pri pretakanju.