Späť na slovník Technológie

Streaming odpovedí LLM

Streaming odpovedí LLM je technika, pri ktorej model posiela generovany text postupne, token po tokene, namiesto cakaania na dokoncenie celej odpovede.

Co je streaming odpovedí?

Streaming v kontexte LLM aplikacii oznacuje postupne dorukovanie generovaneho textu pouzivatelovi v realteme, bez cakaania na kompletnu odpoved. Namiesto toho, aby pouzvatel cakal 10-30 sekund na dlhu odpoved, text sa objavuje postupne – podobne ako pri pisani na klavesnici.

Tato technika drasticky zlepsuje vnimanu rychlost (perceived latency) aplikacie, pretoze pouzvatel zacne vnímat odpoved ihned.

Technicka implementacia

Server-Sent Events (SSE) je dominantny transport protocol pre LLM streaming. Server odosiela tok udalosti cez dlhodobo otvorene HTTP spojenie, klient ich parsuje a postupne renderuje. Vsetky hlavne LLM API (OpenAI, Anthropic, Groq) podporuju streaming pomocou SSE.

Na frontende streaming typicky vyzaduje ReadableStream API alebo analogicke abstrakcie v React/Vue. Abort controller umoznuje pouzivatelovi prerusit generovanie.

Vyzvy streamingu

Streaming komplikuje niektoré funkcie: function calling vyzaduje cakat na kompletne JSON parsovanie pred volanim nastroja. Structured output je tazke validovat za chodu. Chybove stavy sa musia riesit uprostred streamu. Napriek tomu je streaming de-facto standard pre produkcne LLM UI pre dramaticky lepsí pouzivatelský zazitok.