Co je streaming odpovedí?
Streaming v kontexte LLM aplikacii oznacuje postupne dorukovanie generovaneho textu pouzivatelovi v realteme, bez cakaania na kompletnu odpoved. Namiesto toho, aby pouzvatel cakal 10-30 sekund na dlhu odpoved, text sa objavuje postupne – podobne ako pri pisani na klavesnici.
Tato technika drasticky zlepsuje vnimanu rychlost (perceived latency) aplikacie, pretoze pouzvatel zacne vnímat odpoved ihned.
Technicka implementacia
Server-Sent Events (SSE) je dominantny transport protocol pre LLM streaming. Server odosiela tok udalosti cez dlhodobo otvorene HTTP spojenie, klient ich parsuje a postupne renderuje. Vsetky hlavne LLM API (OpenAI, Anthropic, Groq) podporuju streaming pomocou SSE.
Na frontende streaming typicky vyzaduje ReadableStream API alebo analogicke abstrakcie v React/Vue. Abort controller umoznuje pouzivatelovi prerusit generovanie.
Vyzvy streamingu
Streaming komplikuje niektoré funkcie: function calling vyzaduje cakat na kompletne JSON parsovanie pred volanim nastroja. Structured output je tazke validovat za chodu. Chybove stavy sa musia riesit uprostred streamu. Napriek tomu je streaming de-facto standard pre produkcne LLM UI pre dramaticky lepsí pouzivatelský zazitok.