Streaming odpovedí LLM

Co je streaming odpovedí?

Streaming v kontexte LLM aplikacii oznacuje postupne dorukovanie generovaneho textu pouzivatelovi v realteme, bez cakaania na kompletnu odpoved. Namiesto toho, aby pouzvatel cakal 10-30 sekund na dlhu odpoved, text sa objavuje postupne – podobne ako pri pisani na klavesnici.

Tato technika drasticky zlepsuje vnimanu rychlost (perceived latency) aplikacie, pretoze pouzvatel zacne vnímat odpoved ihned.

Technicka implementacia

Server-Sent Events (SSE) je dominantny transport protocol pre LLM streaming. Server odosiela tok udalosti cez dlhodobo otvorene HTTP spojenie, klient ich parsuje a postupne renderuje. Vsetky hlavne LLM API (OpenAI, Anthropic, Groq) podporuju streaming pomocou SSE.

Na frontende streaming typicky vyzaduje ReadableStream API alebo analogicke abstrakcie v React/Vue. Abort controller umoznuje pouzivatelovi prerusit generovanie.

Vyzvy streamingu

Streaming komplikuje niektoré funkcie: function calling vyzaduje cakat na kompletne JSON parsovanie pred volanim nastroja. Structured output je tazke validovat za chodu. Chybove stavy sa musia riesit uprostred streamu. Napriek tomu je streaming de-facto standard pre produkcne LLM UI pre dramaticky lepsí pouzivatelský zazitok.

Co je streaming odpovedí?

Technicka implementacia

Vyzvy streamingu

Súvisiace pojmy