Što je streaming odgovora?
LLM-ovi generiraju tekst autoregresivno — token po token. Bez streaminga, korisnik čeka dok se cijeli odgovor ne generira, potencijalno 5-30 sekundi za duge odgovore. Streaming isporučuje tokene čim su generirani, omogućujući korisniku da počne čitati gotovo odmah — dramatično poboljšavajući percipiranu responsivnost.
Tehničke implementacije
Server-Sent Events (SSE): jednostavan, jednosmjerni streaming over HTTP — najčešće korišten za LLM chat sučelja. WebSockets: dvodosmjerni streaming za interaktivne primjene. gRPC streaming: za server-to-server komunikaciju s niskim latencijom. Svi veći LLM API-ji podržavaju SSE streaming (OpenAI, Anthropic, Google).
Razmatranja za produkciju
Streaming uvodi izazove: rukovanjem s parcijalnim odgovorima u UI-ju, upravljanje prekinutim vezama i repriza, ispravnim parsiranjem streaming JSON-a i integracija sa zaštitnim ogradama koje trebaju kompletne odgovore za validaciju. Biblioteke poput LangChain i LlamaIndex apstrahiraju streaming za čiste API-je.