Token-Streaming

Was ist Token-Streaming?

Token-Streaming ist eine Übertragungstechnik, bei der ein LLM seine Antwort schrittweise überträgt — Token für Token oder in kleinen Batches — anstatt auf die vollständige Generierung zu warten. Aus Nutzersicht erscheint der Text, als würde er getippt, was die wahrgenommene Reaktionsfähigkeit erheblich verbessert.

Technische Implementierung

Streaming wird typischerweise über Server-Sent Events (SSE) oder WebSockets implementiert. Auf der Serverseite sendet das LLM jeden generierten Token sofort. Auf der Clientseite werden die Tokens progressiv angezeigt. APIs wie OpenAI, Anthropic und Gemini unterstützen alle Streaming-Modus über spezielle Parameter (stream: true).

UX und Performance

Streaming reduziert die Time-to-First-Token (TTFT) — die Zeit bis zum ersten sichtbaren Text — auf typischerweise unter 1 Sekunde, auch wenn die Gesamtantwort 10+ Sekunden dauert. Dies verbessert die User Experience erheblich. Streaming ist besonders wichtig für interaktive Chatbots, Code-Generierung und lange Antworten in Unternehmensanwendungen.

Was ist Token-Streaming?

Technische Implementierung

UX und Performance

Verwandte Begriffe