Streaming di Token

Cos'è lo streaming di token?

Lo streaming di token è una tecnica di trasmissione in cui un LLM trasmette la sua risposta gradualmente — token per token o in piccoli batch — invece di attendere la generazione completa. Dal punto di vista dell'utente, il testo sembra essere digitato, il che migliora significativamente la reattività percepita.

Implementazione tecnica

Lo streaming viene tipicamente implementato tramite Server-Sent Events (SSE) o WebSocket. Sul lato server, l'LLM invia immediatamente ogni token generato. Sul lato client, i token vengono visualizzati progressivamente. API come OpenAI, Anthropic e Gemini supportano tutte la modalità streaming tramite parametri speciali (stream: true).

UX e prestazioni

Lo streaming riduce il Time-to-First-Token (TTFT) — il tempo fino al primo testo visibile — tipicamente a meno di 1 secondo, anche quando la risposta completa richiede 10+ secondi. Questo migliora significativamente l'esperienza utente. Lo streaming è particolarmente importante per chatbot interattivi, generazione di codice e risposte lunghe nelle applicazioni aziendali.

Cos'è lo streaming di token?

Implementazione tecnica

UX e prestazioni

Termini correlati