Streaming de Tokens

Qu'est-ce que le streaming de tokens ?

Le streaming de tokens est une technique de transmission dans laquelle un LLM transmet sa réponse progressivement — token par token ou par petits lots — plutôt que d'attendre la génération complète. Du point de vue de l'utilisateur, le texte semble être tapé, ce qui améliore considérablement la réactivité perçue.

Implémentation technique

Le streaming est typiquement implémenté via des Server-Sent Events (SSE) ou WebSockets. Côté serveur, le LLM envoie immédiatement chaque token généré. Côté client, les tokens sont affichés progressivement. Des API comme OpenAI, Anthropic et Gemini prennent toutes en charge le mode streaming via des paramètres spéciaux (stream : true).

UX et performance

Le streaming réduit le Time-to-First-Token (TTFT) — le temps jusqu'au premier texte visible — typiquement à moins d'une seconde, même si la réponse complète prend 10 secondes ou plus. Cela améliore considérablement l'expérience utilisateur. Le streaming est particulièrement important pour les chatbots interactifs, la génération de code et les réponses longues dans les applications d'entreprise.

Qu'est-ce que le streaming de tokens ?

Implémentation technique

UX et performance

Termes associés