¿Qué es el streaming de tokens?
El streaming de tokens es una técnica de transmisión en la que un LLM transmite su respuesta de forma gradual — token por token o en pequeños lotes — en lugar de esperar a que se complete la generación completa. Desde la perspectiva del usuario, el texto parece estar siendo escrito, lo que mejora significativamente la capacidad de respuesta percibida.
Implementación técnica
El streaming se implementa típicamente mediante Eventos Enviados por el Servidor (SSE) o WebSockets. En el lado del servidor, el LLM envía cada token generado inmediatamente. En el lado del cliente, los tokens se muestran progresivamente. APIs como OpenAI, Anthropic y Gemini admiten modo de streaming mediante parámetros especiales (stream: true).
UX y rendimiento
El streaming reduce el tiempo hasta el primer token (TTFT) — el tiempo hasta el primer texto visible — típicamente a menos de 1 segundo, incluso cuando la respuesta completa tarda más de 10 segundos. Esto mejora significativamente la experiencia del usuario. El streaming es especialmente importante para chatbots interactivos, generación de código y respuestas largas en aplicaciones empresariales.