Transformer

¿Qué es el Transformer?

El Transformer es una arquitectura de red neuronal presentada en 2017 en el influyente artículo "Attention is All You Need" (Vaswani et al., Google). Revolucionó el campo del procesamiento del lenguaje natural y es hoy la base de prácticamente todos los grandes modelos de lenguaje modernos, desde GPT hasta BERT y Claude.

Principios arquitectónicos

El Transformer reemplaza las conexiones recurrentes con mecanismos de auto-atención que permiten el procesamiento paralelo. Los componentes centrales son la multi-head self-attention (aprende diferentes tipos de relaciones entre tokens), las redes feed-forward, la codificación posicional (da al modelo información sobre las posiciones de los tokens) y la normalización de capas. Las variantes encoder-decoder (para traducción) y las variantes solo-decoder (para generación de texto) han demostrado ser eficaces para diferentes tareas.

Importancia histórica

La arquitectura Transformer es uno de los conceptos técnicos más influyentes de las últimas décadas. Permitió el escalado a miles de millones de parámetros, el entrenamiento con datos a escala de internet y la aparición de capacidades emergentes en modelos grandes. Sin Transformer no habría ChatGPT, no habría Claude, no habría era moderna de la IA.

¿Qué es el Transformer?

Principios arquitectónicos

Importancia histórica

Términos relacionados

Servicios y productos relacionados