Volver al glosario Tecnología

Mecanismo de Atención

El componente central de los modelos Transformer que les permite ponderar dinámicamente las partes relevantes de la entrada.

¿Qué es el mecanismo de atención?

El mecanismo de atención es el componente arquitectónico revolucionario introducido en 2017 en el artículo "Attention is All You Need", que forma la base de los modernos modelos Transformer. Permite a un modelo, al procesar cada elemento de una secuencia, determinar dinámicamente qué otros elementos son particularmente relevantes.

Self-Attention y Multi-Head Attention

Self-Attention calcula para cada token en una secuencia su relación con todos los demás tokens. Multi-Head Attention lleva a cabo este proceso en paralelo en múltiples "cabezas", cada una de las cuales aprende diferentes aspectos de las relaciones. Esto permite al modelo capturar simultáneamente patrones sintácticos, semánticos y contextuales.

Importancia práctica

El mecanismo de atención explica por qué los grandes modelos de lenguaje logran resultados excelentes al procesar textos largos. Permite a los modelos capturar dependencias a grandes distancias en el texto, lo cual es crucial para comprender argumentos complejos, código y documentos estructurados.