Mecanismo de Atenção

O que é o Mecanismo de Atenção?

O mecanismo de atenção é uma inovação fundamental em deep learning que permite que os modelos neurais se concentrem seletivamente em diferentes partes dos dados de entrada ao gerar outputs. Em vez de tratar todos os tokens de input uniformemente, a atenção aprende a atribuir pesos que refletem a relevância de cada elemento de input para a produção de cada elemento de output. A atenção é o coração da arquitetura Transformer, que alimenta praticamente todos os grandes modelos de linguagem modernos.

Como Funciona a Auto-Atenção

A auto-atenção, o tipo usado nos Transformers, permite que cada token num input preste atenção a todos os outros tokens ao calcular a sua representação. Para cada token, o mecanismo calcula três vetores — query, key e value — e usa a semelhança entre queries e keys para ponderar a contribuição de cada token de value para a representação do output. A atenção multi-head executa múltiplos cálculos de atenção em paralelo, capturando diferentes tipos de relações.

Porque é Importante para as Empresas

Compreender a atenção ajuda a explicar as capacidades e limitações dos LLMs. O tamanho da janela de contexto — quantos tokens um modelo pode processar de uma vez — é diretamente limitado pelas operações de atenção (que escalam quadraticamente com o comprimento da sequência nas implementações ingénuas). Os recentes avanços em atenção eficiente (flash attention, atenção de janela deslizante) permitem janelas de contexto muito maiores ao custos computacionais razoáveis, permitindo que os LLMs processem documentos mais longos.

O que é o Mecanismo de Atenção?

Como Funciona a Auto-Atenção

Porque é Importante para as Empresas

Termos relacionados