Torna al glossario Tecnologia

Meccanismo di Attenzione

Il componente centrale dei modelli Transformer che consente loro di pesare dinamicamente le parti rilevanti dell'input.

Cos'è il meccanismo di attenzione?

Il meccanismo di attenzione è il rivoluzionario componente architetturale introdotto nel 2017 nell'articolo "Attention is All You Need", che costituisce la base dei moderni modelli Transformer. Consente a un modello, nell'elaborare ogni elemento di una sequenza, di determinare dinamicamente quali altri elementi sono particolarmente rilevanti.

Self-Attention e Multi-Head Attention

La Self-Attention calcola per ogni token in una sequenza la sua relazione con tutti gli altri token. La Multi-Head Attention esegue questo processo in parallelo in più "teste", ognuna delle quali apprende diversi aspetti delle relazioni. Ciò consente al modello di catturare simultaneamente pattern sintattici, semantici e contestuali.

Importanza pratica

Il meccanismo di attenzione spiega perché i grandi modelli linguistici ottengono risultati eccellenti nell'elaborazione di testi lunghi. Consente ai modelli di catturare dipendenze su grandi distanze nel testo, il che è cruciale per comprendere argomenti complessi, codice e documenti strutturati.