Cos'è il meccanismo di attenzione?
Il meccanismo di attenzione è il rivoluzionario componente architetturale introdotto nel 2017 nell'articolo "Attention is All You Need", che costituisce la base dei moderni modelli Transformer. Consente a un modello, nell'elaborare ogni elemento di una sequenza, di determinare dinamicamente quali altri elementi sono particolarmente rilevanti.
Self-Attention e Multi-Head Attention
La Self-Attention calcola per ogni token in una sequenza la sua relazione con tutti gli altri token. La Multi-Head Attention esegue questo processo in parallelo in più "teste", ognuna delle quali apprende diversi aspetti delle relazioni. Ciò consente al modello di catturare simultaneamente pattern sintattici, semantici e contestuali.
Importanza pratica
Il meccanismo di attenzione spiega perché i grandi modelli linguistici ottengono risultati eccellenti nell'elaborazione di testi lunghi. Consente ai modelli di catturare dipendenze su grandi distanze nel testo, il che è cruciale per comprendere argomenti complessi, codice e documenti strutturati.