Cos'è il Transformer?
Il Transformer è un'architettura di rete neurale presentata nel 2017 nell'articolo fondamentale "Attention is All You Need" (Vaswani et al., Google). Ha rivoluzionato il campo dell'elaborazione del linguaggio naturale ed è oggi la base di praticamente tutti i moderni grandi modelli linguistici, da GPT a BERT fino a Claude.
Principi architetturali
Il Transformer sostituisce le connessioni ricorrenti con meccanismi di self-attention che consentono l'elaborazione parallela. I componenti centrali sono la multi-head self-attention (apprende diversi tipi di relazioni tra i token), le reti feed-forward, la codifica posizionale (fornisce al modello informazioni sulle posizioni dei token) e la normalizzazione degli strati. Le varianti encoder-decoder (per la traduzione) e le varianti solo-decoder (per la generazione di testo) si sono dimostrate efficaci per diverse attività.
Importanza storica
L'architettura Transformer è uno dei concetti tecnici più influenti degli ultimi decenni. Ha consentito lo scaling a miliardi di parametri, l'addestramento su dati a scala internet e l'emergere di capacità emergenti nei modelli di grandi dimensioni. Senza Transformer non ci sarebbe ChatGPT, non ci sarebbe Claude, non ci sarebbe l'era IA moderna.