Torna al glossario Tecnologia

Transformer

L'architettura rivoluzionaria di rete neurale che costituisce la base dei moderni modelli linguistici di IA.

Cos'è il Transformer?

Il Transformer è un'architettura di rete neurale presentata nel 2017 nell'articolo fondamentale "Attention is All You Need" (Vaswani et al., Google). Ha rivoluzionato il campo dell'elaborazione del linguaggio naturale ed è oggi la base di praticamente tutti i moderni grandi modelli linguistici, da GPT a BERT fino a Claude.

Principi architetturali

Il Transformer sostituisce le connessioni ricorrenti con meccanismi di self-attention che consentono l'elaborazione parallela. I componenti centrali sono la multi-head self-attention (apprende diversi tipi di relazioni tra i token), le reti feed-forward, la codifica posizionale (fornisce al modello informazioni sulle posizioni dei token) e la normalizzazione degli strati. Le varianti encoder-decoder (per la traduzione) e le varianti solo-decoder (per la generazione di testo) si sono dimostrate efficaci per diverse attività.

Importanza storica

L'architettura Transformer è uno dei concetti tecnici più influenti degli ultimi decenni. Ha consentito lo scaling a miliardi di parametri, l'addestramento su dati a scala internet e l'emergere di capacità emergenti nei modelli di grandi dimensioni. Senza Transformer non ci sarebbe ChatGPT, non ci sarebbe Claude, non ci sarebbe l'era IA moderna.