Transformer

Cos'è il Transformer?

Il Transformer è un'architettura di rete neurale presentata nel 2017 nell'articolo fondamentale "Attention is All You Need" (Vaswani et al., Google). Ha rivoluzionato il campo dell'elaborazione del linguaggio naturale ed è oggi la base di praticamente tutti i moderni grandi modelli linguistici, da GPT a BERT fino a Claude.

Principi architetturali

Il Transformer sostituisce le connessioni ricorrenti con meccanismi di self-attention che consentono l'elaborazione parallela. I componenti centrali sono la multi-head self-attention (apprende diversi tipi di relazioni tra i token), le reti feed-forward, la codifica posizionale (fornisce al modello informazioni sulle posizioni dei token) e la normalizzazione degli strati. Le varianti encoder-decoder (per la traduzione) e le varianti solo-decoder (per la generazione di testo) si sono dimostrate efficaci per diverse attività.

Importanza storica

L'architettura Transformer è uno dei concetti tecnici più influenti degli ultimi decenni. Ha consentito lo scaling a miliardi di parametri, l'addestramento su dati a scala internet e l'emergere di capacità emergenti nei modelli di grandi dimensioni. Senza Transformer non ci sarebbe ChatGPT, non ci sarebbe Claude, non ci sarebbe l'era IA moderna.

Cos'è il Transformer?

Principi architetturali

Importanza storica

Termini correlati

Servizi e prodotti correlati