Transformer

Qu'est-ce que le Transformer ?

Le Transformer est une architecture de réseau de neurones présentée en 2017 dans l'article fondateur "Attention is All You Need" (Vaswani et al., Google). Il a révolutionné le domaine du traitement du langage naturel et constitue aujourd'hui la base de pratiquement tous les grands modèles de langage modernes, de GPT à BERT en passant par Claude.

Principes architecturaux

Le Transformer remplace les connexions récurrentes par des mécanismes de self-attention permettant un traitement parallèle. Les composants centraux sont la multi-head self-attention (apprend différents types de relations entre les tokens), les réseaux feed-forward, l'encodage positionnel (fournit au modèle des informations sur les positions des tokens) et la normalisation des couches. Les variantes encodeur-décodeur (pour la traduction) et les variantes décodeur uniquement (pour la génération de texte) se sont avérées efficaces pour différentes tâches.

Importance historique

L'architecture Transformer est l'un des concepts techniques les plus influents des dernières décennies. Elle a permis la mise à l'échelle à des milliards de paramètres, l'entraînement sur des données à l'échelle d'internet et l'émergence de capacités émergentes dans les grands modèles. Sans Transformer, il n'y aurait pas de ChatGPT, pas de Claude, pas d'ère IA moderne.

Qu'est-ce que le Transformer ?

Principes architecturaux

Importance historique

Termes associés

Services et produits associés