Mécanisme d'Attention

Qu'est-ce que le mécanisme d'attention ?

Le mécanisme d'attention est le composant architectural révolutionnaire introduit en 2017 dans l'article "Attention is All You Need", qui constitue la base des modèles Transformer modernes. Il permet à un modèle, lors du traitement de chaque élément d'une séquence, de déterminer dynamiquement quels autres éléments sont particulièrement pertinents.

Self-Attention et Multi-Head Attention

La Self-Attention calcule pour chaque token d'une séquence sa relation avec tous les autres tokens. La Multi-Head Attention effectue ce processus en parallèle dans plusieurs "têtes", chacune apprenant différents aspects des relations. Cela permet au modèle de capturer simultanément des motifs syntaxiques, sémantiques et contextuels.

Importance pratique

Le mécanisme d'attention explique pourquoi les grands modèles de langage obtiennent d'excellents résultats lors du traitement de textes longs. Il permet aux modèles de capturer des dépendances sur de grandes distances dans le texte, ce qui est crucial pour comprendre des arguments complexes, du code et des documents structurés.

Qu'est-ce que le mécanisme d'attention ?

Self-Attention et Multi-Head Attention

Importance pratique

Termes associés