Zurück zum Glossar Technologie

Aufmerksamkeitsmechanismus

Die Kernkomponente von Transformer-Modellen, die es ihnen ermöglicht, relevante Teile der Eingabe dynamisch zu gewichten.

Was ist der Aufmerksamkeitsmechanismus?

Der Aufmerksamkeitsmechanismus (Attention Mechanism) ist die revolutionäre Architekturkomponente, die 2017 im Paper "Attention is All You Need" eingeführt wurde und die Grundlage moderner Transformer-Modelle bildet. Er ermöglicht es einem Modell, beim Verarbeiten jedes Elements einer Sequenz dynamisch zu bestimmen, welche anderen Elemente besonders relevant sind.

Self-Attention und Multi-Head Attention

Self-Attention berechnet für jedes Token in einer Sequenz seine Beziehung zu allen anderen Tokens. Multi-Head Attention führt diesen Prozess parallel in mehreren "Köpfen" durch, von denen jeder unterschiedliche Aspekte der Beziehungen lernt. Dies ermöglicht es dem Modell, gleichzeitig syntaktische, semantische und kontextuelle Muster zu erfassen.

Praktische Bedeutung

Der Aufmerksamkeitsmechanismus erklärt, warum große Sprachmodelle bei der Verarbeitung langer Texte hervorragende Ergebnisse erzielen. Er ermöglicht es Modellen, Abhängigkeiten über große Distanzen im Text zu erfassen, was für das Verständnis komplexer Argumente, Code und strukturierter Dokumente entscheidend ist.