Vissza a szójegyzékhez Technológia

Figyelemmechanizmus (Attention Mechanism)

A Transformer alapmodellek mögötti fő innováció, amely lehetővé teszi a modell számára, hogy a bemenet releváns részeire összpontosítson, elforgatva a hagyományos szekvenciális feldolgozást.

A figyelemmechanizmus megértése

A figyelemmechanizmus a modern deep learning egyik alapvető összetevője, amely különösen a Transformer architektúrákban kiemelkedő. Alapelve: egy kimenet generálásakor a modell "figyelmet fordít" a bemenet különböző részeire, dinamikusan súlyozva azok fontosságát.

Self-Attention és Multi-Head Attention

A self-attention (önel-figyelem) lehetővé teszi a szekvencia minden elemének interakcióját az összes többi elemmel, hosszútávú függőségek megragadásához. A multi-head attention párhuzamos figyelemmechanizmusokat futtat, lehetővé téve a modell számára, hogy egyszerre különböző pozicionális és szemantikai kapcsolatokra összpontosítson. A cross-attention az encoder és decoder közötti figyelmet jelöli a szekvencia-to-szekvencia feladatokban.

Miért fontos ez a vállalati AI számára?

A figyelemmechanizmus magyarázza, miért olyan erős a Transformer-alapú modellek képessége a hosszú kontextusok feldolgozására és a dokumentumokon belüli távolabb lévő kapcsolatok megértésére. A figyelem vizualizáció mérsékelt magyarázhatóságot nyújthat: melyik bemeneti tokeneket "nézi" a modell, amikor egy adott kimenet generálja.