Механизъм на вниманието (Attention Mechanism)

Механизмът на вниманието е ключов компонент в Transformer моделите, позволяващ на модела да обръща внимание на релевантни части от входната последователност при генериране на всеки токен в изхода.

Как работи вниманието

Механизмът на вниманието обработва всеки входен токен с теглата за внимание на всеки друг - оценявайки колко релевантен е всеки входен токен за генерирането на текущия изходен токен. Многоглавото внимание позволява на модела едновременно да улавя дума в различни информационни контексти.

Защо е революционно

Преди вниманието, NLP системите разчитаха на RNN, обработващи токени последователно. Те трудно улавяха дълги зависимости и блокираха паралелна обработка. Вниманието решава и двата проблема, правейки съвременните LLM почти изцяло базирани на внимание.

Скалиране за дълъг контекст

Насочването на всеки токен в последователност към всеки друг се мащабира квадратично с дължината на последователността - скъпо за дълги документи. Активно се провежда изследване за ефективност на вниманието с методи като плъзгащо се внимание, ограничено внимание и GQA (Grouped Query Attention).

Механизъм на вниманието (Attention Mechanism)

Как работи вниманието

Защо е революционно

Скалиране за дълъг контекст

Свързани термини