Как работи вниманието
Механизмът на вниманието обработва всеки входен токен с теглата за внимание на всеки друг - оценявайки колко релевантен е всеки входен токен за генерирането на текущия изходен токен. Многоглавото внимание позволява на модела едновременно да улавя дума в различни информационни контексти.
Защо е революционно
Преди вниманието, NLP системите разчитаха на RNN, обработващи токени последователно. Те трудно улавяха дълги зависимости и блокираха паралелна обработка. Вниманието решава и двата проблема, правейки съвременните LLM почти изцяло базирани на внимание.
Скалиране за дълъг контекст
Насочването на всеки токен в последователност към всеки друг се мащабира квадратично с дължината на последователността - скъпо за дълги документи. Активно се провежда изследване за ефективност на вниманието с методи като плъзгащо се внимание, ограничено внимание и GQA (Grouped Query Attention).