Обратно към речника Технологии

Transformer архитектура

Transformer е невронна мрежова архитектура, базирана на механизми на внимание, революционизирала NLP и сега обхващаща основата на повечето съвременни AI архитектури.

Революцията на Transformer

Transformer архитектурата е представена през 2017 г. в статията Attention Is All You Need. Тя радикално промени NLP: за разлика от RNN, обработващи последователности последователно, Transformers обработват всички токени паралелно, осигурявайки значително по-добро мащабиране и улавяне на дълги зависимости.

Основни компоненти

Transformer архитектурата съдържа два основни блока: енкодерен блок (представляващ вход) и декодерен блок (генериращ изход). Съвременните LLM, подобни на GPT, използват само декодер, докато BERT-подобните модели използват само енкодер. Позиционното кодиране е критично - предоставя информация за поредността на последователността.

Отвъд езика

Въпреки първоначалното проектиране за NLP, Transformers са приложени към изображения (Vision Transformers), времеви редове, протеини (AlphaFold) и множество модалности. Те са основата сега на повечето водещи AI системи.