Революцията на Transformer
Transformer архитектурата е представена през 2017 г. в статията Attention Is All You Need. Тя радикално промени NLP: за разлика от RNN, обработващи последователности последователно, Transformers обработват всички токени паралелно, осигурявайки значително по-добро мащабиране и улавяне на дълги зависимости.
Основни компоненти
Transformer архитектурата съдържа два основни блока: енкодерен блок (представляващ вход) и декодерен блок (генериращ изход). Съвременните LLM, подобни на GPT, използват само декодер, докато BERT-подобните модели използват само енкодер. Позиционното кодиране е критично - предоставя информация за поредността на последователността.
Отвъд езика
Въпреки първоначалното проектиране за NLP, Transformers са приложени към изображения (Vision Transformers), времеви редове, протеини (AlphaFold) и множество модалности. Те са основата сега на повечето водещи AI системи.