Transformer architektura

Co je Transformer?

Transformer je architektura neuronovej siete prezentovana v slavnom clanku "Attention Is All You Need" (Vaswani et al., 2017). Nahradila predchadzajuce sekvencie architectury (RNN, LSTM) pre spracovanie jazykovych postupnosti a stala sa zakladom vsetkych modernych LLM – GPT, BERT, T5, LLaMA, Claude.

Klucovedvou innoavciou je mechanizmus pozornosti (attention), ktory umoznuje modelu priamo spracovat zavislosti medzi vsetkymi prvkami vstupu naraz, bez obmedzenia sekvenckym spracovaavnim.

Self-attention mechanizmus

Multi-head self-attention je srdcom Transformera. Pre kazdy token v sekvencii pocita model dotazove (Query), klucove (Key) a hodnotové (Value) vektory. Skóre pozornosti medzi tokenmi sa pocitaju ako skalarne suciny, ktore urcuju, ako moc kazdy token "věnuje pozornost" ostatnym tokenом v sekvencii.

Viacero "hlav pozornosti" (multi-head) umoznuje modelu sucasne sledovat rozne typy zavislosti – syntakticke, semanticke aj dlhodobeho dosahu.

Vplyv a dedici

Transformer transformoval AI priemysel daleko za hranice NLP – Vision Transformers (ViT) dominuju computer vision, Audio Transformers spracuvaju rec a hudbu, Protein Language Models ako AlphaFold2 riesí skladanie proteinov. Skalitelnost je klucova vyhoda: Transformer skalouje takmer linearme s vypoctovymi zdrojmi, co umoznilo trenovanie modelov s biliardami parametrov.

Co je Transformer?

Self-attention mechanizmus

Vplyv a dedici

Súvisiace pojmy

Súvisiace služby a produkty