Co je Transformer?
Transformer je architektura neuronovej siete prezentovana v slavnom clanku "Attention Is All You Need" (Vaswani et al., 2017). Nahradila predchadzajuce sekvencie architectury (RNN, LSTM) pre spracovanie jazykovych postupnosti a stala sa zakladom vsetkych modernych LLM – GPT, BERT, T5, LLaMA, Claude.
Klucovedvou innoavciou je mechanizmus pozornosti (attention), ktory umoznuje modelu priamo spracovat zavislosti medzi vsetkymi prvkami vstupu naraz, bez obmedzenia sekvenckym spracovaavnim.
Self-attention mechanizmus
Multi-head self-attention je srdcom Transformera. Pre kazdy token v sekvencii pocita model dotazove (Query), klucove (Key) a hodnotové (Value) vektory. Skóre pozornosti medzi tokenmi sa pocitaju ako skalarne suciny, ktore urcuju, ako moc kazdy token "věnuje pozornost" ostatnym tokenом v sekvencii.
Viacero "hlav pozornosti" (multi-head) umoznuje modelu sucasne sledovat rozne typy zavislosti – syntakticke, semanticke aj dlhodobeho dosahu.
Vplyv a dedici
Transformer transformoval AI priemysel daleko za hranice NLP – Vision Transformers (ViT) dominuju computer vision, Audio Transformers spracuvaju rec a hudbu, Protein Language Models ako AlphaFold2 riesí skladanie proteinov. Skalitelnost je klucova vyhoda: Transformer skalouje takmer linearme s vypoctovymi zdrojmi, co umoznilo trenovanie modelov s biliardami parametrov.