Transformer: temelj moderne AI
Transformer arhitektura, uvedena u radu 'Attention Is All You Need' (Vaswani et al., 2017.), revolucionirala je AI zamjenom rekurentnih neuronskih mreža (RNN, LSTM) samopozornim mehanizmom koji može obrađivati sekvence paralelno. Gotovo svi moderni LLM-ovi — GPT, Claude, Gemini, Llama — temelje se na transformer arhitekturi.
Ključne arhitekturne komponente
Multi-head self-attention: hvatanje odnosa između svih parova tokena u nizu. Feed-forward slojevi: tokenu-razinska transformacija. Positional encodings: injekcija informacije o poziciji u sekvencu. Layer normalization + residual connections: stabilizacija dubokog treniranja. Encoder-decoder vs decoder-only: T5 vs GPT/Claude.
Evolucija transformera
Originalni transformer za prijevod evoluirao u: BERT (encoder, razumijevanje teksta), GPT serija (decoder, generiranje), T5 (encoder-decoder, seq2seq), Vision Transformer (ViT, slike), Whisper (audio). Skaliranje transformera dovelo je do emergentnih sposobnosti — fenomen koji se ne bi mogao predvidjeti iz arhitekturnih principa.