Zpět na slovník Technologie

Architektura Transformer

Zakladni architektura neuronove site stojici za modernimi velkymi jazykovymi modely, zalozena na mechanismech samo-pozornosti.

Transformers: zakladni architektura AI

Architektura Transformer, predstavena v roce 2017 v praci 'Attention Is All You Need', revolucionizovala zpracovani prirozenoho jazyka a stala se zakladem prakticky vsech modernich velkych jazykovych modelu. Nahrazuje RNN (rekurentni neuronove site) samo-pozornostnimi mechanismy, ktere zpracovavaji celou vstupni sekvenci soucasne spise nez sekuencne, umoznujice masivni paralelizaci behem trenovani a uchopujici dlouhorazahove zavislosti v textu efektivneje.

Klic komponenty

Samo-pozornostni vrstvy vypocitavaji skore relevancie pro kazdy token vuci vsem ostatnim tokenum v sekvenci, umoznujice modelu zachytit soucasne syntakticke a semanticke vztahy. Feed-forward site zpracovavaji zachycene informace o pozornosti v ramci kazdé vrstvy. Pozicni kodovani vstrikuje informaci sekvencni polohy, protoze samo-pozornost na rozdil od RNN nema inherentni smysl pro poradek. Vrstvena normalizace a residualni spojeni umoznuji hlubokou siti trenovani stabilizoavni.

Varianty a evoluce

Architektura Transformer vedla k rodine modelu se specifickymi optimalizacemi: encoder-only modely (BERT) pro porozumeni, decoder-only modely (GPT serie, Claude) pro generaci a encoder-decoder modely (T5) pro seq-to-seq ukoly. Inovace jako Multi-Query Attention, Grouped-Query Attention a Rotary Position Embedding (RoPE) vylepsily efektivitu a vykon. Architektura se take rozsirila mimo NLP na vizualni systemy (Vision Transformers, ViT), zvukove systemy a vice-modalni aplikace.