Što je mehanizam pažnje?
Mehanizam pažnje (attention) je ključna arhitekturna inovacija uvedena u radu 'Attention Is All You Need' (2017.) koja transformerima omogućuje dinamično ponderiranje važnosti različitih dijelova ulaznog niza pri generiranju svakog izlaznog tokena. Za razliku od rekurentnih mreža koje obrađuju sekvencu linearno, pažnja obrađuje sve pozicije paralelno.
Self-attention i multi-head attention
Self-attention računa pažnju između svakog para tokena u ulaznom nizu — svaki token može 'pogledati' sve ostale. Multi-head attention paralelno izračunava više prostora pažnje, hvata različite vrste lingvističkih odnosa. Ovo je ono što LLM-ovima omogućuje razumijevanje složenih semantičkih struktura i dugih zavisnosti.
Zašto je ovo važno za poslovnu primjenu?
Razumijevanje pažnje pomaže razumjeti: zašto modeli bolje rade s jasno strukturiranim promptovima, zašto kontekstualni prozor ima ograničenja, kako funkcionira RAG (relevantni dokumenti moraju biti u prozoru pažnje), i zašto modeli ponekad 'zaboravljaju' rane dijelove dugih razgovora.