Τι είναι ο Μηχανισμός Προσοχής;
Ο μηχανισμός προσοχής (attention mechanism) είναι ένα βασικό συστατικό στοιχείο αρχιτεκτονικών νευρωνικών δικτύων που επιτρέπει στο μοντέλο να «δίνει βάρος» σε διαφορετικά τμήματα της εισόδου κατά τη δημιουργία κάθε τμήματος εξόδου. Εισήχθη στο landmark paper «Attention Is All You Need» (2017) ως θεμέλιο της αρχιτεκτονικής Transformer.
Ο self-attention επιτρέπει σε κάθε token σε μια ακολουθία να «εξετάσει» όλα τα άλλα tokens για να κατανοήσει το πλαίσιο, επιλύοντας το πρόβλημα μακράς εξάρτησης των παλαιότερων RNN αρχιτεκτονικών.
Multi-Head Attention
Το multi-head attention εκτελεί παράλληλα πολλαπλές λειτουργίες προσοχής, επιτρέποντας στο μοντέλο να εξετάζει ταυτόχρονα διαφορετικές πτυχές του πλαισίου — συντακτικές σχέσεις, σημασιολογική ομοιότητα, θέση κ.α.
Σημασία για LLMs
Η κατανόηση του μηχανισμού προσοχής βοηθά στην κατανόηση ικανοτήτων και περιορισμών LLMs, ιδιαίτερα σε σχέση με το context window — το μέγιστο μήκος κειμένου που το μοντέλο μπορεί να επεξεργαστεί ταυτόχρονα.