Τι είναι το RLHF;
Το RLHF (Reinforcement Learning from Human Feedback) είναι μια τεχνική εκπαίδευσης που χρησιμοποιήθηκε για να κάνει μοντέλα γλώσσας πιο χρήσιμα, ασφαλή και ευθυγραμμισμένα με ανθρώπινες προτιμήσεις. Χρησιμοποιήθηκε ευρέως για εκπαίδευση μοντέλων όπως ChatGPT, Claude και Gemini.
Η διαδικασία: 1) Προεκπαίδευση LLM, 2) Supervised fine-tuning από ανθρώπινα παραδείγματα, 3) Εκπαίδευση reward model από ανθρώπινες συγκρίσεις, 4) Βελτιστοποίηση LLM με RL (συνήθως PPO) για μεγιστοποίηση reward.
Γιατί Είναι Σημαντικό
Πριν το RLHF, τα LLMs εκπαιδευόμενα μόνο στη next-token prediction μπορούσαν να παράγουν επιβλαβές, προκατειλημμένο ή απλώς άχρηστο περιεχόμενο. Το RLHF μετέτρεψε αυτά τα μοντέλα σε χρήσιμους βοηθούς που ακολουθούν οδηγίες και αποφεύγουν επιβλαβές περιεχόμενο.
Νεότερες Εξελίξεις
Εναλλακτικές και βελτιώσεις RLHF: Constitutional AI (Anthropic), DPO (Direct Preference Optimization) που απλοποιεί τη διαδικασία χωρίς ξεχωριστό reward model, και RLAIF (RL from AI Feedback) που χρησιμοποιεί ΤΝ αντί ανθρώπων για ανατροφοδότηση.