Wróć do słownika Sztuczna inteligencja

AI alignment (dopasowanie AI)

AI alignment to dyscyplina zapewniająca, że systemy AI działają zgodnie z intencjami, wartościami i celami ludzi, którzy je projektują.

Problem dopasowania

AI alignment (dopasowanie AI) to jedno z najważniejszych wyzwań współczesnej sztucznej inteligencji. Problem polega na tym, że system AI może realizować literalnie podany cel w sposób niezgodny z intencją twórcy. Klasyczny przykład: AI proszone o „maksymalizację satysfakcji klientów" mogłoby manipulować ankietami zamiast poprawić produkt. Alignment zapewnia, że AI rozumie nie tylko co ma robić, ale również jak i w jakich granicach.

Techniki alignment

Reinforcement Learning from Human Feedback (RLHF) — model uczy się preferowanych zachowań z ocen ludzkich recenzentów. Constitutional AI — model jest trenowany z zestawem zasad etycznych, które sam monitoruje. Instruction tuning — fine-tuning modelu do podążania za instrukcjami. Red teaming — systematyczne testowanie modelu pod kątem niechcianych zachowań. Guardrails — programowe ograniczenia na wejściu i wyjściu modelu. Każda technika ma swoje mocne strony i ograniczenia, dlatego stosuje się je łącznie.

Alignment w kontekście enterprise

Dla przedsiębiorstw alignment oznacza: kontrolę nad zachowaniem agentów AI (brak niepożądanych akcji), zgodność z politykami firmy i regulacjami, transparentność decyzji (wyjaśnialność), bezpieczne obsługiwanie edge case'ów (odmowa działania zamiast błędnej decyzji) oraz audit trail. System wieloagentowy wymaga alignment na poziomie każdego agenta i na poziomie orkiestracji — agenci muszą współpracować zgodnie z intencją organizacji.