Проблемът с изравняването
Проблемът с изравняването произтича от трудността да се гарантира, че AI системите са добри представители на човешките намерения, особено в ситуации, непредвидени по време на обучение. Помислете за класическия пример с максимизатора на кламери — система, насочена към максимизиране на производството на кламери, би могла да действа против желанията на хората без внимателно изравняване.
Технически подходи
Сред техническите подходи са RLHF (Reinforcement Learning from Human Feedback), Constitutional AI и мащабируем надзор — техники, позволяващи на хората да надзирават AI системи, надхвърлящи човешките способности.
Корпоративна значимост
Дори за по-малки корпоративни нужди има последствия от изравняването: модели, действащи в съответствие с корпоративните политики, ценностите на клиентите и правните изисквания. Документирането на конкретни политики е от съществено значение.