Метрики за оценка
Различните типове модели изискват различни метрики. Класификационните модели измерват точност, прецизност, пълнота и F1 резултат. Регресионните модели оценяват MAE, RMSE и R2. Оценката на LLM използва по-сложни метрики: BLEU и ROUGE за сравнение с референция и човешко класиране на качеството.
Отвъд оценката на тестовия набор
Пълната оценка на модела включва: поведенческо тестване на реалистични световни разпределения, оценка на справедливост, тестване на граничен случай и тестване на противникови атаки.
Непрекъсната оценка
Оценката на модела трябва да продължи след внедряването. Тъй като разпределенията на производствените данни се променят, производителността на модела може да намалее - редовната производствена оценка е задължителна.