Pourquoi l'évaluation est critique
L'évaluation des modèles est le pont critique entre l'entraînement des modèles et le déploiement en production. Un modèle qui performe bien sur les données d'entraînement peut échouer en production en raison de la dérive des données, d'un manque de généralisation ou de baisses de performance sur des sous-groupes importants. Une évaluation approfondie détecte ces problèmes avant qu'ils n'affectent les systèmes de production.
Métriques d'évaluation
Le choix des métriques dépend du contexte. Les modèles de classification utilisent l'accuracy, la precision, le recall, le F1-score et l'AUC-ROC. Les modèles de régression utilisent MAE, RMSE et R². Les modèles de langage sont évalués sur la cohérence, la fidélité factuelle, l'utilité et le risque de préjudice.
Cadre d'évaluation entreprise
Créez des jeux de test holdout représentant fidèlement les données de production. Réalisez des analyses de sous-groupes pour identifier les disparités de performances entre groupes démographiques. Comparez les nouveaux modèles aux baselines et aux modèles actuellement déployés. Intégrez des pipelines d'évaluation automatisés dans les workflows CI/CD.