Que sont les lois d'échelle ?
Les lois d'échelle (Scaling Laws) décrivent des relations mathématiques prévisibles entre la taille d'un modèle de langage (nombre de paramètres), la quantité de données d'entraînement et le budget de calcul utilisé d'un côté, et les performances résultantes du modèle de l'autre. Elles ont été étayées empiriquement par des recherches d'OpenAI et DeepMind.
Conclusions clés
Les enseignements les plus importants : les performances du modèle s'améliorent de manière fiable avec plus de paramètres, plus de données et plus de puissance de calcul — selon des patterns prévisibles de loi de puissance. Les lois d'échelle de Chinchilla ont montré que de nombreux modèles étaient "sur-paramétrés" et pourraient atteindre de meilleures performances avec moins de paramètres mais plus de données.
Implications pratiques
Les lois d'échelle aident les entreprises et les chercheurs à distribuer de manière optimale les budgets de calcul : combien de paramètres un modèle nécessite-t-il ? Combien de données d'entraînement ? Elles permettent aussi de prédire les performances de modèles plus grands avant qu'ils ne soient entraînés — ce qui réduit les expériences coûteuses.