Основният принцип
Законите за скалиране, открити при оценката на езикови модели, показват, че загубата на модела намалява предсказуемо по степенен закон с параметрите на модела, размера на обучаващите данни и изчисленията - с производителността, мащабираща се независимо при всеки от тях.
Законите на Chinchilla
Законите за скалиране на DeepMind (законите на Chinchilla) предложиха, че предишните по-големи модели са обучени на недостатъчен брой данни. Chinchilla предложи около 20 обучаващи токена на параметър на модела за оптимално обучение - насока, промени практиките за обучение на модели в индустрията.
Последствия
Законите за скалиране позволяват прогнозиране на производителността преди обучение на модела - помагайки на компаниите да приоритизират инвестициите. Все пак, законите за скалиране не са абсолютни - присъщите способности изглежда нарушават непрекъснатата линия.