Закони за скалиране на невронни мрежи

Законите за скалиране на невронни мрежи описват как производителността на модела се подобрява предсказуемо с мащаба на модела, размера на обучаващите данни и изчисленията за обучение.

Основният принцип

Законите за скалиране, открити при оценката на езикови модели, показват, че загубата на модела намалява предсказуемо по степенен закон с параметрите на модела, размера на обучаващите данни и изчисленията - с производителността, мащабираща се независимо при всеки от тях.

Законите на Chinchilla

Законите за скалиране на DeepMind (законите на Chinchilla) предложиха, че предишните по-големи модели са обучени на недостатъчен брой данни. Chinchilla предложи около 20 обучаващи токена на параметър на модела за оптимално обучение - насока, промени практиките за обучение на модели в индустрията.

Последствия

Законите за скалиране позволяват прогнозиране на производителността преди обучение на модела - помагайки на компаниите да приоритизират инвестициите. Все пак, законите за скалиране не са абсолютни - присъщите способности изглежда нарушават непрекъснатата линия.

Закони за скалиране на невронни мрежи

Основният принцип

Законите на Chinchilla

Последствия

Свързани термини