Cosa sono le leggi di scala?
Le leggi di scala (Scaling Laws) descrivono relazioni matematiche prevedibili tra la dimensione di un modello linguistico (numero di parametri), la quantità di dati di addestramento e il budget di calcolo utilizzato da un lato, e le prestazioni risultanti del modello dall'altro. Sono state corroborate empiricamente da ricerche di OpenAI e DeepMind.
Conclusioni chiave
Gli insegnamenti più importanti: le prestazioni del modello migliorano in modo affidabile con più parametri, più dati e più potenza di calcolo — seguendo pattern prevedibili di legge di potenza. Le leggi di scala di Chinchilla hanno mostrato che molti modelli erano "sovra-parametrizzati" e potrebbero raggiungere prestazioni più efficienti con meno parametri ma più dati.
Implicazioni pratiche
Le leggi di scala aiutano aziende e ricercatori a distribuire in modo ottimale i budget di calcolo: quanti parametri necessita un modello? Quanti dati di addestramento? Consentono anche di prevedere le prestazioni di modelli più grandi prima che vengano addestrati, riducendo così gli esperimenti costosi.