Co su scaling laws?
Scaling laws su jednym z najvplyvnejsich empirickych zisteni v moderne AI vyvoji. Uke, ze vykon jazykovych modelov – merany stratovou funkciou – sa predpokladatelne zlepsuje so zvysovanim troch faktorov: poctu parametrov modelu (N), velkosti trenovacieho datasetu (D) a mnozstva vypoctovych zdrojov (C).
Klucovedvou je predpokladatelnost: na zaklade merania na mensich modeloch je mozne odhadnut vykon vacsieho modelu pred jeho natrenovanim.
Chinchilla a optimalny pomer
Prаca DeepMind (Hoffmann et al., 2022) – zname ako Chinchilla scaling laws – ukazala, ze vacsina predchadzajucich modelov bola "undertrained" – mali prilis vela parametrov na prilis malom mnozstve dat. Optimalna strategia je rovnomerne skalovat parametre aj trenovacie data.
GPT-3 s 175B parametrami trenovany na 300B tokenoch je podla Chinchilla podoptimalny; optimum by bolo cca 70B parametrov s 1.4 trilionu tokenov.
Za hranice traditional scaling
Scaling laws mali hlboke implikacje pre AI strategiu – justifikovaly masivne investicie do compute a dat. Avšak sucastne diskusie sa tykaju post-training scaling (inference-time compute) – dlhsie uvazovanie pri inferenci moze doplnat pretrainovaci scaling a otvorit novu cestu k lepsim modelom bez rastu parametrov.