Scaling Laws

Co su scaling laws?

Scaling laws su jednym z najvplyvnejsich empirickych zisteni v moderne AI vyvoji. Uke, ze vykon jazykovych modelov – merany stratovou funkciou – sa predpokladatelne zlepsuje so zvysovanim troch faktorov: poctu parametrov modelu (N), velkosti trenovacieho datasetu (D) a mnozstva vypoctovych zdrojov (C).

Klucovedvou je predpokladatelnost: na zaklade merania na mensich modeloch je mozne odhadnut vykon vacsieho modelu pred jeho natrenovanim.

Chinchilla a optimalny pomer

Prаca DeepMind (Hoffmann et al., 2022) – zname ako Chinchilla scaling laws – ukazala, ze vacsina predchadzajucich modelov bola "undertrained" – mali prilis vela parametrov na prilis malom mnozstve dat. Optimalna strategia je rovnomerne skalovat parametre aj trenovacie data.

GPT-3 s 175B parametrami trenovany na 300B tokenoch je podla Chinchilla podoptimalny; optimum by bolo cca 70B parametrov s 1.4 trilionu tokenov.

Za hranice traditional scaling

Scaling laws mali hlboke implikacje pre AI strategiu – justifikovaly masivne investicie do compute a dat. Avšak sucastne diskusie sa tykaju post-training scaling (inference-time compute) – dlhsie uvazovanie pri inferenci moze doplnat pretrainovaci scaling a otvorit novu cestu k lepsim modelom bez rastu parametrov.

Co su scaling laws?

Chinchilla a optimalny pomer

Za hranice traditional scaling

Súvisiace pojmy