Volver al glosario Inteligencia Artificial

Leyes de escalado neuronal

Relaciones empíricas que muestran cómo el rendimiento de los modelos de IA mejora de forma predecible con aumentos en tamaño del modelo, datos y cómputo.

Entender las leyes de escalado

Las leyes de escalado neuronal describen la relación empírica entre el rendimiento de un modelo de IA y tres factores clave: tamaño del modelo (número de parámetros), tamaño del dataset de entrenamiento y presupuesto de cómputo. La investigación ha demostrado que el rendimiento mejora como una función de ley de potencias suave y predecible de estas variables.

El descubrimiento de las leyes de escalado ha moldeado fundamentalmente la estrategia de desarrollo de IA, impulsando la tendencia hacia modelos y datasets cada vez mayores.

Qué nos dicen las leyes de escalado

El rendimiento escala como ley de potencias con cada factor independientemente, pero existen ratios óptimos entre ellos. Entrenar un modelo enorme con datos insuficientes desperdicia cómputo. Las leyes de escalado Chinchilla demostraron que muchos modelos grandes iniciales estaban significativamente sub-entrenados.

Las leyes también revelan rendimientos decrecientes — cada duplicación de cómputo produce una mejora absoluta menor, una consideración crítica para empresas conscientes del presupuesto.

Implicaciones empresariales

Las leyes de escalado ayudan a las organizaciones a tomar decisiones informadas de construir vs. comprar. Comprender los costes de cómputo necesarios para alcanzar niveles de rendimiento objetivo previene tanto la sub-inversión como el gasto excesivo. Para la mayoría de casos de uso empresariales, la estrategia óptima no es entrenar el modelo más grande posible sino encontrar la escala adecuada e invertir recursos restantes en calidad de datos, fine-tuning e ingeniería de aplicaciones. Los modelos más pequeños bien ajustados a menudo superan a modelos generales más grandes en tareas específicas. Manténgase informado sobre la investigación en leyes de escalado, ya que nuevas arquitecturas y técnicas desplazan continuamente la frontera de eficiencia.