¿Qué son temperatura y Top-P?
Temperatura y Top-P son parámetros de muestreo que controlan el comportamiento de los grandes modelos de lenguaje durante la generación de texto. Influyen en qué tan aleatoria o determinista es la selección del siguiente token por parte del modelo, permitiendo así ajustar entre creatividad y precisión.
Temperatura explicada
La temperatura escala las log-probabilidades de los siguientes tokens. Con temperatura 0, el modelo siempre selecciona el token más probable (determinista). Con temperatura 1.0, se utiliza la distribución original. Con valores más altos (1.5–2.0), los tokens menos probables se vuelven más probables, lo que lleva a salidas más creativas pero también más propensas a errores. Top-P (nucleus sampling) limita la selección al conjunto más pequeño de tokens cuya probabilidad acumulada supera P.
Recomendaciones prácticas
Para generación de código y tareas fácticas: temperatura baja (0–0.2). Para escritura creativa: temperatura más alta (0.7–1.0). Para salidas estructuradas (JSON): temperatura 0. En sistemas de producción, estos parámetros deben optimizarse sistemáticamente mediante pruebas A/B, ya que tienen una influencia significativa en la calidad y la consistencia.