O que São Temperatura e Top-P?
Temperatura e Top-P (também chamada de nucleus sampling) são hiperparâmetros que controlam o processo de amostragem durante a geração de texto do LLM. Em cada passo, um LLM produz uma distribuição de probabilidade sobre todos os tokens possíveis. Em vez de sempre selecionar o token mais provável (greedy decoding), a amostragem com temperatura ou top-P introduz aleatoriedade controlada que cria saídas mais diversas e naturais.
Como Funcionam
A temperatura escala a distribuição de probabilidade antes da amostragem. Temperaturas próximas de 0 tornam as saídas quase determinísticas (o token mais provável é quase sempre selecionado). Temperaturas mais elevadas aplainam a distribuição, tornando tokens menos prováveis mais selecionáveis. Valores típicos variam de 0,0 para saídas precisas e factuais a 1,0+ para escrita criativa. Top-P restringe a amostragem ao conjunto mínimo de tokens cujas probabilidades acumuladas atingem o limiar P, excluindo tokens de cauda altamente improváveis enquanto preserva a aleatoriedade entre os tokens mais prováveis.
Orientação Prática
Para sistemas de IA empresariais, use temperatura baixa (0-0,3) para tarefas que requerem factualidade, consistência ou saídas estruturadas. Use temperatura mais elevada (0,7-1,0) para geração criativa, brainstorming ou quando a diversidade de saída é valiosa. Nunca ajuste temperatura e top-P em simultâneo sem compreender como interagem. Quando usar o function calling ou output estruturado, a temperatura geralmente deve ser baixa para garantir conformidade de formato confiável.