Por que a engenharia de prompts é de facto engenharia
No primeiro contacto com modelos de linguagem, o prompting parece uma conversa — escreve-se, o modelo responde. Em produção, esta intuição revela-se enganadora. Os prompts são código: têm versões, dependências, testes e documentação. Alterar uma frase num prompt pode mudar drasticamente o comportamento do sistema para subconjuntos de dados não contemplados em testes manuais. Sem uma abordagem de engenharia, os sistemas de AI tornam-se imprevisíveis em produção.
Anatomia de um prompt enterprise
Um prompt de sistema maduro para aplicações enterprise compõe-se de várias camadas:
- Definição de papel e contexto — quem é o modelo no contexto dado, quais são os limites das suas competências e quando deve recusar uma resposta.
- Instruções de comportamento — estilo de comunicação, formato de resposta, forma de tratar questões ambíguas ou potencialmente prejudiciais.
- Contexto de domínio — definições específicas, procedimentos e terminologia da organização que o modelo não conhece do treino.
- Exemplos (few-shot) — pares representativos de pergunta-resposta que definem o comportamento esperado em casos difíceis.
- Instruções de formatação — estrutura da resposta, comprimento, utilização de listas e cabeçalhos.
Templates com controlo de versão
Os prompts devem ser armazenados num sistema de controlo de versão tal como o código. Isto significa um repositório git, revisões de alterações (code review), tags de versão e CHANGELOG. Uma alteração de prompt em produção sem rastro de auditoria é uma alteração de código de produção sem documentação — num ambiente enterprise é inadmissível.
Para sistemas regulados onde o prompt influencia decisões sobre pessoas, o controlo de versão torna-se um requisito de compliance: o regulador pode perguntar que prompt foi utilizado numa decisão específica de há seis meses.
Guardrails — proteção contra comportamento indesejado
Os guardrails são mecanismos que limitam o âmbito de ação do modelo. No contexto enterprise, as categorias principais são:
- Temáticos — o modelo de assistente jurídico não deve emitir recomendações médicas.
- Formais — a resposta deve sempre conter uma ressalva legal ou informação sobre limitações.
- De privacidade — deteção automática e redação de dados pessoais em respostas geradas com base em documentos internos.
- De consistência factual — verificação de que as afirmações do modelo podem ser atribuídas a fragmentos específicos de documentos fonte.
Avaliação sistemática
O teste manual de prompts não escala. A avaliação sistemática requer um conjunto de teste composto por centenas ou milhares de pares de pergunta-resposta esperada, cobrindo casos de uso típicos, cenários limite e tentativas de contornar guardrails. As métricas automáticas — precisão de recuperação, fidelidade factual, cumprimento de formato — complementam avaliações humanas periódicas para os casos mais difíceis.
Testes A/B de prompts
Em sistemas com grande tráfego, é possível testar paralelamente variantes de prompts em subconjuntos de utilizadores e comparar resultados segundo métricas empresariais definidas. Esta abordagem transpõe a metodologia de otimização conhecida do marketing digital para a engenharia de sistemas de AI e permite a melhoria iterativa de prompts baseada em dados, não em intuição.