Enxeñaría de prompts para aplicacións enterprise — modelos, guardrails e avaliación

Por que a enxeñaría de prompts é enxeñaría

No primeiro contacto con modelos de linguaxe, o prompting parece unha conversa — escribes, o modelo responde. En produción, esta intuición resulta engañosa. Os prompts son código: teñen versións, dependencias, probas e documentación. O cambio dunha soa frase nun prompt pode cambiar radicalmente o comportamento do sistema para subconxuntos de datos que non foron considerados nas probas manuais. Sen un enfoque de enxeñaría, os sistemas de IA vólvense imprevisibles en produción.

Anatomía dun prompt enterprise

Un prompt de sistema maduro para aplicacións enterprise consta de varias capas:

Definición de rol e contexto — quen é o modelo no contexto dado, cales son os límites das súas competencias e cando debe rexeitar responder.
Instrucións de comportamento — estilo de comunicación, formato de resposta, maneira de tratar consultas ambiguas ou potencialmente prexudiciais.
Contexto de dominio — definicións específicas, procedementos e terminoloxía da organización que o modelo non coñece do adestramento.
Exemplos (few-shot) — pares representativos pregunta-resposta que definen o comportamento esperado en casos difíciles.
Instrucións de formato — estrutura da resposta, lonxitude, uso de listas e encabezamentos.

Modelos con control de versións

Os prompts deben almacenarse nun sistema de control de versións da mesma maneira que o código. Isto implica un repositorio git, revisións de cambios (code review), etiquetas de versión e CHANGELOG. Un cambio de prompt en produción sen trazabilidade é un cambio de código produtivo sen documentación — nun contorno enterprise é inadmisible.

Para sistemas regulados, onde o prompt influíe en decisións que afectan persoas, o control de versións convértese nun requisito de compliance: o regulador pode preguntar que prompt se utilizou nunha decisión concreta de hai seis meses.

Guardrails — proteccións contra comportamentos non desexados

Os guardrails son mecanismos que limitan o ámbito de actuación do modelo. No contexto enterprise, as categorías clave son:

Temáticos — un modelo de asistente legal non debería emitir recomendacións médicas.
Formais — a resposta sempre debe incluír un aviso legal ou información sobre limitacións.
De privacidade — detección automática e redacción de datos persoais en respostas xeradas a partir de documentos internos.
De coherencia factual — verificación de que as afirmacións do modelo se poidan atribuír a fragmentos concretos dos documentos fonte.

Avaliación sistemática

As probas manuais de prompts non escalan. A avaliación sistemática require un conxunto de probas composto por centos ou miles de pares pregunta-resposta esperada, que cubran os casos de uso típicos, escenarios límite e intentos de circunvalar os guardrails. As métricas automáticas — relevancia da busca, fidelidade factual, cumprimento do formato — complementan as avaliacíóns humanas periódicas para os casos máis difíciles.

A/B testing de prompts

En sistemas con gran tráfico, é posible probar en paralelo variantes de prompts en subconxuntos de usuarios e comparar os resultados segundo métricas de negocio definidas. Este enfoque traslada a metodoloxía de optimización coñecida do marketing dixital á enxeñaría de sistemas de IA e permite un perfeccionamento iterativo dos prompts baseado en datos, non na intuición.