Prompt engineering voor enterprise-toepassingen — sjablonen, guardrails en evaluatie

Waarom prompt engineering daadwerkelijk engineering is

Bij het eerste contact met taalmodellen lijkt prompten op een gesprek — je typt, het model antwoordt. In productie blijkt deze intuïtie misleidend. Prompts zijn code: ze hebben versies, afhankelijkheden, tests en documentatie. Het wijzigen van één zin in een prompt kan het systeemgedrag drastisch veranderen voor subsets van data die niet in handmatige tests waren meegenomen. Zonder een engineeringaanpak worden AI-systemen onvoorspelbaar in productie.

Anatomie van een enterprise-prompt

Een volwassen systeemprompt voor enterprise-toepassingen bestaat uit meerdere lagen:

Rol- en contextdefinitie — wie is het model in de gegeven context, wat zijn de grenzen van zijn competenties en wanneer moet het een antwoord weigeren.
Gedragsinstructies — communicatiestijl, antwoordformaat, omgang met onduidelijke of potentieel schadelijke vragen.
Domeincontext — specifieke definities, procedures en terminologie van de organisatie die het model niet kent uit training.
Voorbeelden (few-shot) — representatieve vraag-antwoordparen die het verwachte gedrag definiëren in lastige gevallen.
Opmaakinstructies — antwoordstructuur, lengte, gebruik van lijsten en koppen.

Sjablonen met versiebeheer

Prompts moeten in een versiebeheersysteem worden opgeslagen, net als code. Dit betekent een git-repository, change reviews (code review), versietags en een CHANGELOG. Een promptwijziging in productie zonder auditspoor is een wijziging van productiecode zonder documentatie — in een enterprise-omgeving is dit ontoelaatbaar.

Voor gereguleerde systemen waar prompts beslissingen over personen beïnvloeden, wordt versiebeheer een compliance-vereiste: een toezichthouder kan vragen welke prompt werd gebruikt bij een specifieke beslissing van zes maanden geleden.

Guardrails — bescherming tegen ongewenst gedrag

Guardrails zijn mechanismen die het actiebereik van het model beperken. In enterprise-context zijn de belangrijkste categorieën:

Thematisch — een juridisch assistentmodel mag geen medische aanbevelingen doen.
Formeel — het antwoord moet altijd een juridische disclaimer of informatie over beperkingen bevatten.
Privacy — automatische detectie en redactie van persoonsgegevens in antwoorden gegenereerd op basis van interne documenten.
Feitelijke consistentie — verificatie of beweringen van het model kunnen worden herleid tot specifieke fragmenten van brondocumenten.

Systematische evaluatie

Handmatig testen van prompts schaalt niet. Systematische evaluatie vereist een testset bestaande uit honderden of duizenden paren van vragen en verwachte antwoorden, die typische gebruiksgevallen, randscenario's en pogingen om guardrails te omzeilen dekken. Automatische metrics — zoeknauwkeurigheid, feitelijke getrouwheid, formatnaleving — vullen periodieke menselijke beoordelingen aan voor de lastigste gevallen.

A/B-testing van prompts

In systemen met veel verkeer is het mogelijk om promptvarianten parallel te testen op subsets van gebruikers en de resultaten te vergelijken op basis van gedefinieerde zakelijke metrics. Deze aanpak brengt de optimalisatiemethodologie bekend uit digitale marketing over naar het engineeren van AI-systemen en maakt iteratieve verbetering van prompts mogelijk op basis van data, niet intuïtie.