Problemet med ustrukturerede data i organisationer
Det anslås, at over 80 procent af data i organisationer er ustrukturerede — scannede fakturaer, PDF'er af kontrakter, håndskrevne formularer, e-mails med vedhæftninger, mødereferater. Hvert af disse dokumenter indeholder værdifulde data, der burde lande i ERP-, CRM- eller databasesystemer — men at udvinde dem med traditionelle metoder kræver manuelt arbejde eller dyre OCR-systemer med regler for hvert dokumentformat.
Hvordan LLM udfører struktureret ekstraktion
Sprogmodeller griber dataekstraktion an anderledes end klassiske regelbaserede systemer. I stedet for at definere mønstre for hvert fakturalayout modtager modellen dokumentet og målskemaet — en beskrivelse af felter, datatyper og formatkrav — og finder og mapper informationen selvstændigt. Resultatet returneres direkte som JSON klar til behandling af downstream-systemer.
Fordelen i forhold til den regelbaserede tilgang er særligt synlig ved varierende dokumentformater. En faktura fra en dansk leverandør, en udenlandsk debetnota og en scanning af en håndskrevet ordre kan behandles af den samme model uden at konfigurere separate skabeloner for hvert format.
Praktiske anvendelser i enterprise-miljøer
- Fakturaer og finansielle dokumenter — automatisk ekstraktion af dokumentnummer, dato, poster, beløb, leverandørdata og bankkontonummer direkte til regnskabssystemet
- Kontrakter og tillæg — ekstraktion af parter, kontraktens genstand, gyldighedsdatoer og nøgleklausuler om bøder og ophævelse
- Onboarding-formularer — behandling af medarbejder- eller kundeansøgninger og indlæsning af data i HR- eller CRM-systemer
- Kommerciel korrespondance — identifikation af hensigt, kontaktdata og forpligtelser fra e-mails og breve
- Medicinsk og compliance-dokumentation — ekstraktion af datoer, procedurer og identifikatorer fra dokumentation med bevarelse af anonymisering af persondata
Validering og ekstraktionssikkerhed
Modellens rå resultat bør sjældent gå direkte til produktionssystemer uden et valideringslag. En god enterprise-tilgang omfatter flere kvalitetskontrolmekanismer. For det første skemavalidering — kontrol af, at den returnerede JSON opfylder type- og formatkrav (ISO-datoer, CVR-numre, IBAN-numre). For det andet forretningslogik — stemmer summen af fakturaposterne med bruttobeløbet? Er fakturadatoen ikke senere end forfaldsdatoen? For det tredje sikkerhedsscoring — modellen kan returnere en sikkerhedsvurdering per felt, hvilket gør det muligt at styre usikre tilfælde til manuel verifikation.
Anonymisering som behandlingsbetingelse
Mange dokumenter, der gennemgår ekstraktion, indeholder persondata — navne på fakturaer, medarbejderdata i formularer, partsoplysninger i kontrakter. Behandling af disse gennem eksterne modeller kræver et GDPR-konformt retsgrundlag. Et alternativ er anonymisering før ekstraktion — fjernelse eller pseudonymisering af persondata, behandling af dokumentet og genoprettelse af de originale værdier på kundens serverside. ESKOM.AI integrerer automatisk anonymisering som trin forud for enhver behandling af dokumenter, der indeholder persondata.
Struktureret ekstraktion med LLM er en af de hurtigst tilbagebetalende investeringer i automatisering — organisationer, der behandler nogle tusinde dokumenter om måneden, rapporterer en reduktion i omkostningerne til manuel dataindtastning på 70-90 procent med samtidig forkortelse af behandlingstiden fra timer til sekunder.