Grįžti į žodyną applications

DI papildytas OCR

Pažangus optinis simbolių atpažinimas, papildytas DI, tiksliai išgaunančis tekstą iš įvairių dokumentų, rankraščių ir vaizdų.

Už tradicinio OCR ribų

DI papildytas OCR yra reikšminga tradicinio optinio simbolių atpažinimo evoliucija. Nors įprastinis OCR remiasi šablonų atitikimu su žinomais simbolių šablonais, DI papildytas OCR naudoja gilaus mokymosi modelius, kurie supranta kontekstą, tvarko įvairius šriftus ir maketus, skaito rankraštį ir taiso klaidas naudodami kalbos supratimą. Tai drastiškai pagerina tikslumą realiuose dokumentuose su triukšmu, pasvirumu, įvairia kokybe ir sudėtingu formatavimu.

Šiuolaikinės DI OCR sistemos jungia kelias neuroninių tinklų architektūras: konvoliucinius tinklus vizualinių požymių išgavimui, rekurentinius tinklus arba Transformer modelius sekų modeliavimui ir kalbos modelius kontekstiniam klaidų taisymui. Šis daugiaetapis metodas pasiekia tikslumo rodiklius virš 99 % spausdintam tekstui ir 85–95 % rankraščiui, palyginus su 70–90 % tradiciniam OCR.

Dokumento supratimas

DI OCR pereina nuo paprasto teksto išgavimo prie dokumento supratimo. Sistemos gali identifikuoti dokumento struktūrą (antraštes, lenteles, sąrašus, pastraipas), išsaugoti formatavimo ir maketo informaciją, atpažinti formas ir išgauti laukų reikšmes bei suprasti ryšius tarp dokumento elementų. Šis struktūrinis supratimas yra būtinas tolesniam apdorojimui, kur žinojimas, ar skaičius yra suma, data ar sąskaitos numeris, nulemia, kaip jis turi būti tvarkomas.

Įmoninis diegimas

Organizacijos paprastai diegia DI OCR kaip pirmąjį etapą dokumentų apdorojimo konvejeriuose, perduodamos išgautą tekstą ir struktūrą klasifikavimo, išgavimo ir darbo eigų sistemoms. Pagrindiniai vertinimo kriterijai apima tikslumą per skirtingus produkcijoje sutinkamus dokumentų tipus, apdorojimo greitį, aktualių kalbų ir rašmenys palaikymą, prasto nuskaitymo kokybės tvarkymą ir API integracijos galimybes. Daugelis įmonių pasiekia reikšmingą investicijų grąžą skaitmenizuodamos popieriniu procesu pagrįstus darbus, kurie anksčiau buvo atsparus automatizavimui.

Susijusios paslaugos ir produktai