Mis on OCR?
Optiline märgituvastus (OCR) viitab tekstipiltide masinloetavasse vormingusse teisendamise protsessile. Näiteks kui skannite vormi või kviitungit, salvestab arvuti skaneeringu pildifailina. Pildifaili teksti ei saa tekstiredaktoriga redigeerida, otsida ega loendada. Siiski saate kasutada OCR-i piltide teisendamiseks tekstidokumentideks ja sisu salvestamiseks tekstiandmetena.
Miks on OCR nii oluline?
Enamik ettevõtte töövooge hõlmab teabele juurdepääsu trükimeedia kaudu. Pabervormid, arved, skannitud juriidilised dokumendid ja prinditud lepingud on kõik osa äriprotsessist. Nende tohutute dokumentide salvestamine ja haldamine võtab palju aega ja ruumi. Vaatamata paberivaba dokumendihalduse suundumusele on dokumentide kujutisteks skannimine endiselt keeruline. Protsess nõuab inimese sekkumist, on tülikas ja aeglane.
Lisaks võib dokumendi sisu digitaliseerimine viia peidetud tekstiga pildifailideni. Tekstitöötlusprogrammid ei saa töödelda piltidel olevat teksti samamoodi kui tekstidokumente. OCR lahendab selle probleemi, teisendades tekstipildid tekstiandmeteks, mida saab analüüsida muu kaubandusliku tarkvaraga. Seejärel saate andmeid kasutada analüüsimiseks, toimingute täiustamiseks, protsesside automatiseerimiseks ja tootlikkuse suurendamiseks.
Kuidas OCR töötab?
Pildi omandamine
Skannerid loevad dokumente ja teisendavad need kahendandmeteks. OCR-tarkvara analüüsib skannitud pilti, liigitades heledad alad taustaks ja tumedad alad tekstiks.
eeltöötlus
OCR-tarkvara puhastab esmalt pildi ja eemaldab lugemiseks valmistumisel vead. Siin on mõned selle puhastamiseks kasutatavad tehnikad:
Skannitud dokumentide kerge nihke korrigeerimine või kaldus skannimise ajal joondusprobleemide lahendamiseks.
Eemaldage müra, eemaldage digipiltidelt täpid või siluge tekstipiltide servi.
Puhastage pildi äärised ja jooned.
Skriptituvastus mitmekeelse OCR-tehnoloogiaga
Tekstituvastus
Kaks peamist tüüpi OCR-algoritme või tarkvaraprotsesse, mida OCR-tarkvara tekstituvastuseks kasutab, on mustrite sobitamine ja funktsioonide eraldamine.
Mustri sobitamine
Mustri sobitamine eraldab tegelase kujutise (nimetatakse glüüfiks) ja võrdleb seda salvestatud sarnaste glüüfidega. Mustri sobitamine töötab ainult siis, kui salvestatud glüüfil on sisendglüüfiga sarnane font ja suurus. See meetod töötab hästi tuntud fontidega sisestatud dokumentide skannitud piltide puhul.
Funktsiooni ekstraheerimine
Funktsioonide eraldamine segmenteerib või jaotab glüüfid sellisteks funktsioonideks nagu jooned, suletud ahelad, joone orientatsioon ja joone fookus. Seejärel kasutab see neid funktsioone erinevate salvestatud glüüfide hulgast parima või lähima vaste leidmiseks.
Järeltöötlus
Pärast analüüsi teisendab süsteem ekstraktitud tekstiandmed arvutifailideks. Mõned OCR-süsteemid võivad luua märkustega PDF-faile, mis sisaldavad skannitud dokumentide eel- ja järelskannimise versioone.