OCR software lijkt zijn langste tijd te hebben gehad nu RDR (Robotic Document Data Recognition) software de markt van het scannen en begrijpen van wat er gescand wordt, probeert te veroveren.
OCR-toepassingen kunnen teksten herkennen en deze uit gescande documenten halen zodat bijvoorbeeld PDF bestanden en andere bestanden die als afbeelding zijn toegestuurd kunnen worden ‘begrepen’. Een veel gebruikte toepassing hiervan is het scannen van ingekomen facturen zodat deze geautomatiseerd ingevoerd kunnen worden in financiële software pakketten.
De traditionele OCR factuur herkenning
Optical Character Recognition (OCR) is een proces waarbij letters en andere lettertekens (karakters) kunnen worden herkend wanneer ze zich in een afbeelding bevinden. De OCR software zal een gevonden karakter als leesteken doorgeven.
OCR begrijpt niet wat de tekens voorstellen. Na het OCR scannen is dus aanvullende software nodig om de tekens in een context te plaatsen. Veel OCR toepassingen voor financiële systemen bieden hiervoor de mogelijkheid om bekende facturen, bijvoorbeeld van dezelfde firma, te begrijpen doordat daar in aangegeven kan worden wat zich waar op de factuur bevindt. Bijvoorbeeld de totaalsom, het BTW bedrag en de omschrijving van de geleverde waar of dienst.
Omdat veel ondernemingen werken met vaste leveranciers kan op deze manier het overgrote deel van de inkomende facturen na verloop van tijd prima geautomatiseerd geïmporteerd worden. Een proces dat geld bespaart omdat een eenvoudige rekensom leert dat de tijd (en daarmee de kosten) die gemoeid gaat met het ‘overkloppen’ van de gegevens van de factuur naar het financiële pakket, met alle foutmogelijkheden van dien, vaak niet opweegt tegen de aanschaf van dergelijke OCR oplossingen.
Toch blijft menselijk handelen nodig. Bij iedere nieuwe soort factuur moet een nieuwe definitie aangemaakt worden en al zijn er nog zoveel definities van inkomende facturen toegevoegd, iedere maand kan er een factuur binnenkomen die afwijkt van de ingevoerde definities en daarom niet goed geïnterpreteerd kan worden. Daarnaast kan er met de hand iets op geschreven zijn of zijn sommige karakters niet goed herkenbaar doordat de afbeelding wat onduidelijk is binnen gekomen. De E en F lijken bijvoorbeeld heel veel op elkaar en worden slechts door een streepje van elkaar onderscheiden. Denk ook aan een : en ;. Een beetje onduidelijke afbeelding zorgt dan voor giswerk en het verkeerd interpreteren van dergelijke karakters kan tot grote gevolgen leiden voor de interpretatie.
AI factuur herkenning
Met robotic process automation (RPA) of Robotic Document Data Recognition (RDR) wordt kunstmatige intelligentie toegevoegd aan OCR scanning. Dergelijke functionaliteit kan de interpretatie van ongestructureerde data aan waardoor het niet meer nodig is om vooraf op te geven wat met welk gegeven op de factuur bedoeld wordt. Met de juiste AI (Artificial intelligence of kunstmatige intelligentie) wordt de ingelezen tekst namelijk ‘begrepen’ ook al is niet vooraf aangegeven wat het is en kan deze dus direct nuttig geïnterpreteerd worden.
Dit proces heeft dus wel wat weg van de werking van Siri of Cortana, waar je iets aan kunt vragen en waaruit deze software een zoekopdracht destilleert. Stellen we maar genoeg vragen aan Siri, dan leert ze daarvan, en kan ze adequater reageren. Hetzelfde geldt voor RDR. Na vallen en opstaan leert het systeem steeds beter op te treden en de resultaten hiervan zijn verbluffend. Daar waar organisaties vaak maximaal 70 tot 80 procent van de inkomende facturen geautomatiseerd kunnen importeren met behulp van OCR technologie, bereiken ze met RDR soms waarden tot boven de 90 procent.
RPA voor document herkenning kan overigens vaak meer dan alleen teksten interpreteren. Het bevat soms ook de mogelijkheid om foto’s te begrijpen. Hierdoor is het mogelijk afbeeldingen in documenten, zoals foto’s van gereedschappen of onderdelen, te herkennen zodat ook met dergelijke gegevens iets gedaan kan worden.
Technisch gesproken is het begrijpen van ongestructureerde data een ramp. Ongestructureerde data betekent immers min of meer elke vorm van informatie die niet voldoet aan vaste regels of beperkingen. Omdat facturen vaak wel voldoen aan vaste regels, waren die traditioneel redelijk goed te herkennen door de traditionele gespecialiseerde OCR software. Maar bij ongestructureerde data betekent het dat wat er op ‘papier’ staat onvoorspelbaar voor wat betreft de betekenis.
Het is niet het medium, maar de hersenen van de mens die betekenis geven aan de ongestructureerde data. De mens kan deze data in context plaatsen, snapt daardoor waar het over gaat en kan het hierdoor interpreteren. Hiervoor gebruiken we de vorm waarin informatie naar ons toe komt, maar ook de zaken die daar omheen staan. Binnen de traditionele automatisering zou dat onmogelijk zijn geweest. Met behulp van AI komt dit nu wel binnen het geautomatiseerde bereik omdat systemen gebaseerd op kunstmatige intelligentie zich nu eenmaal wel ‘bewust’ zijn van een context.
Een AI-factuur-interpreter weet dat wat hij ziet een factuur is. Op basis van deze basisinformatie kan hij met behulp van slimme algoritmes gaan zoeken naar het BTW bedrag en bijvoorbeeld het totaalbedrag van de factuur. Die interpretatie kan ver gaan. Zo kan deze software tot de conclusie komen op basis van de wetenschap dat hij met een factuur van doen heeft, dat het gaat om gereedschap, dat op gereedschap 21% BTW verrekend wordt en dat het bedrag wat hij achter BTW heeft gevonden daadwerkelijk 21% van het totaalbedrag blijkt te zijn, waardoor hij met een behoorlijke zekerheid kan concluderen dat hij de juiste bedragen heeft gevonden.
De AI-factuur-lezer kan dus niet alleen facturen aan waarvoor hij geen definitie nodig heeft, hij kan direct afwijkende facturen begrijpen die voor de traditionele OCR interpretaties ver buiten het bereik zouden blijven en weet ook nog eens met minder fouten de juiste gegevens door te geven aan de achterliggende financiële systemen.
Niet alleen voor facturen
Natuurlijk is RDR niet voorbehouden aan facturen alleen. Het herkennen en interpreteren van teksten wordt bijvoorbeeld ook in toenemende mate in de juridische wereld toegepast. En laten we wel zijn, ook zoekmachines zoals Google hebben er baat bij wanneer zij teksten begrijpen zodat zij de meest relevante pagina’s kunnen aanbieden die passen bij de opgegeven zoekopdracht. Dat kan alleen wanneer de zoekmachine begrijpt dat wanneer een gebruiker “amateur piloot worden” opgeeft, niet zoekt naar een artikel dat gaat over een amateur fotograaf die een piloot zou hebben gefotografeerd, maar over vliegcursussen. De tijd dat zoekmachines alleen naar trefwoorden zoeken is al lang voorbij, de tijd dat facturen worden geïnterpreteerd op basis van definities, lijkt dat eerdaags ook te zijn.