Sorteer PDF

Met deze actie kunt u de inhoud van een PDF laten analyseren om zo te bepalen om welk type document het gaat en welke sleutelgegevens dit document bevat. Dit noemen we sorteren, net zoals een postbode de post bekijkt en verdeeld naar bijvoorbeeld postcode.


De meest gebruikte toepassing voor deze actie is het analyseren van de door een PDF-printer aangemaakte PDF-bestanden. Deze PDF-printer wordt bijvoorbeeld door een ERP-pakket aangeroepen voor het afdrukken van facturen of inkoopopdrachten.


Deze actie analyseert dan zo'n, door een afdruk aangemaakt, PDF-bestand en ziet dan bijvoorbeeld dat het om een factuur gaat en dat het factuurnummer 20134475 en debiteurnummer 1401 betreft. Deze gevonden gegevens (anders gezegd: resultaat van de analyse) worden daarna opgenomen in de bestandsnaam van de PDF.


Voorbeeld

Een ERP-pakket drukt een factuur af naar de PDF-printer. Deze PDF-printer maakt daarvan een PDF-bestand aan: PdfPrinter 130308_125215.PDF.


De actie gaat dit PDF-bestand analyseren en beoordeelt dat het gaat om een documenttype "Factuur" (= "Formulier 01"), administratienummer 265, factuurnummer 20134475 en debiteurnummer 1401.


Na deze analyse zal de actie het bestand hernoemen naar:

O+Sort;01;265;20134475;1401;;;;;;[144409134].PDF


In deze bestandsnaam zijn o.a. deze gegevens terug te lezen. NB: De betekenis van de overige onderdelen van de bestandsnaam zal verderop in dit hoofdstuk duidelijk worden.


Dit bestand kan daarna door een andere taak of actie verder worden opgepakt, bijvoorbeeld een andere taak welke dit bestand zal gaan vesturen per e-mail naar de klant.


Tevens zal een XML-bestand aangemaakt worden onder dezelfde naam. In dit XML-bestand worden de gevonden waardes vermeld die uit het analyse-proces zijn gevonden. Van bovenstaand PDF-bestand zou het XML-bestand de volgende inhoud kunnen hebben:



Mocht er een eigen sleutel zijn aangemaakt (bijvoorbeeld met de naam MailAdres), dan zal ook deze in het XML-bestand worden getoond:



Nieuw aangemaakte sleutels worden echter niet in de bestandsnaam van het PDF-document opgenomen.


Indien een, door de PDF-printer geproduceerd, PDF-bestand bestaat uit meerdere documenten, dan zal deze actie dit PDF-bestand splitsen naar meerdere PDF-bestanden.


Voorbeeld

Het volgende bestand is aangemaakt door de PDF-printer:

PdfPrinter 130311_143053.PDF


Dit enkele PDF-bestand bevat 3 documenten uit een administratie:


    • Factuur 20134498 van debiteur 1401.
    • Factuur 20134501 van debiteur 1432.
    • Inkooporder 20131099 voor crediteur 5201.


Na de analyse heeft de actie de volgende bestanden aangemaakt:


O+Sort;01;265;20134498;1401;;;;;;[144506829].PDF

O+Sort;01;265;20134501;1432;;;;;;[144507682].PDF

O+Sort;02;265;20131099;5201;;;;;;[144509234].PDF


De actie heeft dus de verschillende documenten automatisch gesplitst naar meerdere PDF-bestanden.

Formulier nummer

Zoals u in bovenstaande voorbeelden heeft kunnen zien zal de actie een formuliernummer aan een PDF toekennen. Dit kan een nummer zijn in de reeks 01 t/m 99.


Indien, om wat voor reden dan ook, het document niet herkend wordt als een van de mogelijke formulieren, zal formuliernummer 00 aan het PDF-bestand worden toegekend.


Op basis van deze formuliernummers kunt u dan bijvoorbeeld per formuliernummer een aparte taak bouwen die de PDF's met dit formuliernummer verder afhandelt.

Beschrijving parameters

Omschrijving (optioneel)

Uitleg voor deze parameter vind u hier.

Bron PDF bestand (verplicht)

Dit is het bestandspad van de PDF welke u wilt laten analyseren.

Aantal keren opnieuw proberen indien een bestand is geblokkeerd

De mogelijkheid bestaat dat het bron PDF-bestand nog geblokkeerd is door de PDF-printer, omdat deze bijvoorbeeld nog niet helemaal gereed was met het aanmaken van het PDF-bestand. Daarnaast kunnen er nog andere redenen zijn waarom een bestand is geblokkeerd.


Middels deze optie kunt u aangeven dat er in dat geval het aantal opgegeven keren opnieuw moet worden geprobeerd. Tussen elke poging zit een automatische wachttijd van 2 seconden. Indien het bestand na de opgegeven aantal pogingen nog steeds geblokkeerd is, zal de actie alsnog een fout genereren.

XML bestand met formulier definities (verplicht)

Om een PDF-bestand te kunnen analyseren dient de actie te weten welke regels en/of aannames daarbij gehanteerd moeten worden. Deze regels zijn gespecificeerd in dit op te geven XML-bestand. Dit XML-bestand kan worden aangemaakt via het programma Onderhoud SorteerPDF formulieren XML. U kunt dit programma activeren via de knop .

Gebruik OCR scannen indien nodig

De actie functioneert het beste indien de bron PDF een zogenaamde searchable PDF is. Dit wil zoveel zeggen dat de PDF, naast de grafische inhoud, ook een onzichtbare laag bevat met daarin de platte tekst representatie van de inhoud. Indien dit aanwezig is, kan de analyse zeer snel worden uitgevoerd. Gelukkig is het zo dat de meeste afdrukken naar een PDF-printer, vanuit bijvoorbeeld een ERP-pakket, een searchable PDF opleveren.


Indien de PDF geen searchable PDF is, kan de actie de PDF alleen nog analyseren indien de tekstuele inhoud van de PDF eruit wordt gehaald middels OCR ("Optical Character Recognition"). Dit is een langzaam en niet altijd feilloos proces.


Indien de PDF het resultaat is van scans, via een scanner, dan zijn dit meestal geen searchable PDF's. Redelijk wat scanners bieden tegenwoordig echter wel de mogelijkheid om een OCR uit te voeren en dan een searchable (tekst) laag aan de PDF toe te voegen. Indien uw scanner deze mogelijkheid biedt, dan is het aan te raden om hiervan gebruik te maken, zodat dit niet door deze actie gedaan hoeft te worden en de taak, waarin deze actie opgenomen is, snel uitgevoerd kan worden.


Om de OCR-scan uit te voeren maakt de actie gebruik van het programma Microsoft Office Document Imaging. Dit is een programma dat tot en met Office 2007 gratis wordt meegeleverd. Vanaf Office 2010 is dit programma geen standaard onderdeel meer van de installatie, maar is als gratis download wel verkrijgbaar bij Microsoft.

Genereer foutmelding indien OCR foutmelding geeft

Het OCR-proces is helaas een langzaam en niet altijd feilloos proces. In sommige gevallen kan dit ook leiden tot een foutmelding van het OCR-proces. Indien dit gebeurt heeft u twee mogelijkheden:


  • Deze optie aanzetten. De actie zal ook een fout generen.
  • Deze optie niet aanzetten. De foutmelding van het OCR-proces zal dan worden genegeerd. Dit betekent dat er geen te analyseren tekst uit de PDF gehaald kon worden en dat de PDF dan het formuliernummer 00 zal worden toegewezen.

Sorteer map (verplicht)

Indien het bron PDF-bestand geanalyseerd is zal het resultaat één of meerdere gesorteerde PDF-bestanden zijn. Deze zullen worden aangemaakt in de map die u hier aangeeft. Het bron PDF-bestand zal hierna worden verwijderd.

Actie bij fout

Uitleg voor deze parameter vind u hier.