Analyseer en sorteer PDF documenten

Met de actie Sorteer PDF is het mogelijk om een searchable PDF te scannen op inhoud. Dit wil zoveel zeggen dat de PDF, naast de grafische inhoud, ook een onzichtbare laag bevat met daarin de platte tekst representatie van de inhoud.


Met behulp van dit programma-onderdeel is het mogelijk om bepaalde waarden op te zoeken met behulp van zelf te definiëren zoeksleutels in het PDF-document. De verzameling van gevonden waarden bepaalt de uiteindelijke naam van het PDF-bestand. De gevonden waarden mogen daarom geen tekens gebruiken die niet in een bestandsnaam mogen worden gebruikt, zoals \ / : ? * " < > |


De instellingen van dit programma worden opgeslagen in een XML-bestand. De zoeksleutels dienen zodanig te zijn gekozen, dat deze niet als tekst in een document staan.


De zoeksleutels worden in de originele documenten gedefinieerd. In onderstaand voorbeelddocument is een regel toegevoegd met diverse codes en waardes. Omdat deze regel niet op de uiteindelijke afdruk komt te staan, wordt de code tekst normaliter in een wit lettertype gemaakt. Voor dit voorbeeld is deze echter bewust rood gemaakt.



Voorbeeld

In het document is de volgende code opgenomen:

[O+Form09Factuur][O+Administratie]12345 [O+Debiteur]1001 [O+Factuur]20147524


De bestandsnaam die wordt gegenereerd door de analyse is als volgt:

O+Sort;09;12345;1001;20147524;;;;;;[135468984].pdf


Het volgnummer tussen de haakjes [] wordt willekeurig gegenereerd om dubbele bestandsnamen te voorkomen.

Gebruiker opnemen

In de bestandsnaam van het te scannen PDF-document is het mogelijk de naam van de gebruiker op te geven. Na het analyseren wordt deze naam eveneens opgenomen in het PDF-bestand.


De naam van de gebruiker dient als volgt in de naam te worden vermeld:

{U=gebruiker}

De knoppenbalk

In de knoppenbalk bevinden zich alle mogelijke opdrachten die in het programma uitgevoerd kunnen worden.


Pictogram

Betekenis

Sluit het huidige XML definitie bestand, maak het scherm leeg en zet alle instellingen terug naar standaard

Openen van het XML bestand waarin de instellingen zijn opgeslagen

Sla de huidige instellingen op in het geopende XML definitie bestand

Sla de huidige instellingen op in een ander XML definitie bestand

Selecteer het formulier waarvoor de instellingen gedefinieerd worden. Maximaal 99 verschillende formulieren kunnen gedefinieerd worden in dit programma

Open een PDF bestand om te analyseren

Analyseer het PDF bestand

Navigeer tussen de pagina's in het PDF bestand

Formulier

Omschrijving

De omschrijving van het formulier waarvoor de instellingen gelden.

Id tekst 1/Id tekst 2

In deze tekstblokken geeft u een tekst in waarmee de gekozen formulierdefinities worden geïdentificeerd.


Voorbeeld

In het document staat de volgende regel:

[O+Form09Factuur][O+Administratie]12345 [O+Debiteur]1001 [O+Factuur]20147524


Door het opgeven van de tekst [O+Form09Factuur] bepaalt het programma de te gebruiken formulierdefinitie.

Reset per pagina

Door deze optie aan te vinken geeft u aan dat, elke keer als de in Id tekst 1 en Id tekst 2 opgegeven tekst in het document wordt aangetroffen, sprake is van een nieuw document. Dit houdt in dat uit één PDF-bestand meerdere PDF-bestanden worden gemaakt.

Zet u het vinkje uit, dan betekent dit dat het PDF-bestand als één document wordt beschouwd.


Indien er in het PDF-bestand meerdere documenten opgenomen zijn én één of meerdere van deze documenten bestaat uit meer dan één pagina, dan dient u er voor te zorgen dat de opgegeven tekst alleen op de eerste pagina van elk document kan worden aangetroffen. Dit zal in het programma, waarin u de originele documenten maakt, moeten gebeuren.

Parameters


U kunt in het programma onbeperkt zoeksleutels definiëren. De sleutels vindt u terug onder de namen Administratie en Sleutel1 t/m Sleutel5. Indien u meer sleutels wenst te definiëren, dan drukt u op het +-tabblad.

De nieuwe sleutel kunt u een eigen naam geven:



Voor de sleutel Administratie zijn de zelfde instelmogelijkheden beschikbaar als bij Sleutel 1 t/m 5.

Type

U heeft hier de keuze tussen:


  • Zoek waarde
    Hiermee geeft u aan dat u naar een waarde gaat zoeken aan de hand van de opgegeven definitie-instellingen.
  • Standaard waarde
    U kiest hiervoor indien u de sleutelwaarde niet uit het document kan worden herleid (bijvoorbeeld omdat het programma waarin het document wordt gemaakt dit niet ondersteund).

Standaardwaarde

Dit veld heeft een tweeledige functie:


  • U geeft een standaard waarde in die niet uit het document kan worden herleid (bijvoorbeeld omdat het programma waarin het document wordt gemaakt dit niet ondersteund).
  • U geeft hier de DSN naam in voor de controlequery.

Route naar waarde

In dit veld geeft u de sleutel aan die in het PDF-document moet worden gezocht. De sleutel vormt het startpunt naar de uiteindelijk gezochte waarde.


Voorbeeld

In het document staat de volgende regel:

[O+Form09Factuur][O+Administratie]12345 [O+Debiteur]1001 [O+Factuur]20147524


De code [O+Debiteur] is de sleutelwaarde in het document waar naar gezocht dient te worden. Deze sleutel vormt het startpunt voor de waarde die uiteindelijk uit het document gehaald dient te worden (1001).

Positie waarde

U kunt hier kiezen uit twee waarden:


  • Eerste waarde direct na route
    Met deze optie geeft u aan dat de gezochte waarde gelijk achter de sleutel vermeld staat.
  • Zoek eerste geldige waarde na route
    Hiermee geeft u aan dat er ergens na de opgegeven sleutel de gezochte waarde staat.


Voor beide zoekmethodes wordt aan de hand van criteria bepaald hoe de gezochte waarde eruit ziet.

Zoekcriteria

Minimale en maximale lengte

Met deze twee waarden geeft u aan wat de minimale en maximale lengte is van de gezochte waarde.

Geldige tekens

U geeft hiermee aan uit welke tekens de gezochte waarde bestaat. U heeft de mogelijkheid uit een combinatie van de volgende opties:


  • Letters
    U geeft hiermee aan dat er letters (a t/m z, A t/m Z) in de gezochte waarde (kunnen) zitten.
  • Cijfers
    U geeft hiermee aan dat er cijfers (0 t/m 9) in de gezochte waarde (kunnen) zitten.
  • Spatie
    U geeft hiermee aan dat er spaties in de gezochte waarde (kunnen) zitten.
  • Opgegeven karakters
    U geeft hiermee aan dat de opgegeven karakters in de gezochte waarde (kunnen) zitten.


Vaak kunnen verschillende criteria gebruikt worden voor dezelfde gezochte waarden.


Voorbeeld

U zoekt naar een debiteurnummer. In uw administratie beginnen debiteurnummers altijd met de letter A.


U zou hierbij de volgende criteria kunnen gebruiken:


    • Letters + Cijfers
    • Cijfers + Opgegeven karakters: A

Aantal sluit spaties

Met deze optie geeft u aan dat het zoeken naar de gezochte waarde gestopt kan worden, zodra het opgegeven aantal spaties is aangetroffen.


Voorbeeld

U gebruikt debiteurnummers die soms 4-cijferig en soms 5-cijferig zijn. U heeft aangegeven dat er 1 sluitspatie is.


U gebruikt de volgende regel in uw document

[O+Form09Factuur][O+Administratie]12345 [O+Debiteur]1001 [O+Factuur]20147524.


De aanwezigheid van de spatie na het debiteurnummer zorgt ervoor dat het nummer 1001 wordt gevonden.


Let op: Indien het voor kan komen dat in de gezochte waarde eveneens een spatie kan voorkomen, dan dient het aantal sluitspaties te worden verhoogd.

Minimaal alle geldige tekens

Indien u deze optie aanvinkt, geeft u aan dat er minimaal één karakter van het opgegeven type in de gezochte waarde aanwezig moet zijn.


Voorbeeld

U zoekt naar de volgende waarde: A10.100.

U heeft aangegeven dat alle tekens in de naam kunnen zitten, dus Letters + Cijfers + Spatie + een punt (.) als opgegeven karakter.


Indien het vinkje bij "Minimaal alle geldige tekens" uit staat, wordt de te zoeken waarde gevonden.

Indien het vinkje aan staat, dan wordt de waarde niet gevonden, omdat er geen spatie in de gezochte waarde voorkomt.

Controle query

Om na te gaan of de gevonden waarde in een database aanwezig is, is het mogelijk dit te controleren door middel van het uitvoeren van een query. In deze query is het mogelijk om gebruik te maken van de gevonden waarde uit het zoekresultaat.


Hiervoor zijn de volgende codes te gebruiken:


  • {Administration} voor de gevonden waarde uit tabblad Administratie
  • {Key1} voor de gevonden waarde uit tabblad Sleutel 1
  • {Key2} voor de gevonden waarde uit tabblad Sleutel 2
  • {Key3} voor de gevonden waarde uit tabblad Sleutel 3
  • {Key4} voor de gevonden waarde uit tabblad Sleutel 4
  • {Key5} voor de gevonden waarde uit tabblad Sleutel 5


Voorbeeld

U heeft het debiteurnummer A10.100 gevonden en u wilt controleren of dit nummer bestaat in uw administratie.


U maakt hiervoor de volgende query aan:


SELECT DEBITEURCODE FROM DEBITEUREN WHERE DEBITEURCODE='{Key1}'


Let op: de vermelde query is slechts een voorbeeld. Raadpleeg de documentatie van uw database om een juiste query te maken.


Elke query dient een verbinding te hebben naar een database. Deze verbinding kunt u als DSN opgegeven in het veld Standaard waarde op het tabblad Administratie.

Reset per pagina

Door deze optie aan te vinken geeft u aan dat, elke keer als de opgegeven sleutel in het document wordt aangetroffen, sprake is van een nieuw document. Dit houdt in dat uit één PDF-bestand meerdere PDF-bestanden worden gemaakt.

Zet u het vinkje uit, dan betekent dit dat het PDF-bestand als één document wordt beschouwd.


Indien er in het PDF bestand meerdere documenten opgenomen zijn én één of meerdere van deze documenten bestaat uit meer dan één pagina, dan dient u er voor te zorgen dat de opgegeven tekst alleen op de eerste pagina van elk document kan worden aangetroffen. Dit zal in het programma, waarin u de originele documenten maakt, moeten gebeuren.

Verwijder spaties

Het komt voor dat tijdens het analyseren van het PDF-document spaties worden gesignaleerd die er logischerwijs niet zouden mogen staan. Vaak gebeurt dit tijdens het maken van een PDF-document via bijvoorbeeld een scanner, waarbij het originele document van lagere kwaliteit is. Het is dan zaak om de gevonden waarden van deze spaties te ontdoen.


Door het aanvinken van deze optie worden tijdens het analyseren alle spaties in de gevonden waarde verwijderd.