digitaal / Partnerbijdrage

Soms meer dan 60% duplicaten bij het afhandelen van Wob verzoeken

Soms meer dan 60% duplicaten bij het afhandelen van Wob verzoeken

29 november 2021
Wob-schapen.png

Bij het verzamelen van informatie voor het beantwoorden van Wob-verzoeken is detecteren van duplicaten een belangrijk onderdeel om veel dubbel werk te besparen. Het blijkt dat de informatie die verzameld wordt bij het afhandelen van grotere Wob-verzoeken tussen de 40%-60% duplicaten bevat, met name als er veel communicatie informatie wordt opgevraagd die in bronnen zit zoals e-mail. Er zijn zelfs uitschieters waarbij van de verzamelde informatie maar liefst 68% een duplicaat is. Belangrijk dus om duplicaten goed te herkennen zodat er geen extra tijd en middelen wordt besteed aan de verwerking en beoordeling hiervan.

Wat is een duplicaat?

Het is belangrijk om een onderscheid te maken tussen exacte duplicaten en bijna-exacte duplicaten. Met een exact duplicaat bedoelen wij een document dat precies hetzelfde is als een ander document van hetzelfde bestandstype. Bijvoorbeeld twee Microsoft Word documenten met dezelfde inhoud maar een andere bestandsnaam.

 

Een bijna-exact duplicaat is een document waarbij de inhoud bijna gelijk is aan de inhoud van een ander document, dit zijn bijvoorbeeld verschillende versies van hetzelfde document met kleine veranderingen, of hetzelfde document maar dan als PDF en als Microsoft Word document.


Hoe herken je een exact duplicaat?

Om duplicaten te herkennen met de computer heb je verschillende methodes die gebruikt worden. Voor exacte duplicaten wordt in het algemeen gebruik gemaakt van een hash berekening van een document of bestand. Een hash berekenen over een document of bestand is het uitvoeren van een algoritme om een unieke digitale vingerafdruk oftewel hashcode te maken. Deze hashcode wordt vastgelegd als een reeks van tekens en deze is uniek. Er zijn verschillende typen hashcodes zoals MD5, SHA-1 en SHA-256. Een voorbeeld van een MD5 hashcode van een bestand is d41d8cd98f00b204e9800998ecf8427e. MD5 is misschien wel de bekendste hashcode maar deze wordt inmiddels als onveilig beschouwd (net als SHA-1) en veelal wordt nu of SHA-256 of SHA-512 toegepast. Indien de hashcodes van verschillende documenten of bestanden gelijk zijn, dan zijn de documenten of bestanden ook identiek aan elkaar.

 

Voor e-mail worden ook hashcodes gebruikt, maar in tegenstelling tot bestandsformaten zoals PDF en Microsoft Word wordt er geen hashcode berekend over het bestand zelf, maar wordt een berekening gedaan over de tekstuele inhoud van de e-mail en de eigenschappen van een e-mail. Typische e-mail bestanden zijn bijvoorbeeld documenten met een EML of MSG extensie. Voor het berekenen van een hashcode van een e-mail wordt dan gekeken naar de tekst in de e-mail, het onderwerp, de afzender, de ontvangers, de verzenddatum en de bijlages. Dezelfde e-mail die is verzonden naar 2 verschillende personen en door hen als bestand wordt opgeslagen is nl. niet exact hetzelfde bestand, vandaar dat de hashcode niet wordt berekend over het e-mail bestand zelf zoals bij exacte duplicaten, maar over de inhoud en de eigenschappen van de e-mail.


Hoe herken je bijna-exacte duplicaten?

Voor het herkennen van bijna-exacte duplicaten zijn er ook verschillende methodes beschikbaar. Zonder al te veel op de techniek in te gaan zijn er methodes die gebruik maken van hash methodes waarbij vergelijkingen worden gemaakt tussen documenten en onderdelen van documenten. Daar komt dan een score uit, een bekende methode is Simhash. Daarnaast wordt ook gebruik van Shingling, waarbij verschillende tekenreeksen binnen documenten met elkaar worden vergeleken. Beide technieken zijn kostbaar qua rekentijd. Alternatief is het gebruik van een “Inverted Index” waarbij bepaalde karakteristieken van een document worden gebruikt om bijna-exacte documenten te vinden.


Gebruik van duplicaat informatie

Minder werk

Belangrijk bij het afhandelen van Wob-verzoeken is de snelheid waarmee een verzoek kan worden afgehandeld. Het herkennen en beoordelen van duplicaten kost extra tijd en is daardoor niet efficiënt. Door van te voren duplicaten uit de “te beoordelen” set van documenten te laten, wordt onnodig extra werk voorkomen.

 

Extra uitdaging hierbij is het herkennen van duplicaten die als “los document” zijn toegevoegd en duplicaten die als “e-mail bijlage” zijn toegevoegd. Het zijn duplicaten maar in een andere vorm, belangrijk om dit te signaleren en de juiste beslissing hierop te nemen.

 

Uiteraard is een registratie van duplicaten van belang voor de juridische verantwoording hiervan maar ook om te weten wie welke informatie had op welk tijdstip.


Minder opslag

Informatie over duplicaten kan ook worden gebruikt om de hoeveelheid opslag te verminderen, veel back-up en andere opslag systemen maken gebruik van de hash codes om slechts één uniek exemplaar van een bestand of document vast te leggen.


Snellere verwerking

Indien documenten een extra bewerking nodig hebben voordat deze geschikt zijn om te beoordelen en te doorzoeken zoals bijvoorbeeld tekst herkenning op niet-doorzoekbare PDF documenten is het efficiënt om dit proces niet dubbel uit te voeren voor identieke documenten. Het resultaat van het eerst verwerkte document kan direct worden gebruikt voor duplicaten, waardoor extra kostbare verwerkingstijd wordt voorkomen.


Filteren van bekende informatie

Hashcodes kunnen ook worden gebruikt voor het detecteren van reeds bekende documenten en bestanden. Indien er bestanden zijn die geen waarde hebben voor het afhandelen van een Wob-verzoek zoals systeembestanden of plaatjes dan kunnen deze direct al uit de data set worden gefilterd. Zo heeft het National Institute of Standards and Technology een lijst met hashcodes van alle bekende bestanden (Microsoft Windows programma bestanden ed.) gepubliceerd, de National Software Reference Library. Met deze lijst kan je vervolgens alle reeds bekende bestanden uit je data set halen en zo voorkomen dat deze terechtkomen in je data set die je wilt beoordelen.

 

Afbeelding

Reacties: 1

U moet ingelogd zijn om een reactie te kunnen plaatsen.

Rienk Jonker
Wat punten:



Niet alles wat dubbel lijkt is dubbel.

- https://labyrinth.rienkjonker.nl/content/dubbel- …



Ter voorkoming van het bewaren van te veel dubbelen kan de (oude) methode van afstemmen worden gebruikt (niets nieuws onder de zon).

- https://labyrinth.rienkjonker.nl/content/afstemm …



En om goed te kunnen afstemmen is bij de inrichting van een informatiesysteem een impact assessment uit te voeren waarmee ook de gegevens- en documentstromen in kaart gebracht kunnen worden en bepaald kan worden wat het bewaarniveau is (afstemmen).

- https://labyrinth.rienkjonker.nl/content/beslisb …



Samenvattend niet de systemen, de techniek, de individuele documenten staan bij de beoordelingen centraal maar de context (proces, project of activiteit) en de bij die context horende gegevens en documenten. Een archief is geen documentenbibliotheek.

- https://labyrinth.rienkjonker.nl/content/verschi …



Bij de behandeling van een wobverzoek (zaak) kan natuurlijk wel op documentniveau bekeken worden of er geen dubbelen meegaan. Maar door het versturen van individuele documenten zonder context gaan voor de verzoeker veel interpretatiemogelijkheden verloren.
Uw emailadres wordt enkel gebruikt om mogelijk contact met u op te nemen naar aanleiding van uw bericht en is enkel zichtbaar voor de redactie.