digitaal / Partnerbijdrage

Verdrinken in een datalake

Verdrinken in een datalake. Waarom dataspecialisten en architecten elkaar beter moeten vinden om ongelukken te voorkomen. Wie neemt de regie?

26 oktober 2021

Waarom dataspecialisten en architecten elkaar beter moeten vinden om ongelukken te voorkomen. 

Data krijgt een steeds belangrijkere plek in de informatievoorziening van organisaties. Onder impuls van het streven naar datagedreven werken, formuleren organisaties fikse ambities en worden initiatieven opgestart om data-sciencetoepassingen en specialistische voorzieningen (zoals een datalake) in te richten. Veel energie en beweging. Maar wie neemt de regie? De specifieke kennis van dataspecialisten én de brede blik van architecten op de werking en kwaliteit van de informatievoorziening als geheel zijn allebei nodig. Nog te weinig organisaties besteden expliciet aandacht aan het samenbrengen van beide werelden. Gevolg is dat veel data-initiatieven blijven hangen in de experimenteerfase en dat implementatie en inproductiename achterblijven. Ook is het risico groot dat datavoorzieningen niet aan de hoge verwachtingen zullen voldoen.

 

 

Vroeger

Vroeger, toen het nog ging over een datawarehouse en management- of stuurrapportages, was data bijna letterlijk een randgebied in het applicatielandschap. Met eigen specialisten, die in relatieve afzondering hun eigen stukje informatievoorziening konden vormgeven. Data werd afgetapt uit allerlei applicaties die zelf gericht waren op directe, operationele ondersteuning van de bedrijfsprocessen. Wel even oppassen dat dat niet die applicaties onderuit trok, maar verder: zie maar. De opzet en technologie van het datawarehouse? En van de rapportages en geavanceerde toepassingen? Interessant en belangrijk, maar niet van invloed op de rest van de informatievoorziening en grotendeels buiten het blikveld van (enterprise) architectuur. Andersom hoefden dataspecialisten zich niet al te druk te maken over allerlei zaken die in de operationele informatievoorziening van cruciaal belang zijn, zoals de beschikbaarheid, tijdigheid of performance.

In veel organisaties zijn dan ook twee verschillende communities te herkennen, met een eigen taal. Enerzijds de architectuurcommunity, met aandacht voor het landschap als geheel en gefocust op de kwaliteit van dat geheel. Data is gewoon één van de te beschouwen perspectieven – en dan nog meestal met een nadruk op gegevensuitwisseling tussen applicaties. Een architectuurmethode als Togaf beschouwt data-architectuur dan ook als één van de architectuurtypes. Anderzijds is er datacommunity, specifiek gericht op data en specifieke datatoepassingen zoals het datawarehouse, rapportages en, recenter, data science en AI. Een datamanagementmodel als DMBOK besteed aandacht aan data-architectuur, maar zonder expliciet de relatie leggen naar de informatievoorziening als geheel.

Kortom: twee communities, twee modellen en twee keer data-architectuur – maar weinig of geen samenhang. En soms maakt een strikte scheiding tussen verschillende domeinen (zoals tussen zorg en onderzoek, met eigen architecten en dataspecialisten) de situatie zelfs nog complexer.

Midden in de informatievoorziening

Inmiddels is data niet langer een randgebied. Voor de AVG maakt het niet zoveel uit of data nu in operationele systemen of in rapportages gebruikt wordt: er zijn organisatie-brede afspraken en voorzieningen nodig voor het vastleggen van zaken als toestemming, autorisatie en logging van gebruik. Maar wellicht nog meer impact heeft het feit dat de ambities van datagedreven werken veel verder gaan dan de traditionele en dagelijks ververste management- en stuurrapportages. Wat nu als applicaties de resultaten van data science of AI-toepassingen gaan gebruiken bij de afhandeling van operationele processen? Als er dus een “route terug” moet gaan ontstaan van het randgebied naar het hart van het applicatielandschap? En dan zijn er ook nog organisaties die hun nieuw ingerichte datalake willen gaan gebruiken als een centraal data-ontkoppelpunt waar álle applicaties uit het landschap, liefst real-time, hun gegevens vandaan kunnen halen. 

Dan komen data en datagerelateerde voorzieningen dus midden in de informatievoorziening te staan. De vraag is wie ervoor gaat zorgen dat de transitie die hiervoor nodig is goed en beheerst plaats gaat vinden – en dat alle nieuwe technologie en toepassingen de ambities waar gaan maken. Wie gaat ervoor zorgen dat we niet verdrinken in ons nieuwe datalake?

Dataspecialisten noch architecten

Dataspecialisten, vaak de drijvende kracht achter alle nieuwe initiatieven, lijken zich nog niet altijd goed te beseffen dat in de rest van de informatievoorziening andere eisen gelden dan ze gewend waren voor hun eigen datarandgebied. Hoe moet een datalake werken in de context van hoog beschikbare, transactieverwerkende systemen? Hoe verhoudt een data-ontkoppelpunt zich ten opzichte van integratietechnologieën zoals een ESB? Wat vraagt het om een op de laptop van een data scientist ontwikkeld R-model door de afdeling beheer als applicatie in productie te laten nemen? Hoe passen de eigen opslagtechnologieën binnen de infrastructuurkeuzes van de organisatie? 

Architecten van de andere kant, hebben zich altijd een beetje afzijdig gehouden van datatechnologie. En moeten nu dus ineens mening hebben over hoe deze nieuwe toepassingen een centralere plek in het applicatielandschap moeten krijgen. En dat is niet gemakkelijk met al die zeer specialistische datatechnologie die zich heel snel ontwikkelt en zich nog niet altijd bewezen heeft buiten het datadomein.

Beide perspectieven zijn nodig

Beide perspectieven zijn nodig: de specialistische datakennis én de brede blik op de werking en kwaliteit van de informatievoorziening als geheel. Nog maar weinig organisaties besteden echter expliciet aandacht aan het samenbrengen van beide werelden. Gevolg is dat veel data-initiatieven blijven hangen in de experimenteerfase en dat implementatie en inproductiename achterblijven. Ook is het risico groot dat voorzieningen zoals een datalake niet aan de hoge verwachtingen zullen voldoen.

Meer dan het datameer

De stap naar meer datagedreven werken vraagt dus meer dan het realiseren van voorzieningen zoals een datalake. Organisaties zullen actief werk moeten gaan maken van het bij elkaar brengen van de tot nu toe twee relatief gescheiden werelden van architectuur en data. Wat soms zelfs bewust apart georganiseerd is, bijvoorbeeld om innovatiekracht te bevorderen, moet nu juist weer op allerlei vlakken onderdeel gemaakt worden van één en dezelfde informatievoorziening.

Dat raakt aan het datamanagementvraagstuk – hoe maken we van data een beheerst en waardevol bedrijfsmiddel – maar is niet hetzelfde. Eerst en vooral is nodig dat architecten en dataspecialisten samen zich een beeld vormen van wat datagedreven werken betekent voor de organisatie, hoe de totale informatievoorziening die hiervoor nodig is er uit zou moeten zien én in welke realistische stappen het huidige landschap zich in die richting kan ontwikkelen. Een data-architectuur zeg maar, maar dan wel graag over de grenzen van de huidige hokjes heen. 


Rondetafeldiscussie - Data als centraal onderdeel van de informatiearchitectuur?
Op woensdag 3 november organiseert M&I/Partners van 16:00 uur tot 18:00 uur de rondetafeldiscussie 'Data als centraal onderdeel van de informatiearchitectuur?'. Met data-verantwoordelijken en data-architecten van verschillende organisaties gaan we in gesprek over de veranderende rol van data en data-architectuur en wisselen we ervaringen uit over hoe ze omgaan met die veranderende rol en de bijbehorende uitdagingen. Ook zin om deel te nemen aan de discussie? Meld je dan hier aan.


 

Plaats als eerste een reactie

U moet ingelogd zijn om een reactie te kunnen plaatsen.