Leestijd: 4 minuten

Datagedrevenheid is een hot item. Datagedrevenheid maakt organisaties wendbaarder, door snel de juiste en betrouwbare inzichten te verschaffen waarop we beslissingen kunnen baseren. Die inzichten krijgen we onder andere met Business Intelligence (BI), Artificial Intelligence (AI) en Machine Learning (ML), en zijn (hopelijk) gebaseerd op een datafundament gevuld met betrouwbare data, waarvan we de betekenis, herkomst en toepasbaarheid goed kennen.

Tot zo ver natuurlijk geen geheim. De meeste voordelen van een datagedreven aanpak, gebaseerd op een goed datafundament, zijn duidelijk, vooral afgezet tegen het alternatief. Er zijn echter ook een paar grote voordelen die vaak onderbelicht blijven. Organisaties richten zich vooral op het communiceren van directe business benefits. De indirecte benefits worden een stuk minder vaak en minder expliciet gecommuniceerd. Dat is jammer, want er liggen echte goudschatten in het verschiet!

Het datafundament

Het efficiencygeheim waarover ik het wil hebben, komt voort uit het implementeren van het genoemde datafundament. Om nieuwe technieken en methoden zoals AI en ML effectief te kunnen inzetten, moeten we gebruik kunnen maken van betrouwbare data. Deze data moeten we goed kunnen interpreteren, zodat het zeker is dat we de juiste data gebruiken voor onze uitdaging. We willen tenslotte niet per ongeluk een subset, verouderde gegevens, of gemanipuleerde data gebruiken!

Verdwalen in je data-oerwoud

Stel dat we een schoenenwinkel zijn en we hebben verkoopcijfers nodig van onze verschillende soorten schoenen. Dan is het wel handig om te weten dat het datasetje waarop onze collega ons wijst alleen de verkoopcijfers van sportschoenen bevat, en dan alleen van het laatste kwartaal van vorig jaar, én dat daar retourzendingen in zijn verrekend. Hmm… dat is niet wat we nodig hadden.

Als we snel willen kunnen schakelen en dus snel over nieuwe informatie willen kunnen beschikken, moeten we van tevoren weten of de data die we gaan gebruiken klopt, en of het überhaupt de juiste data is. Het is tenslotte makkelijk verdwalen in je data-oerwoud. Als we dat niet weten, krijgen we namelijk precies wat er zo vaak gebeurt: we komen er pas achteraf – als het dashboard, beslismodel of rapport wordt opgeleverd, of nóg later – achter dat de cijfers niet kloppen en we dus niet kunnen vertrouwen op de getoonde informatie. Vervolgens moeten we uitzoeken waardoor dat komt, als we die stap al nemen. Misschien wordt het informatieproduct ook gewoon terzijde geschoven en niet gebruikt, waardoor alle ontwikkelinspanningen voor niets zijn geweest.

De datacatalogus biedt uitkomst

De data die we nodig hebben moeten we dus snel kunnen vinden, interpreteren en gebruiken. Deze randvoorwaarden vereisen een goede ‘databibliotheek’, voorzien van een correcte en rijke ‘catalogus’, zodat we eenvoudig en snel onze spullen kunnen vinden: het datafundament! De sleutel van een goed datafundament is de bijbehorende datacatalogus. Zie het als een ouderwetse bibliotheek met kaartenbak. Je weet dat de informatie aanwezig moet zijn, maar zonder die kaartenbak is het wel heel lastig de juiste informatie te vinden, en het kaf van het koren te scheiden.

Is de conclusie van dit blog dan: zorg dat je naast je fundament een goede datacatalogus hebt? Zeker! Dat is essentieel, anders kun je net zo goed geen datafundament bouwen. Maar het is slechts één conclusie, en nog steeds niet het beloofde efficiencygeheim.

Bijvangst (of hoofdvangst?) van de datacatalogus

Wat is dan wél dat grote geheim? Dat zit in de bijvangst. Alhoewel, naar mijn bescheiden mening, de bijvangst wel eens meer zou kunnen opleveren dan de hoofdvangst. Die bijvangst is de (potentiële) verbetering van je IT- of datahuishouding als je gebruik maakt van een datafundament inclusief datacatalogus. Dit zal ik uitleggen.

Bij het inrichten van een datacatalogus zou je bijvoorbeeld ook je informatieproducten (eigenlijk je data-eindproducten zoals dashboards, rapporten en modellen) willen vastleggen, categoriseren en catalogiseren. Hiermee krijg je grip op welke informatie je gebruikt voor je beslissingen, en welke informatie je verspreidt en deelt. Een mogelijke indeling die je daarbij kunt hanteren is:

  • Informatieproducten van hoge kwaliteit
  • Informatieproducten van lagere kwaliteit
  • Informatieproducten van onbekende kwaliteit

Bepaalde rapporten kunnen bijvoorbeeld gebaseerd zijn op data waarvan we continu de kwaliteit meten en monitoren, waarvan we weten wélke data gebruikt is (en welke niet) en hoe bepaalde zaken berekend zijn, terwijl we van andere rapporten eigenlijk niks weten.

Als je dan, door je datacatalogus, weet welke data en informatieproducten je kunt vertrouwen, en dat die data en informatieproducten ook nog eens goed vindbaar en interpreteerbaar zijn, en daarmee dus ook goed (her)bruikbaar… wat doe je dan met de rest?

Data als asset

En dat is dus het grote geheim. Het feit dat je datagedreven wordt, zorgt er logischerwijs voor dat je je data écht als een ‘asset’ gaat behandelen. En dat je je data (en de resultanten daarvan in de vorm van informatieproducten) dus goed kent en beheer(s)t – mede door middel van het ontwikkelen, en vooral gebruiken van je datacatalogus. En dát zorgt er ook meteen voor dat je erachter komt wat je allemaal aan twijfelachtige, onherleidbare, niet-interpreteerbare, eenmalige, bij elkaar gekluste, verouderde of niet-relevante data en informatieproducten hebt.

En dus…?

Door het vullen van je datacatalogus en het gebruiken ervan, maak je niet alleen inzichtelijk wat je allemaal aan goudklompjes hebt (die je dus niet nogmaals hoeft te ontwikkelen!), maar meteen óók wat je allemaal aan oude rommel hebt. En die oude rommel, die kun je nu heel gericht gaan aanpakken. Want hoeveel geld geef je eigenlijk uit aan het in stand houden, aanpassen, en soms zelfs doorbouwen op inmiddels ‘vervangen’ omgevingen?

Inzicht in de chaos

Het datagedreven worden zorgt dus, indirect maar wel ontegenzeggelijk, voor inzicht in de chaos van jarenlang ontwikkelen in een data-/systeemlandschap. Er is vaak decennialang software ontwikkeld, er zijn datawarehouses, dashboards en rapportageomgevingen gemaakt… Sommige zullen worden gebruikt, sommige minder, sommige niet meer. Sommige zullen correcte data bevatten, sommige niet. Er worden op meerdere plekken op meerdere manieren soortgelijke dingen gedaan, vaak zonder dat we goed weten wát.

Paar vraagjes tussendoor: Hoeveel datawarehouses zijn er in jouw organisatie? En hoeveel hebben die gekost? En waarin verschillen ze? En waarom was een nieuw datawarehouse nodig? En wat doe je in het laatste datawarehouse anders – en dan bedoel ik niet dat je het in de cloud plaatst?

Door het inzicht dat de datacatalogus verschaft, krijgen we eindelijk een helder beeld en kunnen we opruimen wat niet langer nodig is, dubbel is, onbekend, onbemind of ongebruikt is, of inmiddels is vervangen door iets beters in ons datafundament.

Maar er is ook nog een verdubbelaar!

Nu we dankzij onze datacatalogus heel goed weten én begrijpen wat we aan data en informatieproducten hebben, wat ze inhouden, en waar we dat alles voor (kunnen) gebruiken, stelt ons dat ook in staat te stoppen met in het wilde weg steeds méér data- en informatieproducten te ontwikkelen. Door de ontstane transparantie kunnen we veel eenvoudiger iets hergebruiken of een bestaand dashboard uitbreiden in plaats van vele uren of weken te besteden aan het opzetten van iets nieuws.

Dit is de andere kant van datagedreven zijn: efficiënter omgaan met je data- en IT-landschap. Je krijgt inzicht in wat je (nodig) hebt en kunt daardoor opruimen wat overbodig is, hergebruiken wat goed is, en voorkomen dat je iets bouwt wat al bestaat.

Het geheim is onthuld. Wanneer word jij datagedreven?