Leestijd: 3 minuten

Veel sneller dan Gartner ooit had kunnen voorspellen is iedere Nederlander tijdens de pandemie van 2020 een Citizen datascientist geworden. Velen hebben een spreadsheet waarin na 14:00 en 16:00 de kentallen toegevoegd worden, even refreshen en voilà: de trends, relaties en voorspellingen worden in vele mooie grafieken op social media gedeeld. En als er al geen onderliggend model is, hebben we zeker wel een mening over de weg uit de lockdown (“ze moeten gewoon…”).

Grote verschillen in datavisualisatie

Als ik bij de professionele media kijk naar het design, dan is de conclusie dat Stephen Few – de guru van goed dashboard-design – tevreden kan zijn. In de kranten, bij de NOS en RTL zie ik veel goede grafieken. Weinig taarten en donuts, 3D-polygonen of lijnen waar het eigenlijk staven moeten zijn, en goede begeleidende disclaimers over de (missende) data. Chapeau!

Toch één dingetje dan: de X-as van de dagelijkse update gaat maar twee weken terug waardoor de – nu gelukkig – mate van afname minder goed is te zien: neem gewoon de hele historie mee.

Op social media echter, wemelt het van de goed bedoelde maar op alle vlakken foute visualisaties. Logschalen bijvoorbeeld, waarin men probeert zoveel mogelijk informatie naast elkaar te zetten om daar vervolgens theorieën mee te willen onderbouwen. Waar de professionele media laten zien dat ze de benodigde kennis beschikbaar hebben om met goede data fatsoenlijke visuals te maken, zie je op social media wat er gebeurt als je (eind)gebruikers hun gang laat gaan met data.

Naast een fatsoenlijke datavisualisatie heeft Analytics nog een aantal andere belangrijke facetten zoals goede, betrouwbare data, een doel(stelling) en duiding. Het transformeren van ruwe data tot bruikbare stuurinformatie (Business Intelligence dus) is een echt vak en dat blijkt ook nu maar weer.

Data

Het ontbreken van goede data wordt pijnlijk duidelijk als we landen met betrekking tot de coronacijfers onderling gaan vergelijken. Hier speelt niet alleen het probleem van de appels en peren, maar ook van appels en fruit. Hele groepen patiënten – die nooit het ziekenhuis halen – worden niet meegeteld, er wordt totaal verschillend getest, gaandeweg de tellingen worden de definities veranderd, etc.

Waarschijnlijk is het beter om regio’s dan landen (met totaal andere bevolkingsopbouw, reisgedrag, sociale gewoontes en oppervlakte) te vergelijken. Bovendien lijkt het tijdstip van het begin van de pandemie ook een belangrijke factor. Kortom: voordat we verder gaan, moeten we eerst alle data normaliseren en definities gelijktrekken.

Doel

Wat betreft het doel: wat meten we nu eigenlijk ? De mate van testen, het beschikbare aantal bedden op een IC, de verspreidingsgraad ? Wat we meten kan niet het doel zijn. Een van de doelen op social media lijkt te zijn om vast te stellen of we het ‘beter’ of ‘slechter’ doen dan andere landen.

Waarbij beter betekent minder doden per capita tot op heden. Goede Analytics richt zich veel meer op het geven van inzichten waarop geacteerd kan worden en die beïnvloedbaar zijn. Dat in een vergrijsde groep meer doden te betreuren zijn dan in een jonge groep is vooralsnog een onbeïnvloedbaar gegeven.

Duiding

Tot slot duiding: losse getallen zijn nog geen indicatoren en causaliteit is nog geen correlatie zoals we allemaal weten (lees dit blog van Future Facts voor hilarische voorbeelden). Het interpreteren van al deze cijfers in samenhang is met alle dataproblemen zeer lastig en veel analyses zijn met de beschikbare informatie (nog) helemaal niet te maken. Bijna alles is in een grafiek te plotten, maar niet alle grafieken zouden gemaakt moeten worden. Goede Analytics met juiste data is geen vanzelfsprekendheid.

In de komende periode gaat de regering werken met een dashboard; hier kan ik als BI-Consultant alleen maar blij mee zijn en ik hoop dat dit openbaar wordt. Net als in Frankrijk, oordeel zelf.


Update 5 juni 2020: https://coronadashboard.rijksoverheid.nl/