Advertentie
digitaal / Achtergrond

De dubieuze bewijzen van big data

Op steeds grotere schaal zetten gemeenten big data in als basis voor besluitvorming. Maar die informatie is vaak allesbehalve neutraal, stellen onderzoeker Mirko Tobias Schäfer en Kamerlid Kees Verhoeven (D66). ‘Bestuurders letten vooral op de wetgeving, niet op de ethiek. Dat moet anders.’

24 maart 2017

Hoe ‘feiten’ leiden tot foute conclusies

Snel checken welke gebouwen er in een gemeente leegstaan? Een dataanalist maakt in een handomdraai een visualisatie van de panden en het aantal bewoners. Bestuurders kunnen vervolgens beargumenteerd de beslissing nemen welke gedeelten in de wijk kunnen worden gerenoveerd dan wel door gebrek aan perspectief moeten worden gesloopt. Het klinkt goed. Maar door wat te schuiven met de x- en y-as in de grafiek had ook een heel andere conclusie kunnen ontstaan. Met ingrijpende consequenties voor de woonsituatie van misschien wel duizenden mensen.

De invloed die data-analisten kunnen uitoefenen op beslissingen van bestuurders is groot, stelt Mirko Tobias Schäfer. Misschien wel te groot. ‘Al ben ik me uiteraard bewust van het feit dat het werk van een data-analist alleen uit informeren bestaat en dat het andereen zijn die uiteindelijk de beslissingen moeten nemen.’

Schäfer is projectleider van Utrecht Data School en docent-onderzoeker aan de Universiteit Utrecht. Hij houdt zich bezig met ethiek rondom data-analyse. Op zich vindt hij het goed dat ‘beslissingen op basis van verifieerbare feiten’ worden genomen. Maar tegelijk ziet Schäfer dat er door bestuurders geregeld misbruik wordt gemaakt van de schijnbare objectiviteit die een datavisualisatie biedt.

Sleepwet
Schäfer haalt een op Rijksoverheid.nl gepubliceerde infographic aan over de inmiddels aangenomen ‘sleepwet’. De wet geeft de AIVD meer middelen om burgers online in de gaten te houden. In de infographic werd een verband gelegd tussen technologische ontwikkelingen en het aantal aanslagen. De makers suggereren dat het aantal aanslagen is toegenomen sinds de komst van YouTube, Facebook en een online game als World of Warcraft. Schäfer: ‘Dat zijn zogenaamde spurious correlations. Er wordt een causaal verband tussen dingen gesuggereerd die niets met elkaar te maken hebben. Als je in de visualisatie ook de jaren vóór 1996 meeneemt, dan zie je dat de dreiging van aanslagen in de westerse landen juist sterk is afgenomen. En heeft World of Warcraft überhaupt iets met aanslagen te maken? Dat lijkt mij onzin. Enige uitleg wordt in deze infographic dan ook vermeden. Maar het verhaal illustreert hoe je met een visualisa-tie van data ineens ‘bewijzen’ kan creëren om het publiek te beïnvloeden.’

‘Liegen’ met data gebeurt niet altijd bewust. Kamerlid Kees Verhoeven (D66), IT-politicus van het jaar 2016, waarschuwt het kabinet al langer voor het gevaar van onterechte conclusies. ‘We zijn allemaal mensen en ieder mens is weer een samenstelling uit kenmerken die je kunt omzetten in data’, stelt Verhoeven. ‘We wonen ergens, we hebben bepaalde hobby’s, we hebben een baan, een inkomen en een achtergrond. Als we datasets bouwen, verzamelen we niet de mensen maar altijd een beperkt deel van deze kenmerken. Een dataset is daardoor altijd selectief en een versimpeling van een persoon.’

Een combinatie van dergelijke datastromen kan ineens een onschuldig persoon verdacht maken. ‘Iemand heeft volgens de data-analyse geen recht op een uitkering, of hij mag niet in een woning. Maar data van burgers kunnen verouderd zijn. Ook een algoritme of bewerkingsmethode van de data kan de werkelijkheid geweld aandoen. En tot slot is er soms ook nog een commerciële prikkel aan verbonden om bepaalde uitkomsten daadwerkelijk te laten plaatsvinden.’

Commerciële bedrijven
Overheden en vastgoedbedrijven schakelen volgens Verhoeven vaak commerciële bedrijven in om data-analyse uit te voeren. Ook in de woonsector gebeurt dit geregeld. Data-analisten bekijken het verleden van potentiële huurders en melden aan de verhuurder of deze mensen overlast veroorzaken of misschien wanbetalers zijn. Verhoeven: ‘Een marktpartij wil zichzelf natuurlijk een belangrijke rol geven voor de klant. Dat kan alleen met resultaten. Er moet zo nu en dan dus iemand in de categorie overlastveroorzakers worden geplaatst. Dan kan zo’n commercieel bedrijf uitleggen dat er door hun data nu geen overlast meer wordt veroorzaakt. Maar dit gaat over de rug van mensen die misschien wel helemaal geen overlast veroorzaken.’

Een ander voorbeeld van commerciële belangen achter data verzamelen zijn verzekeraars die het risico op schade willen inperken. Verhoeven: ‘Slecht gedrag zoals roken, te hard rijden en ongezond eten kun je laten bijhouden om je polis te verlagen. Maar zoiets wordt altijd ingevlogen vanuit het belang van de verzekeraar. ‘Brave’ mensen kunnen een lagere polis
krijgen, maar ze betalen in feite met hun privacy.’

Data kunnen bestuurders bespelen en op het verkeerde been zetten, met verkeerde beslissingen als gevolg. Een grote valkuil is dat de informatie voor waarheid wordt aangenomen. Hoe dit op tragische wijze mis kan gaan, werd duidelijk uit het lot van asielzoeker Alexander Dolmatov, een activist uit Rusland die vreesde vervolgd te worden voor landverraad. Hij pleegde uiteindelijk in zijn Nederlandse terugkeercel zelfmoord.

Uit onderzoek bleek achteraf dat Dolmatov behoorde tot een groep vluchtelingen bij wie in het dossier een ‘verkeerd vinkje’ stond aangekruist, waardoor hij uitzetbaar werd. Dolmatov is een voorbeeld van hoe een gebrek aan bewustzijn van bestuurders en ambtenaren kan leiden tot desastreuze gevolgen voor een individu. Schäfer: ‘Een gezonde twijfel aan de juistheid van informatie is essentieel in dit big data-tijdperk.’

Onthutsend verhaal
Neem de Amerikaanse praktijk, waarbij door rechters bij de vervolging van misdaad soms volledig wordt vertrouwd op data-analyse. ProPublica, een Amerikaanse website voor onderzoeksjournalistiek, schetst in het artikel Machine Bias een onthutsend beeld: de ‘criminal risk score’ (de kans dat iemand in de toekomst wéér de fout ingaat) wordt berekend door discriminerende software. De criminal risk score valt voor Amerikanen met een donkere huidskleur daardoor een stuk hoger uit, zo ondervond ProPublica. En een hoog risico op herhaling van misdaad betekent in Amerika doorgaans hogere straffen.

Ter illustratie gebruikt ProPublica een voorbeeld van een donker tienermeisje zonder strafblad. Zij nam zonder toestemming een fiets ter waarde van ongeveer 80 euro mee, naar eigen zeggen omdat ze haast had. Dit werd door de rechter beoordeeld als diefstal en de kans op herhaling was volgens het systeem daarbij ‘groot’. Tegelijkertijd maakte een 41-jarige blanke man met diverse zware misdrijven op zijn naam zich schuldig aan winkeldiefstal van spullen met in totaal nagenoeg dezelfde waarde. Hij kreeg in de toets opmerkelijk genoeg een ‘laag risico op herhaling’.

Het systeem maakt gebruik van een vragenformulier met 137 stellingen en vragen. De score is grotendeels afhankelijk van de directe sociale omgeving van de veroordeelde. Er wordt gelet op voor misdaad bestrafte ouders, deelname aan vechtpartijen vroeger op school, drugsgebruik in de directe sociale omgeving en stellingen als: ‘iemand die honger heeft mag stelen’. Zwarte Amerikanen scoren op deze vragen hoger, waardoor het risico op herhaling stijgt, beschrijft ProPublica. Het systeem werkt discriminatie in de hand.

Bewustzijn
Er moet meer bewustzijn bij de overheid komen rondom het werken met data, vindt Schäfer. ‘Bestuurders maken zich bij hun data-toepassingen vooral druk over de vraag of ze wel aan de wetgeving voldoen. Bijna altijd gaat dat alleen over privacy en maar zelden over de complexe problemen erachter die de technologie kan creëren.’

Naïef modernisme, noemt Schäfer dat. ‘We zijn snel enthousiast over de mogelijkheden van nieuwe technologie. Dat we alles langs een juridische meetlat leggen is goed, maar wetgeving verandert. De technologie en ons gebruik ervan veranderen veel sneller dan de wet. Let ook op normen en waarden, op ethische kwesties waar nu nog geen wettelijke regels voor bestaan.’ Schäfer ontwikkelde met de Utrecht Data School de zogenaamde Data Ethics Decision Aid (DEDA). ‘Het is een proces dat gebruikmaakt van kritische reflectie door de leden van een data-analyseteam een aantal vragen over hun project te laten beantwoorden. Op die manier komen veel van de ethische knelpunten boven tafel die anders over het hoofd worden gezien. Ambtenaren kunnen zo nadenken over essentiële zaken rondom data-projecten: wie de verantwoordelijkheid draagt en wat eventuele privacy-risico’s zijn. Maar ook voor het bepalen van de doelmatigheid van het data-verzamelen en de wijze waarop de data gevisualiseerd worden.’

Ook Kamerlid Verhoeven vindt dat er beter moet worden nagedacht over het gebruik van data. ‘Als je één keer de fout ingaat, draag je dat gegeven voor eeuwig met je mee. Iemand die als student een keer een paar schoenen niet op tijd heeft betaald, ondervindt daar door de verhuurdersscreening misschien de rest van zijn leven nadelen van. Onbeduidende zaken uit het verleden kunnen ervoor zorgen dat jij als een risico wordt gezien voor verzekeraars of verhuurders.’

Zo kan volgens Verhoeven een tweedeling in de samenleving ontstaan. De ‘slechte’ mensen kunnen onmogelijk nog bij de goede groep komen.

Honger naar data
Tegelijk ziet Verhoeven op steeds meer terreinen een honger naar data ontstaan. Bij het bestrijden van belastingfraude, maar ook bij verzekeraars die doktersgeheimen willen onderscheppen om de risico’s van hun klanten in kaart te krijgen. ‘Het is nu eenmaal minder sexy om de uitwisseling tussen inlichtingendiensten te verbeteren of de controles bij binnenkomende asielzoekers te verscherpen. De overheid grijpt liever naar data om misstanden te voorkomen.

Die neiging is te groot geworden: big data wordt gezien als oplossing voor alles. Maar meestal valt het resultaat van data-analyse tegen: er worden onterechte beschuldigingen gedaan en verkeerde conclusies getrokken.’ Verhoeven vindt dan ook dat beter moet worden nagedacht of het inzetten van data wel de beste oplossing is bij ‘problemen’. ‘Soms kan het, soms niet. Doe het dan ook gewoon niet. De overheid mag op dat punt wel wat terughoudender worden. Meer data-bescheidenheid graag.’

Plaats als eerste een reactie

U moet ingelogd zijn om een reactie te kunnen plaatsen.

Advertentie