Advertentie
digitaal / Nieuws

Voorspellen blijft lastig, ook met big data

De boodschap van econoom Louis Raes is eenvoudig: 'Als je dan toch in beleid een computerprogramma wil gebruiken, kies dan liever een simpel model, wat je bij wijze van spreken in Excel kunt zetten. Eenvoudige modellen zijn in de praktijk ongeveer net zo goed als zogenoemde black box modellen.'

03 april 2020
Algoritmes-shutterstock-650654335.jpg

Een ontnuchterende conclusie voor economen én beleidsmakers die grote verwachtingen hebben van complexe algoritmes en big data: als het gaat om het voorspellen van menselijk gedrag, heeft het verwerken van enorme bergen data weinig aantoonbaar nut. 'Kies liever voor een simpel model', is het advies van econoom Louis Raes aan beleidsmakers.

Underwhelming
Het onderzoek leek alle vakjes af te vinken: big data, machine learning en mogelijk maatschappelijk relevante uitkomsten. Maar de resultaten van het grootschalige onderzoek opgezet door Princeton University waren ronduit underwhelming, aldus econoom Louis Raes. 160 internationale teams van wetenschappers gebruikten allerlei verschillende methoden om zes belangrijke sociale parameters – zoals schoolprestaties en kans op armoede – van kinderen in kwetsbare gezinnen te voorspellen. Ze kregen ‘geweldig veel data’, vertelt Reas, maar toch deed geen van hen overtuigende voorspellingen.

Optimisme
Louis Raes, universitair docent aan Tilburg University, deed zelf ook een poging in de voorspel-wedstrijd. Hij is verbaasd over de teleurstellende resultaten: 'Ik denk dat er een soort van optimisme was over wat we allemaal kunnen met data, maar er is een hele reeks contexten waarin we nu ontdekken: soms werkt het niet. Menselijke uitkomsten blijken, ondanks het feit dat er enorm veel data beschikbaar is, niet zo goed te voorspellen.'

Black box
De conclusies van het onderzoek bieden een belangrijk nieuw argument voor de discussie over voorspellende algoritmes in het openbaar bestuur, zoals fraudedetector SyRI. Het Systeem Risico Indicatie werd onlangs teruggefloten door de rechter maar werd in zeker een stuk of acht gemeenten al gebruikt om voorspellingen te maken over welke huishoudens bijstandsfraude zouden kunnen plegen. SyRI wordt een 'black box' genoemd, een complex algoritme waarbij het niet transparant is hoe de input van data tot output leidt.

Ander argument
In de discussie over algoritmen zoals SyRI is bescherming van privacy een veelgehoord argument. Dat was dan ook een belangrijke overweging in het oordeel van de rechter om SyRI te verbieden. Maar econoom Louis Raes benadrukt op basis van het Princeton-onderzoek een heel ander argument: zulke algoritmen werken gewoon niet goed. En inderdaad, ook SyRI heeft in de praktijk nog geen enkele fraudeur opgespoord, schreef de Volkskrant.

Simpeler
In het onderzoek waaraan Raes meewerkte, hadden wetenschappers toegang tot data over maar liefst 12.942 variabelen die inzicht gaven in allerlei aspecten van het leven van 4.242 gezinnen, van gezondheid tot schoolprestaties tot familiebanden. Ook SyRI heeft toegang tot zo ongeveer alle mogelijke persoonsgegevens. Toch bleek uit het onderzoek dat een veel simpeler algoritme met slechts vier variabelen de uitkomsten bijna net zo goed en soms zelfs beter wist te voorspellen dan de 160 teams die veel meer geavanceerde technologie gebruikten.

‘Het moet uit te leggen zijn’
De boodschap van Raes is dus eenvoudig: 'Als je dan toch in beleid een computerprogramma wil gebruiken, kies dan liever een simpel model, wat je bij wijze van spreken in Excel kunt zetten. Eenvoudige modellen zijn in de praktijk ongeveer net zo goed als zogenoemde black box modellen. En dan kun je er ten minste een redelijk debat over voeren.' Het maakt het systeem dus ook beter controleerbaar: 'Ik denk dat een beleidsmaker meteen moet kunnen zien hoe de beslissingsregel in elkaar zit. Het mag een klein beetje moeilijk zijn, het hoeft geen Jip en Janneke-niveau te zijn, maar het moet uit te leggen zijn.'

Rare wezens
In andere contexten kunnen die complexe algoritmen overigens wel werken, voegt Raes toe. Netflix gebruikt bijvoorbeeld zo'n systeem om gebruikers films en series aan te raden. Maar als het om menselijk gedrag gaat, blijkt voorspellen toch lastig, zelfs met behulp van big data. 'We blijven rare wezens hè?' concludeert Raes.

Reacties: 1

U moet ingelogd zijn om een reactie te kunnen plaatsen.

Thomas Dolman / Adviseur data en digitalisering
Leuk artikel.

Ook ik las met grote verbazing het stuk van Raes. In het artikel toont men aan dat een simpel lineair regressie model het beste werkt in dit geval. Het is natuurlijk ook een van de complexere problemen die men hier poogt te voorspellen. Het is daarom goed om te kijken per vraagstuk of een algoritmische aanpak meerwaarde bied. Ik ben benieuwd of andere domeinen ook deze "onvoorspelbaarheid" laten zien.

Advertentie