Gesloten schat
De laatste jaren worden steeds meer data voor onderzoekers beschikbaar gesteld, merkte Anneke Zuiderwijk. Zelf promoveerde ze op haar onderzoek naar open data infrastructuren aan de Technische Universiteit Delft. De beschikbaar gestelde data betreffen bijvoorbeeld gegevens over criminaliteit, ruimte en milieu, en werkgelegenheid. Door hergebruik van deze gegevens, data-analyse, en door datasets aan elkaar te koppelen kunnen er belangrijke nieuwe inzichten ontstaan.
De verwachtingen rond open data zijn torenhoog, de resultaten stellen teleur. Onderzoeker Anneke Zuiderwijk merkt dat de overheid zich beperkt tot het openstellen van informatie, maar er zelf niets mee doet. Een nieuwe infrastructuur moet de trend keren.
De laatste jaren worden steeds meer data voor onderzoekers beschikbaar gesteld, merkte Anneke Zuiderwijk. Zelf promoveerde ze op haar onderzoek naar open data infrastructuren aan de Technische Universiteit Delft. De beschikbaar gestelde data betreffen bijvoorbeeld gegevens over criminaliteit, ruimte en milieu, en werkgelegenheid. Door hergebruik van deze gegevens, data-analyse, en door datasets aan elkaar te koppelen kunnen er belangrijke nieuwe inzichten ontstaan.
‘Slachtoffers van criminaliteit kunnen we bijvoorbeeld koppelen aan bepaalde sociale of ruimtelijke kenmerken van hun buurt’, zegt Zuiderwijk. ‘Zo kun je op buurtniveau voor bepaalde bewonersgroepen preventiestrategieën voor criminaliteit opstellen.’
Maar tot op heden worden de mogelijkheden voor onderzoekers niet optimaal benut, vindt Zuiderwijk. ‘Ik heb het idee dat de overheid zich vooral richt op het beschikbaar maken van de data, maar zich minder verdiept in het gebruik ervan. Er wordt verwacht dat open data miljarden euro’s kunnen opleveren, maar de realiteit is vaak teleurstellend. Neem de website data.overheid.nl, waar overheden hun data vrijgeven. Deze website richt zich vooral op het vindbaar maken van open datasets door middel van verschillende zoekmogelijkheden, maar het is niet mogelijk om de data ter plekke te gebruiken. Een gebruiker moet de data eigenhandig downloaden en zelf de tools en kennis hebben om de data te analyseren. Er is vaak sprake van verschillende typen bestanden, wat combineren lastig maakt.’
Door de uiteenlopende bestanden ontstaan problemen om data samen te voegen of om ze met dezelfde tool te hergebruiken. Zuiderwijk: ‘Deze fragmentatie is bij het gebruik van open data nog een groot probleem. Een goede infrastructuur, die een helder overzicht geeft van beschikbare data en tools, zou dit kunnen oplossen. Daarbij moet je denken aan een website waarop de gebruiker met de data en de tools aan de slag kan. Waar ook interactie en samenwerking mogelijk is tussen aanbieders en gebruikers van de data en ze van elkaar kunnen leren door informatie uit te wisselen via fora, wiki’s en tutorials.’
Casestudies
Om de eisen voor zo’n infrastructuur te bepalen, ging Zuiderwijk aan de slag met casestudies. Ze onderzocht het gebruik van juridische data van het Wetenschappelijk Onderzoek- en Documentatiecentrum (WODC) en sociale data van het Sociaal en Cultureel Planbureau. Deze werden beschikbaar gesteld aan onderzoekers via Data Archiving and Networked Services (DANS). Vanuit de casestudy werden vervolgens functionele eisen voor de infrastructuur opgesteld die data beter toepasbaar maken. Zo konden de voordelen van open data beter worden benut.
Zuiderwijk: ‘Onderzoekers zijn afhankelijk van de datasets, maar ook van de tools om ze te kunnen analyseren, visualiseren en er zinnige dingen over te kunnen zeggen. Er is interactie nodig met de openstellers van de data en meer samenwerking tussen gebruikers. Kortom, een infrastructuur die het gebruik van open data coördineert.’
In samenwerking met een aantal internationale partners – waaronder de Nationale Technische Universiteit van Athene, de Science and Technology Facilities Council, euroCRIS, Microsoft en IBM – werkte Zuiderwijk een design uit voor de infrastructuur. Een van de componenten is een innovatief meta data-model dat de datasets een uitgebreidere beschrijving geeft.
Zuiderwijk: ‘Nu wordt er vaak per dataset wel benoemd om welk onderwerp het gaat en welke organisatie de data levert, maar niet via welke methode de data precies zijn verzameld en in welke context de data tot stand zijn gekomen.’
Cruciaal
Voor wetenschappers zijn die meta data vaak cruciaal. ‘Onderzoekers willen weten in hoeverre ze de data kunnen gebruiken voor een ander doel dan waarvoor ze verzameld zijn. Zijn de data wel compleet en accuraat? Hoe zijn ze verkregen? Op welke periode en op welk gebied is de informatie van toepassing? Nu kunnen onderzoekers er vaak moeilijk achter komen of de data wel geschikt zijn voor hun onderzoek.’
Ook interactiemechanismen kunnen helpen bij het gebruik van open data. ‘Dat is zeker voor onderzoekers interessant. Met interactiemogelijkheden rondom de data kunnen ze samenwerken, discussiëren en feedback geven op de data en op het gebruik ervan. Een reactiesysteem bij de datasets is van toegevoegde waarde. Zo kun je vóór je aan de slag gaat al zien voor welke doeleinden anderen de data hebben gebruikt en hoe zij de kwaliteit beoordelen.’
Voor data-aanbieders, beleidsmakers en bestuurders is dat ook belangrijk, stelt Zuiderwijk. ‘Aan de reacties kunnen zij zien of hun data worden gebruikt en voor welke doelen. Daardoor wordt duidelijk of het publiceren van de data ook de moeite waard is.’
Een interactiesysteem kan gebruikers faciliteren om in contact te komen met bronhouders. ‘Zo kunnen ze bijvoorbeeld een verzoek doen om de data aan te vullen met andere elementen.’ Interactie is volgens Zuiderwijk ook interessant omdat onderzoekers ermee kunnen aangeven wat de resultaten van hun datagebruik zijn. ‘Het toevoegen van resultaten, zoals visualisaties en analyses, geeft andere onderzoekers meer inzicht en neemt hen wellicht werk uit handen.’
Kwaliteit
Ook kwaliteitsindicatoren mogen volgens Zuiderwijk niet ontbreken bij de infrastructuur voor open data. Kwaliteit kan per doelgroep een andere betekenis hebben. Zo letten app-ontwikkelaars op andere zaken dan onderzoekers of bestuurders. ‘In de infrastructuur moet de kwaliteit op meerdere vlakken worden getoetst. Bij iedere dataset kan een beoordeling komen van hoe accuraat, actueel, en compleet de set is; voor welke doeleinden de data eerder gebruikt zijn en in welke context. Dat is belangrijk, want verschillende datagebruikers hebben verschillende doelen en eisen.’
De ontwikkelde infrastructuur blijkt daadwerkelijk van toegevoegde waarde te zijn, zo wees de evaluatie met 127 studenten en professionals uit. Hiervoor ging een deel van de groep aan de slag met de ontwikkelde infrastructuur; het andere deel deed dat zonder. De deelnemers moesten onder meer de data visualiseren en een analyse maken van de kwaliteit.
Uit de evaluatie bleek dat de opdrachten met behulp van de ontwikkelde infrastructuur als eenvoudiger werden beoordeeld, al was het verschil volgens Zuiderwijk niet bij iedere taak even groot. Een ander aandachtspunt: ‘Omdat iedereen zijn informatie en tools op zo’n infrastructuur kan plaatsen, kunnen data op een verkeerde manier worden gebruikt of verkeerde inzichten opleveren. We moeten nadenken of een modererende rol noodzakelijk is. En of we data-aanbieders en gebruikers verder kunnen stimuleren om actief in de infrastructuur te participeren. Vervolgonderzoek is daarom vereist.’
Zuiderwijk hoopt dat naast de nationale overheid ook gemeenten kansen zien in de infrastructuur. ‘Ze missen vaak geld en kennis om meer met open data te doen, behalve ze open te stellen. De vier grote steden zijn goed op weg, toch ligt ook daar de nadruk nog vooral op het openstellen. Door de elementen uit de ontwikkelde infrastructuur te implementeren wordt de data beter bruikbaar voor onderzoekers. Ook ministeries, de nationale overheid en andere overheidsorganisaties kunnen elementen van de infrastructuur implementeren en hiermee het gebruik van open data stimuleren.’
Open raadsinformatie
De gemeenten Amstelveen, Den Helder, Heerde, Oude IJsselstreek en Utrecht hebben als eerste gemeenten in Nederland raadsinformatie vrijgeven als open data via de Open State Foundation. De informatie wordt aangeboden op de website Openraadsinformatie.nl.
Open State Foundation ontwikkelde een zoekmachine waarmee er op openraadsinformatie.nl kan worden gebladerd door de vrijgegeven informatie. ‘Je kunt als inwoner, raadslid of journalist rustig analyseren wat er wordt gezegd in de raad over bepaalde onderwerpen’, vertelt projectleider Tom Kunzler. ‘Wie wil weten waarom er in de raad kritiek is op de bouw van een sporthal kan dat nu in een paar muisklikken vinden.’
Plaats als eerste een reactie
U moet ingelogd zijn om een reactie te kunnen plaatsen.