Meerdere verkiezingsuitslagen voorspellen met tweets lukt niet

Onderzoeker Eric Sanders had succes met een onderzoek dat claimde verkiezingsuitslagen te kunnen voorspellen door te bekijken hoe vaak er wordt getweet over politieke partijen. In zijn promotieonderzoek stelt hij echter dat een goed model voor meerdere van dergelijke voorspellingen niet te maken is.

Projectmanager Gebiedsontwikkeling

JS Consultancy

Projectmanager Gebiedsontwikkeling

Beleidsadviseur Mobiliteit

JS Consultancy

Beleidsadviseur Mobiliteit

Big data

Het leek zo mooi, begin jaren tien. Met behulp van ‘big data’ was alles te achterhalen, van zwangerschappen tot griepgolven tot seksuele voorkeuren. Rond die tijd verschenen ook de eerste wetenschappelijke artikelen die claimden dat verkiezingsuitslagen te voorspellen waren met behulp van Twitter. Eric Sanders, onderzoeker op het gebied van taal- en spraaktechnologie, nam in 2012 de proef op de som. Hij vergeleek de uitslagen van de Twee Kamerverkiezingen van 2012 met het aantal keren dat de landelijke politieke partijen in tweets werden genoemd. ‘Het resultaat was behoorlijk goed.’

Kritische tegengeluiden

Maar als iets te goed lijkt om waar te zijn, dan is het dat vaak ook. Al snel verschenen de eerste kritische tegengeluiden. Twitter is de samenleving niet; de verdeling van demografische gegevens is er anders dan in het verkiezingshokje. Bovendien namen onderzoeken de context en het sentiment dat uit de tweets sprak niet mee. ‘Wie stemt er nou op de @VVD?’ wordt in zulk onderzoek een stem vóór de VVD. En ten slotte is een studie na afloop van een verkiezing niet hetzelfde als een daadwerkelijke voorspelling. Om te bewijzen dat het echt kan, zou je een model moeten ontwikkelen dat op basis van tweets verkiezingsuitslagen van meerdere verkiezingen correct voorspelt.

Precies dat besloot Sanders te doen. Op 9 februari 2023 promoveerde hij bij de Radboud Universiteit in Nijmegen op het project Vox Populi, over het voorspellen van verkiezingsuitslagen met Twitter. Spoiler: het is niet gelukt om een model te ontwikkelen dat voor vijf landelijke Nederlandse verkiezingen de uitslagen goed voorspelt aan de hand van data uit tweets. En dat terwijl er toch alles is gedaan om aan de kritiek op eerder Twitter-onderzoek tegemoet te komen.

De meerwaarde van mijn onderzoek is dat we nu weten dat we claims over succesvolle voorspellingen van verkiezingsuitslagen met behulp van Twitter zeer kritisch moeten beschouwen.

Gecorrigeerde gegevens

‘Allereerst hebben we de demografische gegevens gecorrigeerd op leeftijd en geslacht,’ vertelt Sanders. ‘Het programma TweetGenie herkent het verschil in woordgebruik en woordcombinaties in tweets van mannen en vrouwen, alsook dat van verschillende leeftijdsgroepen. Met behulp van de tool bootsten we de verhouding van de stemmende bevolking na. Het geslacht herkennen lukte redelijk, de leeftijd minder. Helaas hadden we geen inzicht in andere kenmerken die misschien wel net zo bepalend zijn, zoals sociale status, achtergrond en onderwijsniveau.’

Sentimentfilter

Ook de context en het sentiment nam hij mee in zijn onderzoek. Van de Provinciale Statenverkiezingen van 2011 en 2015 en de Tweede Kamerverkiezing van 2012 werden 5000 tweets per verkiezing driemaal geannoteerd door studenten. Is het sentiment in de tweet positief of negatief? Geeft deze tweet weer of de tweeter gaat stemmen of gestemd heeft? Wordt de genoemde partij aanbevolen of niet? Is de toon objectief of niet, wellicht sarcastisch van toon? Met behulp van deze gegevens maakte Sanders filters om de verkiezingsuitslagen beter te kunnen benaderen. Alle mogelijkheden combineerde hij. ‘Per verkiezing was de uitkomst iets verbeterd, maar er bleek vooral veel ruis in te zitten.’ Bij sommige verkiezingen werd de voorspelling bijvoorbeeld beter als alleen positieve tweets werden meegenomen, zoals verwacht, maar het kwam ook voor dat alleen negatieve tweets tot een betere voorspelling leidden.

'Ronduit slechte voorspelling'

Het model dat vijf landelijke verkiezingsuitslagen moest voorspellen (de Tweede Kamerverkiezingen van 2012 en 2017 en de Provinciale Statenverkiezingen van 2011, 2015 en 2019), slaagde er niet in om een goede consistente voorspelling van meerdere verkiezingen te doen, hoezeer er ook aan de knoppen werd gedraaid. ‘De voorspelling van 2017 en 2019 was zelfs ronduit slecht,’ zegt Sanders. Ontevreden is hij niet over dit wetenschappelijke resultaat. ‘De meerwaarde van mijn onderzoek is dat we nu weten dat we claims over succesvolle voorspellingen van verkiezingsuitslagen met Twitter zeer kritisch moeten beschouwen.’

Veel stoorfactoren

Je kunt je afvragen of tweets over politieke partijen niet in de eerste plaats iets zeggen over de hoeveelheid aandacht die de partijen in de media krijgen in de aanloop naar de verkiezingen. Dat heeft Sanders ook gedaan. Hij vergeleek de aandacht in kranten per partij met de hoeveelheid tweets over een partij, maar vond geen hogere correlatie dan tussen tweets en de verkiezingsuitslag. Je kunt je ook afvragen of Twitter met de jaren meer vervuild is geraakt door bots en commerciële belangen. Was 2012 achteraf gezien niet een hoogtepunt in de Twittergeschiedenis en is daarna de teloorgang ingezet? ‘Dat heb ik niet onderzocht. Het aantal tweets over de politiek steeg nog wel in de jaren erna.’ Zij conclusie is vooral dat er te veel stoorfactoren een rol spelen om consistent goed te voorspellen. En een model kan pas een goed model zijn als het een aantal gebeurtenissen succesvol kan voorspellen, en niet maar eentje.

Marjolein van Trigt

Redacteur

Marjolein van Trigt is redacteur digitalisering bij Binnenlands Bestuur

Bekijk alles van Marjolein van Trigt

Projectmanager Gebiedsontwikkeling

Beleidsadviseur Mobiliteit

Big data

Kritische tegengeluiden

Gecorrigeerde gegevens

Sentimentfilter

'Ronduit slechte voorspelling'

Veel stoorfactoren

Deel dit artikel

Marjolein van Trigt

Lees meer

Szabó doet (klein) boekje open over zijn digitaliseringsstrategie

Toezichthouders digitale sector slaan handen ineen

De Omgevingswet in beweging

Staat van IT-systemen verergerde WIA-problematiek

Wat te doen tegen online ordeverstoringen?

Szabó doet (klein) boekje open over zijn digitaliseringsstrategie

Toezichthouders digitale sector slaan handen ineen

De Omgevingswet in beweging

Plaats als eerste een reactie