Data annoteren is (bijna) iedereen te leren

Afbeeldingen van chuahua's en muffins, bijna identiek — Hoe moet een AI ooit het onderscheid leren tussen een chihuahua en een muffin?

Niet alle mensen met een afstand tot de arbeidsmarkt doen het goed in de groenvoorziening of met productiewerk. AI Annotatielab in Hilversum en Humain’r in Leeuwarden bieden zinvol werk met data voor het verantwoord trainen van AI-modellen.

Partner Arbeidsmarkt bij BMC (via PublicSpirit)

BMC

Partner Arbeidsmarkt bij BMC (via PublicSpirit)

Projectmanager Actieplan EU-arbeidsmigranten

Gemeente Eindhoven

Projectmanager Actieplan EU-arbeidsmigranten

Labelen van data

Dit is een oog. Dit is een zwembad. Dit is een vuilniszak. Het annoteren van data is het labelen van digitale beelden, video en tekst. Met deze gelabelde data leren AI-modellen (AI = Artificial Intelligence of kunstmatige intelligentie) patronen herkennen en toepassen op gelijksoortige beelden, video en tekst. Trainingsdata zijn nodig, want hoe moet een AI-model anders ooit het verschil leren tussen een chihuahua en een muffin?

Onverantwoorde AI is de norm

Annoteren is niet ingewikkeld, maar moet wel verantwoord gebeuren. Dat is lang niet altijd het geval. Bedrijven als Meta (eigenaar van Facebook) en OpenAI (eigenaar van ChatGTP) besteden het annoteren van filmpjes en teksten op racistische of gewelddadige inhoud uit naar lagelonenlanden. Daar worden mensen urenlang blootgesteld aan gruwelijke content, zonder psychologische ondersteuning. Ook niet verantwoord: AI-modellen die worden getraind met een subjectieve dataset, want die leren nooit objectief te oordelen. En dan is er nog de verantwoorde toepassing van AI. Slechte voorbeelden daarvan kennen we ook in Nederland: toeslagenschandaal, fraudeopsporing, visumaanvragen.

Wat is verantwoorde AI?

Wat mogen we dan wel verantwoorde AI noemen? Een allesomvattende definitie is er nog niet, maar wat helpt is dat data geannoteerd worden in goede arbeidsomstandigheden, door mensen die de wereld niet allemaal op dezelfde manier beschouwen. Ook de intentie telt waarmee toepassingen worden gebouwd. Hierdoor en door mensen met een afstand tot de arbeidsmarkt in te zetten voor het maken van trainingssets, dragen Humain’r en het AI Annotatielab bij aan ‘responsible AI’.

Verborgen databehoefte

Dat lokale en regionale overheden hier (nog) niet bovenop springen, komt omdat zij zich vaak niet bewust zijn van hun eigen, grote databehoefte. Die behoefte zit onder andere in het verifiëren van geodata, opschonen van dataregistraties of dataverzamelingen, ontdubbelen van gegevens bij systeemconversies en het digitaliseren van archieven.

Leer-werkplekken op het Mediapark

Het AI Annotatielab in Hilversum biedt leer-werkplekken voor onder meer schoolverlaters, uitkeringsgerechtigden, en mensen met psychische, sociale en fysieke beperkingen. Het lab werd in maart 2021 opgericht door Media Perspectives, RTL, NPO en Beeld & Geluid. Zij werken hiervoor samen met de Regio Gooi en Vechtstreek, UWV en WerkgeversServicepunt Gooi en Vechtstreek.

Ronald Clous is projectleider sociaal domein bij de arbeidsmarktregio Gooi en Vechtstreek. Hij vertelt dat de regio nieuwe leer-werktrajecten wilde ontwikkelen voor mensen met een afstand tot de arbeidsmarkt. ‘We zochten sectoren met grote tekorten aan mensen. Het Mediapark is een grote werkgever in de regio. Daar zijn we gaan praten, onder andere met Muriël Serrurier Schepper, bedenker en projectleider van het AI Annotatielab.’

Schepper vult aan: ‘Mediabedrijven hebben veel behoefte aan gelabelde data. De gemeentes in regio Gooi en Vechtstreek kennen de mensen die zonder werk zitten. In het AI Annotatielab bieden we mensen een leer-werktraject van zes maanden en helpen we hen een passende baan te vinden.’

In het AI Annotatielab bieden we mensen een leer-werktraject van zes maanden en helpen we hen een passende baan te vinden.

Muriël Serrurier Schepper, AI Annotatielab

Trainingsets van 'data-agents'

Het Friese Humain’r werkt samen met sociale werkvoorzieningen in de ontwikkeling van AI-producten en -diensten voor de publieke sector. Zo ontwikkelde het bedrijf onder andere een AI-model dat tweetalige raadsvergaderingen geautomatiseerd ondertitelt. De trainingssets van Humain’r werden gemaakt door ‘data-agents’, een functie bedacht door medeoprichter Domenique van der Niet.

Een data-agent, zo legt hij uit, is een persoon die met alle soorten data werkt ter voorbereiding van AI-ontwikkeling. ‘Na alle technologische revoluties is er behoefte aan mensen die datavaardigheden paraat hebben,' zegt Van der Niet. ‘Samen met trainingen en tools ontwikkelden we een compleet concept voor sociale werkvoorzieningen. Voor hen is op deze manier jaren en jaren aan toekomstbestendig werk.’

Opdrachtgevers gezocht

Het duurde zes jaar en geen zes maanden, zoals hij eerst had gedacht. Maar inmiddels is Van der Niet met meerdere sociale werkvoorzieningen in gesprek om zijn concept uit te breiden. Serrurier Schepper zou overal in Nederland AI Annotielabs willen opzetten. Hilversum kampt met een wachtlijst van mensen die er willen werken. ‘We zoeken nog meer invulling voor ons leer-werktraject,’ zegt Ronald Clous van de arbeidsmarktregio Gooi en Vechtstreek. ‘Hoe meer opdrachtgevers we hebben, hoe meer mensen we aan zinvol werk kunnen helpen.’

Lees het hele artikel deze week in BB20.

Karina Meerman

Bekijk alles van Karina Meerman

Partner Arbeidsmarkt bij BMC (via PublicSpirit)

Projectmanager Actieplan EU-arbeidsmigranten

Labelen van data

Onverantwoorde AI is de norm

Wat is verantwoorde AI?

Verborgen databehoefte

Leer-werkplekken op het Mediapark

Trainingsets van 'data-agents'

Opdrachtgevers gezocht

Deel dit artikel

Karina Meerman

Lees meer

De Omgevingswet in beweging

Staat van IT-systemen verergerde WIA-problematiek

‘Vernietig onrechtmatig verzamelde gegevens moslims’

De term cybersecurity mag het raam uit

Bijna helft overheidswebsites voldoet aan wet

De Omgevingswet in beweging

Staat van IT-systemen verergerde WIA-problematiek

‘Vernietig onrechtmatig verzamelde gegevens moslims’

Plaats als eerste een reactie