Vooringenomen algoritmes: hoe de fraudecontrole van DUO resulteerde in oververtegenwoordiging

De deurbel klinkt en op de stoep staan twee personen die zich legitimeren als toezichthouders van de Dienst Uitvoering Onderwijs (DUO). De reden van hun komst: het uitvoeren van een controle naar de woonsituatie van de student, om te beoordelen of die de aangevraagde uitwonendenbeurs terecht ontvangt. Of ze even binnen mogen kijken om een blik te werpen op zijn slaapkamer, studieboeken, kleding en andere persoonlijke eigendommen. Heeft hij de sleutel en kan hij het huurcontract laten zien? Ontvangt hij poststukken op dit adres? Hoeveel nachten per week slaapt hij hier?

Om misbruik van de uitwonendenbeurs op te sporen, gebruikt DUO een algoritme dat aan de hand van een aantal variabelen adressen met een hoog frauderisico genereert. Deze worden op de controlelijst gezet, een lijst van potentieel nader te onderzoeken adressen. Middels een bureaustudie binnen DUO wordt deze controlelijst vervolgens teruggebracht tot een lijst van adressen die daadwerkelijk op een bezoekje kunnen rekenen, de bezoeklijst.

In theorie kan zo’n huisbezoek elke uitwonende student overkomen, maar in de praktijk wordt vooral bij studenten met migratieachtergrond aangebeld, zo blijkt uit onderzoek van Onderzoeksplatform Investico, NOS op 3 en het Hoger Onderwijs Persbureau. Er lijkt dus sprake te zijn van een oververtegenwoordiging. Daarom is het algoritme voorlopig buiten werking gesteld door onderwijsminister Robbert Dijkgraaf, die spreekt van een ‘verontrustend signaal’. In het verleden hebben algoritmes namelijk geleid tot discriminatie, zoals aangetoond in de toeslagenaffaire. Een belangrijke vraag is dan ook hoe we er verantwoord en eerlijk mee om kunnen gaan.

Vooringenomenheid

Vooringenomenheid ligt tijdens het hele proces op de loer, te beginnen bij het algoritme met door mensen veronderstelde risico indicatoren, die een verhoogde kans op misbruik met de uitwonendenbeurs zouden kunnen betekenen. Het gaat hierbij om een (on)logische combinatie van het inschrijfadres van de student, het ouderlijk adres en het adres van de onderwijsinstelling gecombineerd met kenmerken zoals leeftijd, onderwijssoort en woonsituatie. Die logica is volgens datascientist Daniel Kapitan, die doceert aan de Technische Universiteit Eindhoven, an sich verdedigbaar: ‘’Als iemand in Utrecht studeert en verhuist naar Ede, terwijl zijn ouders in Nieuwegein woonachtig zijn, dan denk ik: waarom ga je zo ver weg wonen?’’

Verder wordt gekeken of er sprake is van een familieband. Je wordt eruit gefilterd als je staat ingeschreven bij een broer, neef of oom. Volgens techniekfilosoof Alessio Gerola, die promoveert aan de Wageningen Universiteit, wijst dat op impliciete bias in het algoritme: ‘’Het zou kunnen dat degene die dit heeft geprogrammeerd, uitgaat van een standaard Nederlandse gezinssituatie waarbij je opgroeit bij je ouders en, afhankelijk van waar je gaat studeren, thuis blijft wonen of op kamers gaat. Door die lens lijkt het misschien verdacht als iemand bij een familielid intrekt, terwijl dat in sommige culturen best gebruikelijk is. Het hoeft dus niet te wijzen op fraude, maar het zit wel in de voorselectie.’’

Het algoritme categoriseert mensen overigens niet op basis van hun nationaliteit of etniciteit, iets wat bij de belastingdienst wel gebeurde. Daar was sprake van directe discriminatie. In dit geval lijkt het te gaan om indirecte discriminatie, doordat andere risico indicatoren uiteindelijk toch maar bij één specifieke groep uitkomen. Evert Haasdijk, die als AI-expert werkzaam is bij Deloitte en bedrijven ondersteunt bij het ontwikkelen van AI-gebaseerde oplossingen, legt uit hoe dat kan: ‘’Studenten die bij familie wonen, krijgen vaker een vlaggetje. Als blijkt dat vooral studenten met migratieachtergrond bij een familielid intrekken, krijgen zij dus vaker een alert zonder dat dat de bedoeling was en zonder dat hun afkomst in het model staat, want die gegevens worden daar niet in opgenomen.’’

Het algoritme dat DUO in gebruik heeft, is gemaakt op basis van de ervaring van medewerkers. Afgevraagd kan worden of het verband tussen de indicatoren en fraude wel kan worden onderbouwd. ‘’De wetenschappelijke onderbouwing van dit soort dingen is lastig en is er vaak niet’’, zegt Haasdijk. ‘’Ervaringen worden gekleurd door denkbeelden en aannames. Stel dat ik zou denken dat vrouwen geen auto kunnen rijden en er, elke keer dat een auto afwijkend rijgedrag vertoont, een vrouw achter het stuur zit, dan denk ik: zie je wel. Telkens als ik een man zie rijden, die de auto niet onder controle heeft, sla ik dat niet op en denk ik: whatever. We gaan dus op zoek naar bevestiging van onze vermoedens, dat heet confirmation bias.’’

Een tweede risico op vooringenomenheid ontstaat aan het bureau, waar mensen een selectie maken van de signalen die ze gaan onderzoeken. Ze kunnen dan in een feedbackloop terecht komen: als je bij een bepaalde groep fraude gaat zoeken, zul je het ook alleen daar vinden. ‘’Zo wordt een kleine afwijking steeds groter’’, verklaart Haaskijk. ‘’De meeste studenten worden nooit gecontroleerd, dus van het merendeel weten ze niet of er gefraudeerd is, ze hebben alleen geen bekende signalen gezien. Maar of ik in die tijd de boel genept heb, dat weten ze niet. Ze weten alleen de gevallen die ze onderzocht hebben en dat hebben ze natuurlijk niet willekeurig gedaan, omdat ze zijn afgegaan op indicatoren die ze al hadden.’’

Ongegrond verband

Oververtegenwoordiging ontstaat dus als onbedoeld gevolg van de risicobeoordeling. De vraag is of er verdedigbare gronden voor zijn. ‘’In principe wil je dat soort dingen uitbannen’’, stelt Haasdijk. ‘’Je wil ook niet dat je veel meer vrouwen dan mannen aanwijst of andersom, tenzij er gegronde reden is om aan te nemen dat dat patroon bestaat. Daar moet je je van bewust zijn bij dit soort beslissingen, die verregaande invloed hebben op ons leven.’’ Kapitan beaamt dat: ‘’Het is pas gerechtvaardigd als DUO kan aantonen dat het overgrote deel van de studenten met migratieachtergrond de uitwonendenbeurs daadwerkelijk onrechtmatig heeft ontvangen.’’

Volgens universitair docent Petros Milionis, die aan de Rijksuniversiteit Groningen onderzoek doet naar de relatie tussen afkomst en uitkeringsfraude, is dat niet het geval. Hij stelt dat mensen met een migratieachtergrond niet eerder bereid zijn om te frauderen dan mensen zonder. ‘’Fraudebereidheid wordt bepaald door de mate waarin de eigen waarden overeenkomen met die van de omgeving en dat staat grotendeels los van etniciteit.’’

Zijn bevindingen zijn gebaseerd op cijfers uit de World Value Survey (WVS), waarin respondenten wereldwijd worden gevraagd in hoeverre ze het acceptabel vinden om te frauderen om zo een uitkering of toeslag te ontvangen, gemeten op een schaal van 1 tot 10. In 2022 vond 68,8 procent van de Nederlanders dit nooit gerechtvaardigd. Uitgesplitst naar geboorteland, komt dat neer op 72,9 procent van de geboren Nederlanders, vergeleken met 76,9 procent van de Turkse Nederlanders, 80 procent van de Surinaamse Nederlanders en 88,9 procent van de Marokkaanse Nederlanders. Er is dus geen aanleiding om aan te nemen dat door hen vaker gefraudeerd wordt.

Er is daarom ‘alle reden tot bezorgdheid’, aldus Gerola. Kapitan is stelliger en vindt het ‘echt niet kunnen’ om studenten vaker te controleren als niet aangetoond kan worden dat ze vaker frauderen. ‘’Dan moet je er gewoon mee stoppen.’’ Haasdijk onderschrijft dat, omdat de risicofactoren DUO consequent de verkeerde kant op lijken te sturen. Daar had de instantie achter kunnen komen door, naast de selecte steekproef, ook een aselecte steekproef te trekken. ‘’Onder andere om te kijken: slaat die selecte steekproef nog ergens op? Dan hadden ze gezien dat ze bovenmatig veel mensen met migratieachtergrond oproepen.’’

Verantwoord gebruik van algoritmes

Evaluatie en monitoring is dus cruciaal, zodat het algoritme kan worden bijgesteld op ongewenste effecten. ‘’Je moet regelmatig controleren of de verbanden die worden gelegd, nog steeds bestaan. Uiteindelijk moet je gaan begrijpen of risico indicatoren hout snijden, door bij te houden hoe vaak het belletje gaat rinkelen en bovenal of het terecht gaat rinkelen. Wat blijkt: rode auto’s hebben vaker schade dan andere kleuren, maar dat kan ook toeval zijn. Je kan niet zomaar zeggen: heeft u een rode auto, dan gaat de premie omhoog. Moet die dan weer omlaag als je hem overspuit?’’

Daarnaast is het zaak om onze verwachtingen bij te stellen. Volgens Gerola hangt er een soort magie rondom algoritmes, die we beschouwen als orakel onder het mom van ‘als de computer het zegt, dan zal het wel zo zijn’. Die feilloosheid is een verkeerde verwachting. ‘’Je ziet alleen wat je gegeven wordt, niet hoe dat resultaat tot stand is gekomen’’. Daarom moeten we voorzichtig zijn met het trekken van conclusies uit algoritmes. ‘’Die zeggen alleen maar: hier zou wat aan de hand kunnen zijn, maar voor hetzelfde geld is dat niet het geval.’’ Instanties moeten zich dus beseffen dat het enkel indicatoren zijn, stelt Haasdijk. ‘’In dit soort situaties moet je open staan voor de mogelijkheid dat je het niet goed hebt als je gaat controleren. Dan maak je in ieder geval niet dezelfde fout als bij de toeslagenaffaire, waar het bijna als vaststaand feit werd gepresenteerd dat je fraudeerde.’’

Tot slot moeten we ons bewust zijn van de ethische aspecten achter algoritmes, benadrukt Gerola. ‘’Algoritmes zijn niet neutraal, er liggen altijd waarden aan ten grondslag. Dat vraagt om een waardebewust ontwerp, waarbij de keuzes die je maakt bij het inrichten van de technologie deel uitmaken van een overkoepelende deliberatie over de maatschappij waarin we willen leven.’’ Volgens Haasdijk zijn dat beslissingen die je met open ogen moet nemen, op hoog niveau in de organisatie. ‘’Het eigenaarschap van het algoritme moet liggen bij iemand die dat soort beslissingen kan nemen, wiens baan dat is. Dat is over het algemeen niet de techneut die het model maakt, maar iemand die in het management zit.’’ DUO moet zichzelf eens flink achter de oren krabben, besluit hij. De instantie heeft zijn eigen werkwijze namelijk nooit geëvalueerd, tot nu. ‘’Ik stel mezelf voor dat zij hierdoor overvallen zijn en het niet eens wisten. Dan heb je er dus nooit over nagedacht of bepaalde groepen benadeeld worden. Daar moeten ze van leren.‘’