Toen Joy Buolamwini nog computerwetenschap in Boston studeerde, werkte ze voor een groepsopdracht eens met een programma voor gezichtsherkenning. Ze ontdekte dat de software haar gezicht niet als gezicht herkende, terwijl haar witte studiegenoten geen enkel probleem ondervonden. Pas toen ze een wit masker opzette, herkende de software ook bij haar een gezicht. Kortom, er was sprake van discriminerende algoritmes.
Hoe, vroeg Buolamwini zich af, kan software nu discrimineren? Ze onderzocht een aantal algoritmes voor gezichtsherkenning en kwam erachter dat die getraind werden met foto’s van gezichten — maar die waren grotendeels van witte mannen. Slechts 1 op de 4 gezichten was van een vrouw, 1 op de 25 van een zwarte vrouw.
In hun boek Data feminism beschrijven Catherine D’Ignazio en Lauren F. Klein hoe racisme, seksisme en andere vormen van discriminatie doorwerken in wetenschappelijk onderzoek, in algoritmes en in vakgebieden waar grote databestanden geanalyseerd worden. Ook laten ze zien hoe data kunnen helpen om deze ongelijkheid aan het licht te brengen en te bestrijden. De titel dekt daarom niet helemaal de lading, want het gaat over iedere vorm van machtsongelijkheid, niet alleen ongelijkheid tussen mannen en vrouwen.
De auteurs geven talloze voorbeelden, maar die zijn uiteraard voor het grootste deel Amerikaans. Ter gelegenheid van deze recensie heb ik wat Nederlandse staaltjes verzameld. Veel moeite kostte dat overigens niet — de Algemene Rekenkamer kwam niet voor niets begin dit jaar met het lezenswaardige rapport Aandacht voor algoritmes.
Zeikschrift is het instagram-account van historica Madeleijn van den Nieuwenhuizen, waarop ze discriminatie in de media hekelt. ‘Kan een moeder wel premier zijn?’ kopte De Telegraaf eind 2019 toen Sophie Wilmès premier van België werd. ‘Saillant detail: Wilmès is moeder van vier kinderen.’ Van den Nieuwenhuizen stelde de wedervraag: ‘Kan een seksist wel hoofdredacteur zijn?’
Er zijn mensen die vinden dat Zeikschrift en verwante zielen nogal eens spijkers op laag water zoeken, maar Data feminism beargumenteert overtuigend dat juist die subtiele en impliciete vormen van discriminatie de bron zijn van structurele problemen bij de bouw van algoritmes en het verwerken van data.
In zijn satirische internetserie Voxpop maakte Roel Maalderink in juni vorig jaar met straatinterviews pijnlijk duidelijk dat in Nederland discriminatie aan de orde van de dag is. Hij vroeg mensen op straat eenvoudig of ze ooit gefouilleerd waren. De verschillen in de antwoorden waren groot — witte mensen zijn hooguit enkele keren in hun leven gefouilleerd, anderen zeiden soms wel dertig keer gefouilleerd te zijn.
Een experiment van Lex Thijssen, Marcel Coenders en Bram Lancee bevestigt dat beeld (Mens en Maatschappij, juli 2019). Tussen 2016 en 2018 reageerden zij op 4211 openstaande vacatures in tien beroepsgroepen. De fictieve sollicitatiebrieven waren identiek, maar brieven van ‘niet-westerse sollicitanten’ ontvingen systematisch beduidend minder reacties.
Maalderink vraagt op een gegeven moment aan een witte man of die ooit nadeel had ondervonden van zijn huidskleur. De man moet een beetje lachen om deze ‘retorische’ vraag. Zoals D’Ignazio en Klein betogen: doordat de bovenliggende partij zelf nooit heeft ervaren hoe het is om gediscrimineerd te worden, heeft die er algauw een blinde vlek voor — privilege hazard.
Begin dit jaar werden op Consultancy.nl de leden van de nieuwe Raad van Bestuur van Mazars Nederland gepresenteerd — hoon was hun deel op de sociale media. Het zullen ongetwijfeld capabele mannen zijn, maar door een blinde vlek zagen zij niet wat veel vrouwen en gekleurde mensen direct opvalt. Slechts een van hen heeft geen bril.
De blinde vlek is voor D’Ignazio en Klein geen kwestie van schuld, maar van bewustwording. De makers van de gezichtsherkenningssoftware schrokken toen Buolamwini ze aansprak op hun discriminerende software. Zo hadden ze het nooit bedoeld. Toch hadden ze een zwarte vrouw nodig om hen erop te wijzen. Diversiteit in een team kan dus onderdeel zijn van de oplossing.
Met een divers team kun je de blinde vlek in ieder geval proberen kleiner te maken. In de ICT is volgens het CBS zo’n 16 procent van de werknemers vrouw. Cijfers over etnische achtergronden zijn er niet, maar we mogen wel aannemen dat er overwegend westerse mannen in de ICT werken in Nederland. Niet voor niets is geopperd dat de toeslagenaffaire vermeden had kunnen worden als een diverser team het risicoselectiesysteem had ontwikkeld dat mensen met een ‘dubbele nationaliteit’ aan extra controles onderwierp.
In Data feminism geven de auteurs veel meer voorbeelden. Een Amerikaanse hypotheekverstrekker bepaalde het kredietrisico onder andere op basis van de buurt waar de aanvrager woonde. Het betekende in de praktijk dat het onmogelijk werd om een hypotheek te krijgen als je in een bepaalde buurt woonde — vaak buurten waar relatief veel gekleurde mensen woonden. Van het team dat dit model ontwikkelde, woonde niemand in een van de als riskant aangemerkte buurten.
Vaak ontstaan dergelijke selectiecriteria omdat er inderdaad een zekere mate van voorspellende waarde in zit, maar zodra ze tot een besliscriterium zijn verheven, wordt de ongelijkheid die eraan ten grondslag ligt, in stand gehouden of zelfs vergroot.
Data feminism bespreekt ook een aantal mogelijkheden om de macht gelijker te verdelen. Onder andere door ongelijkheid inzichtelijk te maken met behulp van data. Verhalen en ervaringen kunnen nog gezien worden als incidenten of afgedaan worden als anekdotisch bewijs. Met cijfers kun je aantonen dat het om structurele problemen gaat. Door mensen te confronteren met ‘harde data’ zullen ze wellicht eerder geneigd zijn bij te dragen aan verandering.
Maar dan moeten die data er wel zijn. Want wie bepaalt wat er gemeten wordt en wat niet? En zelfs als er data zijn, zijn ze vaak onvolledig of gekleurd. In het publieksonderzoek van de NOS wordt gevraagd over welke onderwerpen mensen zich de meeste zorgen maken. Het Rotterdamse gemeenteraadslid Enes Yiğit wees erop dat zijn zorgen over islamofobie er niet bij staan.
Zijn zorgen worden niet gemeten, zorgen over de islam wel. Volgens de NOS is het omdat de vragenlijsten aansluiten bij thema’s uit de verkiezingscampagnes — maar wie bepaalt die thema’s, en waarom moet de NOS daarop aansluiten?
Het boek snijdt meer thema’s — verdeeld in ‘zeven principes’ — aan dan hier aan bod kunnen komen. De voorbeelden in het boek zijn de moeite waard, en door de afwisseling van praktische voorbeelden en theorie is het boek toegankelijk en makkelijk leesbaar. De schrijfsters proberen een aantal oplossingen aan te dragen die misschien niet altijd even sterk zijn, maar het is een dappere poging om het probleem op de kaart te zetten en een goede eerste stap op de weg naar bewustwording.
Data feminism is een aanrader voor iedereen die met data en techniek werkt, en voor iedereen die meent een (of geen) blinde vlek te hebben.
Catherine D’Ignazio en Lauren F. Klein: Data feminism. Cambridge: MIT Press; 328 pagina’s, €25,99. Of lees de gratis online versie.
— This article appeared in Skepter Magazine in Dutch. This is my English translation:
When Joy Buolamwini was still a computer science student in Boston, she once worked with facial recognition software for a group assignment. She discovered that the software didn’t recognise her face, while her white fellow student had no problems at all. It wasn’t until she put on a white mask, that the software recognised a face.
Buolamwini asked herself: How can software be discriminating? She analysed a couple of facial recognition algorithms and found that these are trained with photographs of faces – however these faces were mostly of white men. Only 1 in 4 faces were female and 1 in 25 were of a black female.
In Data feminism, Catherine D’Ignazio and Lauren F. Klein describe how racism, sexism and other forms of discrimination find their way into scientific research, algorithms and other fields where large data sets are processed. They also show how data can help to show and challenge inequality. The title Data feminism doesn’t entirely cover the load, since it also discusses other forms of inequality, not just male/female.
The authors give plenty of examples, but they are mostly American. For the sake of this book review, I gathered some Dutch examples. It didn’t take me a lot of effort — the general audit office recently published the report ‘attention for algorithms’, which shows that this topic is very relevant today in the Netherlands as well.
Zeikschrift is a Dutch Instagram-account by historian Madeleijn Van den Nieuwenhuizen. She points out remarks in the media that are discriminating. ‘Can a mother be a prime minister?’ was a headline in the Dutch newspaper De Telegraaf, when Sophie Wilmès became prime minister of Belgium in October 2019. ‘Nice detail: Wilmès is mother of four children.’ Van den Nieuwenhuizen replied on her Instagram-account with the question: ‘Can a sexist be an editor in chief?’
Some people might find that these examples on Zeikschrift are exaggerating minor mistakes. However, Data feminism argues quite successfully that it’s especially the subtle and less obvious forms of discrimination that are the source of structural problems when building algorithms and processing data.
In June 2019, Roel Maalderink interviewed people in the street for his satirical program Voxpop. It became painfully clear that discrimination is quite common in the Netherlands. He simple asked people if they had ever been stopped and searched by the police? The answers differed enormously — it happened to white people just a couple of times in their lives, at most. Coloured people reported a multitude of that.
That ethnic profiling exist in our society is confirmed by an experiment by Lex Thijssen, Marcel Coenders en Bram Lancee (Mens en Maatschappij, July 2019). Between 2016 and 2018 the researchers sent out fake applications to 4211 vacancies within ten disciplines. The applications were identical, except for the applicant’s ethnic backgrounds. The ‘ethnic applicants’ received systematically and significantly less reactions.
At one moment in the street interviews, Maalderink asks a white man if he had ever felt disadvantaged because of the colour of his skin. The man laughed when hearing this ‘rhetorical’ question. As D’Ignazio and Klein argue: if someone has never experienced discrimination, he or she has a blind spot; the privilege hazard.
At the beginning of this year the company Mazars presented their new board of directors on the website Consultancy.nl. The post was criticized on social media for the lack of diversity. They are in no doubt capable men, however, because of the privilege hazard they probably missed to see what was obvious for most women and coloured people: only the man on the right didn’t have glasses.
In Data feminism the privilege hazard isn’t a matter of blame, but something that requires awareness. The people who developed the facial recognition software were shocked when Buolamwini pointed out their failing software. They never meant their algorithm to be racist. However, they still needed a black woman to point it out to them. Diversity in development teams could therefore be part of a solution.
With a diverse team you can try to make the collective blind spot smaller. Unfortunately, according to the Dutch Census Bureau (CBS) only 16 percent of the ICT employees are female. Data on ethnic background were not available, but let’s assume there are mainly white men working in the field of ICT.
In the Netherlands there was a ‘scandal’ that made the Dutch government resign. It revolved around a risk algorithm that resulted in extra screening of people with a second nationality. Some of these people had to repay a lot of money just for making mistakes in their application forms. There have been suggestions that these problems could have been avoided if the team that developed the risk algorithms would have been more divers.
The authors of Data feminism give some other examples. The Federal Home Loan Bank granted loans based on a risk assessment that took into account in what neighbourhood someone lived. This resulted in denying home loans to people that lived in specific neighbourhoods. Unsurprisingly, no one from the team that developed this risk assessment lived in one of the neighbourhoods that were marked as risky.
Often those selection criteria are used because they indeed have some sort of predictive value. However, by turning it into a rule, it maintains and sometimes even enlarges the inequality that it is based on.
Data feminism describes a couple of options that should help to redistribute the power more evenly. It could help to make inequality visible by using data, especially since stories and experiences can still be seen as incidents or anecdotal evidence. With data you can prove that these problems are structural. By confronting people with ‘hard facts’ they might be more inclined to contribute to change. But what if the data are not available? Because who determines what gets measured and what not?
And even if data are available, data can be incomplete or biased. ‘What worries you in society?’ was one of the questions in an audience survey of the NOS. Enes Yiğit, from the Rotterdam counsel, pointed out that his worry about Islamophobia was not an option he could choose. In other words, his worries were not measured, worries about the Islam were. In a reaction, the NOS explains that the questionnaire is based on the themes from the electoral campaigns of the different political parties in the Netherlands. But who determines those themes? And why does the NOS base their questionnaire on those themes?
The books covers more subjects — divided into ‘seven principles’ — then we can discuss here. The examples in the book alone are worth the read. By supporting theory with practical examples the book is accessible and easy to read. The authors take a shot at offering solutions which might not always be ideal, but it’s a brave attempt to put this important subject into the spotlight and it’s a great first step towards more awareness on the subject.
Data feminism is recommended for anyone that works with data and technique. And for anyone who thinks they may (or may not) have a blind spot,
Catherine D’Ignazio en Lauren F. Klein: Data feminism. Cambridge: MIT Press; 328 pagina’s, €25,99. Or read the free online version.
Vragen over discriminerende algoritmes, data ethiek of andere gerelateerde onderwerpen? Als freelancer of interimmer kan ik ondersteunen bij het implementeren van maatregelen, zoals een algoritme impact assessment of monitoring. Neem contact op voor meer informatie!