Spring naar content

Of luister op Spotify of Apple Podcasts.

Regel-gebaseerde algoritmes vs. Machine learning

De standaard definitie van een algoritme beschrijft vaak een lijst met instructies om iets uit te kunnen voeren. Maar volgens David is deze definitie inmiddels een beetje achterhaald. David: ‘Als we het tegenwoordig over algoritmes hebben, dan spreken we vaak van machine learning-systemen. Een definitie van Chip Huyen past daar naar mening goed bij: Machine Learning-systemen zijn systemen die tot doel hebben om complexe patronen uit bestaande data te leren, en die patronen te gebruiken om voorspellingen te doen over onbekende data.’ Binnen de maatschappij lopen deze twee definities een beetje door elkaar, wat zorgt voor ruis op de lijn in het publieke debat over algoritmes, aldus David. ‘Het is belangrijk om bewust te zijn van de verschillen. Er bestaan namelijk nog wel veel regel-gebaseerde algoritmes, maar machine learning wordt steeds meer toegepast.’

Niet discrimineren vs. Proactief includeren

Als het gaat om inclusiviteit onderscheiden we vaak de brede, maatschappelijke vorm, maar ook een vorm in de wereld van algoritmes, data science en machine learning, legt Tekla uit. ‘In het geval van machine learning draait het wat mij betreft hoofdzakelijk om het streven naar een goede representatie van de werkelijkheid en dat je in de stappen die je neemt om tot een model te komen de juiste afwegingen maakt. Van datacollectie en het ontwerpen van je model, tot uiteindelijk de activatie op basis van de resultaten die uit je model komen. En als dit niet mogelijk blijkt te zijn, dan is het zaak hier bewust van te zijn en hiernaar te handelen bij het interpreteren en gebruiken van de resultaten.

Als we het hebben over inclusiviteit binnen technologie dan stellen we onszelf vaak het doel om niet te discrimineren, voegt David toe. ‘We hebben het zelden over proactief inclusief zijn. Het voordeel van machine learning is juist dat modellen goed meetbaar en waar je toegankelijk en proactief aanpassingen kunt doen om het inclusiever te maken – veel makkelijker dan bij menselijke besluitvorming.’ Tekla is het daarmee eens: ‘Bias is lastig uit een persoon te halen, terwijl je bij een model met meerdere mensen vanuit verschillende invalshoeken kunt samenwerken en elkaar kritisch kunt bevragen. Tegelijkertijd is bias vaak niet helemaal uit te sluiten, stelt David: ‘Bij Randstad hebben we bijvoorbeeld wel toegang tot informatie over het geslacht van onze uitzendkrachten, maar er zijn veel gegevens die we niet kunnen en willen verzamelen, zoals seksuele geaardheid of religieuze overtuigingen. Als je een algoritme wil checken op bias op deze gebieden moet je van al je datapunten weten welke waarde ze aan deze attributen toekennen. Vaak een onmogelijke opgave.’

Is een algoritme per definitie biased?

Nou kun je natuurlijk beargumenteren dat een algoritme in de klassieke definitie an sich al bevooroordeeld is. Algoritmes draaien immers om het onderscheiden, classificeren en in hokjes plaatsen van data. Kan een algoritme dan überhaupt nog inclusief zijn? Het ontleent zijn bestaansrecht inderdaad aan het beoordelen van gegevens en indelen in hokjes, geeft Tekla toe.  ‘An sich is een algoritme wellicht niet inclusief. Tegelijkertijd zijn er wel veel manieren om inclusiviteit in je algoritme en de datasets te vergroten. Dat start met bewustzijn bij de makers en het toetsen van aannames. David stemt daarmee in: ‘Algoritmes hebben tot doel om onderscheid te maken. Tegelijkertijd heb je als algoritme-bouwer wel invloed op de basis waarop een algoritme dat kan doen. Je moet waarborgen inbouwen om ervoor te zorgen dat een algoritme rekening houdt met punten waar we als maatschappij minder comfortabel mee zijn. Als organisatie of data scientist moet je daar bewust van zijn en verantwoordelijkheid nemen.’

Toch is bias is onontkoombaar. Er zit altijd een vooroordeel of neiging in je algoritme, model of data. Een model opereert namelijk nooit op zichzelf. Er gaan allemaal stappen aan vooraf waarin bias op de loer ligt, legt Tekla uit. ‘Bias is doordrongen in onze samenleving en daardoor is het risico op bias bij het verzamelen van data zeer groot. Bovendien, hoe groot je dataset ook is, je kan nooit alle variaties in je algoritme meenemen om allesomvattend en volledig inclusief te zijn. Daarnaast kan er ook sprake zijn van proxy bias. Stel, je kiest bewust om geen financiële gegevens mee te nemen in een model, maar je neemt adresgegevens wel mee. Dan kun je alsnog iemands financiële status achterhalen, omdat adressen wellicht gekoppeld zijn aan woonwijken die als welvarend(er) geclassificeerd zijn.’

Inclusieve algoritmes vergen meer werk, maar zijn niet minder effectief

Er wordt wel eens geroepen dat inclusieve algoritmes gelijk staan aan minder effectieve algoritmes. En hoewel dit inderdaad waar kan zijn, geeft David toe, hoeft dit niet altijd het geval te zijn. ‘LinkedIn heeft inmiddels een zoekmachine voor recruiters live staan die ervoor zorgt dat de man/vrouw-verdeling van het lijstje gevonden werkzoekenden overeenkomt met de man/vrouw-verdeling van de onderliggende populatie werkzoekenden. Ze hebben het uitgebreid getest en de business metrics zijn niet verslechterd. Weliswaar ook niet verbeterd.’ David haalt ook nog een voorbeeld van het FD aan, zijn oude werkgever. ‘We hebben de diversiteit van aangeboden artikelen van ons aanbevelingssysteem daar kunstmatig kunnen verhogen, zonder dat de accuracy naar beneden ging.

Het hoeft ook niet zozeer een kwestie van effectiviteit te zijn, maar wellicht wel een kwestie van meer effort, meent Tekla: Tekla: ‘Het creëren van een inclusief algoritme kan meer moeite kosten. . Je moet op een andere manier met je data omgaan en je moet meer trainen en finetunen om tot de juiste resultaten te komen, met dezelfde accuracy’. David reageert instemmend: ‘Dit is in principe de basis van ons werk. We mogen niet discrimineren op basis van geslacht, leeftijd en andere metrics. Je móét er dus wel over nadenken in de opbouw van een algoritme om te kunnen komen tot een eindresultaat dat werkt.’

Bias in generative AI is onontkoombaar

De opkomst en waarde van generative AI valt niet te ontkennen. Het kan verbluffende resultaten opleveren. Wel hoor je veel kritische geluiden, vooral op het gebied van inclusiviteit. Als je Dall-E vraagt om een plaatje van een CEO, krijg je een plaatje van een witte man achter een bureau. Van deze bias moeten bedrijven zich echt bewust van zijn, legt Tekla uit. ‘Voorheen was het werken met data, modelleren en interpreteren uitsluitend voorbehouden aan getrainde specialisten. Het is mooi dat het nu voor een breder publiek toegankelijk is, maar we moeten ons realiseren dat dit publiek er soms ook minder (technische) kennis over heeft. De gebruiker moet zich daarbij ook bewust zijn van de mogelijkheid dat er uitkomsten gegenereerd worden op basis van niet-inclusieve modellen of dat het fake facts kan genereren.  Met het Data Science team zijn we dan ook veel in gesprek met andere afdelingen binnen ons bedrijf om bepaalde toepassingen met elkaar te toetsen en toe te lichten.’

David sluit zich bij Tekla aan: ‘Generative AI gaat over bewustwording en accepteren dat er bias bestaat waaraan gewoonweg niet valt te ontkomen. Op technisch vlak gaan we het in ieder geval niet oplossen. Daarom hebben modellen als ChatGPT achter de schermen business rules ingesteld om grote bias-problemen eruit te halen waar we ons binnen de maatschappij niet fijn bij voelen. Tegelijkertijd moeten we beseffen dat dit veranderlijke normen en waarden zijn en geen statische set aan regels. Wat we over 10 jaar vervelend vinden, is nu misschien niet het geval.’

Het takenpakket van de data scientist is meer dan alleen techniek

Wil je als organisatie inclusieve algoritmes kunnen maken, dan moet je data science-team ook inclusief zijn. Ook David vindt een breedheid in perspectieven erg belangrijk: ‘Het ontwerpproces behoort tot de kernverantwoordelijkheden van een data science-team. Daarbij is het belangrijk om verschillende perspectieven te hebben.’

We kunnen wel zeggen dat het takenpakket inmiddels niet uitsluitend bestaat uit technische werkzaamheden. David: ‘Het klassieke plaatje van data scientists die op een zoldertje een model in elkaar flansen, gaat niet meer op. In mijn werk heb ik bijvoorbeeld regelmatig contact met legal en business analisten. We zijn ons bewust van de impact van de technologie en daarvoor is het cruciaal om met meerdere disciplines te schakelen. Daarnaast vereisen thema’s als ethiek, eerlijkheid en inclusiviteit, blikken en perspectieven die niet perse technisch van aard zijn. Je ziet hierdoor dat ons takenpakket breder wordt en dat het vak tegelijkertijd volwassen aan het worden is. Tekla geeft daarbij wel een kleine kanttekening: ‘Een data scientist is inderdaad niet uitsluitend een techneut. Technische kennis blijft daarentegen cruciaal om een model goed te kunnen doorgronden en te zien voor wat het is en wat het doet.’

Gebruik bestaande frameworks om het dialoog over inclusieve algoritmes aan te zwengelen

Al met al kunnen we concluderen dat in het nieuwe takenpakket van de data scientist er veel gecheckt moet worden. Tekla: ‘Het inbouwen van checks in alle stappen die je doorloopt  is een van de belangrijkste voorwaarden voor een inclusief algoritme. Er bestaan al best veel frameworks en impact assessment-tools die je hiervoor kunt gebruiken, zoals bijvoorbeeld de IAMA (Impact Assessment Mensenrechten & Algoritmes) of De Ethische Data Assistent van de Utrecht Data School.’ Deze frameworks zijn heel handig, omdat het, naast het bijdragen aan een inclusief algoritme – een dialoog over inclusiviteit en bias aanzwengelt binnen je organisatie, aldus David. ‘Soms kan een simpele vraag als ‘Heb je nagedacht over inclusiviteit in je algoritme?’ al een hele waardevolle en verrijkende discussie binnen je organisatie losmaken. Bovendien kunnen dit soort vragen helpen om een naslagwerk bij te houden van de beslissingen die je neemt. Zeer belangrijk, want de basis voor die beslissingen zijn veranderlijk en met een naslagwerk kunnen je beslissingen die je hebben genomen altijd in de juiste tijdsgeest plaatsen.’

Er is licht aan het einde van de tunnel

We hebben de afgelopen jaar veel toestanden rondom algoritmes meegemaakt. Denk bijvoorbeeld aan de toeslagaffaire. Rondom deze affaires heeft David gelukkig een positieve boodschap om mee af te sluiten: ‘Er is licht aan het einde van de tunnel. Alle ophef rondom algoritmes hebben bijgedragen aan een groter bewustzijn rondom inclusiviteit. Binnenkort gaan we een fase in dat we meer gaan genieten van de voordelen die algoritmes en machine learning ons kunnen brengen, dan dat we last hebben van  schandalen en affaires.’ Het gesprek aangaan is hierbij een belangrijk middel, volgens Tekla: ‘Als je modellen blijft checken, en de handelingen die je op basis van resultaten uitvoert  blijft bevragen, dan kom je tot inclusievere  keuzes. Je kunt als data scientist nog zo je best doen om een inclusiever model te creëren, maar als een marketeer uiteindelijk besluit om maar één doelgroep te benaderen, kun je nog steeds de plank misslaan. Daarom moet het gesprek altijd breder gevoerd worden binnen een organisatie.’

Bob Younge

Contentspecialist

Ook interessant

Lees meer
Data, Decisions & Engagement |

Lisette Gouda (ANWB): De personalisatiereis van ANWB

In 2020 behaalde de ANWB de DDMA Customer Data Award met hun personalisatiecase, waarbij ze met behulp van een doordacht architectuurmodel de dienstverlening verbeterden en een aanzienlijke cultuurverandering doorgingen. Van…
Lees meer
Legal |

Naomi van der Louw en Romar van der Leij (DDMA): We moeten privacy zien als een kans, niet als een risico

Privacy staat de laatste tijd vaak negatief in de schijnwerpers, bijvoorbeeld vanwege de toeslagenaffaire en opgelegde boetes aan bedrijven. Het is begrijpelijk dat organisaties hierdoor privacy eerder als een risico…
Lees meer
Data, Decisions & Engagement |

Renkse Hoekstra (Friesland Campina): Neem als dataexpert het einddoel voor ogen, zodat je weet wat je gaat oplossen

Grotere organisaties hebben vaak moeite met het neerzetten van een datagedreven cultuur, dat blijkt al 2 jaar uit het jaarlijkse DDMA Data-Driven Marketing onderzoek. Oorzaak is vaak de moeizame relatie…