Spring naar content
Wouter van Gils

Wouter van Gils is Senior Consultant bij Cmotions, een van de sponsoren van de Customer Data Award 2021. De award werd begin december 2021 uitgereikt tijdens de online talkshow: De Beste Customer Data Cases van 2021.

Tekstuele data legt beweegredenen voor consumentengedrag bloot

In tekst ligt ontzettend veel informatie opgeslagen. Vaak meer genuanceerde informatie dan kwantitatieve data. Het legt veel meer het vooringenomen gedrag bloot, legt Wouter uit. “Denk bijvoorbeeld aan callcentergesprekken met klanten. Klanten geven daarin direct aan wat ze van je willen, en die kwalitatieve data wordt – om verschillende redenen – vaak niet gebruikt. Dat is zonde. Tekstuele data kan veel blootleggen over wat beweegredenen zijn van klanten en waarom ze überhaupt met jou communiceren. En als je dat eenmaal weet, heb je de informatie die je nodig hebt om die klanten zo goed mogelijk te bedienen en te benaderen met de juiste boodschap en content.”

Toch ziet niet iedereen heil in tekstuele data. Integendeel, vaak zien analisten veel beren op de weg; het is te complex, of organisaties beschikken niet over genoeg tekstuele data. Men vraagt zich bovendien af of er überhaupt analysetechnieken bestaan voor de Nederlandse taal. Ook acht men de informatie die je uit tekstuele analyses haalt, moeilijk te combineren met kwantitatieve data. Tot op zekere hoogte zijn deze obstakels inderdaad waar, al is dit makkelijker dan men denkt, vindt Wouter. “Tekstuele analysetechnieken hoeven niet heel complex te zijn en bijna elke organisatie beschikt her en der wel over tekstuele data. Daarnaast kun je tekstuele en numerieke data juist heel goed combineren om krachtige voorspellingen te doen. Uit onze blogreeks over ons model voor het voorspellen van restaurantbeoordelingen, wordt duidelijk dat je een knettergoed voorspel model kan ontwikkelen, puur en alleen gebaseerd op tekstuele data.”

Tekstuele data-analyse door de jaren heen: van topic modeling tot black box

Tekstanalyse kwam op in de jaren 80/90. Betekenis werd toentertijd toegekend op basis van het tellen van woorden. Als het ene woord veel voorkomt gaat een tekst waarschijnlijk dáárover. De komst van het internet en de enorme toename in tekst die daarmee gepaard ging bood ruimte voor ontwikkeling van nieuwe technieken om tekstuele data te interpreteren, legt Wouter uit. “Een daarvan is topic modeling. Met deze techniek kijk je over verschillende teksten heen welke woorden vaak in combinatie met elkaar gebruikt worden. Die woordgroepen worden uiteindelijk gereduceerd tot onderwerpen. Het is dan vervolgens aan een analist om te beoordelen of de bepaling van onderwerpen juist is. Als analist heb je dus goed zicht op wat er precies in een topic model gebeurt.”

De tussen 2010 en 2013 opkomende word-to-vec-modellen zijn al wat geavanceerder. Daarin worden woorden omgezet naar nummers, en gepresenteerd als een vector-representaties. Vervolgens kijk je welke vectoren veel samen voorkomen en wordt op die manier getracht een semantische samenhang binnen de tekst te ontdekken. Eigenlijk worden dus vectoren aan een tekst toegevoegd, die op zichzelf inhoudelijk weinig betekenis hebben, maar wel heel krachtig zijn voor je voorspelling. Daarmee lever je qua begrijpelijkheid en uitlegbaarheid wel wat in, benoemt Wouter. “Je kunt deze vectoren op zich nog wel terugleiden naar woorden, maar dit is wel veel complexer om uit te leggen. Je kijkt immers naar cijfers, niet naar woorden.”

De op dit moment meest geavanceerde analyses worden uitgevoerd met zogenaamde transformer-modellen, ook wel BERT-modellen genoemd. Dit zijn deep learning-modellen die vooraf getraind zijn op belachelijk grote hoeveelheden tekstuele data, afkomstig van bronnen als Wikipedia en Facebook, aldus Wouter. “Zo’n model train je dan verder door je eigen teksten aan te leveren, maar door een gedeelte van die trainset aan woorden weg te laten. Vervolgens vraag je het model te voorspellen waar bepaalde woorden in een tekst moeten staan. Op deze manier leert het model welke woorden het meest belangrijk zijn en wat de logische zinsvolgorde is. Deze modellen zijn ontzettend krachtig gebleken, omdat je heel makkelijk vraag-antwoord-analyses kunt doen. Ze zijn daarnaast heel geschikt voor classificaties, bijvoorbeeld als je wil voorspellen of klanten bij je weg willen.”

De valkuilen: racisme en misbruik

Hoewel BERT-modellen veel worden gebruikt binnen analyse-afdelingen, worden ze voor toepassingen richting klanten niet zomaar toegepast. Als het gaat om het voorspellen van het mogelijke vertrek van klanten kunnen modellen geen kwaad. Analyseresultaten blijven immers alleen intern beschikbaar. Als het gaat om een vraag-antwoordmodel voor klanten (bijvoorbeeld een chatbot) dan heerst er vaak koudwatervrees bij bedrijven, omdat er in die situatie heel weinig nodig is voordat een model uit de bocht vliegt, legt Wouter uit. “Er zijn beroemde voorbeelden. Zo had Microsoft een chatbot in 2016 die binnen no-time racistische taal begon uit te slaan. Je moet je echt realiseren dat zo’n model is getraind op onze eigen input, dus als je een model vraagt in te vullen: ‘De dokter is een…’, dan zal ‘man’ als resultaat naar voren komen, simpelweg omdat in de meeste ingevoerde data uit het verleden dokters als mannen worden beschreven. En zo kan het nog veel verder gaan, als je bijvoorbeeld vraagt: ‘Twee moslims lopen een kerk in…’ kan een model antwoorden: ‘en steken 12 mensen dood’, puur en alleen omdat in veel berichtgeving moslims vaak met dit soort incidenten worden genoemd. Discriminatie en racisme kunnen dus heel snel voortkomen uit zo’n model. We moeten er bewust van zijn dat dit komt door onze eigen teksten waarmee we die modellen voeden.”

Maar dat is niet de enige valkuil. Een deep-learning-model vergt veel trainingstijd. De meeste organisaties maken daarom gebruik van vooraf getrainde modellen. Een half jaar geleden is echter uit onderzoek gebleken dat deze vooraf getrainde modellen zo zijn te beïnvloeden dat bijvoorbeeld bepaalde merknamen of personen altijd positief terugkomen in de analyseresultaten. En dat het moeilijk is te ontdekken of een model op deze manier is beïnvloed of niet, waarschuwt Wouter. “We hebben eigenlijk iets nodig of een model voldoet aan bepaalde eisen, door middel van een certificatiesysteem, of iets dergelijks.  Zo voorkom je dat merken modellen eventueel beïnvloeden en misbruiken. En hoewel ik deze modellen in de praktijk nog niet voorbij heb zien komen, is wel wetenschappelijk aangetoond dat het kan. Zorg er dus voor dat je weet waar jouw modellen vandaan komen en wie ze heeft gebouwd.”

Tekstuele analyse is voor iedereen toegankelijk

Eigenlijk werken tekstuele analyses op een soortgelijke manier als wat je doet met kwantitatieve data, alleen is het een andere manier van kijken. Net als bij kwantitatieve analyses, is de kwaliteit en het resultaat van tekstuele analyses afhankelijk van wat je er aan de voorkant in stopt, licht Wouter toe: “Je moet in beiden gevallen zorgen dat data op orde en geprepareerd is, en dat je kenmerken hebt waarmee je kunt werken. Bij tekstuele data kijk je alleen naar andere kenmerken om je data op te schonen. Kijk bijvoorbeeld naar HTML-coderingen, interpunctie, cijfers of datums. Allemaal elementen waar tekstanalysemodellen moeilijk mee omgaan en daarom weinig betekenis hebben. Deze kenmerken moet je er eerst uithalen voordat je echt een analyse gaat doen. Hiervoor zijn veel opensourcepakketten beschikbaar met standaard routines voor het verwijderen van interpunctie, cijfers en stopwoorden die je niet kunt gebruiken.”

Als je kijkt naar de bovenstaande werkzaamheden, en je bent een data scientist met een fatsoenlijke kwantitatieve achtergrond, dan staat eigenlijk niets je in de weg om ook met tekstuele data aan de slag te gaan, aldus Wouter. “De enige valkuil is dat het je zo makkelijk wordt gemaakt, dat je aan het einde niet zo goed weet hoe je tot een resultaat bent gekomen. Je moet dus goed in kaart hebben hoe je input eruit ziet, wat voor model je toepast, en wat je vervolgens zeggen over de waarde van het model. Want deep-learning-modellen klinken ontzettend sexy, maar als je niet exact weet hoe het werkt én je kan het niet uitleggen – intern of aan consumenten – dan is de kans klein dat het dan in productie wordt genomen. Ik raad daarom altijd aan klein te beginnen, bijvoorbeeld met een simpel topic model. Als dat onvoldoende blijkt, kan je daarna overgaan op word embedding, om vervolgens te kijken naar deep-learning-modellen. Het is belangrijk om echt goed in te schatten wat je nodig hebt.”

In hoeverre bedrijven tekstuele analyses echt toepassen, ligt overigens vaak aan de datavolwassenheid. Bedrijven die meer datavolwassen zijn hebben vaak een grotere club aan analisten en kennis. Bovendien is gegevensopslag en -verwerking beter georganiseerd waardoor het makkelijker wordt om gestructureerd kennis te halen uit tekst. Bij bedrijven die minder volwassen zijn, of echt nog aan het begin staan van hun datastrategie, valt er nog veel winst te behalen op het gebied van kwantitatieve data, aldus Wouter. “Die bedrijven adviseer ik om zich te richten op creëren van waarde uit gegevens die je al beschikbaar hebt op de traditionele, kwantitatieve manier. Heb je aanvullende wensen met betrekking tot modellen of heb je weinig kwantitatieve data beschikbaar? Dan kan je serieus kijken naar tekst.”

Bob Younge

Contentspecialist

Ook interessant

Lees meer
Artificial Intelligence |

Vacature: Commissielid DDMA Commissie Artificial Intelligence (op vrijwilligersbasis)

Ben jij werkzaam in de AI en/of data science-hoek van de marketingsector en heb jij interesse om een belangrijke rol te spelen in het vormgeven en verder professionaliseren van het…
Lees meer
Artificial Intelligence |

X onder vuur: mogelijk onrechtmatig gebruik van persoonsgegevens voor AI-training

Non-profitorganisatie None of Your Business (NOYB), opgericht door privacy-activist Max Schrems, heeft negen klachten ingediend tegen X (voorheen Twitter). De aanleiding? Verschillende overtredingen van de GDPR, in Nederland beter bekend…
Lees meer
Artificial Intelligence |

Shall we not talk about AI for once? Likely your data set is not ready for it. Just not yet.

Did you happen to see the Netflix documentary about Fyre, the once in a lifetime luxury music festival in the Bahamas? In case you missed it, the overhyped festival, a…