AI-chatbots liggen onder een vergrootglas bij toezichthouders
Privacytoezichthouders kijken kritisch naar het gebruik van AI-chatbots. Zo lanceerde de Europese koepel van toezichthouders (EDPB) in april 2023 een speciale taskforce om samenwerking te bevorderen en informatie uit te wisselen over mogelijke acties tegen ChatGPT. Ook op het niveau van de lidstaten houden AI-chatbots de privacy watchdogs bezig.
De Autoriteit Persoonsgegevens (AP) waarschuwde eind 2024 voor de ‘nieuwe’ Chinese chatbot DeepSeek. Omdat gebruikersgegevens naar China worden doorgestuurd, en het versturen van gegevens buiten de EU enkel onder strenge voorwaarden is toegestaan, roept dit vragen op over naleving van de AVG door DeepSeek. De Italiaanse toezichthouder Garante gaat zelfs al een stap verder en heeft het gebruik van DeepSeek in Italië geblokkeerd. Op het verzoek van de toezichthouder met de vraag om meer informatie over het gebruik van gegevens, werd door DeepSeek namelijk niet gereageerd.
Italiaanse privacywaakhond deelt boete uit aan OpenAI
En niet alleen DeepSeek: ook OpenAI’s ChatGPT kreeg te maken met handhavingsmaatregelen van Garante. In december 2024 kregen zij namelijk een boete opgelegd van 15 miljoen euro, die zich vooral richt op het feit dat de chatbot werd getraind met de gegevens van de gebruikers, zonder dat de gebruikers hiervan op de hoogte waren gesteld. Hoe kwam dit?
De strijd tussen OpenAI en Garante gaat terug tot maart 2023. Volgens de Italiaanse waakhond had OpenAI onvoldoende waarborgen geïmplementeerd om de privacy van gebruikers te beschermen, waardoor de chatbot destijds verboden werd in Italië. Van lange duur was het verbod niet: een maand later was ChatGPT toch weer toegestaan.
Afgelopen december bleek toch dat OpenAI zich niet aan de privacywetgeving hield, waardoor Garante reden zag om alsnog een hoge boete op te leggen. Dit vanwege een viertal redenen:
- Datalek:
OpenAI had Garante niet op de hoogte gesteld van een datalek (betreffende gesprekken van gebruikers en informatie over betalingen) dat in maart 2023 heeft plaatsgevonden. Volgens de AVG is een organisatie dit verplicht te melden, lees daarover hier meer;
- Geen grondslag voor verwerking & schending transparantieplicht
OpenAI heeft geen geldige rechtsgrond kunnen aantonen voor de verwerking van persoonsgegevens bij het trainen van het GPT-model achter ChatGPT. De AVG vereist dat organisaties vóór de start van een verwerking een grondslag moeten vaststellen en transparant communiceren over de verwerking van gegevens. OpenAI beriep zich achteraf op gerechtvaardigd belang, maar had dit niet vooraf formeel vastgelegd of opgenomen in de gebruikersinformatie. Hierdoor werd ook de mogelijkheid weggenomen voor gebruikers om hun rechten, zoals het maken van bezwaar tegen de verwerking, uit te oefenen. - Geen leeftijdsverificatie
Een andere reden waarom OpenAI een boete kreeg, was het ontbreken van een effectief leeftijdsverificatiesysteem bij de registratie voor ChatGPT. Hoewel de eigen servicevoorwaarden vereisten dat minderjarigen toestemming van hun ouders nodig hadden, was er geen controlemechanisme om dit te handhaven. Daarnaast schond OpenAI hun verantwoordelijkheidsplicht uit de AVG, die bedrijven oplegt technische maatregelen te nemen in het kader van adequate en rechtmatige gegevensbescherming. OpenAI had hieraan kunnen voldoen door een leeftijdsverificatie in te bouwen, maar deed dit niet en vergrootte hiermee het risico ‘dat kinderen onder de 13 jaar worden blootgesteld aan ongepaste antwoorden die niet aansluiten bij hun ontwikkelingsniveau en zelfbewustzijn’.
Naast de boete heeft OpenAI ook nog een andere maatregel opgelegd gekregen. Ze kregen de opdracht om een bewustwordingscampagne van 6 maanden uit te voeren op o.a. televisie en online om het publiek bewuster te maken van de werking van ChatGPT en het gebruik van persoonsgegevens van gebruikers.
OpenAI uit kritiek op het DeepSeek R1-model
De DeepSeek chatbot maakt onder de motorkap gebruik van het R1-model. Het R1-model trekt veel aandacht, niet alleen van privacytoezichthouders, maar ook van OpenAI. DeepSeek R1 genereert vergelijkbare – of zelfs betere – resultaten dan OpenAI’s modellen, maar tegen een fractie van de kosten. Wat speelt er precies?
- Beschuldiging van ‘datadiefstal’:
OpenAI stelt dat DeepSeek de creatie van het R1-model mogelijk heeft gemaakt door een techniek genaamd knowledge distillation. Hierbij wordt de output van een bestaand AI-model gebruikt als trainingsmateriaal voor een nieuw model. Volgens OpenAI heeft DeepSeek:- massaal antwoorden en kennis uit OpenAI-modellen overgenomen (‘gedestilleerde kennis’).
- deze data gebruikt voor het trainen van DeepSeek R1 zonder toestemming van OpenAI.
- hiermee de gebruiksvoorwaarden van de OpenAI geschonden, want in de voorwaarden staat: “you are prohibited from … Automatically or programmatically extracting data or Output”.
- Met andere woorden: DeepSeek zou op grote schaal output van OpenAI AI-modellen hebben gebruikt om een concurrerend model te bouwen, zonder dat OpenAI daar controle over had.
Kun je data ‘stelen’?
In juridische zin kan er geen sprake zijn van ‘diefstal’ van data, omdat informatie, ideeën, creaties en uitvindingen geen eigendom van iemand kunnen zijn, zoals fysieke objecten. Er zijn hierop wel uitzonderingen, waaronder intellectuele eigendomsrechten (IE, bijv. auteursrechten) en het schenden van bepaalde voorwaarden. OpenAI beroept zich in dit geval op die laatste categorie, maar of ze gelijk krijgen valt nog maar te bezien.
- Reactie OpenAI en experts:
OpenAI onderzoekt de zaak, gesteund door de Amerikaanse autoriteiten, en treft al maatregelen om zijn modellen te beschermen. Dit kan gevolgen hebben voor de bredere AI-markt en onderstreept de noodzaak voor bedrijven om zorgvuldig om te gaan met AI-training en datagebruik.
Tegelijkertijd wijzen experts erop dat het voor OpenAI juridisch lastig wordt om deze schending van de voorwaarden te onderbouwen. Een belangrijk tegenargument is dat knowledge distillation niet wezenlijk verschilt van het grootschalig verzamelen van webdata – iets wat OpenAI zelf heeft gedaan bij het trainen van zijn eigen modellen. Dit roept de vraag op: waar ligt de grens tussen inspiratie, imitatie en inbreuk?
Lessen voor de praktijk
Er zijn een aantal belangrijke lessen voor de praktijk:
- Gebruikersgegevens als trainingsmateriaal
Wees bewust van het feit dat AI-chatbots gebruikersgegevens gebruiken om te trainen: vul geen gevoelige gegevens (van jezelf of anderen) in je prompts en check de voorwaarden van de tool die je wil gebruiken. Traint de chatbot bijvoorbeeld automatisch met jouw prompts? Dit kun je vaak uitzetten. - Transparantie en vertrouwen
Het handhaven door Garante laat zien hoe belangrijk het is om helder te communiceren over de verwerking van persoonsgegevens en AI. Als marketeer is het essentieel om open te zijn over welke gegevens je verzamelt en hoe die worden gebruikt. Dit versterkt het vertrouwen van consumenten in je merk en voorkomt reputatieschade, zeker in een tijd waarin privacy steeds meer aandacht krijgt. - AI-modellen op eigen infrastructuur
Wil je DeepSeek veilig gebruiken? Overweeg dan om het model lokaal of op een eigen server te draaien en niet de chatbot van DeepSeek zelf te gebruiken. DeepSeek biedt open-source versies van R1 aan, waardoor je controle houdt over je data en geen risico loopt op ongewenste datadeling (met China). Dit is vergelijkbaar met hoe bedrijven ervoor kiezen om AI-modellen als GPT4o of Llama 3.1 op eigen infrastructuur – van bijvoorbeeld Azure – te draaien.
Ook interessantOok interessant

Het juridische slagveld van AI Chatbots: Privacytoezichthouders staan op scherp

AI-driven marketing: wat kan en wat is verboden?
