Overzicht Actueel

Big data: hype of trend?

Big data, wat betekent het juridisch? Je hoeft maar een juridisch tijdschrift of cursusprogramma open te slaan om deze zin aan te treffen. Big data is happening, en we moeten er wat mee als juristen zijnde. Maar is big data nu werkelijk zo uniek?

Deze week een gastblog van Arnoud Engelfriet (ICTRecht) over de commerciële mogelijkheden en juridische implicaties van deze trend.

Hoeveelheid, snelheid en diversiteit

De term big data wordt gebruikt om te verwijzen naar verzamelingen data die zo groot zijn dat ze met traditionele databasesystemen niet goed meer te verwerken zijn. Volgens onderzoeks- en adviesbureau Gartner gaat het om drie factoren: de hoeveelheid data, de snelheid waarmee de data binnenkomt en opgevraagd wordt en de diversiteit van de data. Ook de complexiteit van de analyse is van belang. Het krantenarchief van de Koninklijke Bibliotheek is in die definitie geen big data, aangezien hier niet vaak complexe zoekopdrachten in moeten worden uitgevoerd. De verzameling met “Vind ik leuks” die Facebook aanlegt, is wél big data, aangezien het bedrijf hieruit in real time moet achterhalen wat ‘men’ interessant vindt en er ook nog eens welke advertenties daar het beste bij passen.

Met big data kan worden gezocht naar combinaties of trends die in kleinere hoeveelheden data onzichtbaar zouden zijn gebleven. Met statistische analyses door krachtige computers kunnen dan verbanden worden gevonden die handmatig onderzoek nooit had kunnen vinden. Correleer tienduizend factoren over een periode van vijf jaar en je zult opmerkelijke dingen vinden: een patroon van frauduleuze transacties in de boekhouding, de kans dat een ontslagen patiënt op korte termijn terugkomt in het ziekenhuis of het tijdstip waarop een machine op de productievloer het beste vervangen kan worden.

Big data-zwangerschap

Een bekend voorbeeld van wat er zoal mogelijk is met big data is de Amerikaanse winkelketen Target die middels big data-analyse aan het koopgedrag van haar klanten kon achterhalen of deze vrouw waren – en zwanger. Zo blijkt het omschakelen naar geurloze lotions en de aanschaf van extra schoonmaakmiddelen opmerkelijk vaak door zwangere vrouwen te gebeuren. Toen een zestienjarige dame vervolgens een boekje kortingsbonnen voor zwangerschaps- en babyproducten ontving, verraste dat haar ouders nogal. Maar de computer van Target bleek het bij het rechte eind te hebben, en de boze vader bood dan ook zijn excuses aan voor zijn boze protest en de eerdere stap naar de media.

Dit voorbeeld laat meteen zien waar het grootste juridische pijnpunt zit: veel big data die vandaag de dag wordt verzameld, bevat persoonsgegevens. En dat maakt het verwerken van big data lastig, want het verwerken van persoonsgegevens is aan strenge regels gebonden. De Wet bescherming persoonsgegevens eist in beginsel uitdrukkelijke toestemming van de betrokkene, alsook een informatieplicht voor de verantwoordelijke die de gegevens gaat verwerken. Die toestemming is doel gebonden – toestemming voor gebruik in een bestelling betekent nog niet toestemming voor uitgebreid analyseren in een big databestand.

Big data versus Wbp

De uitgangspunten van de privacywet (Wbp) zijn op zich overzichtelijk en helder. Alleen, ze zijn geschreven in een wereld waarin databanken kilobytes aan data bevatten – een klantenbestand, een jaaradministratie, een logboek of wat. Geen zettabyte – een triljard gigabyte – aan ongestructureerde data waar een gemiddeld databasepakket zich per direct verslikt. Dat maakt werken met big data lastig: het verwerken van persoonsgegevens is aan strenge regels onderworpen. Het begint al bij de eenvoudige vraag hoe men toestemming krijgt van alle betrokkenen. Waar dat bij een aanmelding op een website nog wel lukt, is het bij 4.5 miljard Vind-ik-leuks per dag al iets moeilijker om per geval op een zinvolle manier toestemming te vragen.

Hier wreekt zich het verschil tussen Europese en Amerikaanse privacy. In Amerika kent men het concept ‘persoonsgegeven’ niet. Ook in de VS wordt wel om toestemming gevraagd voor gebruik van persoonsgegevens, maar dat is eigenlijk altijd vanuit het perspectief van mensen met rust laten. Een nieuwsbrief dringt hinderlijk binnen in je inbox, dat is daarmee een privacy schending. Van big data heb je geen directe last.

Persoonsgegevens die niet gekoppeld zijn aan een naam, adres of andere contactgegevens worden in de Amerikaanse visie op privacy al snel als vogelvrij gezien. Daar heb je als privépersoon immers geen last van, niemand kan je contacteren dus je wordt keurig met rust gelaten. En dat je het alsnog vervelend vindt dat men weet wat jouw online alias Henkiepenkie123 allemaal uitspookt, tsja dan had je die gegevens maar niet moeten achterlaten op sites als Google of Facebook. Dat was jouw keuze en jij bent akkoord gegaan met de terms of use en de privacy policy van het bedrijf.

Big data is vrijwel nooit gekoppeld aan contactgegevens. Het gáát bij big data ook helemaal niet om individuele personen. Dat ik op Facebook zit, is niet interessant. Dat er 43.548 Nederlanders zijn in mijn inkomstencategorie die de advocatenserie Suits kijken, dat is wel interessant want daar kunnen dan specifieke advertenties bij neergezet worden. Natuurlijk is er altijd wel iets nodig om die 43.548 mensen te herkennen en te onderscheiden. Hiervoor zijn technieken als cookies of IP-adressen zeer geschikt. Een cookie bevat een uniek getal dat aan een big data database-record te koppelen is, en hetzelfde kan worden gedaan met een IP-adres. Dit verklaart de heftige weerstand vanuit Amerikaanse bedrijven wanneer dergelijke getallen door Europese privacy toezichthouders ineens tot persoonsgegevens worden verklaard: daar gaat hun mooie advertentieverkoopbedrijfsmodel. En zonder gerichte advertenties geen inkomsten. Uit vele onderzoeken blijkt dat ‘gewone’ advertenties veel minder succesvol zijn dan gerichte, op bezoekersprofielen afgestemde advertenties.

De oplossing is een database

Big data is geen hype maar een trend. Binnen de ICT geldt immers: ongeacht het probleem, de oplossing is een database. Hoe meer data, hoe beter. En vanuit zakelijk perspectief is dat best te begrijpen. Maar vanuit privacy rechtelijk perspectief is big data een big thread: er worden zéér uitgebreide informatieprofielen opgebouwd over mensen, en hiermee worden volautomatisch conclusies getrokken en acties ondernomen die mensen raken.

Big data aan banden leggen zal echter niet eenvoudig zijn. Het gevecht om de aankomende Privacy verordening is een eerste voorbeeld; het ‘heftigste lobbycircus ooit’ ging in feite om de vraag of internetbedrijven met Big Data Europese computergebruikers mogen registreren, volgen en verkopen aan adverteerders. Dit tij keren zal niet eenvoudig zijn, met name niet omdat er niet echt een reëel alternatief is. Generieke advertenties leveren niet genoeg op om gratis diensten te kunnen ondersteunen. En de consument laten betalen voor online diensten lukt maar mondjesmaat.

Dit creëert een buitengewoon lastig dilemma. Big data verbieden zal internetondernemers zwaar raken in hun commerciële mogelijkheden, en gezien de belangstelling voor hun diensten bij het publiek is een verbod moeilijk uit te leggen. Big data ongebreideld toestaan leidt echter weer tot onwenselijke uitsluitingen en beperkingen: “sorry, de computer zegt nee”. De enige echte compromisoplossing voor dit soort dilemma’s is privacy by design: zorgen dat technologie inherent rekening houdt met privacy. Dat er niet meer gegevens verwerkt of vrijgegeven worden dan nodig.

Maar juist dat is weer praktisch onuitvoerbaar, want privacy is een rekbaar begrip. Welke privacy design je in? Hoe ver ga je daarin?
Het liefst zou ik zien dat de wetgever een kader introduceert van wat wel en niet wenselijk is. Los van de techniek: wat voor verwerkingen vinden we acceptabel, welke zijn dubieus en welke kunnen echt niet. Ter vergelijking wijs ik op de zwarte en grijze lijsten van algemene voorwaarden: welke bedingen zijn acceptabel in algemene voorwaarden, welke zijn dubieus en welke willen we gewoon niet hebben. Maar voordat we een dergelijke set lijsten hebben opgesteld, is big data wellicht alweer achterhaald door iets nóg groters en nieuwer.

Mr.ir. A.P. Engelfriet is ICT-jurist en partner bij ICTRecht te Amsterdam.