AVG: persoonsgegevens pseudonimiseren

Er zijn verschillende technieken en manieren om (gevoelige) persoonsgegevens te beschermen tegen ongewenste toegang, en pseudonimiseren is er daar één van.

Pseudonimiseren verschilt van anonimiseren. Persoonsgegevens pseudonimiseren (in de vorige Privacywetgeving aangeduid als ‘coderen’) betekent dat je die op zodanige wijze bewerkt dat je ze niet meer aan een specifiek individu (ook wel ‘betrokkene’ genoemd) kan koppelen zonder dat je aanvullende gegevens gebruikt. Dat houdt meestal in dat je identificatiegegevens uit de gegevens vervangt door een pseudoniem. De link tussen de identiteit van de betrokkenen en het pseudoniem neem je dan in een afzonderlijk bestand op (het sleutelbestand, zie later). De onderzoeker kan dus te allen tijde aan de oorspronkelijke data en identiteit van de betrokkene (de natuurlijke persoon wiens persoonsgegevens bewerkt worden). Bij anonimiseren daarentegen wordt de link tussen de gegevens van de betrokkene en de identiteit van de betrokkene onomkeerbaar verwijderd (zie deze onderzoekstip voor meer uitleg).

Het doel van pseudonimiseren is om een ‘veiligere’ versie van de dataset te creëren, althans op het vlak van privacy, en om tegelijkertijd de mogelijkheid tot (her)identificatie te bewaren. Het is niet enkel veiliger om te werken met een gepseudonimiseerde dataset dan met de oorspronkelijke dataset, pseudonimiseren maakt het ook mogelijk om de dataset door te sturen naar of te laten verwerken door andere partijen zonder in te boeten op de privacy van de betrokkenen. In een advies van de European Data Protection Board (EDPB), wordt pseudonimisering zelfs naar voren geschoven als een effectieve aanvullende maatregel om tijdens internationale uitwisseling persoonsgegevens te beschermen.

Termen:

  • Directe identifiers: gegevens die leiden tot de directe identificatie van een persoon. Voorbeelden zijn naam, adres, telefoonnummer, etc.
  • Indirecte identifier: gegevens die op zichzelf niet leiden tot de identificatie van een persoon, maar door combinatie met andere gegevens toelaten personen de (her)identificeren. Voorbeelden zijn leeftijd, geslacht, gewicht, een persoonlijke visie, etc.
  • Keyfile of sleutelbestand: het document waarin de link gemaakt wordt tussen de gepseudonimiseerde en de ruwe gegevens (bv. een lijst met de namen van de betrokkenen en de codes die werden gebruikt in de gepseudonimiseerde dataset).

Wanneer pseudonimiseren?

Wanneer je persoonsgegevens verwerkt, heb je de ethische én juridische verplichting om de privacy van de betrokkenen steeds voldoende te beschermen. De keuze welke en hoeveel beveiligingsmaatregelen er nodig zijn, maak je op basis van zowel de aard van de persoonsgegevens als van een inschatting van de risico’s die komen kijken bij het verwerken van de persoonsgegevens. Zo zal je een risicovollere verwerking (bv. wanneer je data deelt met externen) moeten combineren met een uitgebreidere set van veiligheidsmaatregelen. Ook wanneer je werkt met bijzondere categorieën van persoonsgegevens (ook wel “gevoelige” persoonsgegevens genoemd), zal je meer aandacht moeten hebben voor bijkomende veiligheidsmaatregelen, zoals pseudonimiseren.

Kwantitatieve data pseudonimiseren

Voor kwantitatieve data is pseudonimisering relatief makkelijk, omdat het onderscheid tussen gegevens (variabelen) met en zonder identificerende eigenschappen duidelijk is. Ze staan los van elkaar. Denk bijvoorbeeld aan surveydata, waarbij participanten (online) enquêtes invullen. Frequent worden hierbij contactgegevens bevraagd (naam, e-mailadres, …) en/of demografische gegevens waardoor de identiteit van een participant achterhaald kan worden. De onderzoeksgegevens zelf bevatten echter vaak geen (direct) identificerende eigenschappen (bv. scores op Likert-schalen).

Eenvoudige datasets

Hoe je exact moet pseudonimiseren, hangt sterk af van de dataset. In sommige eenvoudige gevallen volstaat het om simpelweg de directe identifier te vervangen door een pseudoniem en een keyfile aan te maken. Via de keyfile kan je de data dan opnieuw aan een identificeerbaar persoon linken.

  • Bewaar de keyfile apart van de gespeudonimiseerde onderzoeksdata
  • Encrypteer de keyfile en deel het wachtwoord met minstens één vertrouwenspersoon (bv. de (co-)promotor van het onderzoek)
  • Beperk de toegang tot de keyfile

Pseudonimisering van een simpele dataset. In dit geval volstaat het om de naam de pseudonimiseren, er zijn immers te weinig indirecte identifiers om heridentificatie mogelijk te maken a.d.h.v. de gepseudonimiseerde dataset. Enkel via de keyfile kan de data opnieuw aan een individu gelinkt worden.

Complexe datasets

Bij meer complexe datasets wordt het pseudonimiseren wat moeilijker. Vaak is er in onderzoek nood aan (uitgebreide) demografische gegevens om de onderzoeksdata te verwerken en analyseren. Het is wellicht niet voldoende om de directe identifiers (bv. naam) louter te vervangen door een pseudoniem, omdat het door de combinatie van demografische gegevens (bv. geboortedatum + geslacht + woonplaats) vaak toch nog mogelijk is om individuen in een dataset te lokaliseren. In dergelijk geval zijn er twee opties:

  1. ofwel worden de demografische gegevens (of alle potentiële indirecte identifiers) van de dataset gescheiden,
  2. ofwel worden de gegevens met identificerende eigenschappen ‘gegeneraliseerd’.

1. Data scheiden

Optie 1 (data scheiden) biedt de onderzoeker de mogelijkheid om de onderzoeksdata in gepseudonimiseerde vorm te verwerken of analyseren, terwijl de demografische gegevens in een veilige omgeving worden bewaard (bv. op een netwerkschijf waartoe de toegang beperkt is).

In dit geval verzamelden we een aantal demografische gegevens. Voor het onderzoek is het niet wenselijk om enige informatie te verliezen (bv. door het generaliseren van data). De veiligste optie is dan om het sleutelbestand uit te breiden met alle demografische data. Er kan veilig gewerkt worden met de gepseudonimiseerde dataset en alle (aanvullende) data blijft beschikbaar.

2. Data generaliseren

In sommige gevallen willen we echter de demografische variabelen niet van de rest van de data scheiden, omdat alle variabelen van belang zijn voor de analyse van de dataset. Als we de dataset willen pseudonimiseren, zal het nodig zijn om bepaalde variabelen te generaliseren. Concreet betekent dat dat je de betrokken variabelen veralgemeent, waardoor de data minder specifiek worden. Zo kan je bijvoorbeeld een dataveld “geboortedatum” veralgemenen tot geboortejaar of leeftijdscategorie. Een specifiek adres zou je dan bijvoorbeeld kunnen veralgemenen tot een stad of regio. Let wel op: dat leidt tot een verlies aan detail in de data, wat niet altijd wenselijk is. Bij het pseudonimiseren zal je dus altijd de afweging moeten maken hoever je kan gaan zonder de doelstellingen van het onderzoek te hinderen.

In dit voorbeeld generaliseerden we de demografische gegevens zodat ze minder specifiek werden. Een specifiek individu kan je hierin niet identificeren; er zijn bijvoorbeeld meerdere vrouwen in de leeftijdscategorie 50-60 die in Europa vertoeven en eenzelfde opleidingsniveau hebben. Uiteraard hebben we hier te maken met een ‘verlies’ van (specifieke) data.

Onafhankelijk van de optie die je als onderzoeker kiest, moet je nagaan of de dataset voldoende gepseudonimiseerd is. Om dat te verifiëren, bekijk je de dataset vanuit het standpunt van een deelnemend individu (betrokkene). Als je vermoedt dat een deelnemer zijn/haar data in de gepseudonimiseerde dataset kan herkennen, dan heb je die niet voldoende gepseudonimiseerd!

Voor beide opties geldt ook dat het relatief makkelijk is om achteraf de data te anonimiseren; het volstaat meestal om de keyfile definitief te verwijderen. Wanneer je ervoor gekozen hebt om in het sleutelbestand ook demografische gegevens te bewaren, verlies je die informatie natuurlijk. 

Kwalitatieve data pseudonimiseren

Het pseudonimiseren van kwalitatieve gegevens, zoals transcripties van interviews, audio- of videobestanden, is over het algemeen minder evident en meer arbeidsintensief. Nog meer dan bij kwantitatieve data, hangen de mogelijkheden af van het medium (beeld, spraak, tekst, …).

Opnames (audio & video)

Vaak worden interviews, focusgroepen, panelgesprekken, etc. geregistreerd zodat er geen details verloren gaan. Het is echter geen evidentie om die kwalitatieve gegevens te  pseudonimiseren. Wanneer een betrokkene herkenbaar in beeld wordt gebracht, is die al onmiddellijk identificeerbaar. Ook de stem van een individu wordt beschouwd als een directe identifier. Je kan een gezicht of afbeelding met videobewerkingssoftware vervagen en je kan een stem via audiobewerkingssoftware onherkenbaar maken, maar die bewerkingen vergen een zekere technische kennis en een grote tijdsinvestering. Bovendien is ‘onherkenbaarheid’ niet altijd gegarandeerd. Zo kunnen in sommige gevallen technische filters ongedaan gemaakt worden, of is de manier van spreken, de gebruikte woordenschat of het dialect zo specifiek dat het nog steeds mogelijk is een individu te herkennen.

Een bijkomende uitdaging is dat de betrokkenen persoonlijke informatie kunnen delen tijdens interviews of gesprekken (niet noodzakelijkerwijs gelinkt aan de focus van het onderzoek). Die informatie kan, eventueel in combinatie met andere gegevens, het mogelijk maken de betrokkene te (her)identificeren. Is dat redelijkerwijs mogelijk, dan moet je al die informatie wegwerken (bv. door een pieptoon over het originele geluid te editen).

De conclusie is dus dat het pseudonimiseren van audiovisuele data technisch complexer is en meestal grote inspanningen vraagt van de onderzoeker.

Een alternatieve strategie kan zijn om de originele audio- en/of videobestanden veilig te bewaren en te werken met transcripties; tekstuele data zijn immers makkelijker om te pseudonimiseren (zie hieronder). Afhankelijk van de situatie, kan je de oorspronkelijke opnames verwijderen.

Transcripties

Om gesprekken (bv. van interviews, focusgroepen, …) verder te verwerken en analyseren, worden de opnames ervan meestal getranscribeerd. Dat opent mogelijkheden voor het pseudonimiseren. Zowel specifieke software voor het verwerken van kwalitatieve data (bv. Nvivo & ATLAS.ti) als meer generieke software (bv. MS Word) bieden mogelijkheden om specifieke woorden te vinden en vervangen. Let wel op, dat vereist dat je op voorhand weet naar welke specifieke (delen van) woorden je op zoek moet gaan.

Volgende punten zijn van belang:

  • Start het pseudonimiseringsproces zodra de kwalitatieve gegevens zijn verzameld, bijvoorbeeld meteen bij de start van het analyseren van de beelden of de transcriptie;
  • Maak bij het vervangen van persoonsgegevens in een transcriptie gebruik van de ‘zoek en vervang’ functie, maar voer dat proces met de nodige aandacht en zorgvuldigheid uit om typfouten niet over het hoofd te zien;
  • Zoeken naar woorden met hoofdletters en cijfers in een tekst kan helpen bij het vinden van identificeerbare informatie zoals een naam, plaatsnaam, geboortedatum, etc;
  • Net als bij pseudonimisering van kwantitatieve data, moet je voldoende organisatorische en technische maatregelen nemen om de keyfile te beveiligen.