Recht & Datenschutz

Mythen & ihre Folgen: Pseudo- oder Anonym?

Das Thema Datenschutz bewegt die Gemüter und sorgt für Diskussionen. Leider entstehen dabei manchmal auch Mythen. In diesem Beitrag möchte ich einem dieser Mythen auf den Grund gehen.

Pseudo vs. Anonym

Beim Datenschutz hat jeder so seine Meinung - dass konnte ich über die letzten Jahre in vermutlich fast hundert Gesprächen selbst miterleben. Leider kommt es in diesen Gesprächen auch immer wieder vor, dass pauschalisierende Aussagen getätigt oder Meinungen als Faktum dargestellt werden.

Gerade zu Beginn meiner Forschungen zum Thema Datenschutz, ließ ich mich davon oft verunsichern. Mit der Zeit bemerkte ich aber, dass einige der Aussagen nicht haltbar waren - sie waren oft nur persönliche Meinungen die schlicht mit einer ordentlichen Portion Selbstbewusstsein präsentiert wurden. Also recherchierte ich tiefer und stieß das eine oder andere Mal (zugegeben nicht immer) auf andere Ergebnisse.

Daraus entwickelte sich auch einer meiner Prinzipien: "Wenn alle sagen, dass etwas nicht möglich ist, glaube es nicht einfach, sondern hinterfrage es." Sprich, wenn die Antwort nicht aussagekräftig, nachvollziehbar oder mit Fakten untermauert ist, überzeuge dich selbst und finde heraus warum es nicht möglich sein soll. Denn wenn es darauf keine Antwort gibt, dann ist es vielleicht doch möglich.

„Das geht nicht, das ist nur ein Pseudonym“

Eine Aussage die immer wieder in verschiedenen Varianten auftaucht ist, dass ein consent-freies Tracking mit pseudonymisiertem oder anonymisiertem Identifier entweder nicht erlaubt oder nutzlos ist. Meines Erachtens beruht diese Aussage aber auf einem Missverständnis der Definitionen der Begriffe "Anonymisierung" und "Pseudonymisierung" sowie darauf welcher Zustand der Identifier für die jeweilige Partei in dieser Betrachtung hat. Zugegebenermaßen ist das Thema nicht ganz trivial - ich werde daher die Definitionen jeweils mit konkreten Beispielen vorstellen und versuchen die Thematik vereinfacht darzustellen.

Definition: Pseudonymisieren

„Pseudonymisierung“ die Verarbeitung personenbezogener Daten in einer Weise, dass die personenbezogenen Daten ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen betroffenen Person zugeordnet werden können, sofern diese zusätzlichen Informationen gesondert aufbewahrt werden und technischen und organisatorischen Maßnahmen unterliegen, die gewährleisten, dass die personenbezogenen Daten nicht einer identifizierten oder identifizierbaren natürlichen Person zugewiesen werden;
Quelle: DSGVO Artikel 4.5, https://dsgvo-gesetz.de/art-4-dsgvo/

Das bedeutet, wenn eine IP (die per se immer personenbezogenen ist), einen Hash-Algorithmus (z.B. MD5, SHA-X, etc.) durchläuft, dann erhält man ein Pseudonym dieser IP. Wenn man den Eingabewert gut genug anreichert (IP + User-Agent + weitere Merkmale), ist es zum heutigen Zeitpunkt nicht möglich aus dem erzeugten Hashwert die ursprüngliche Eingabe zu extrahieren (siehe hierzu auch Erwägungsgrund 26 der DSGVO). Die De-Pseudonymisierung ist nur mit Hilfe einer Zuordnungstabelle möglich (IP A = HASH A | IP B = HASH B | …) - sprich indem man sich "merkt" welcher Hash zu welcher IP gehört.

Betrachten wir das anhand eines Tracking-Beispiels:

  • Ein Nutzer besucht die Seite www.example.com

  • Der Browser des Nutzers übermittelt an den Webserver des Seitenbetreibers einige Informationen, darunter die IP - Beispiel: 192.168.179.10

  • Der Seitenbetreiber nutzt auf seiner Seite einen Tracking-Dienstleister (z.B. Anogate) mit dem ein Auftragsdatenverarbeitungsvertrag besteht.

  • Somit lädt der Browser des Nutzers das Javascipt des Tracking-Dienstleisters und es werden auch Informationen an diesen übermittelt, darunter die IP - hier 192.168.179.10 (Anmerkung: Auf die TTDSG/ePrivacy-Thematik werde ich noch gesondert eingehen)

  • Der Tracking-Dienstleister erzeugt wie oben beschrieben einen Hash z.B. SHA1(192.168.179.10|Mozilla/5.0 (iPhone;[..]|{SITE_HASH}|{DAILY_HASH}) = f89cabde53656358793144520e986323d863f6dd

An dieser Stelle wird es spannend - schauen wir uns an, wer welche Daten nun vorliegen hat:

  • Der Seitenbetreiber hat die IP des Besuchers, aber nicht den erzeugten Hash.

  • Der Tracking-Dienstleister hat in diesem Moment sowohl die IP als auch den Hash und kann die Werte zuordnen. Damit entspricht der Hash einem Pseudonym der IP.

Lassen wir das Beispiel fürs Erste einmal so stehen und schauen und das Thema Anonymisierung an.

Definition: Anonymisierung

Anonymisieren ist das Verändern personenbezogener Daten derart, dass die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können.
Quelle: BDSG §3.6, https://dejure.org/gesetze/BDSG_a.F./3.html

Im Wikipedia-Eintrag zum Thema "Anonymisierung und Pseudonymisierung" gibt es ein anschauliches Beispiel für den Unterschied:

Pseudonymisierung:
"Möchte ein Professor in einer Hochschule die Ergebnisse einer (schriftlichen) Prüfung den Studenten einfach zugänglich machen, so bittet er diese darum, während der Prüfung ein selbstgewähltes Pseudonym auf den Blättern zu notieren. Nach der Korrektur kann der Professor einen Aushang (ggf. auch im Internet) veröffentlichen, in dem alle Ergebnisse nach dem Schema <Pseudonym> <Note> aufgeführt werden. Somit ist die Zuordnung des Pseudonyms zum jeweiligen Studenten nur durch den Professor oder im Einzelfall durch den Studenten herzustellen."

vs.

Anonymisierung:
"Würden im obigen „Professor“-Beispiel im Nachhinein die Prüfungsblätter mit den von den Studenten notierten Pseudonymen zerstört werden, so wären die Angaben auf dem Notenaushang für die Allgemeinheit anonymisiert, da keine Zuordnung zu den jeweiligen Studenten mehr möglich wäre. Jeder Student wird jedoch, da er sich sein Pseudonym gemerkt hat, seinen Eintrag auf dem Notenaushang wiedererkennen können."

In dem Wikipedia-Beispiel erkennt man, dass es zum einen auf die Sichtweise ankommt ob Daten als pseudonymisiert oder anonymisiert gelten aber vor allem darauf ob die Zuordnung überhaupt noch möglich ist.

Pseudonym ohne Zuordnung = "anonymisiertes Pseudonym"

Bezogen auf das ursprüngliche Tracking-Beispiel und somit auch auf Anogate bedeutet dies: Wenn der Tracking-Dienstleister direkt nach der Erzeugung des Hashs die IP aus seinem Speicher entfernt, kann keine Zuordnung zwischen der IP und dem Hash entstehen. An dieser Stelle sehen die Zustände nämlich wie folgt aus:

  • Der Seitenbetreiber hat weiterhin nur die IP

  • Der Tracking-Dienstleister hat nun jedoch nur den Hash, nicht aber die IP.

Der Hash war somit nur für eine Millisekunde ein Pseudonym und wurde direkt anonymisiert – und zwar indem die Zuordnung unterbunden bzw. zerstört wurde. Der Tracking-Dienstleister kann ab diesem Moment basierend auf dem Hash keine IP mehr ermitteln. Der Hash ist nun ein anonymisiertes Pseudonym. Sollten weitere personenbezogene Daten in dem Tracking-Event vorhanden sein, müssen diese selbstverständlich ebenfalls anonymisiert werden. Wenn aber keine weiteren personenbezogenen Daten in dem Tracking-Event mehr vorliegen oder alle entsprechend anonymisiert wurden, greift die DSGVO nicht mehr.

DSGVO und anonyme Daten

Laut dem Erwägungsgrund 26, Satz 5 gilt die DSGVO nicht für anonyme Daten. Diese Sichtweise teilen auch zahlreiche Experten:

Umstritten ist jedoch ob der Prozess der Anonymisierung an sich bereits eine Datenverarbeitung darstellt. Aus Sicht des BfDI ist dies der Fall (siehe Positionspapier zum Konsultationsverfahren vom 29. Juni 2020) - der Branchenverband bitkom wiederum sah dies in der BfDI Konsultation anders (siehe Stellungnahme). Welche Sichtweise „die Richtige“ ist, werden vermutlich letztendlich Gerichte klären müssen.

Sollte es jedoch bei der Auslegung des BfDI bleiben, der Prozess der Anonymisierung also bereits eine Datenverarbeitung darstellen, würde wie für alle anderen Verarbeitungstätigkeiten auch, eine Rechtsgrundlage nötig sein. Eine mögliche Rechtsgrundlage hierfür könnte allerdings Art 6. Abs 1 f DSGVO "das berechtigte Interesse" in Kombination mit dem Erwägungsgrund 50, Satz 4 sein, der einen rechtmäßigen Verarbeitungsvorgang für statistische Zwecke vorsieht („[]..Die Weiterverarbeitung für im öffentlichen Interesse liegende Archivzwecke, für wissenschaftliche oder historische Forschungszwecke oder für statistische Zwecke sollte als vereinbarer und rechtmäßiger Verarbeitungsvorgang gelten.[..]“

Sind die Daten nämlich erstmal sicher anonymisiert, steht einer weiteren Verarbeitung nichts mehr im Wege.

Anogate entfernt personenbezogene Daten

Die Idee hinter Anogate ist es, die personenbezogenen Daten von den Tracking-Daten zu entfernen, so dass nur noch die (anonymisierten) Eventdaten übrigbleiben. Denn genau das sind die Daten die für die meisten Marketern überhaupt relevant sind (siehe dazu „Wie alles begann“). Die automatisierte Entfernung der personenbezogenen Daten ist die Herausforderung der wir uns stellen. Hierzu nutzen wir verschiedene Algorithmen aber auch KI-Lösungen, alles mit dem Ziel eines rechtskonformen Einsatzes deines Trackings auch ohne Einwilligung zu ermöglichen, so dass du mehr und zuverlässigere Daten erhältst.