Lade Inhalt...

Anonymisierungstechniken in der Informatik. Beurteilung der Effektivität und Anwendungsbereiche

Seminararbeit 2019 7 Seiten

Informatik - Angewandte Informatik

Leseprobe

Inhaltsverzeichnis

1 Einleitung

2 Notwendigkeit der Anonymisierung

3 Erfolgreiche Anonymisierung erreichen
3.1 k-Anonymitat
3.2 l-Diversität
3.3 t-Nachbarschaft
3.4 Differential Privacy
3.5 m-Invarianz

4 Konkrete Anwendungsfalle

5 Datensicherheit in der Zukunft

6 Fazit

Literatur

Zusammenfassung—In der Literatur gibt es verschiedene Ansatze zum Schutz der Privatsphare durch Anonymisie­rungstechniken. In dieser Übersichtsarbeit werden Anonymi­sierungstechniken und deren Notwendigkeit diskutiert sowie einzelne, prominente Anonymisierungstechniken nach deren Effektivitat beurteilt und Anwendungsbereich beschrieben. Es wird gezeigt, dass die Pseudonymisierung und die k- Anonymitat, wie auch die /-Diversitat fur heutige Pri- vatsphare-Anforderungen unzureichend sind. Fiir das Ver­walten von Daten ist die Anwendung der ^-Nachbarschaft oder m-Invarianz zu empfehlen. Fiir das einmalige Heraus­geben von Datenbanken eignet sich die Differential Privacy, fur das mehrmalige Herausgeben hingegen die m-Invarianz.

1. Einleitung

Diese Arbeit ist ein Literatur-Review zur Beurtei­lung von vorhandenen Anonymisierungsverfahren im Rah­men ungewollter und gewollter Veröffentlichung von Da- tensatzen und Datenbanken sowie den darin enthaltenen personenbezogenen, sensiblen Daten. Es ist nicht Ziel dieser Arbeit, ein neues Verfahren zu entwickeln oder bestehende zu verbessern.

Die Pseudonymisierung, bei welcher aus einem vollstandigen und identifizierenden Datensatz nur die Na­men der einzelnen Personen entfernt oder verandert wer­den, ist kein Teil dieser Arbeit, da diese nicht den Anfor­derungen an eine effektive Anonymisierungstechnik ent­spricht[16].

2. Notwendigkeit der Anonymisierung

Sowohl Unternehmen als auch Forschungsinstitute nutzen Datenbanken zur Lagerung von personenbezoge­nen Daten. Dies kann prinzipiell zu einer gefahrlichen Situation fuhren, falls diese Daten an unbefugte Personen weitergegeben werden, da in solchen Datenbanken meist nicht nur Name und Geschlecht einer Person, sondern vielleicht auch deren Familienstand, Einkommen, Schwer­behinderung oder sonstige Krankheiten aufbewahrt wer­den. Diese kann man als sensible Daten verstehen, also Daten, welche meist nur ungern an Fremde weitergegeben werden und bei Bekanntwerden einen erheblichen Nach­teil fur die betroffene Person darstellen konnen [32, S. 12].

Insbesondere Forschungsinstitute und deren medizini­sche Daten sind besonders der Gefahr des Missbrauchs ausgesetzt, da diese regelmaßig mit sensiblen Daten ar­beiten, welche einem Individuum direkt zugeordnet wer­den konnten, was diesem wiederum empfindlich schaden konnte. Ein prominentes Beispiel zur Veranschaulichung eines Anonymisierungsprozesses mit sensiblen Daten in der momentanen Literatur ist eine schlichte Datentabelle über Patienten mit Krankheiten wie Krebs, Hepatitis und HIV sowie unterschiedlichen Altersgruppen [5, S. 190],[19]. Sowohl im Bereich der allgemeinen Medizin[23] als auch im Bereich der molekularen Medizin[22] wurden bereits wiederholt Warnungen vor der Moglichkeit des Missbrauchs solcher Datensatze geaußert.

Die Website Data Never Sleeps fuhrt an, dass jede Minute 2,5 Trillionen Bytes an Daten im Internet ge­neriert werden[8]. Des Weiteren fuhrt die Website an, dass Google 3,6 Millionen Suchanfragen in der Minute verarbeitet[8]. Die Notwendigkeit der Anonymisierung dieser enormen Datenmengen zeigt sich beispielsweise darin, dass es im Zuge eines Datenlecks bei AOL im Jahre 2006 moglich war, mehrere Nutzer herauszugreifen und eindeutig zu identifizieren, sodass prazise Suchanfragen auch prazise zu einem einzelnen Individuum zugeordnet werden konnten[1]. Das Datenleck bei AOL ist nur ein exemplarischer Fall, wie er viele weitere Male vorkommen kann, wenn personenbezogene Daten nicht anonymisiert werden.

Laut Sweeney können 87 % aller US-Amerikaner anhand von Geschlecht, Geburtsdatum und Postleitzahl eindeutig identifiziert werden. [28, S. 558].

Im Zuge einer durchgeführten Umfrage (n = 408) von Sheth et al., bei welcher gefragt wurde, welche Aspek­te ihrer Privatsphare den Nutzern am wichtigsten sind, sowie welche Maßnahmen zum Schutz der Privatsphare die Nutzer als wichtig erachten, kamen die Autoren zu dem Schluss, dass sich die Prioritäten von Nutzern nach deren Herkunftslandern unterscheiden, wobei uberall ein Grundinteresse am bloßen Schutz der Daten vorhanden ist[27]. Weiterhin fuhren die Autoren an, dass die Sorgen der Nutzer durch die Verwendung effektiver Anonymi­sierungstechniken verringert werden können. Die tech­nischen Details interessieren die Nutzer hingegen ver­gleichsweise wenig [27, S. 862].

Sowohl die faktische Identifizierbarkeit einzelner In­dividuen anhand weniger Kriterien als auch ein erhofftes Sicherheitsgefuhl der einzelnen Nutzer, wie es Sheth et al. dargelegt haben, zeigen demnach die Notwendigkeit einer Anonymisierung personenbezogener Daten auf. Ins­besondere muss sich der Nutzer mit seinen Daten sicher fiihlen, da er sonst auf unvollstandige oder fehlerhaf­te Datenangaben zurückgreift, um sich diese Sicherheit zurückzuholen [14, S. 35],[6]. Teilweise ist dies auch durch offene und transparente Geschaftspraktiken und Datenschutzerklarungen moglich. Durch das Wissen, dass ein Unternehmen mit den übermittelten Daten sorgsam umgeht, ist der Nutzer diesem Unternehmen auch offener gegenubergestellt und entsprechend gewillter, seine Daten freiwillig preiszugeben.[27]

3. Erfolgreiche Anonymisierung erreichen

Die Anonymisierung definiert sich nach der alten Fas­sung des Bundesdatenschutzgesetzes im §3 Absatz 6 als: [...] das Verandern personenbezogener Daten derart, dass die Einzelangaben uber personliche oder sachliche Verhaltnisse nicht mehr oder nur mit einem unverhaltnismaßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimm­ten oder bestimmbaren naturlichen Person zuge­ordnet werden konnen.[4]

Demnach wurde ein Datensatz erst dann anonymisiert, wenn die Re-Identifikation eines Individuums zwar in der Theorie noch moglich, praktisch diese allerdings nicht mehr rentabel ist. Hierbei stellt sich die Frage, inwieweit welche Kriterien einzuhalten sind, sodass dies auch aus technischer Sicht gewahrleistet werden kann. Es ist zu vermuten, dass sowohl das Recht auf Privatsphare als auch die Nutzbarkeit der Daten gewahrleistet werden müssen.

Daraus folgt die weitere Frage, ob die momentan angewandten Techniken auch wirklich eine angemessene Anonymisierung der personenbezogenen Daten sicherstel­len. Samtlicher investierter Aufwand in die Anonymisie­rung eines Datensatzes kann verworfen werden, falls sich herausstellt, dass eine bestimmte Anonymisierungstech­nik ohne weiteren Aufwand umgangen oder aufgehoben werden kann. Daher stellt sich eben jene Frage, welche Maßnahmen einzusetzen sind, um eine solche Umgehung der Anonymisierung zu vermeiden. Folglich gilt es zu definieren, nach welchen Kriterien sich eine Anonymisie­rungstechnik als zweckdienlich erweist. Die Datenschutz­gruppe der Europaischen Union definiert für diesen Fall drei Kritieren[16]:

- Herausgreifbarkeit (Singling Out)
- Verknupfbarkeit
- Ableitbarkeit (Inferenz)

Sollte einer dieser drei Kriterien gegeben sein, dann be­steht die Gefahr der De-Anonymisierung und einer ein­deutigen Identifikation einer oder mehrerer Personen. Um dies zu vermeiden, bedarf es Mechanismen der Verschleie­rung, um sowohl die Brauchbarkeit der übermittelten Da­ten, als auch die Privatsphare der einzelnen Personen zu wahren. Hierbei fassen Müller-Quade und Achenbach die - für sie - vier wichtigsten Kriterien[19] zur Sicherstel­lung eines erfolgreichen Anonymisierungsprozesses zu­sammen. Dies sind:

- fc-Anonymitat
- l-Vielfalt
- l-Nachbarschaft
- Differential Privacy

Neben den aufgeführten Kriterien existieren auch noch weitere Zwischenstufen wie die (a, fc)-Anonymitat oder (x, y)-Linkability[21], und Weiterentwicklungen bekann­ter Techniken wie die m-Invarianz[34].

Grundlegend gilt es, dass der Unterschied zwischen Identifiers und Quasi-Identifiers verstanden wird, da die­ser im Rahmen moderner Anonymisierungstechniken re­levant ist. Im Allgemeinen ist ein Identifier jeder Da­tensatz, welcher sich eindeutig zu einer Person zuordnen lasst (z.B. vollstandiger Name, Sozialversicherungsnum­mer oder Personalausweisnummer)[18]. Quasi-Identifier hingegen sind diejenigen Datensatze, welche in Kombi­nation miteinander einen Rückschluss auf eine natürliche Person dahinter zulassen [17, S. 3]. Dies ist besonders nützlich, wenn Vorwissen zu einer Person oder Personen­gruppe vorhanden ist, über welche weitere Erkenntnisse erlangt werden sollen. Besitzt beispielsweise ein Arbeitge­ber Zugriff auf eine Datenbank der nachsten Arztpraxis, so kann er anhand von Alter, Beschaftigungsstelle und Datum der Krankschreibung herausfinden, wegen welcher Krank­heit der Arbeitnehmer abwesend ist. Für den betroffenen Arbeitnehmer ist es von Nachteil, wenn der Arbeitgeber mit etwas Glück seine Krankheit „herausgreifen“, „ver­knüpfen“ oder „ableiten“ kann. Um dagegen vorzugehen, bedarf es eben” jener Anonymisierungstechniken und - kriterien.

3.1. k-Anonymität

Die fc-Anonymitat ist die grundlegendste Form der Anonymisierung. Nach den Entwicklern der Anonymi­sierungstechnik Samarati und Sweeney, liegt die Vermu­tung nahe, dass in den Zeiten vor der fc-Anonymitat die Patientendaten direkt übermittelt wurden, allerdings nur der Name aus dem Datensatz entfernt wurde [25, S. 3]. Die Entwickler der fc-Anonymitat führen an, dass diese Anonymisierungstechnik einen effektiveren Schutz von sensiblen Daten ermoglicht - verglichen mit dem bloßen Entfernen eines Namens [25, S. 3]. In diesem Zuge führen die Entwickler auch den Begriff des Quasi­Identifiers ein, welcher bereits im Abschnitt 3 erlautert wurde. Dieser Quasi-Identifier dient in Kombination mit weiteren solchen als Moglichkeit, dass eine natürliche Person eindeutig identifiziert werden kann.

Ein Datensatz, eine Datenbank oder Tabelle ist fc- anonym, wenn das Auftreten aller Datensatze mit einer Haufigkeit von fc gewahrleistet werden kann [28, S. 564].

Dies bedeutet, dass bei direktem Zugriff auf die Daten­bank, ein Angreifer mehrere Individuen mit verschiede­nen sensiblen Datensatzen vorfindet, ohne eine eindeutige Zuordnung treffen zu können. So ist garantiert, dass es beispielsweise bei einer 3-anonymen Tabelle mindestens drei Personen im Altersbereich von 30 bis 40 Jahren und in dem Postleitzahlbereich 68000 — 68999 gibt.

Sweeney fuhrt für diese Zwecke sowohl das Generali­sieren von Informationen (s. Sweeney, Kapitel 3) als auch das Entfernen von Informationen (s. Sweeney, Kapitel 4) an, welches gleichermaßen vor dem Herausgreifen und Re-Identifizieren der Daten schutzen kann[28].

Im Falle einer Generalisierung werden von Sweeney „Generalisierungshierarchien“ vorgeschlagen. Diese Hier­archien dienen sowohl der Anonymisierung einzelner Indi­viduen, indem verschiedene Menschen mit verschiedenen sensiblen Daten eine einzelne Kategorie k darstellen, als auch der Erhaltung der Nutzbarkeit der Daten [28, S. 566], [25, S. 6].

Durch die k-Anonymitat wird das Herausgreifen ein­zelner Daten ohne zusatzliche Kenntnisse wertlos ge­macht. Allerdings ist die k-Anonymitat als Methode allein unzureichend (wenngleich diese Methode einem nicht- anonymisierten, beziehungsweise pseudonymisierten, Da­tensatz vorzuziehen ist).[16]

Unter der Bedingung, dass bereits Vorwissen uber eine bestimmte Person bekannt ist, wie deren Postleitzahl oder Alter, lasst sich ein Homogenitätsangriff auf eine Datenbank ausfuhren. Mit diesem Angriff ist es moglich, sensible Daten zu einer realen Person zu verknüpfen[18]. Demnach lasst sich schlussfolgern, dass Gelegenheitstater durch die Methode der k-Anonymitat bereits daran ge­hindert werden konnen, diese kompromittierten Daten fur sich zu verwenden. Daraus folgt allerdings auch, dass ein gewisses Risiko verbleibt, wenn der Angriff gezielt ablauft und ein Angreifer auch bereits Hintergrundwissen uber sein Ziel besitzt, da laut Müller-Quade und Achenbach „nicht ausgeschlossen werden kann, dass alle sensiblen Daten einer Gruppe denselben Wert annehmen“[19]. Mit­tels Verknüpfen und Ableiten von Wissen uber das Ziel, lassen sich damit die sensiblen Daten ermitteln. Allein das Alter und die Postleitzahl zusammen konnen hierfur bereits ausreichend sein [16, S. 11f.].

3.2. l-Diversität

Die /-Diversitat, beziehungsweise /-Vielfalt, gilt als Weiterentwicklung der k-Anonymitat. Das Ziel der /- Diversitat ist die bereits angesprochenen Probleme und Risiken einer k-Anonymitat zu minimieren[18].

Nach Machanavajjhala et al. ist es moglich - auf Kosten der Datengenauigkeit - die Daten derart zu genera­lisieren, dass in einem Block / sensible Daten zusammen dargestellt werden. Tauchen die sensiblen Daten dann zu / gleichen Anteilen in der Datenbank auf, dann ist diese Datenbank /-divers [18, S. 6]. Demnach befinden sich in der /-diversen Datenbank auch / verschiedene (Quasi- )Identifikatoren, welche alle auf unterschiedliche sensible Attribute zurückzufuhren sind [14, S. 31].

Luo et al. bestatigen Machanavajjhala, dass es merk­bare Verbesserungen zu der k-Anonymitat gibt, da die /- Diversitat gegen den Homogenitatsangriff schutzt, welcher bei der k-Anonymitat ein bekanntes Risiko darstellt [35, S. 2f].

In der Stellungnahme der Datenschutzgruppe der EU wird erwähnt, dass die /-Diversitat allerdings nicht ausrei­chend ist, um das Risiko der Verknupfbarkeit zu minimie­ren. Es wird allerdings auch angesprochen, dass das Risiko der Inferenztechniken, also das Schlussfolgern aus den vorliegenden Daten, durch die /-Diversitat reduziert wer­den kann [16, S. 22]. Selbst bei vorhandener /-Diversitat kann es vorkommen, so die Datenschutzgruppe, dass alle Datensatze in einer Datenbank genau das gleiche sensible Datum enthalten, weswegen man „durch Inferenz ableiten [kann], dass [die Person] einen Herzinfarkt hat[te]“ [16, S. 23].

Laut Ninghui, Tiancheng und Venkatasubramanian ist die /-Diversitat, „neither necessary nor sufficient to pre­vent attribute disclosure.“[20] und empfehlen stattdes- sen die Verwendung der /-Nachbarschaft als Anonymisie­rungstechnik.

3.3. t-Nachbarschaft

Die /-Vielfalt ist nicht immun gegenüber Inferenz[16]. Sollten die sensiblen Daten ungleich haufig verteilt sein, ist es für einen Angreifer mittels der Inferenz dennoch moglich diese Daten einem Individuum zuzuordnen. Dem soll die /-Nachbarschaft, beziehungsweise /-closeness, entgegenwirken[19].

[Die] T-Nachbarschaft fordert deshalb, dass der statistische Abstand zwischen der Verteilung in­nerhalb einer beliebigen Gruppe und der Vertei­lung auf der gesamten Datenbank maximal t ist.

Ninghui et al. beschreiben in ihrem Artikel das Ver­fahren der /-Nachbarschaft. / ist in diesem Falle der statistische Abstand zweier sensibler Daten oder „Attri­bute“ nach Ninghui [20, S. 4]. Es wird erwahnt, dass bei hohem statistischen Abstand in der Verteilung (/ nahe 0) nur sehr wenig „nützliche Information“ vorliegt, im Um­kehrschluss allerdings auch ein hohes Maß an Privatsphare gewahrleistet werden kann [20, S. 5].

Wahrend bei /-Diversitat und k-Anonymitat ein ho­her Wert auch für einen hohen Grad an Anonymisierung steht, sollte der Wert bei der /-Nachbarschaft entsprechend nahe der Null gewahlt werden, wenn der Schutz der Privatsphare besonders wichtig ist [15, S. 5]. Goltz et al. schlagen in ihrer Ausarbeitung vor, dass zur Berechnung des Abstandes verschiedener Werte „die Kullback-Leibler- oder auch die Jensen-Shannon-Divergenz“[15] verwendet werden kann.

3.4. Differential Privacy

Müller-Quade und Achenbach erwahnen in ihrer Aus­arbeitung auch die Differential Privacy. Sie beschreiben, dass durch dieses Verfahren im Idealfall der Informations­freigabe e = 0 eine „perfekte Geheimhaltung“ moglich ist, was allerdings zu vollstandiger Unbrauchbarkeit der Daten führt[19]. Cynthia Dwork steht der Differential Privacy weitaus optimistischer gegenüber, da sie davon ausgeht, dass diese Methode die wichtigste Datenschutzgarantie darstellt.

[...]

Details

Seiten
7
Jahr
2019
ISBN (eBook)
9783346006776
Sprache
Deutsch
Katalognummer
v494432
Institution / Hochschule
Hochschule Mannheim – Fakultät für Informatik
Note
2,3
Schlagworte
anonymisierungstechniken anonymität informatik cybersecurity cyber-sicherheit sicherheit informationstechnik verschlüsselung generalisierung differential privacy t-closeness l-diversity k-anonymity m-invariance anonymization computer science

Autor

Zurück

Titel: Anonymisierungstechniken in der Informatik. Beurteilung der Effektivität und Anwendungsbereiche