Analyse und Umsetzung von Methoden zur

Transcription

Analyse und Umsetzung von Methoden zur
M A G I S T E R A R B E I T
Analyse und Umsetzung von Methoden zur
Anonymisierung und Pseudonymisierung
personenbezogener, medizinischer Daten
ausgeführt am
Institut für Medizinische Informations- und Auswertsysteme
der Medizinischen Universität Wien
unter Anleitung von
Ao. Univ. Prof. Dipl. Ing. Dr. Georg Duftschmid
durch
Bakk.techn. Alexander Jautz
Wimbergergasse 29/7
A-1070 Wien
Ort, Datum
Unterschrift
Zusammenfassung
Die fortschreitende Vernetzung des Gesundheitswesens hat in den letzten Jahren zahlreiche Anwendungsfälle für den elektronischen Austausch medizinischer Daten mit sich
gebracht. Sensible Daten und als solche sind unter anderem personenbezogene, medizinische Daten im österreichischen Datenschutzgesetz deniert dürfen jedoch nur
verarbeitet, übermittelt bzw. überlassen werden, wenn entsprechende Gesetze eingehalten werden, welche fordern, dass Patientendaten in diesem Kontext so abzuwandeln
sind, dass die betroenen Personen nicht mehr eindeutig identizierbar sind. Diese Arbeit widmet sich daher der Anonymisierung bzw. Pseudonymisierung personenbezogener Daten. Anhand von Beispielen wird gezeigt, dass herkömmliche Anonymiserung
bzw. Pseudonymisierung, bei der nur die eindeutig personenidentifzierenden Merkmale (z.B.: Sozialversicherungsnummer, Name, Adresse,. . . ) gelöscht oder verschlüsselt
werden, die Daten nicht ausreichend schützen kann. Um dieses Problem zu lösen, wird
auf dem Konzept der
k -Anonymität
aufgesetzt. Die zusätzliche Sicherheit, die die
k-
Anonymität bietet, wird durch eine Abwandlung bzw. Verallgemeinerung der Daten
erreicht, sodass pro Datensatz zumindest
k − 1 weitere Datensätze vorhanden sind, die
hinsichtlich ihrer potentiell personenidentizierenden Merkmale (z.B.: PLZ, Geburtsdatum, Beruf,. . . ) nicht voneinander unterscheidbar sind, womit eine eindeutige Identizierung einer Person weitgehend ausgeschlossen ist. Zusätzlich wird auf verschiedene
k -Anonymisierung, Brauchbarkeit k -anonymisierter Daten, Laufzeitverhalten und Metriken zur Bewertung k -anonymisierter Daten eingegangen. Weiters
wird die Umsetzung eines Werkzeuges zum Generieren und Exportieren k -anonymer
Algorithmen zur
Daten als Erweiterung des Studiensystems ArchiMed vorgestellt. Die Kriterien, die
zur Auswahl des zugrunde liegenden
k -Anonymisierungsalgorithmus
geführt haben,
werden ebenso erläutert wie die Funktionsweise der verwendeten Methode. Die Beschreibung eines Exportvorgangs mittels des entwickelten Werkzeuges anhand eines
konkreten Beispiels bildet den Abschluss der Arbeit.
i
Inhaltsverzeichnis
1 Einleitung
1.1
1.2
1.3
1
Denitionen und Erklärungen
. . . . . . . . . . . . . . . . . . . . . . .
1.1.1
Primäre Identikationsmerkmale
1.1.2
Sekundäre Identikationsmerkmale
. . . . . . . . . . . . . . . . .
4
. . . . . . . . . . . . . . . .
4
1.1.3
k -Anonymität
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.1.4
Anonymisierung . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.1.5
Pseudonymisierung . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.1.6
Indirekt personenbezogene Daten
. . . . . . . . . . . . . . . . .
8
Gesetzliche Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.2.1
Verwendung von Daten . . . . . . . . . . . . . . . . . . . . . . .
9
1.2.2
Übermittlung von Daten . . . . . . . . . . . . . . . . . . . . . .
11
Nationale Richtlinien bzw. Leitlinien
. . . . . . . . . . . . . . . . . . .
12
1.3.1
MAGDA-LENA . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
1.3.2
HIPAA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2 Anonymisierung und Pseudonymisierung medizinischer Daten
2.1
Modelle der Pseudonymisierung
2.2
Angris- und Bedrohungsszenarien
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
2.3
Risiko der Reidentizierung durch Verknüpfung von Daten
2.4
k -Anonymität . . . . . . . . . . . .
2.4.1
k -minimale Generalisierung
15
15
17
. . . . . . .
19
. . . . . . . . . . . . . . . . . . . .
22
. . . . . . . . . . . . . . . . . . . .
25
2.4.2
Minimale Veränderung und Metriken
. . . . . . . . . . . . . . .
26
2.4.3
Laufzeitverhalten . . . . . . . . . . . . . . . . . . . . . . . . . .
27
k -anonymer Daten . . .
2.4.5
Angrie gegen k -anonyme Daten . . .
2.4.6
Eine Alternative zur k -Anonymität?
.
Verschiedene Methoden zur k -Anonymisierung
2.4.4
2.5
3
Brauchbarkeit
. . . . . . . . . . . . . .
28
. . . . . . . . . . . . . .
30
. . . . . . . . . . . . . .
36
. . . . . . . . . . . . . .
2.5.1
Minimal Generalization (MinGen) Algorithmus
2.5.2
Datay System
36
. . . . . . . . .
37
. . . . . . . . . . . . . . . . . . . . . . . . . . .
38
2.5.3
Incognito
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
2.5.4
µ-ARGUS
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
2.5.5
Multidimensional
2.5.6
k -Optimize
l-Diversity
2.5.7
k -Anonymity
. . . . . . . . . . . . . . . . . .
47
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
ii
Inhaltsverzeichnis
3 Methoden
63
3.1
Das Studiensystem ArchiMed
3.2
Methode der
k -Anonymisierung
. . . . . . . . . . . . . . . . . . . . . .
63
. . . . . . . . . . . . . . . . . . . . . .
64
4 Resultate
66
4.1
Funktionsumfang des
4.2
Realisierung des
k -anonymen
k -anonymen
Datenexportwerkzeuges
. . . . . . .
66
Datenexports im System ArchiMed . . .
67
5 Diskussion
76
6 Ausblick
78
Abbildungsverzeichnis
81
Tabellenverzeichnis
83
Literaturverzeichnis
84
iii
1 Einleitung
Mit dem technologischen Fortschritt der letzten Jahre bzw. Jahrzehnte wie Computertechnologie, Möglichkeit der Vernetzung von Computersystemen, leistbare Massenspeicher,. . . ist auch ein beispielloser Anstieg an gesammelten Daten mit personenbezogenen Inhalten zu verzeichnen [1] [2]. Die Abbildung 1.1 verdeutlicht die Zunahme
der gespeicherten Daten am Beispiel einer Geburt im Staat Illinois USA. Hier steigerten sich die Attribute, die pro Geburt aufgezeichnet wurden, von 7 (1906) auf 226
(1999).
Abbildung 1.1: Gespeicherte Attribute pro Geburt im US Staat Illinois
Solche Daten sind natürlich von groÿem wissenschaftlichen und auch wirtschaftlichen Wert und werden gesammelt, um später entsprechend verarbeitet zu werden und
Informationen daraus zu gewinnen. Dazu ist es oftmals nötig, die Daten zu veröentlichen oder weiterzugeben. Dabei müssen diverse Gesetze und Verordnungen eingehalten
werden (siehe Kapitel 1.2), damit die schutzwürdigen Geheimhaltungsinteressen der
betroenen Personen nicht verletzt werden. Denn es ist sicherlich nicht im Interesse der
Bevölkerung, wenn die Öentlichkeit Kenntnis über sensible Details jedes Einzelnen
erhält.
Vor allem die medizinische Qualitätssicherung und Forschung kann durch Vernetzung von diversen Gesundheitsanbietern und einem somit erleichterten Informationsaustausch verbessert und vereinfacht werden. In Amerika gibt es dazu ein Pilotprojekt
1
Kapitel 1.
Einleitung
1
mit dem Titel HCN (Healthcare Collaborative Network)
[3], bei dem ein standar-
disierter Informationsaustausch zwischen Krankenhäusern, niedergelassenen Ärzten,
Forschungszentren, Pharmarmen, staatlichen Einrichtungen (FDA Food and Drug
Administration, CDC Centers for Disease Control and Prevention, CMS Centers
for Medicare and Medicaid Services) und Versicherungsanstalten angestrebt wird. Aufgrund der oenen Standards können alle interessierten Organisationen, die im Bereich
Gesundheitswesen tätig sind, an diesem Netzwerk teilnehmen. Folgende Ziele sollen
durch das HCN erreicht werden:
ˆ
Rascheres Reagieren bei einem Ausbruch einer Epidemie (SARS, Mutation eines
Vogelgrippevirus,. . . )
ˆ
Erleichterung administrativer Aufgaben
ˆ
Möglichkeit, schnell und einfach Daten zu sammeln bzw. anderen zukommen zu
lassen
ˆ
Raschere Verfügbarkeit von klinischen Daten für die Qualitätssicherung und somit schnellere Reaktion auf eventuelle Missstände
Natürlich müssen auch hier Gesetze und Richtlinien
2
bei der Verwendung von sensi-
3
blen Daten befolgt werden. Vor allem die HIPAA-Richtlinie
[4] ist im amerikanischen
Raum von Bedeutung (siehe auch Kapitel 1.3.2) und muss hier erwähnt werden.
Auch in Österreich gibt es Versuche, die neuen Informations- und Kommunikationstechnologien zu nutzen, um das Gesundheitswesen zu modernisieren, weiterzuentwickeln und so eine Qualitäts- und Ezienzsteigerung zu erreichen: Die e-Health-
4
Initiative
[5] ist ein Projekt zur langfristigen Organisationsentwicklung im Gesund-
heitswesen in Hinblick auf eine integrierte, patientenzentrierte Versorgung. Aufbauend
auf derzeit bereits vorhandenen Komponenten wie eCard und Krankenhausinformationssystemen entwickelt e-Health ein langfristiges Konzept für die digitale Dokumentation, Kommunikation, Speicherung und Verarbeitung von gesundheitsbezogenen und
administrativen Daten. Dadurch sollen folgende Ziele erreicht werden:
ˆ
Unterstützung einer patientenzentrierten Leistungserbringung und -dokumentation
ˆ
Unterstützung aller Akteure im Gesundheitswesen durch bessere Information
und Kommunikation
1 http://ccbh.ehealthinitiative.org/proles/HCN.mspx
2 Richtlinien
sind Regelungen des Handelns oder Unterlassens, die von einer rechtlich legitimierten
Institution konsentiert, schriftlich xiert und veröentlicht wurden, für den Rechtsraum dieser
Institution verbindlich sind und deren Nichtbeachtung denierte Sanktionen nach sich ziehen.
3 http://www.hhs.gov/ocr/hipaa/
4 http://ehi.adv.at/
2
Kapitel 1.
Einleitung
ˆ
Modernisierung des Gesundheitswesens
ˆ
Unterstützung der Organisationsentwicklung und besseres Management von Gesundheitseinrichtungen
Da natürlich auch Datenschutz und Datensicherheit ein zentraler Punkt von eHealth ist, erfolgt der nötige Austausch von Gesundheitsdaten ausschlieÿlich gemäÿ
den gesetzlich denierten Rahmenbedingungen, und es wird weiters empfohlen, anonymisierte bzw. pseudonymisierte (siehe Kapitel 1.1) Daten wo immer es möglich ist
zu verwenden.
Ein weiterer österreichischer Versuch, die Vorteile miteinander vernetzter Gesundheitseinrichtungen auszunutzen, ist das Praxisnetzwerk
5
[6], das auf Basis einer In-
itiative der Ärztekammer entwickelt wurde. Es versucht durch intensive Kommunikation die über bloÿe Befundübermittlung hinausgeht eine eziente Zusammenarbeit
zwischen medizinischen Partnern einer Region zu ermöglichen. Dabei werden unter
anderem Funktionen wie (multimediale) Befundansicht, Befundsuche, Patientenverzeichnis mit Suchfunktionen und gesicherter Mailverkehr geboten. Aufgrund von Vorkehrungen wie Einmalpasswörter, SSL-Verschlüsselung, Einwilligung des Patienten für
jeden einzelnen Befund durch Ausdruck eines Mustertextes und Unterschrift, sind die
in Österreich geltenden Gesetze und Normen erfüllt, was auch in einem Gutachten auf
der Homepage nachzulesen ist.
Bevor jedoch in der vorliegenden Arbeit näher auf Gesetze und Verordnungen eingegangen werden kann, sind einige Denitionen und Erklärungen notwendig, um die
entsprechende Grundlage für die weiteren Kapitel zu schaen. Im Hauptteil (siehe
Kapitel 2) wird auf diverse Probleme herkömmlicher Pseudonymisierungs- und Anonymisierungsmethoden eingegangen, um schlieÿlich mit der
zu präsentieren. Genauere Informationen zur
dener Methoden zur
k -Anonymisierung
k -Anonymität eine Lösung
k -Anonymität sowie die Analyse verschie-
bilden die Überleitung zur Implementation
einer Methode als Webapplikation eines Multicenter-Studiensystems (siehe Kapitel 3
und 4).
1.1 Denitionen und Erklärungen
Aufgrund verschiedener Auslegungsmöglichkeiten von Begrien wie Anonymisierung,
Pseudonymisierung, indirekt personenbezogene Daten und
k -Anonymität
ist es not-
wendig klarzustellen, wie diese Begrie hier verwendet werden, um Missverständnisse
zu vermeiden. Auÿerdem sind auch noch einige andere grundlegende Erklärungen und
Denitionen für das Verständnis der weiteren Arbeit nötig.
5 https://www.praxisnetzwerk.at/
3
Kapitel 1.
Einleitung
Wenn nicht anders erwähnt, ist mit dem Begri Daten personenbezogene Information (Information, die einer Person eindeutig zugeordnet werden kann) gemeint, die
üblicherweise in Zeilen (Tupel ) und Spalten (Attribute ) gegliedert ist. Es wird hier
angenommen, dass jedes Tupel zu genau einer Person gehört, und dass jede Person
nur einmal pro Tabelle vorkommt. Jedes Attribut (z.B.: Wohnort, Alter, Name,. . . )
bezeichnet einen eigenen semantischen Bereich und kann gewisse Werte annehmen.
Die Reihen einer Tabelle sind nicht notwendigerweise einmalig, die Attribute hingegen
kommen nur einmal innerhalb einer Tabelle vor.
Sei
T = {t1 , t2 , . . . , tn }
eine Tabelle mit den Attributen
A1 , A2 , . . . , Am . T
ne Untermenge einer gröÿeren Population
Ω. A
{A1 , A2 , . . . , Am }
Tupels t.
bezeichnet den Wert von Attribut
der Tabelle
T,
und
t[Ai ]
ist ei-
bezeichnet den Satz aller Attribute
Ai
des
6
Tabelle 1.1 zeigt eine Tabelle mit personenbezogenen, medizinischen Daten , die
aus 5 Tupel und 7 Attributen (A
= {Name,
SVNR, PLZ, Geburtsdatum, Geschlecht,
Körpergröÿe, Körpergewicht }) besteht.
Name
SVNR
PLZ
Geburtsd.
M/W
Gröÿe
Gewicht
Luise Becker
1234100564
1070
10.05.1964
W
160
55
Anna Bauer
5412021260
1110
05.12.1960
W
171
70
Ludwig Kern
4321120970
1110
12.09.1970
M
180
90
Peter Wol
5613080864
1010
08.08.1964
M
170
65
Rosa Stix
4567151280
1011
15.12.1979
W
160
60
Tabelle 1.1: Personenbezogene, medizinische Daten in Tabellenform
1.1.1 Primäre Identikationsmerkmale
Primäre Identikationsmerkmale sind Attribute oder Attributkombinationen, die eine eindeutige Identizierung einer Person erlauben. Tabelle 1.2 listet einige typische
primäre Identikationsmerkmale auf.
Um den direkten Personenbezug zu entfernen, ist es auf jeden Fall notwendig, diese
Attribute zu löschen oder entsprechend zu verschlüsseln. In Tabelle 1.1 wären das die
Attribute Name und Sozialversicherungsnummer.
1.1.2 Sekundäre Identikationsmerkmale
Sekundäre Identikationsmerkmale sind Attribute, die durch die Kombination mit
anderen Attributen und der Verbindung mit externen Informationen (Telefonbuch,
6 Alle
in dieser Arbeit vorkommenden personenbezogenen Daten sind frei erfunden.
4
Kapitel 1.
Einleitung
Datenart
Komponenten
Zuname,
Name
Vorname,
Datennutzerkreis
Zu-
satz, Geburtsname, Titel
Straÿe, Zusatz, Postleit-
Adresse
zahl, Ort, Land
Telefonnummer
Öentlichkeit
Öentlichkeit
Öentlichkeit
Sozialversicherungs-
Verwaltung
nummer
Polizzennummer
Versicherungen
Dokumentnummer (z. B.
Verwaltung
Führerschein, Reisepass,
Personalausweis)
Grundbuchblattnummer
Landesverteidigung
Registernummer
Verwaltung
KFZ-Nummer
Verwaltung
Matrikelnummer
Verwaltung
Veranlagungsnummer
Verwaltung
Kontonummer
Geldinstitute
Personalnummer
Dienstgeber
Patientenidentikation
(z.B. Aufnahmenummer,
Fallnummer,
PID-Num-
Leistungserbringer
mer, Untersuchungsnummer)
Mitgliedsnummer
Vereine
Tabelle 1.2: Typische primäre Identikationsmerkmale [7]
Wählerverzeichnis,. . . ) unter Umständen eine eindeutige Identizierung des Personenbezugs erlauben (siehe Kaptiel 2.3). Die Kenntnis eines dieser Attribute reicht hingegen
nicht aus, um die Identität der Person herauszunden.
Beispiel: Sekundäre Identikationsmerkmale Beruf und Wohnort : Ein seltener Beruf
in Kombination mit einer kleinen Gemeinde kann bereits ausreichen, um Rückschlüsse
auf die Personen zu erlauben.
Denition: Gegeben sei eine Population U , eine Tabelle T (A1 , . . . , An ), fc : U → T
fg : T → U 0 , wobei U ⊆ U 0 . Die sekundären Identikationsmerkmale von T ,
und
QT , sind eine Menge von Attributen {Ai , . . . , Aj } ⊆ {A1 , . . . , An }, wobei
fg (fc (pi ) [QT ]) = pi . ((pi ) [QT ] bezeichnet den Wert der Attribute [QT ]
pi siehe auch Kapitel 1.1.)
geschrieben
∃pi ∈ U
sodass
des Tupels
5
Kapitel 1.
Einleitung
Es ist nicht immer ganz eindeutig, wann ein Attribut ein sekundäres Identikationsmerkmal darstellt. Trotzdem gibt es gewisse Regeln, die die Einteilung erleichtern. So
sind zum Beispiel demographische Daten, die sich nicht oder nur selten ändern und
im sozialen Umgang als bekannt anzunehmen sind, typische Kandidaten für sekundäre Identikationsmerkmale (Geburtsort, Wohnort, Beruf, Geburtsdatum, Religionsbekenntnis, Familienstand). In Tabelle 1.1 wären das die Attribute PLZ, Geburtsdatum
und Geschlecht.
Medizinische Daten gehören in der Regel nicht in diese Gruppe von Attributen, da
Attribute wie Körpergewicht, Insulinspiegel, Blutdruck,. . . natürlichen Schwankungen
unterworfen sind und dadurch eine Herstellung des Personenbezugs praktisch nicht
möglich ist. Besonders atypische Werte könnten aber trotzdem zu der Identizierung
einer Person führen. Man denke zum Beispiel an einen besonders übergewichtigen
Patienten. Hier wird es bereits bei der zusätzlichen Angabe des Wohnortes oft möglich
sein, die Daten der betroenen Person eindeutig zuzuweisen.
1.1.3 k-Anonymität
Man spricht dann von einer
k−1
k -anonymen
Tabelle, wenn es für jedes Tupel mindestens
andere Tupel gibt, die sich in den Ausprägungen ihrer sekundären Identikati-
onsmerkmalen nicht unterscheiden (siehe auch Kapitel 2.4). Dabei steht das
k
übli-
cherweise für eine natürlich Zahl zwischen 2 und 10. Tabelle 1.3 zeigt eine mögliche
Abwandlung der Tabelle 1.1 mit
k = 2,
damit sie der Anforderung der
k -Anonymität
entspricht. Dadurch lassen sich die Tupel 1, 2 und 4 bzw. 3 und 5 anhand der Werte
der sekundären Identikationsmerkmale nicht voneinander unterscheiden.
Eine Tabelle T genügt der Bedingung der k -Anonymität, wenn es für jedes Tupel
t ∈ T mindestens k − 1 Tupel ti1 , ti2 , . . . , tik−1 ∈ T gibt für die gilt: t[C] = ti1 [C] =
ti2 [C] = . . . = tik−1 [C] für alle C ∈ Menge der sekundären Identikationsmerkmale.
PLZ
Geburtsd.
M/W
Gröÿe
Gewicht
Wien
19601969
*
160
55
Wien
19601969
*
171
70
Wien
19701979
*
180
90
Wien
19601969
*
170
65
Wien
19701979
*
160
60
Tabelle 1.3:
k -anonyme
Form der Tabelle 1.1 mit
6
k=2
Kapitel 1.
Einleitung
1.1.4 Anonymisierung
Oft wird der Begri Anonymisierung bereits verwendet, wenn nur die primären Identikationsmerkmale gelöscht oder verschlüsselt werden (z.B. [8]). Da bei dieser Methode aber meist ohne groÿen Aufwand zumindest ein Teil der Personen eindeutig
identiziert werden kann (siehe Kapitel 2.3), wird im Rahmen dieser Arbeit nur von
einer Anonymisierung gesprochen, wenn es so gut wie ausgeschlossen ist, dass ein
direkter Personenbezug hergestellt werden kann wenn also die eindeutigen Identikationsmerkmale gelöscht werden und die Daten zusätzlich in
k -anonymer Form (siehe
Kapitel 1.1.3) vorliegen (siehe auch Abbildung 1.2).
1.1.5 Pseudonymisierung
Beim Pseudonymisieren werden die primären Identikationsmerkmale durch eine eindeutige Regel derart verändert, dass die Bestimmung der Person mittels dieser Attribute nicht mehr möglich ist. (So könnten zum Beispiel in Tabelle 1.1 die primären Identikationsmerkmale Name und Sozialversicherungsnummer durch eine fortlaufende Nummer ersetzt und die entsprechende Zuordnungstabelle (für Depseudonymisierungsmaÿnahmen) extra abgespeichert werden.) Da durch eine Zuordnungstabelle oder der inversen Rechenvorschrift wieder auf die Originaldaten geschlossen werden kann, wird
die Pseudonymisierung zum Beispiel dann eingesetzt, wenn es auch im Interesse des
Betroenen sein könnte, dass man später auf dessen Identität rückschlieÿen kann. So
könnte sich z.B. bei einer Studie herausstellen, dass eine bestimmte Person an einer
Krankheit leidet. Dank der Möglichkeit einer Depseudonymisierung wäre es dann möglich, den Betroenen über seine Situation zu informieren. Auÿerdem wird die Pseudonymisierung auch dann verwendet, wenn Daten einer Person an verschiedenen Stellen
gespeichert sind und zusammengefügt werden sollen, ohne dass die Identität des Betroenen bekannt wird. Natürlich muss zu diesem Zweck an jeder Stelle die gleiche
Pseudonymisierungsstrategie verwendet werden.
Mögliche praktische Anwendungsbeispiele [9]:
ˆ
An verschiedenen Krankenhäusern werden Diabetespatienten mit unterschiedlichen Methoden und Medikamenten behandelt. Die dabei entstehenden medizinischen Daten werden unter Verwendung der Sozialversicherungsnummer des
Patienten zur eindeutigen Identizierung an den verschiedenen Stellen ge-
speichert. Zu einem späteren Zeitpunkt beschlieÿen Medizinstudenten die unterschiedlichen Behandlungsmethoden in Bezug auf den Erfolg miteinander zu vergleichen. Dazu müssen die Daten von den unterschiedlichen Stellen angefordert
werden. Die entsprechenden Krankenhäuser dürfen die Daten, die in personenbezogener Form vorliegen, aber erst nach erfolgter Pseudonymisierung veröentlichen und weitergeben.
7
Kapitel 1.
ˆ
Einleitung
Eine pharmazeutische Firma stellt ihren Kunden (verschiedene Krankenhäuser
in unterschiedlichen Ländern) PCs mit entsprechenden Programmen zur Verfügung, die die Behandlung von Patienten mit einer speziellen Form von Epilepsie
erleichtert. Die anfallenden Daten werden lokal gesammelt und einmal pro Monat
zu einer zentralen Datenbank gesendet, wo sie von Spezialisten analysiert werden.
Dabei werden lebensbedrohliche Komplikationen unter speziellen Bedingungen
festgestellt. Um die Krankenhäuser und auch die Patienten, die betroen sein
könnten, zu informieren, wird den behandelnden Ärzten die Möglichkeit gegeben,
die Daten ihrer Patienten zu depseudonymisieren.
ˆ
Nach der Entwicklung einer neuen Operationstechnik senden Ärzte, die die neue
Methode einsetzen, dabei anfallende medizinische Daten an eine gemeinsame
Stelle, um die Behandlungsweise analysieren zu können. Um die Identität der Patienten zu schützen, erfolgt zuerst eine Pseudonymisierung der Daten. Dadurch
ist es möglich, den gesamten Krankheitsverlauf eines Patienten (ohne Preisgabe
seiner Identität) zu erhalten, auch wenn er an verschiedenen Stellen in Behandlung war und somit in verschiedenen Datenbanken vertreten ist. Da sich bei der
Bewertung der gesammelten Daten herausstellt, dass ein Patient gewisse Risikofaktoren aufweist, wird der behandelnde Arzt informiert, der die Daten seines
Patienten depseudonymisiert und entsprechende Maÿnahmen einleitet.
ˆ
Eine Verbrauchergruppe will den langfristigen nanziellen Aspekt, der durch die
Benutzung von Sicherheitsgurten entsteht, evaluieren. Dazu werden pseudonymisierte Daten von Autounfällen, Zulassungsdaten, Akten von Krankenhäusern
und Rehabilitationszentren zusammengeführt und ausgewertet.
Um die Daten zusätzlich vor Missbrauch zu schützen, kann natürlich neben der Verschlüsselung der primären Identikationsmerkmale noch eine Umwandlung der Tabelle
in eine
k -anonyme
Form (siehe Kapitel 1.1.3) stattnden (siehe auch Abbildung 1.2).
(Der Begri Pseudonymisierung wird in diversen Artikeln sowohl für die reine Pseudonymisierung als auch für die eben erwähnte erweiterte Form der Pseudonymisierung
verwendet.)
1.1.6 Indirekt personenbezogene Daten
Der Begri indirekt personenbezogene Daten wird oft synonym für pseudonymisierte
Daten verwendet und ndet häug in Gesetzestexten Gebrauch (z.B.: [10]). Da davon
auszugehen ist, dass diese Gesetze einen besseren Schutz fordern als die normale
Pseudonymisierung bieten kann, wird im Rahmen dieser Arbeit dieser Begri für Daten
verwendet, die sowohl pseudonymisiert als auch
8
k -anonym
sind.
Kapitel 1.
Einleitung
Abbildung 1.2: UML-Aktivitätsdiagramm, das den Ablauf einer Anonymisierung bzw.
Pseudonymisierung zusammenfassend darstellt
1.2 Gesetzliche Grundlagen
In Österreich sind vor allem das Datenschutzgesetz 2000 (DSG 2000) [10] und die
Richtlinie 95/46/EG des Europäischen Parlaments und des Rates vom 24. Oktober
1995 zum Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten
und zum freien Datenverkehr [11] für den Datenschutz relevant.
Auÿerdem ist auch das Gesundheitstelematikgesetz, welches Teil des Gesundheitsreformgesetzes 2005 [12] ist, für die Übertragung medizinischer Daten von Bedeutung.
Da darin in erster Linie aber die Datensicherheit und nicht der Datenschutz angesprochen wird, wird hier auf dieses Gesetz nicht weiter eingegangen.
1.2.1 Verwendung von Daten
Ÿ 4 Z 8 DSG 2000 deniert das Verwenden von Daten als jede Art der Handhabung
von Daten einer Datenanwendung, also sowohl das Verarbeiten (Ÿ 4 Z 9) als auch das
Übermitteln (Ÿ 4 Z 12) von Daten.
Ÿ 4 Z 9 DSG 2000 deniert das Verarbeiten von Daten als das Ermitteln, Erfassen, Speichern, Aufbewahren, Ordnen, Vergleichen, Verändern, Verknüpfen, Vervielfältigen, Abfragen, Ausgeben, Benützen, Überlassen (Ÿ 4 Z 11), Sperren, Löschen,
Vernichten oder jede andere Art der Handhabung von Daten einer Datenanwendung
durch den Auftraggeber oder Dienstleister mit Ausnahme des Übermittelns (Ÿ 4 Z 12)
von Daten.
Ÿ 4 Z 11 DSG 2000 deniert das Überlassen von Daten als die Weitergabe von Daten
vom Auftraggeber an einen Dienstleister.
Ÿ 4 Z 12 DSG 2000 deniert das Übermitteln von Daten als die Weitergabe von
Daten einer Datenanwendung an andere Empfänger als den Betroenen, den Auftraggeber oder einen Dienstleister, insbesondere auch das Veröentlichen solcher Daten;
9
Kapitel 1.
Einleitung
darüber hinaus auch die Verwendung von Daten für ein anderes Aufgabengebiet des
Auftraggebers.
Im Ÿ 6 Abs. 1 DSG 2000 wird die grundsätzliche Verwendung von Daten geregelt:
Daten dürfen nur
1. nach Treu und Glauben und auf rechtmäÿige Weise verwendet werden;
2. für festgelegte, eindeutige und rechtmäÿige Zwecke ermittelt und nicht in einer
mit diesen Zwecken unvereinbaren Weise weiterverwendet werden; die Weiterverwendung für wissenschaftliche oder statistische Zwecke ist nach Maÿgabe der
ŸŸ 46 und 47 zulässig;
3. soweit sie für den Zweck der Datenanwendung wesentlich sind, verwendet werden
und über diesen Zweck nicht hinausgehen;
4. so verwendet werden, dass sie im Hinblick auf den Verwendungszweck im Ergebnis sachlich richtig und, wenn nötig, auf den neuesten Stand gebracht sind;
5. solange in personenbezogener Form aufbewahrt werden, als dies für die Erreichung der Zwecke, für die sie ermittelt wurden, erforderlich ist; eine längere Aufbewahrungsdauer kann sich aus besonderen gesetzlichen, insbesondere archivrechtlichen Vorschriften ergeben.
Gemäÿ Ÿ 46 Abs. 1 DSG 2000 darf der Auftraggeber einer Untersuchung für wissenschaftliche Forschung und Statistik, die keine personenbezogenen Ergebnisse zum Ziel
hat, alle Daten verwenden, die
1. öentlich zugänglich sind oder
2. der Auftraggeber für andere Untersuchungen oder auch andere Zwecke zulässigerweise ermittelt hat oder
3. für den Auftraggeber nur indirekt personenbezogen sind.
Laut Ÿ 4 Z 1 DSG 2000 sind Daten dann nur indirekt personenbezogen, wenn für einen
Auftraggeber, Dienstleister oder Empfänger einer Übermittlung der Personenbezug der
Daten derart ist, dass dieser Auftraggeber, Dienstleister oder Übermittlungsempfänger
die Identität des Betroenen mit rechtlich zulässigen Mitteln nicht bestimmen kann.
Die Richtlinie 95/46/EG des Europäischen Parlaments (Erwägungsgrund 26) deniert indirekt personenbezogene Daten folgendermaÿen: Indirekt personenbezogene
Daten liegen dann vor, wenn durch diverse Mittel oder Verfahren, die vernünftigerweise
entweder von dem Verantwortlichen für die Verarbeitung oder von einem Dritten eingesetzt werden könnten, die Daten nicht einer bestimmten Person zugeordnet werden
können.
10
Kapitel 1.
Einleitung
Hier stellt sich die Frage, was das Wort vernünftigerweise bedeutet und wie es
ausgelegt werden kann. In unserer heutigen Informationsgesellschaft mit schnell wechselnden Technologien und Weiterentwicklungen kann natürlich das, was gestern noch
unvernünftig und völlig ungewöhnlich war, morgen bereits zum Stand der Technik
zählen. Aus derzeitiger Sicht kann wahrscheinlich davon ausgegangen werden, dass
die alleinige Pseudonymisierung der Daten nicht ausreicht, um diese ausreichend zu
schützen. Daher wird im Rahmen dieser Arbeit wie bereits in Kapitel 1.1.6 erwähnt
wurde nur dann der Begri indirekt personenbezogene Daten verwendet, wenn die
Daten zusätzlich
k -anonymisiert
wurden.
Daten, die nicht öentlich zugänglich sind und nicht unter Ÿ 46 Abs. 1 DSG 2000
fallen, dürfen laut Ÿ 46 Abs. 2 DSG 2000 für Zwecke der wissenschaftlichen Forschung
und Statistik nur
1. gemäÿ besonderen gesetzlichen Vorschriften oder
2. mit Zustimmung des Betroenen oder
3. mit Genehmigung der Datenschutzkommission gemäÿ Abs. 3
verwendet werden.
Eine Genehmigung der Datenschutzkommission für die Verwendung von Daten für
Zwecke der wissenschaftlichen Forschung oder Statistik ist nach Ÿ 46 Abs. 3 DSG 2000
zu erteilen, wenn
1. die Einholung der Zustimmung der Betroenen mangels ihrer Erreichbarkeit
unmöglich ist oder sonst einen unverhältnismäÿigen Aufwand bedeutet und
2. ein öentliches Interesse an der beantragten Verwendung besteht und
3. die fachliche Eignung des Antragstellers glaubhaft gemacht wird.
1.2.2 Übermittlung von Daten
Nach Ÿ 7 Abs. 2 DSG 2000 dürfen Daten nur übermittelt werden, wenn
1. sie aus einer zulässigen Datenanwendung stammen und
2. der Empfänger dem Übermittelnden seine ausreichende gesetzliche Zuständigkeit
oder rechtliche Befugnis soweit diese nicht auÿer Zweifel steht in Hinblick
auf den Übermittlungszweck glaubhaft gemacht hat und
3. durch Zweck und Inhalt der Übermittlung die schutzwürdigen Geheimhaltungsinteressen des Betroenen nicht verletzt werden.
11
Kapitel 1.
Einleitung
Schutzwürdige Geheimhaltungsinteressen werden bei der Verwendung sensibler Daten
(besonders schutzwürdige Daten) unter anderem dann nicht verletzt, wenn die Daten
in nur indirekt personenbezogener Form verwendet werden (Ÿ 9 Z 2 DSG 2000) oder
wenn der Betroene seine Zustimmung zur Verwendung der Daten ausdrücklich erteilt
hat, wobei ein Widerruf jederzeit möglich ist und die Unzulässigkeit der weiteren
Verwendung der Daten bewirkt (Ÿ 9 Z 6 DSG 2000).
Ÿ 4 Z 2 DSG 2000 deniert sensible Daten als Daten natürlicher Personen über ihre rassische und ethnische Herkunft, politische Meinung, Gewerkschaftszugehörigkeit,
religiöse oder philosophische Überzeugung, Gesundheit oder ihr Sexualleben.
Auÿerdem muss laut Ÿ 46 Abs. 3 DSG 2000 ein wichtiges öentliches Interesse an der
Untersuchung vorliegen, wenn sensible Daten (zu denen medizinische Daten gehören)
übermittelt werden. Weiters muss gewährleistet sein, dass die Daten beim Empfänger
nur von Personen verwendet werden, die hinsichtlich des Gegenstandes der Untersuchung einer gesetzlichen Verschwiegenheitspicht unterliegen oder deren diesbezügliche
Verlässlichkeit sonst glaubhaft ist.
1.3 Nationale Richtlinien bzw. Leitlinien
1.3.1 MAGDA-LENA
MAGDA-LENA (Medizinisch-Administrativer Gesundheitsdatenaustausch Logisches
und Elektronisches Netzwerk Austria) [13] [14] umfasst technische und organisatorische Rahmenbedingungen mit dem Ziel, ein österreichweites logisches Gesundheitsdatennetz zu entwickeln. Dabei wurde unter anderem groÿe Aufmerksamkeit auf Da-
7
tenschutz und Datensicherheit gelegt. MAGDA-LENA hat Leitlinien-Charakter
und
ist daher in Österreich im Gegensatz zu den in Kapitel 1.2 besprochenen Gesetzen
rechtlich nicht verbindlich. Das Gesundheitstelematikgesetz, welches Teil des Gesundheitsreformgesetzes 2005 [12] ist und seit 1. Jänner 2005 in Österreich in Kraft getreten
ist, basiert aber teilweise auf diesen MAGDA-LENA-Empfehlungen.
Im heutigen Gesundheitswesen ist der (elektronische) Austausch von Patientendaten notwendig, um Patienten ezient, schnell und nach dem neuesten Stand der Medizin betreuen und behandeln zu können. So ist in Österreich wie auch in anderen
Ländern die Menge an elektronisch übermittelten medizinischen Daten in den letzten
Jahren stark angestiegen. Aufgrund der sehr heterogenen Kommunikationstechnologie und inkompatiblen Schnittstellen wird der Austausch zwischen den verschiedenen
Gesundheitsdienstleistern erschwert. Deshalb wurde 1995 die STRING-Kommission
7 Leitlinien
werden nicht von Gesetzgebungskörperschaften erlassen und stellen daher auch keine
gesetzlichen Regelungen dar.
12
Kapitel 1.
Einleitung
(Standards und Richtlinien für den Informatikeinsatz im österreichischen Gesundheits-
8
wesen)
[15] als beratendes Gremium für das Bundesministerium für soziale Sicherheit
und Generationen gegründet, mit dem Ziel, in Österreich ein Gesundheitsnetzwerk
aufzubauen. Dazu wurde von der STRING-Kommission die MAGDA-LENA-Leitlinie
erarbeitet, welche derzeit in der Version 2.0 vorliegt, die auf einer früheren Version
vom April 1998 basiert.
Die MAGDA-LENA-Leitlinie behandelt sowohl die technischen als auch die organisatorischen Rahmenbedingungen, um eine kompatible, digitale und sichere Kommunikation zwischen Leistungsanbietern und Kostenträgern im österreichischen Gesundheitsund Sozialwesen unter Wahrung des Datenschutzes sicherzustellen. Dabei wird nicht
auf eine komplett neue Infrastruktur gesetzt, sondern versucht, bestehende Netzwerke
den Anforderungen entsprechend abzuändern und kompatibel zu machen.
Folgende Bereiche werden in der MAGDA-LENA-Leitlinie (Version 2.0) behandelt,
um die gesetzten Ziele zu erreichen:
ˆ
Denition, Grundsätze, allgemeine Ziele, Stellung des Patienten
ˆ
Allgemeine Inhalte, Modelle, Standards
ˆ
Identikationsvariable
ˆ
Datenschutz und Datensicherheit
ˆ
Netzbetreiber, Netzübergänge
Da für diese Arbeit nur das Kapitel Datenschutz und Datensicherheit relevant ist,
wird hier nur auf diesen Punkt eingegangen. Er enthält unter anderem Empfehlungen
bezüglich Verschlüsselungsprotokolle, Verschlüsselungsalgorithmen, elektronische Signatur, Passwortsysteme usw. und fordert, dass sensible Daten wenn möglich in einer
indirekt personenbezogenen Form (siehe Kapitel 1.1.6) für die Übermittlung vorliegen
müssen. Es wird dabei auf die
k -Anonymität (siehe Kapitel 1.1.3 und 2.4) eingegangen,
die es ermöglicht, indirekt personenbezogene Daten zu erzeugen.
1.3.2 HIPAA
In den USA ist im Jahr 1998 das nur für den medizinischen Bereich gültige Geset-
9
zeswerk Health Insurance Portability & Accountability Act (HIPAA)
[4] in Kraft
getreten. Die Richtlinie ist mit der MAGDA-LENA-Leitlinie vergleichbar, wenngleich
letztere wie bereits erwähnt in Österreich keine verbindliche Vorschrift darstellt.
Auch bei HIPAA ist es ein Hauptziel, die Eektivität und Ezienz des ganzen Gesundheitsapparates in den USA zu erhöhen und somit Kosten zu sparen. Ein weiteres
8 http://www.bmgf.gv.at/cms/site/detail.htm?thema=CH0015&doc=CMS1150277592081
9 http://www.hhs.gov/ocr/hipaa/
13
Kapitel 1.
Einleitung
Ziel ist die Sicherstellung von Übertragbarkeit und Durchgängigkeit der Krankenversicherung der Arbeitnehmer, wenn diese den Job wechseln oder verlieren. Auÿerdem
versucht HIPAA Betrug und Missbrauch im Gesundheitswesen zu verhindern und auch
dem Patienten selbst mehr Rechte bezüglich seiner Krankenakte zu geben. So muss es
dem Patienten stets möglich sein, seine medizinischen Daten einzusehen und falsche
Angaben zu ändern. Patienten müssen darüber informiert werden, was mit ihren Daten gemacht wird und warum sie erhoben werden. Auÿerdem dürfen sensible Daten
nicht ungefragt für Marketingzwecke verwendet werden. Folgende Punkte werden von
diesem Gesetzeswerk umfasst:
ˆ
Elektronische Standards für die Übertragung von medizinischen Daten (Transaction Rule)
ˆ
Eindeutige Identizierung für Patienten, Ärzte, Versicherungen,... (Identier
Rule)
ˆ
Datensicherheit (Security Rule)
ˆ
Datenschutz (Privacy Rule)
Auch HIPAA ermutigt die betroenen Institutionen, wenn möglich nur indirekt personenbezogene Daten zu verwenden bzw. mit möglichst wenigen Daten auszukommen.
Im Gegensatz zu MAGDA-LENA kommt hier aber nicht die
k -Anonymität
zum Ein-
satz, um indirekt personenbezogene Daten zu erhalten, sondern es werden zwei andere
Wege aufgezeigt, um sensible Daten angemessen zu schützen:
ˆ
Zum einen ist es ausreichend, wenn eine Person mit geeignetem statistischen
Wissen feststellt, dass nur ein sehr geringes Risiko besteht, dass die vorhandenen Daten allein oder mit Hilfe anderer Daten benutzt werden können, um eine
10
Person eindeutig zu identizieren (Ÿ164.514(b)(1))
ˆ
[16].
Die andere Möglichkeit ist das Löschen von 18 explizit aufgelisteten Attributen wie Name, Telefonnummer, Faxnummer, Sozialversicherungsnummer, e-Mail
Adresse,. . . . Auÿerdem darf für die Institution, die die Daten veröentlicht, kein
Zweifel darin bestehen, dass diese Daten nicht ausreichen, um eine Person ein8
deutig zu identizieren (Ÿ164.514(b)(2)) .
10 http://privacyruleandresearch.nih.gov/
14
2 Anonymisierung und
Pseudonymisierung medizinischer
Daten
2.1 Modelle der Pseudonymisierung
Wie bereits erwähnt und auch in Kapiteln 2.3 noch zu lesen sein wird, schützen pseudonymisierte Daten nicht wirklich vor Missbrauch, da es in Ermangelung einer zusätzlichen
k -Anonymisierung
noch immer möglich ist, Personen eindeutig zu identizieren.
Darüber hinaus kann es passieren, dass das Verfahren der Pseudonymisierung selbst
schlecht gewählt wurde und dadurch die Daten zusätzlich gefährdet sind. Daher wird
hier kurz auf zwei Modelle der Pseudonymisierung mit ihren Vor- und Nachteilen
eingegangen (für weiterführende Informationen siehe [8]).
Generell kann man zwischen einem einstugen und einem zweistugen Pseudonymisierungsprozess unterscheiden. Diese Einteilung hängt von der Anzahl der Pseudonymisierungsschritte an verschiedenen Stellen ab (mehrmalige Pseudonymisierung an
ein und derselben Stelle bringt keine höhere Sicherheit und wird deshalb auch nur
als eine Stufe gewertet). Die zusätzliche Pseudonymisierung auÿerhalb der Datenquellen wird von Vertrauensstellen übernommen. Dies sind unabhängige Institutionen, die
die Aufgabe haben, den Datenuss zu pseudonymisieren, zu anonymisieren bzw. zu
aggregieren. Sie haben aber nicht das Recht, auf die Nutzdaten zuzugreifen.
Das im Folgenden vorgestellte Verfahren (Abbildung 2.1) ist ein einstuger Pseudonymisierungsprozess, wobei jede einzelne Datenquelle für jede Person ein eindeutiges
Pseudonym erzeugt und dieses dann gemeinsam mit den unverschlüsselten Nutzdaten an die Sammelstelle übermittelt. Alle Datenquellen verwenden dabei den gleichen
Schlüssel und das gleiche Verfahren. Dadurch ist die Datenzusammenführung in der
Datensammelstelle möglich, ohne dass die Sammelstelle Kenntnis der personenbezogenen Daten hat.
Dieses Modell bringt folgende Vor- bzw. Nachteile mit sich:
+ Geringer organisatorischer Aufwand, da der Aufbau einer Vertrauensstelle nicht
nötig ist.
15
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Abbildung 2.1: Modell 1 Pseudonymisierung durch Datenquellen [8]
+ Die Personendaten sind auÿerhalb der Datenquelle nicht bekannt.
+ Datensammelstelle erhält keine personenbezogenen Daten.
- Die Datenquellen könnten die zusammengeführten Daten auswerten und auf den
personenbezogenen Inhalt schlieÿen.
- Da jede Datenquelle extra pseudonymisiert und somit jede Stelle über den identischen Schlüssel verfügen muss, ist die Gefahr gröÿer, dass der Schlüssel der
Öentlichkeit bekannt wird und somit das Verfahren korrumpiert wird.
- Der Datensammelstelle ist die Datenquelle der Daten bekannt, und unter Umständen sind so Rückschlüsse auf die Personendaten möglich.
- Hoher administrativer Aufwand, da an jeder Stelle pseudonymisiert wird.
Dieses einstuge Modell ist aufgrund der erwähnten Probleme nicht empfehlenswert
und für die Praxis ungeeignet.
16
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Das folgende Modell (Abbildung 2.2) führt aufgrund eines zusätzlichen Pseudonymisierungsschrittes und einer Vertrauensstelle zu besseren Ergebnissen. Dabei geben die
Datenquellen die verschlüsselten Nutzdaten und die unverschlüsselten Personendaten
an die Vertrauensstelle weiter. Diese pseudonymisiert die Personendaten und überliefert die Daten an die Datensammelstelle. Dort werden die Daten abermals pseudonymisiert und die Nutzdaten entschlüsselt.
Dieses zweistuge Modell bringt folgende Vor- bzw. Nachteile mit sich:
+ Die Datensammelstelle erhält keine personenbezogenen Daten.
+ Aufgrund der zentralen Pseudonymisierung ist ein Bekanntwerden des Schlüssels
unwahrscheinlich.
+ Der Datensammelstelle ist die Datenquelle nicht bekannt.
+ Durch die zentrale Pseudonymisierung ist der administrative Aufwand geringer.
+ Mehr Sicherheit wird durch das zweistuge Verfahren geboten.
- Auch auÿerhalb der Datenquelle sind Personendaten bekannt.
- Hoher organisatorischer Aufwand aufgrund des Aufbaus einer Vertrauensstelle.
Dieses Verfahren eignet sich für die Praxis besser und ist ein guter Kompromiss
zwischen Datensicherheit und zusätzlich anfallenden Kosten aufgrund erhöhtem organisatorischen Aufwand.
Die beiden soeben vorgestellten Verfahren waren Beispiele für zentrale Datenhaltung. Für weitere Modelle dazu oder Beispiele für dezentrale Datenhaltung kann auf
[8] verwiesen werden.
2.2 Angris- und Bedrohungsszenarien
Um besser gegen Attacken geschützt zu sein, ist es wichtig, über potentielle Angreifer
und ihre Ziele bzw. Interessen informiert zu sein. Diese können sehr unterschiedlich
sein und zielen nicht immer auf die vollständige Reidentizierung der Datensätze an
[9]:
ˆ
(Totale) Reidentikation der Datenbank
ˆ
Wiederherstellung von Informationen (partielle Reidentikation)
ˆ
Ist eine spezielle Person in der Datenbank gelistet?
ˆ
Ist eine spezielle Person in der Datenbank nicht vorhanden?
17
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Abbildung 2.2: Modell 2 Pseudonymisierung durch Vertrauensstelle und Datensammelstelle [8]
18
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Auÿerdem sollte man sich im Klaren sein, von wem Gefahr droht und wie stark
die Daten dementsprechend geschützt werden müssen. Welche Mittel (zeitlich und
nanziell) stehen einem potentiellen Angreifer zur Verfügung? Wie wichtig sind die
geschützten Daten? Hat man es mit Eindringlingen zu tun, die nur zum Spaÿ an
sensible Daten kommen wollen oder muss man sich vor professionellen Angreifern
schützen, die über beinahe unbegrenzte Ressourcen verfügen?
Eine Analogie in der Welt der Kryptographie: Im Bereich E-Commerce werden Daten standardmäÿig mit weniger komplexen Verfahren verschlüsselt als z.B. im militärischen Bereich. Denn privat droht die Gefahr im Allgemeinen von Amateurhackern mit
beschränkten nanziellen und zeitlichen Mitteln, wohingegen Militärdaten nicht nur
Ziel privater Angrie sind, sondern aufgrund der enthaltenen unbezahlbaren Informationen auch ein Ziel feindlicher Organisationen oder ganzer Länder mit entsprechender
Ausrüstung sein können.
2.3 Risiko der Reidentizierung durch Verknüpfung
von Daten
In [17] berichtet L. Sweeny von den Resultaten seiner Studie mit US-Zensusdaten,
die zum Ziel hatte herauszunden, wie viele Personen innerhalb eines Gebietes spezielle Kombinationen von demographischen Daten aufweisen, die die Person einzigartig machen: 87% (216 Millionen von 248 Millionen) der US Bevölkerung sind nur
durch Geschlecht, Geburtsdatum und 5-stelliger Postleitzahl (vergleichbar mit der 4stelligen PLZ in Österreich) eindeutig zu identizieren. Selbst wenn man den Ort auf
ganze Städte ausdehnt, weisen immer noch mehr als die Hälfte (53%) der Bevölkerung
einzigartige Kombinationen der drei Attribute auf.
Beispiel: Reidentizierung durch Verknüpfung [18]: In Amerika sammeln 17 Staaten
medizinische Daten von diversen Gesundheitseinrichtungen wie Spitälern, praktischen
Ärzten,... Der linke Kreis von Figur 2.3 beinhaltet einen Teil der Attribute, die dabei
gespeichert werden (empfohlen von der National Association of Health Data Organizations (NAHDO)). In Massachusetts sammelte die Group Insurance Commission
(GIC) die Gesundheitsdaten von tausenden von Staatsangestellten und ihren Familien
mit hunderten Attributen pro Eintrag. Da man davon ausging, dass diese Daten ohne
primäre Identikationsmerkmale anonym sind, wurde eine Kopie der Daten an Forschungsstellen weitergegeben und eine Kopie davon sogar an die Industrie verkauft.
Mit einem Wählerverzeichnis von Cambridge Massachusetts, das man bereits für 20
Dollar erwerben kann [18], ist es möglich, die medizinischen Daten mit den Daten
aus der Wählerliste zu verknüpfen. Im rechten Kreis der Figur 2.3 sind die Attribute
ersichtlich, die normalerweise in einem Wählerverzeichnis vorhanden sind. Man kann
erkennen, dass es in der Mitte einen Bereich gibt, wo beide Kreise überlappen. Wenn
19
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
jetzt ein Eintrag aus dem linken Kreis bei diesen Attributen eine einzigartige Kombination aufweist (was nicht gerade sehr ungewöhnlich ist, wie bereits weiter oben erwähnt
wurde), so kann dieser Eintrag und somit auch die Diagnose und andere sensible
Details eindeutig mit einem Namen und einer Adresse verknüpft werden. So war
es für L. Sweeny ohne Probleme möglich, den zu dieser Zeit amtierenden Gouverneur
von Massachusetts, William Weld, in der veröentlichten Gesundheitsakte ausndig
zu machen und an seine sensiblen Daten zu kommen. Aus dem Wählerverzeichnis in
dem sich natürlich auch die Daten von W. Weld befanden ging nämlich hervor, dass
es darin nur sechs Personen gab, die am gleichen Tag Geburtstag hatten; nur drei
davon waren Männer und nur eine Person hatte auch die gleiche 5-stellige PLZ.
Abbildung 2.3: Verknüpfung von Daten [18]
Leider werden medizinische Daten immer wieder für illegale Zwecke benützt wie
man auch an den folgenden zwei Beispielen sehen kann [19]. Durch schlampige Anonymisierungsmethoden wird dieser Missbrauch noch erheblich vereinfacht.
ˆ
1995 verglich in Maryland ein Bankier seine Kunden, die noch ausstehende Bankdarlehen hatten, mit einem an Krebs erkrankten Patientenregister. Daraufhin
wurde von den krebskranken Kunden das Darlehen sofort eingefordert.
ˆ
Bei einer Befragung von 87 der gröÿten Firmen der USA mit insgesamt mehr als
3,2 Millionen Angestellten gaben 35% zu, dass sie für Entscheidungen über ihre
Mitarbeiter auch medizinische Akten verwenden.
Natürlich sollte beachtet werden, dass die Daten, die für die Verknüpfung genutzt
werden, nicht unbedingt aus Datenbanken stammen müssen, sondern auch durch Be-
20
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
obachtungen oder dem social engineering von Personen zusammengetragen werden
können.
In [9] ist ein Beispiel zu nden, das den Mechanismus eines Angris durch Verknüpfung von Daten anschaulich erklärt:
Abbildung 2.4: Reidentizierung durch Verknüpfung [9]
Abbildung 2.4 zeigt zwei Tabellen mit je drei Datensätzen. Die rechte Tabelle stellt
eine pseudonymisierte Tabelle mit vier Attributen dar, die die Werte A oder B
annehmen können. Der Eintrag ? steht für eine fehlende Beobachtung. Der Angreifer
weiÿ, welche Personen sich in dieser Tabelle benden und interessiert sich für die für
ihn nicht beobachtbaren Attribute Var 3 und Var 4 . Aufgrund von Beobachtungen kann
er die linke Tabelle mit zwei der vier Attributen erstellen und versucht nun durch
Verbindung der Daten die Identität der pseudonymisierten Personen zu lüften. Ein
simpler Verknüpfungsalgorithmus liefert folgendes Resultat (Abbildung 2.5):
ID
kann korrespondieren
Pseudo-ID
mit. . .
Alice
Bob
Claire
kann korrespondieren
mit. . .
ID 2, ID 3
ID 1
Bob, Claire
ID 1, ID 2, ID 3
ID 2
Alice, Bob
ID 1
ID 3
Alice, Bob
Abbildung 2.5: Resultat des Verknüpfungsalgorithmus [9]
Da Claire nur mit einem einzigen Datensatz (ID 1) korrespondiert, kann die Abbildung 2.5 dementsprechend aktualisiert werden, und es ergibt sich schlieÿlich Abb.
2.6. Der Angreifer hat nun diesen einen Datensatz eindeutig identiziert und weiÿ nun
über die beiden Attribute Var 3 und Var 4 von Claire Bescheid.
Der Angreifer kann die zwei verbliebenen Datensätze (Abb. 2.6) nicht eindeutig den
Namen Alice bzw. Bob zuordnen. Da aber bei beiden Datensätzen die Ausprägung des
dritten Attributs übereinstimmt, kann der Angreifer daraus doch noch Informationen
gewinnen nur der Wert von Var 4 bleibt ihm für Alice und Bob verschlossen. Wenn das
21
Kapitel 2.
ID
Anonymisierung und Pseudonymisierung medizinischer Daten
kann korrespondieren
Pseudo-ID
mit. . .
kann korrespondieren
mit. . .
Alice
ID 2, ID 3
ID 2
Alice, Bob
Bob
ID 2, ID 3
ID 3
Alice, Bob
Abbildung 2.6: Aktualisiertes Resultat des Verknüpfungsalgorithmus [9]
Ziel des Angreifers eine vollständige Reidentikation der pseudonymisierten Tabelle
war, so schlug dieser Angri fehl wenn er jedoch nur an den Werten von Var 3
interessiert war, so war diese Attacke ein voller Erfolg.
Wie bereits weiter oben erwähnt wurde, ist neben der Reidentikation einzelner
Datensätze auch die Beantwortung der Frage, ob eine bestimmte Person in einer Datenbank enthalten ist, ein mögliches Ziel von Angrien. Man denke hier an Patientenregister, die nur Patienten mit bestimmten Krankheiten enthalten (Krebs, AIDS,. . . ).
Die Erkenntnis, dass die gesuchte Person ein Mitglied der entsprechenden Tabelle ist,
kann bereits fatale Folgen für die betroene Person haben.
Die Nicht-Mitgliedschaft einer Person in einer Tabelle kann relativ leicht festgestellt werden: Kommt die Attributkombination des vermuteten Mitglieds in der Datenbank nicht vor, so ist diese Person darin nicht enthalten. Der gegenteilige Fall
kann zu gröÿeren Problemen führen, wie auch Abbildung 2.7 zeigt: Der Angreifer will
feststellen, ob Claire von der ihm zwei Attribute bekannt sind Mitglied der pseudonymisierten Tabelle ist. Der Datensatz könnte mit dem ersten Tupel der rechten Tabelle übereinstimmen aber natürlich ist das kein Beweis dafür, dass diese Vermutung
auch tatsächlich der Realität entspricht. Erst wenn mehrere Attribute übereinstimmen,
kann man mit einer hohen Wahrscheinlichkeit davon ausgehen, dass sich die Person
tatsächlich in der Tabelle bendet. In diesem Beispiel gehört der erste Datensatz der
pseudonymisierten Tabelle zu Dave, und Claire, die durch Zufall übereinstimmende
Attributkombinationen mit Dave aufweist, ist nicht in der Datenbank vertreten.
2.4
k -Anonymität
Um das zuvor angesprochene Problem der unzureichenden Anonymisierung und
Pseudonymisierung zu lösen, ist es notwendig, die Daten so abzuändern, dass die
Tabelle die Anforderung der
k -Anonymität
erfüllt (siehe auch Kapitel 1.1.3). Denn so
ist es durch Verknüpfung der medizinischen Daten und Daten aus z.B. Wählerlisten
nicht möglich, einen eindeutigen Personenbezug herzustellen zumindest
k
Personen
haben die gleiche Kombination von sekundären Identikationsmerkmalen und sind
daher nicht voneinander unterscheidbar.
22
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Abbildung 2.7: Mitgliedschaft in einem anonymisierten Datenbestand [9]
Folgende Möglichkeiten bieten sich an, die gegebenen Daten abzuändern:
ˆ
Generalisierung: Dabei wird der Wert eines Attributs durch einen weniger spezischen Inhalt ersetzt. So wird zum Beispiel das genaue Geburtsdatum durch
das Geburtsjahr ersetzt. Wenn dadurch noch nicht das gewünschte Ziel erreicht
wurde, so wird der Wert einfach weiter generalisiert, indem z.B. mehrere Jahre zu einer Gruppe zusammengefasst werden, damit zumindest
k
Personen in
diesem Bereich liegen (siehe auch Tabelle 1.3).
ˆ
Unterdrückung (Löschen) einzelner Zellen bzw. auch ganzer Zeilen oder Spalten:
Statt den Werten wird dann ein Platzhaltersymbol verwendet (z.B. *) siehe
auch Tabelle 1.3 beim Attribut Geschlecht. Die Unterdrückung kann auch als
Spezialfall der Generalisierung angesehen werden, bei der so weit wie möglich
verallgemeinert wird.
ˆ
Neben der Generalisierung und Unterdrückung gibt es z.B. die Möglichkeit, die
Daten durch Hinzufügen von Rauschen oder durch Vertauschen der Werte [20]
zu verändern. Dabei werden zufällige Werte den Daten hinzugefügt bzw. einzelne Zeilen, Spalten und auch Zelleninhalte untereinander vertauscht, damit nicht
mehr auf den ursprünglichen Zustand der Tabelle und somit auch nicht auf die
darin enthaltenen Personen geschlossen werden kann. Doch durch solch tiefe Eingrie sind diese Daten im Allgemeinen nicht mehr für weitere wissenschaftliche
Auswertungen zu gebrauchen. Daher wird in der Regel auf die Kombination von
Generalisierung und Unterdrückung zurückgegrien, die zwar den Informationsgehalt etwas reduzieren, aber nichts an der Bedeutung der Daten ändern.
In [21] verwendet L. Sweeny den Begri Domäne, der oft in Verbindung mit relationalen Datenbanken gebraucht wird und dabei für die möglichen Werte eines Attributs steht, auch in Zusammenhang mit Generalisierung und Unterdrückung, um diese
23
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Prozesse leichter beschreibbar zu machen. Jedes Attribut in der Originaltabelle kann
sämtliche Werte der Grunddomäne des Attributs annehmen (z.B. Tabelle 1.1: Wert
des Attributs PLZ
∈
P0 = {1010, 1011, 1070, 1110}. Um einen weniger
kann ein mapping von Domäne P0 auf Domäne P1
Grunddomäne
spezischen Wert zu bekommen,
erfolgen. Dabei wird die letzte Zier durch das Zeichen * ersetzt, das für jede beliebige
Zier stehen kann und somit den Wert deutlich verallgemeinert.
Die Generalisierungsbeziehung zwischen zwei Domänen wird mit dem Operator
gekennzeichnet. Der Ausdruck
lisierung der Domäne
Di
Di <D Dj
bedeutet, dass die Domäne
darstellt. Somit kann durch den Operator
Dj
<D
<D
eine Generadie Ordnung
der Domänen ausgedrückt werden. Daraus ergibt sich die domain generalization hier-
archy
DGHA :
Sie ist deniert als eine Menge von Domänen, vollständig geordnet
durch die Beziehung
<D .
(Für ein Beispiel siehe linke Grak der Abbildungen 2.8
und 2.9). Entsprechend der
V GHA
DGHA
gibt es auch eine value generalization hierarchy
(rechte Grak der Abbildungen 2.8 und 2.9).
Abbildung 2.8: domain generalization hierarchy und value generalization hierarchy
der PLZ-Domäne [21]
Abbildung 2.9: domain generalization hierarchy und value generalization hierarchy
der Geschlecht-Domäne [21]
24
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
2.4.1 k-minimale Generalisierung
M/W
PLZ
M/W
PLZ
M/W
PLZ
M/W
PLZ
M/W
PLZ
G0
P0
G1
P0
G1
P1
G0
P2
G0
P1
M
1070
Person
1070
Person
107*
M
10**
M
107*
M
1010
Person
1010
Person
101*
M
10**
M
101*
M
1011
Person
1011
Person
101*
M
10**
M
101*
M
1070
Person
1070
Person
107*
M
10**
M
107*
W
1110
Person
1110
Person
111*
W
11**
W
111*
W
1110
Person
1110
Person
111*
W
11**
W
111*
W
1010
Person
1010
Person
101*
W
10**
W
101*
W
1011
Person
1011
Person
101*
W
10**
W
101*
PT
GT[1,0]
GT[1,1]
GT[0,2]
GT[0,1]
Abbildung 2.10: Verschiedene, zumindest 2-anonyme Generalisierungen der Tabelle
PT
[21]
Abbildung 2.10 [21] zeigt die Tabelle
PT
und vier verschiedene Generalisierungen
auf Attributebene (nicht einzelne Zelleninhalte werden verändert, sondern die Werte einer ganzen Spalte werden generalisiert), die alle zumindest 2-anonym sind. Bei
gegebener
DGHi
Ai , i : 1, . . . , n;
T (A1 , . . . , An )
für die Attribute
Attributebene für Tabelle
n
Y
gibt es bei Generalisierung auf
(|DGHi | + 1)
i=1
Möglichkeiten. Bei Generalisierung auf Zellenebene (nicht ganze Spalten werden verändert, sondern nur einzelne Zelleninhalte) gibt es eine entsprechend gröÿere Anzahl
an Möglichkeiten (wobei
|P T |
gleich der Anzahl der Tupel der Tabelle
n
Y
PT
ist):
(|DGHi | + 1)|P T |
i=1
Natürlich sind nicht alle Generalisierungen gleich zufriedenstellend viele von ihnen verallgemeinern die Werte zu stark, obwohl die angestrebte
k -Anonymität
bereits
erreicht wurde.
Tl (Ai , . . . , An ) und Tm (Ai , . . . , An ), wobei
Tm ist dann k -minimal, wenn sie die
Bedingung der k -Anonymität erfüllt und es keine weiteren k -anonymen Generalisationen von Tl gibt, die nach weiteren Generalisierungsschritten die Tabelle Tm ergeben
Denition: Gegeben seien die Tabellen
Tm
eine Generalisierung der Tabelle
Tl
darstellt.
würden [21].
25
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Abbildung 2.10 zeigt zwei 2-minimale Abwandlungen der Tabelle
GT[1,0] .
PT
GT[0,1]
und
Die beiden anderen Tabellen generalisieren mehr als notwendig ist. Sie sind
selbst Generalisierungen von den beiden anderen Tabellen und daher nicht
k -minimal.
2.4.2 Minimale Veränderung und Metriken
Wenn es mehrere
k -minimale Generalisierungen einer Tabelle gibt wie auch im voran-
gegangenen Beispiel so kann man durch Berechnung bestimmter Metriken die beste
Lösung herausnden. Dabei versucht man den Informationsverlust, der zwangsläug
bei der Veränderung einer Tabelle entsteht, zu berechnen und gibt dann der Generalisierung den Vorzug, die die nützlichsten Daten produziert.
Präzisionsmetrik
Bei dieser Metrik (Precision Metric Prec) [21] gibt das Verhältnis zwischen der
Generalisierungsstufe einer Zelle (h) und den möglichen Generalisierungsstufen den
Grad der Veränderung an. Die Präzision der Tabelle ist dann eins minus der Summe
der Veränderungen, normalisiert durch die Gesamtanzahl an Zellen.
P T (A1 , . . . , AN a ), und DGHA sei die domain
generalization hierarchy der Attribute A; Tabelle RT (A1 , . . . , AN a ) sei eine Generalisierung der Tabelle P T . Die Präzision der Tabelle RT geschrieben P rec (RT ) berechnet sich folgendermaÿen (wobei N für die Anzahl der Tupel der Tabelle P T
Denition: Gegeben sei die Tabelle
steht):
PNA PN
P rec (RT ) = 1 −
i=1
h
j=1 |DGHAi |
|P T | · |NA |
Beispiel: Wenn P T = RT , so ist jeder Wert in der Grunddomäne (h = 0) und
P rec(RT ) = 1. Wenn jeder Wert in der höchsten Generalisierungsstufe ist, so ist jedes
h = |DGHAi | und P rec(RT ) = 0. Tabelle GT[1,0] der Abbildung 2.10 unter Verwendung der Generalisierungshierarchien 2.8 und 2.9 liefert den Wert P rec(GT[1,0] ) =
0, 75. Damit ist der Wert für diese Tabelle erwartungsgemäÿ höher (besser) als für die
Tabellen GT[1,1] und GT[0,2] (P rec(GT[1,1] ) = 0, 58; P rec(GT[0,2] ) = 0, 67). Die Tabelle
mit der höchsten Präzision ist aber GT[1,0] mit P rec(GT[0,1] ) = 0, 83. Der Grund dafür
ist |DGHGeschlecht | = 2 und |DGHP LZ | = 3 eine Generalisierung eines Attributs mit
nur wenigen Generalisierungsschritten wirkt sich negativer auf den Informationsgehalt
aus.
26
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Unterscheidbarkeitsmetrik
Da bei der Umwandlung einer Tabelle in eine
k -anonyme
Form viele Tupel auf die
gleichen Werte reduziert bzw. generalisiert werden, versucht diese Metrik (Discernibility Metric DM) [22] zu berechnen, wie viele verschiedene Werte pro Tupel bzw.
Attribut nach der Umwandlung noch erhalten geblieben sind. Dabei wird jedes Tupel
mit Strafpunkten versehen, wenn es von anderen Tupeln nicht mehr unterscheidbar
ist und zwar im Ausmaÿ der Anzahl der identischen Datensätze. Fällt also ein Tupel
in eine Äquivalenzklasse (Menge von identischen Tupeln) der Gröÿe
eine Strafe der Gröÿe
j
j,
so wird ihm
zugeordnet (berechnet durch die erste Summe der folgenden
Formel). Wird ein Datensatz ganz entfernt also unterdrückt so wird ihm eine Strafe der Gröÿe der Gesamtanzahl der Tupel in der Originaltabelle angehängt, da dieses
unterdrückte Tupel nicht mehr von den anderen unterscheidbar ist (berechnet durch
die zweite Summe der folgenden Formel).
Denition: Gegeben sei die Tabelle
PT,
und Tabelle
RT
sei eine Generalisierung
P T . |E| bezeichnet die Gröÿe der Äquivalenzklasse, in der sich ein
pel bendet, und |P T | steht für die Anzahl der Tupel der Originaltabelle P T .
Discernibility Metric der Tabelle RT kann folgendermaÿen berechnet werden:
der Tabelle
TuDie
X
X |E| |P T |
E 2 +
CDM (RT ) =
∀|E|<k
∀|E|≥k
Durchschnittliche, normalisierte Äquivalenzklassengröÿenmetrik
Auch diese Metrik (Normalized Average Equivalence Class Size Metric) [23] berechnet die Qualität der Generalisierung aufgrund der Gröÿe der Äquivalenzklassen (Menge
von identischen Tupeln), ist aber leichter und schneller zu berechnen als die Discernibility Metric.
P T (A1 , . . . , AN a ) mit der Anzahl an Tupel |P T |;
P T . Die Normalized
Metric der Tabelle RT geschrieben CAV G (RT ) Denition: Gegeben sei die Tabelle
Tabelle
RT (A1 , . . . , AN a )
sei eine Generalisierung der Tabelle
Average Equivalence Class Size
wird wie folgt berechnet:
!
CAV G (RT ) =
|P T |
/ (k)
Anzahl der Äquivalenzklassen
2.4.3 Laufzeitverhalten
Die Umformung einer Tabelle mit personenbezogenen Daten in eine
k -anonyme
Form
ist eine sehr rechenintensive Aufgabe. A. Meyerson und R. Williams zeigen in [24] und
27
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
[25], dass die optimale Lösung dieses Problems NP-schwer
1
ist.
k -Anonymisierung durch das Löschen ganzer Attribute: Gegeben sei eine Tabelle T und eine nichtnegative Zahl L. Existiert eine Generalisierung/UnterdrückungsFunktion g , damit g(T ) k -anonym ist und höchstens L Attribute unterdrückt werden?
Theorem 1: Für k > 2 ist die k -Anonymisierung durch das Löschen ganzer Attribute
NP-schwer, wenn die Anzahl der möglichen Werte, die ein Attribut annehmen kann,
≥2
ist. Der Beweis kann in [24] nachgelesen werden und ist angelehnt an ein anderes
NP-schweres Problem dem k -dimensional perfect matching problem.
k -Anonymisierung
durch das Löschen einzelner Zellen: Dieser Ansatz ist weniger
restriktiv und praxisnäher, denn er erlaubt das Verändern der Inhalte auf Zellenebene.
Theorem 2: Für
k>2
ist die
k -Anonymisierung
durch das Löschen einzelner Zellen
NP-schwer, wenn die Anzahl der möglichen Werte, die ein Attribut annehmen kann,
gröÿer gleich der Anzahl der Tupel
n
ist. Auch dieser Beweis ist eine Abwandlung des
k -dimensional perfect matching problem und nachzulesen in [24].
2.4.4 Brauchbarkeit k-anonymer Daten
Da bei der
k -Anonymisierung
Daten verändert werden und dadurch zwangsläug der
Informationsgehalt sinkt, stellt sich natürlich die Frage, in welchem Maÿe die so gewonnene Tabelle überhaupt noch nützlich ist und ob sie sich noch für wissenschaftliche Schlussfolgerungen und Vorhersagemodelle eignet. Leider gibt es zu diesem interessanten Thema wenig Literatur erste Forschungen in diese Richtung stammen von
S. Dreiseitl, S. Vinterbo und L. Ohno-Machado [26]. Hier wurden die Auswirkungen
der
k -Anonymisierung
(durch Unterdrückung auf Zellenebene) auf schlieÿende Statis-
tik und Vorhersagemodelle untersucht. Um die Hypothese zu beweisen, dass sich auch
k -anonymisierte
Daten für wissenschaftliche Arbeiten eignen, kam folgende Versuchs-
anordnung zum Einsatz:
Als Training Sample wurde ein Datensatz von 250 Patienten alle mit Verdacht auf
Herzinfarkt verwendet. Als Test Set kamen 700 Fälle eines anderen Krankenhauses
zum Einsatz. Dieser Datenpool wurde ausgewählt, weil er schon zuvor bei anderen
Studien verwendet wurde und für die Aufgabenstellung geeignet war. Das Training
Set wurde mittels Unterdrückung auf Zellenebene in
k -anonyme
Daten
(2 ≤ k ≤ 150)
umgewandelt. Mit diesen Daten wurde pro Anonymisierungsstufe eine Regressionsfunktion konstruiert Daten, die durch die Anonymisierung verloren gingen, wurden durch den Mittelwert der vorhandenen Daten ersetzt. Mittels des Test Sets wurde
dann die Aussagekraft dieser Funktionen (Herzinfarkt ja/nein) getestet und die Klas-
1 Dieser
Begri aus der Komplexitätstheorie bezeichnet Probleme, die besonders aufwändig zu berechnen sind.
28
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Abbildung 2.11: Fläche unter der ROC-Kurve (AUC) in Abhängigkeit vom Grad der
k -Anonymität
[26]
sikationsergebnisse durch ROC-Kurven
2
bewertet. Die Abbildungen 2.11 und 2.12
zeigen die dabei gewonnenen Ergebnisse. 2.11 listet die Resultate der Fläche unter
der ROC-Kurve in Abhängigkeit vom Grad der
auf. Es fällt auf, dass bereits bei
k -Werten
k -Anonymität
in tabellarischer Form
ab 2 die Vorhersagekraft (= Fläche unter
der ROC-Kurve) deutlich nachlässt. In Anbetracht der 1158 gelöschten Zellen und
der sinkenden Zahl an verwertbaren Datensätzen (N ) ist dies aber auch nicht weiter verwunderlich. Interessant ist aber, dass die Aussagekraft von
k =2
bis
k = 20
relativ konstant bleibt. Erst dann tritt eine deutlich sichtbare Verschlechterung ein,
wie auch in Abbildung 2.12 zu sehen ist. In [26] wird aber eingeräumt, dass diese
2 Um
die Aussagekraft eines Tests (z.B. Labortest, der gesunde von kranken Patienten unterscheidet)
zu ermitteln, können statistische Tests durchgeführt werden. Ein Diagramm, das die Ergebnisse
und somit die Klassikatorgüte grasch darstellt, ist die ROC-Kurve (Receiver Operating Characteristic Curve). Durch Berechnung der Fläche unter der ROC-Kurve (AUC) ergibt sich der
genaue Klassikationswert (z.B.: AU C = 0, 5: zufällige Klassikation; AU C = 1: fehlerfreie Klassikation).
29
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Abbildung 2.12: Grasche Darstellung der Fläche unter der ROC-Kurve (y-Achse), in
Abhängigkeit vom Grad der
k -Anonymität
Werte auch durchaus besser sein könnten, wenn für die
(x-Achse) [26]
k -Anonymisierung bessere und
leistungsfähigere Algorithmen verwendet worden wären. Auÿerdem wären auch andere
Regressionsfunktionen oder Methoden wie Neuronale Netze denkbar gewesen, die auch
mit fehlenden Werten in den Datensätzen Ergebnisse liefern hätten können.
Sicherlich gibt es auf diesem Gebiet noch Forschungsbedarf und einige oene Fragen.
Man kann trotzdem davon ausgehen, dass sich
k -anonymisierte Daten trotz geringerem
Informationsgehalt dennoch für wissenschaftliche Forschung eignen. Die Wahl der richtigen Anonymisierungsstufe (k ) ist hierbei natürlich ausschlaggebend und darf nicht
zu hoch ausfallen. Wie das vorangegangene Beispiel aber gezeigt hat, kann auch ein
k
zwischen 10 und 20, das somit einen guten Schutz der veröentlichten Daten darstellt,
noch immer durchaus brauchbare Resultate liefern.
2.4.5 Angrie gegen k-anonyme Daten
Trotz Bestimmung der richtigen sekundären Identikationsmerkmale, Wahl eines ausreichenden Wertes für
k
und eines passenden
k -Anonymisierungsalgorithmus,
können
die so erhaltenen Daten noch immer anfällig für diverse Attacken sein. Dieses Kapitel
versucht einen Überblick über die Gefahren zu geben, aber auch mögliche Lösungsmöglichkeiten dafür aufzuzeigen.
30
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Auösen der Mehrdeutigkeit k-anonymer Daten
Für folgende Überlegungen [27] dienen Tabellen als Grundlage, die (nur) mittels Unterdrückung von Zelleninhalten in
k -anonyme
Form gebracht wurden. So wie auch
Tabelle 2.1, die trotz ihres geringen Umfangs für erste Überlegungen ausreichend ist.
Bereits auf den ersten Blick kann man erkennen, dass der fehlende Eintrag hier nur
W
Wert M
den Wert
gehabt haben kann: Wenn das Geschlecht schon vor der Anonymisierung
den
gehabt hätte, so wäre keine Unterdrückung notwendig gewesen und da
die Domäne des Attributs
M/W
nur zwei Möglichkeiten zulässt, ist es nicht weiter
schwierig, auf den Originalwert nämlich
W
zu schlieÿen.
Alter
M/W
PLZ
med. Diagnose
2030
M
1010
1
2030
*
1010
0
Tabelle 2.1: 2-anonyme Tabelle durch Unterdrückung von Zelleninhalten [27]
Dieses Prinzip kann natürlich auch auf gröÿere Tabellen mit mehreren unterdrückten
Zellen und Domänen von Attributen mit mehr als zwei möglichen Werten übertragen
werden. Wichtig ist aber die Kenntnis über den verwendeten Algorithmus zur Anonymisierung der Daten. Mit diesem Wissen kann dann ein entsprechender Algorithmus
entworfen werden, der versucht, die Anonymisierung rückgängig zu machen:
1. Es wird festgestellt, welche Werte die einzelnen Attribute annehmen können.
(Die Domänen der entsprechenden Attribute werden ermittelt.)
2. Die unterdrückten Zelleninhalte werden durch alle möglichen Werte und Kombinationen von Werten ersetzt und die so erhaltenen verschiedenen Versionen der
Tabelle gespeichert.
3. Die Versionen, die nicht zur gegebenen
k -anonymisierten
Tabelle geführt haben
können, werden gelöscht:
a) Zuerst werden alle Tupel gekennzeichnet, die nach dem Ersetzen der unterdrückten Zellen keine einmaligen Tupel bilden. Alle Versionen der ursprünglichen Tabelle, die solche Tupel enthalten, werden gelöscht.
b) Auf alle anderen Abwandlungen wird der
k -Anonymisierungsalgorithmus
k -anonymen Tabelle ver-
angewendet und das Ergebnis mit der gegebenen
glichen.
Es ist sofort erkennbar, dass diese Rückanonymisierung viel rechenaufwändiger
ist als die Anonymisierung selbst. Besonders der Schritt 3b kann bereits bei Tabellen
31
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
mittlerer Gröÿe inezient sein. Der Grund dafür ist die Tatsache, dass die nötigen
Iterationen des Algorithmus mit der Anzahl an unterdrückten Werten exponentiell
wächst: Eine Tabelle mit nur zwei Spalten und jeweils 11 möglichen Werten pro Attri4
but und 4 unterdrückten Zellen ergibt 11 mögliche Ausgangstabellen, die überprüft
werden müssen. Wenn das Ergebnis des Algorithmus keine eindeutige Lösung für die
fehlenden Werte ndet was wahrscheinlich meistens der Fall sein wird so liefert
er pro unterdrücktem Wert ein Histogramm, das die Wahrscheinlichkeit der einzelnen möglichen Ersetzungen liefert. Durch zusätzliche Hintergrundinformationen über
die Verteilung der Attributwerte könnte man besonders unwahrscheinliche Werte ausschlieÿen und somit die möglichen Werte noch weiter reduzieren.
Beispiel: Eine Tabelle mit 200 Tupeln, 5 Spalten und drei möglichen Werten pro
Attribut
{−1, 0, 1}
ist der Ausgangspunkt dieses Experiments. Um eine 2-anonyme
Tabelle zu erhalten, ist die Unterdrückung von 8 Zelleneinträgen nötig der Algorith8
mus hat also 3 = 6561 Fälle zu überprüfen. Abbildung 2.13 zeigt das Ergebnis dieses
Beispiels: Vier der acht unterdrückten Werte wurden eindeutig bestimmt für die vier
restlichen Zellen konnte zumindest eine Möglichkeit eindeutig ausgeschlossen werden.
Abbildung 2.13: Histogramm der Wahrscheinlichkeiten der möglichen Ersetzungen der
8 fehlenden Zelleneinträge [27]
Obwohl diese Möglichkeit der Rückanonymisierung sehr rechenintensiv ist und
sich kaum für gröÿere Tabellen eignet, sollte man sich trotzdem bewusst sein, dass
es zumindest theoretisch Möglichkeiten gibt, gelöschte Werte wieder herzustellen. Um
diesem Angri entgegenzuwirken, könnte man zufällige zusätzliche Zelleneinträge unterdrücken und somit den Reidentikationsalgorithmus verwirren. Dadurch würde
man aber natürlich den Informationsgehalt der Daten noch weiter senken und die
Daten im schlimmsten Fall unbrauchbar machen.
32
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Zusammenfügen unsortierter k-anonymer Tabellen
Bei dieser Art von Angri [18] kann die Reihenfolge der Tupel zusätzliche (ungewünschte) Informationen oenbaren. Dies kann aber durch einfaches Umsortieren der
Zeilen verhindert werden.
P T und zwei Ge= {M/W, P LZ}. Wenn Tabelle
Beispiel: Abbildung 2.14 zeigt drei Tabellen: Die Originaltabelle
neralisierungen
GT 1
GT 1
GT 2, wobei k = 2 und QP T
Tabelle GT 2 veröentlicht werden,
und
und später auch
so kann durch eine einfache
Verknüpfung der Daten zwischen den beiden Tabellen die Originaltabelle wiederhergestellt werden natürlich aber nur dann, wenn die Reihenfolge der Tupel, so wie hier,
nicht verändert wurde.
Unter Umständen kann auch bereits die Veröentlichung einer einzigen
k -anonymi-
sierten Tabelle mit geordneten Attributen zu Problemen führen: Wenn man aufgrund
M/W der Tabelle GT 1 geW ), so kann man davon ausgehen, dass das Tupel, das
M/W = W und P LZ = 1011 gehört, die letzte Zeile in der
von Hintergrundinformationen weiÿ, dass das Attribut
ordnet ist (zuerst
M,
zur gesuchten Person
dann
veröentlichten Tabelle sein muss.
M/W
PLZ
M/W
PLZ
M/W
PLZ
M
1070
Person
1070
M
107*
M
1010
Person
1010
M
101*
M
1011
Person
1011
M
101*
M
1070
Person
1070
M
107*
W
1110
Person
1110
W
111*
W
1110
Person
1110
W
111*
W
1010
Person
1010
W
101*
W
1011
Person
1011
W
101*
PT
GT 1
GT 2
Abbildung 2.14: Zwei 2-anonyme Generalisierungen der Tabelle
PT
[18]
Attacke aufgrund wiederholter Veröentlichung
Im Allgemeinen sind sekundäre Identikationsmerkmale nur eine Untermenge der Attribute einer veröentlichten
k -anonymen
Tabelle, da natürlich auch medizinische At-
tribute mitveröentlicht werden. Bei mehrfachen Publikationen einer Tabelle müssen
diese medizinischen Attribute zusätzlich beachtet und als sekundäre Identikationsmerkmale klassiziert werden, denn sonst können die veröentlichten Tabellen mittels
den medizinischen Attributen verknüpft werden [18]. Da das Sammeln von Daten ein
33
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
dynamischer Prozess ist Tupel werden hinzugefügt, gelöscht oder auch geändert und Tabellen daher im Laufe der Zeit mehrmals veröentlicht werden, ist hier ebenfalls
Vorsicht geboten. Wenn jedoch erneute Publikationen der Daten auf bereits bestehende
k -anonyme
Veröentlichungen basieren, so kann die Verknüpfung der Daten unterein-
ander zu keinen Problemen oder Risiken führen.
Beispiel: Tabelle 2.2 zeigt personenbezogene, medizinische Daten in Tabellenform,
und Abbildung 2.15 zwei 2-anonyme Abwandlungen dieser Tabelle (GT 1 und
Da die Reihenfolge der Tupel der Tabellen
GT 1
und
GT 2
GT 2).
zufällig gewählt wurde, ist
zumindest ein Angri wie im vorangegangenen Beispiel (Unsorted Matching Attack)
nicht möglich. Trotzdem ist auch hier die
k -Anonymität gefährdet: Durch VerknüpGröße ist es möglich, die Tabelle LT
mehr den Bedingungen der k -Anonymität
fung der beiden Tabellen durch das Attribut
von Abbildung 2.15 zu erhalten, die nicht
entspricht.
Name
SVNR
PLZ
Geburtsd.
M/W
Gröÿe
Luise Becker
1234100564
1070
10.05.1964
W
160
Anna Bauer
5412021260
1110
05.12.1960
W
171
Ludwig Kern
4321120970
1110
12.09.1970
M
180
Peter Wol
5613080864
1010
08.08.1964
M
170
Rosa Stix
4567151280
1011
15.12.1979
W
160
Tabelle 2.2: Personenbezogene, medizinische Daten in Tabellenform
Homogenitätsattacke
Beispiel: Alice und Bob sind Nachbarn. Eines Tages wird Bob von einem Krankenwagen in ein Krankenhaus eingeliefert. Alice, die den Abtransport beobachtet hat,
will nun herausnden, warum ihr Nachbar eingeliefert wurde und macht Tabelle 2.4
ausndig, die vom Spital veröentlicht wurde und eine 4-anonyme Abwandlung der
Originaltabelle (Tabelle 2.3) darstellt. Alice weiÿ, dass ein Tupel dieser Tabelle zu
ihrem Nachbarn Bob gehören muss. Auÿerdem ist ihr auch sein Alter (31) und natürlich die PLZ (1030) bekannt. Also kann es sich nur um die Tupel 9, 10, 11 oder 12
handeln, die zu Bob gehören können. Da aber die Diagnose bei allen vier möglichen
Datensätzen die gleiche ist, versagt hier die
k -Anonymität,
und Alice weiÿ über den
Grund der Einlieferung ihres Nachbarn Bescheid [28].
Wie man in [28] nachlesen kann, ist diese Situation nicht ungewöhnlich: Angenommen man hat einen Datenpool mit
60000
Tupel. Das sensible Attribut kann drei ver-
schiedene Werte annehmen und ist nicht korreliert mit anderen sekundären Identikationsmerkmalen. Nach einer 5-Anonymisierung hat man rund
12000
Gruppen un-
gefähr pro 81 Gruppen gibt es eine, bei der das sensible Attribut für alle 5 Tupel den
34
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
PLZ
Geburtsd.
M/W
Gröÿe
Wien
19701979
*
160
Wien
19701979
*
180
Wien
19601969
*
171
Wien
19601969
*
160
Wien
19601969
*
170
GT 1
PLZ
Geburtsd.
M/W
Gröÿe
PLZ
Geburtsd.
111*
111*
19601980
M
180
111*
19601980
W
171
111*
Wien
19601980
W
160
101*
101*
19601980
W
160
101*
19601980
M
170
GT 2
LT :
M/W
Gröÿe
19701979
M
180
19601969
W
171
19601969
M
170
Verknüpfung von
GT 1
und
Abbildung 2.15: Zwei 2-anonyme Abwandlungen der Tabelle 2.2 (GT 1 und
GT 2
GT 2) und
die Verknüpfung der beiden Tabellen (LT )
gleichen Wert hat. Bei
60000 Tupel sind dies 12000 : 81 · 5 = 740 Menschen, die
durch
diese Homogenitätsattacke eindeutig identiziert werden können.
Angri durch Hintergrundwissen
Beispiel: Alice hat eine Freundin aus Japan mit dem Namen Umeko, die in das Krankenhaus, in dem auch Bob behandelt wird, eingeliefert wurde und deshalb ebenfalls in
der Tabelle 2.4 vertreten ist. Alice weiÿ, dass Umeko 21 Jahre alt ist und momentan
ihren Hauptwohnsitz in 1011 hat dementsprechend kommen nur mehr die Tupel 1,
2, 3 oder 4 in Frage, die zu ihrer Freundin gehören können. Ohne Zusatzinformation
ist sich Alice nicht im Klaren, ob Umeko an einer viralen Erkrankung oder an einer
Herzerkrankung leidet. Da aber bekannt ist, dass Japaner eine sehr geringe Inzidenz
für Herzerkrankungen haben, schlieÿt Alice diese Diagnose für ihre Freundin aus [28].
k -Anonymität
kann Daten nicht vor Angrien durch Hintergrundwissen schützen.
Ein weiteres Problem ist die Tatsache, dass derjenige, der die (k -anonymen) Patientendaten veröentlicht, nicht wissen kann, ob bzw. welches Hintergrundwissen bei
einem potentiellen Angreifer vorhanden ist. Um diese Attacken trotzdem verhindern
zu können, sind stärkere Bedingungen als die der
35
k -Anonymität
nötig (Kapitel 2.5.7).
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
PLZ
Alter
Nationalität
Diagnose
1
1030
28
USA
Herzerkrankung
2
1010
29
Österreich
Herzerkrankung
3
1011
21
Japan
Virale Infektion
4
1030
23
Österreich
Virale Infektion
5
1110
50
Indien
Krebs
6
1110
55
USA
Herzerkrankung
7
1150
47
Österreich
Virale Infektion
8
1140
49
Österreich
Virale Infektion
9
1030
31
Österreich
Krebs
10
1030
37
Indien
Krebs
11
1010
36
Japan
Krebs
12
1012
35
Österreich
Krebs
Tabelle 2.3: Personenbezogene, medizinische Daten in Tabellenform [28]
2.4.6 Eine Alternative zur k-Anonymität?
Zumindest theoretisch gibt es folgende Alternative zur
k -Anonymität:
Es ist dabei
nicht zwingend notwenig, dass mehrere Tupel aufgrund gleicher Werte der sekundären
Identikationsmerkmale identisch sein müssen. Es muss nur gesichert sein, dass es
in der Grundgesamtheit, aus der die Daten stammen, mehrere Personen gibt, mit
denen die Daten der Tabelle verknüpft werden können. So wäre z.B. auch Tabelle 2.5
zulässig, da man davon ausgehen kann, dass es sowohl mehrere verheiratete männliche
Tierärzte als auch mehrere ledige weibliche Angestellte in Wien gibt. Da man aber
meistens über die Verteilung der Attribute in der Grundgesamtheit keine exakten
Informationen hat, eignet sich diese Methode in der Praxis nicht wirklich. Ein weiteres
Problem kann auÿerdem auftreten, wenn man aufgrund von Hintergrundinformationen
weiÿ, dass sich eine bestimmte Person in der veröentlichten Tabelle benden muss.
Denn dann nützt es auch nichts, wenn die Attributkombination auf andere Personen
der Grundgesamtheit zutrit.
2.5 Verschiedene Methoden zur
k -Anonymisierung
Dieses Kapitel widmet sich verschiedenen Methoden zur
k -Anonymisierung
perso-
nenenbezogener Daten mittels Generalisierung bzw. Unterdrückung. Aufgrund der
groÿen Anzahl geeigneter Anonymisierungsalgorithmen wird jedoch im Folgenden nur
ein Teil der in Frage kommenden Methoden vorgestellt werden. Für den interessierten Leser kann auf nachstehende Literatur verwiesen werden: Using simulated an-
36
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
PLZ
Alter
Nationalität
Diagnose
1
10**
< 30
*
Herzerkrankung
2
10**
< 30
*
Herzerkrankung
3
10**
< 30
*
Virale Infektion
4
10**
< 30
*
Virale Infektion
5
11**
*
Krebs
6
11**
*
Herzerkrankung
7
11**
*
Virale Infektion
8
11**
≥ 40
≥ 40
≥ 40
≥ 40
*
Virale Infektion
9
10**
3*
*
Krebs
10
10**
3*
*
Krebs
11
10**
3*
*
Krebs
12
10**
3*
*
Krebs
Tabelle 2.4: 4-anonyme Form der Tabelle 2.3 [28]
PLZ
Beruf
M/W
Familienstand
Gröÿe
Gewicht
Wien
Tierarzt
M
verheiratet
180
75
Wien
Angestellter
W
ledig
165
60
Tabelle 2.5: medizinische Daten in Tabellenform
nealing for
k -anonymity
[29], Protecting privacy when disclosing information [30],
Using Boolean reasoning to anonymize databases [31] und Privacy-enhancing kanonymization of customer data [32].
2.5.1 Minimal Generalization (MinGen) Algorithmus
Der MinGen-Algorithmus [21] wandelt eine gegebene Tabelle mit möglichst wenigen
Veränderungen in eine
k -anonyme
Form um. Dabei wird hinsichtlich einer gegebenen
Metrik die optimale Lösung gefunden.
P T (Ax , . . . , Ay ) mit den sekundären IdentiQP T = {A1 , . . . , An }, wobei {A1 , . . . , An } ⊆ {Ax , . . . , Ay }, domain
hierarchies DGHAi und eine natürliche Zahl k , wobei k < |P T |. (Da-
Algorithmus: Gegeben sei eine Tabelle
kationsmerkmalen
generalization
mit der Algorithmus eine Lösung produzieren kann, muss die Zahl der Tupel natürlich
gröÿer als das gewünschte k sein.)
1. Es wird festgestellt, ob die Ausgangstabelle
dies nicht der Fall ist, folgt Schritt 2.
37
(P T )
bereits
k -anonym
ist. Wenn
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
2. Alle möglichen Generalisierungen von
PT
3. Alle Generalisierungen aus allgens, die
werden in allgens gespeichert.
k -anonym
sind, werden in protected ge-
speichert.
4. Die Generalisierung(en) mit der geringsten Veränderung bzw. besten Lösung
(basierend auf der gegebenen Metrik ), wird/werden in MGT gespeichert.
5. Die Funktion preferred() gibt schlieÿlich eine einzige Generalisierung aus MGT
zurück ausgewählt aufgrund benutzerdenierter Auswahlkriterien.
Wie aus dem Algorithmus zu erkennen ist, generalisiert bzw. unterdrückt der Algorithmus die Werte auf Zellenebene, was zu einem sehr inezienten Laufzeitverhalten
führt. Bereits Tabellen mittlerer Gröÿe ergeben einen viel zu groÿen Suchraum für die
verwendete erschöpfende Suche.
2.5.2 Datay System
Datay [19] ist ein Computerprogramm, das in der Lage ist, medizinische Daten
in Echtzeit in
k -anonyme
Daten umzuwandeln. Es liefert dabei zwar keine optimalen
Resultate im Allgemeinen generalisiert der Algorithmus zu stark doch aufgrund
der kurzen Berechnungszeit auch für groÿe Tabellen ist es für den Einsatz in der Praxis
gut geeignet.
Datay wird folgendermaÿen angewendet: Der Dateninhaber kennzeichnet diejenigen Attribute und Tupel einer Tabelle, die veröentlicht werden sollen. Auÿerdem kennzeichnet er die Attribute, die den primären bzw. sekundären Identikationsmerkmalen entsprechen und weist der Tabelle einen minimalen Anonymitätslevel
(entspricht einem Wert für k) zu, der erreicht werden soll. Jedem Attribut kann zusätzlich noch eine Zahl zwischen 0 und 1 zugewiesen werden. Diese Zahlen oder auch
Gewichte entsprechen den Präferenzen, welche Attribute zuerst (entspricht der Zahl 1)
bzw. welche Attribute überhaupt nicht (entspricht der Zahl 0) verändert oder gelöscht
werden sollen. Mit diesen Einstellungsmöglichkeiten kann man
k -anonyme
medizini-
sche Daten erzeugen, die den späteren Verwendungszweck berücksichtigen: Wenn z.B.
Daten für eine wissenschaftliche Studie übermittelt werden sollen, die den Zusammenhang zwischen Alter, Geschlecht und Krebsrisiko untersuchen will, so ist es möglich,
durch Zuweisen entsprechender Werte zwischen 0 und 1 diese Attribute vor zu starker Generalisierung zu schützen. Damit aber die geforderte
k -Anonymität
trotzdem
erreicht werden kann, werden die restlichen Attribute die aber für die gegebene
Fragestellung nicht so entscheidend sind entsprechend stärker abgeändert. Die Möglichkeit, den Grad der Anonymisierung jedes Attributs einzeln zu regeln, kann auch in
anderer Hinsicht hilfreich sein: Da sich manche Attribute besonders gut eignen, mit
anderen veröentlichten Daten verbunden zu werden und damit ein erhöhtes Risiko
38
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
darstellen, kann für solche Attribute einfach eine stärkere Generalisierung durch die
Zuweisung einer Zahl nahe bei 1 gefordert werden.
Algorithmus: (Aus Gründen der Übersichtlichkeit und der leichteren Verständlichkeit ist im nachfolgenden Beispiel die Wahrscheinlichkeit einer Generalisierung für
jedes Attribut gleich den Attributen werden also keine Gewichte zugewiesen.) Ge-
P T (Ax , . . . , Ay ) mit den sekundären Identikationsmerkmalen
QP T = {A1 , . . . , An }, wobei {A1 , . . . , An } ⊆ {Ax , . . . , Ay }, domain generalization
hierarchies DGHAi und eine natürliche Zahl k , wobei k < |P T |. (Damit der Algogeben sei eine Tabelle
rithmus eine Lösung produzieren kann, muss die Zahl der Tupel natürlich gröÿer als
das gewünschte k sein.)
1. Die gegebene Tabelle wird zusammengefasst, indem die Tupel, die die gleichen
Werte der sekundären Identikationsmerkmale aufweisen, zu einer einzelnen Zeile zusammengezogen werden. Anschlieÿend wird der so entstandenen Tabelle eine neue Spalte (Frequenzliste, freq ) hinzugefügt, die pro (zusammengefasster)
Zeile die Anzahl der enthaltenen, gleichen Tupel speichert.
2. Wenn mehr als
k
Werte der Liste freq
≤k
sind, so wird für jedes Attribut die
Anzahl an verschiedenen Werten berechnet, die es in der Tabelle einnimmt. Das
Attribut mit den meisten verschiedenen Werten wird entsprechend der
DGH
um eine Stufe generalisiert. Daraufhin wird die Liste freq aktualisiert, und der
Punkt 2 wiederholt sich solange, bis weniger als
3. Die Tupel, die in der Frequenzliste einen Wert
k
Werte dieser Liste
<k
≤k
3
sind .
haben, werden gelöscht.
4. Mittels der Werte aus freq und den zuvor abgeschnittenen medizinischen Daten
wird die
k -anonyme
Beispiel: Tabelle
Algorithmus:
Form der Ursprungstabelle hergestellt.
T 1 der Abbildung 2.16 zeigt bereits den ersten Schritt des Datay-
T 1 besteht nur aus sekundären Identikationsmerkmalen (R(ace), Birth-
d(ate), M/F und ZIP ) und der zusätzlichen Spalte freq. Da jedes Tupel aufgrund der
groÿen Anzahl an verschiedenen Ausprägungen der sekundären Merkmale einmalig ist,
konnten bis jetzt auch keine Tupel zusammengefasst werden, und die Häugkeit jedes
Tupels
=1
(Inhalt der Spalte
f req ).
Da der gewünschte Wert von
erreicht ist, wird der Algorithmus fortgesetzt. Da mehr als
<k
k
k=2
noch nicht
Tupel eine Häugkeit von
aufweisen, wird die Spalte mit den meisten verschiedenen Ausprägungen (Birth-
date mit 12 verschiedenen Werten) generalisiert. Dadurch ergeben sich nun mehrere
T 2 bilden.
(f req = 1).
gleiche Tupel, die somit zusammengezogen werden können und die Tabelle
Zwei der Tupel dieser Tabelle sind aber noch immer einzeln vorhanden
Um die Werte der Tabelle aber nicht zu stark verallgemeinern zu müssen, sieht der
3 Diese
Überprüfung bzw. Abbruchbedingung soll verhindern, dass aufgrund von wenigen (< k)
Ausreiÿern die Werte der Tabelle zu stark generalisiert werden. Deshalb werden diese Tupel im
3. Schritt eliminiert.
39
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Algorithmus bei Ausreiÿern (entspricht
≤ k Tupel mit f req < k ) die Eliminierung die-
ser vor. Nach dem Löschen dieser beiden Tupel, dem Auseinanderziehen der zuvor
zusammengefassten Zeilen und dem Anhängen der zuvor unterdrückten medizinischen
Attribute, ergibt sich die
2-anonyme
Tabelle
T3
(Schritt drei und vier).
Wie bereits erwähnt und auch aus dem Beispiel ersichtlich ist, liefert Datay
kein optimales Ergebnis auch eine
k -minimale
Generalisierung (siehe Kapitel 2.4.1)
wird in der Regel nicht erreicht, weil Entscheidungen zur Generalisierung bzw. Unterdrückung auf Attribut- bzw. Tupelbasis getroen werden. Damit werden die Daten
oftmals stärker verändert als nötig gewesen wäre. Erschöpfende Suchalgorithmen wie
MinGen (Kapitel 2.5.1) treen die Entscheidungen auf Zellenbasis und sind somit
viel exibler und genauer, aber auch bedeutend langsamer.
2.5.3 Incognito
Der
k -Anonymisierungsalgorithmus Incognito
[33] von K. LeFevre, D. J. DeWitt und
R. Ramakrishnan basiert ebenso wie z.B. Datay (Kaptiel 2.5.2) auf globaler Ge-
4
neralisierung auf Attributebene. Im Gegensatz zu greedy Algorithmen
produziert Incognito jedoch
k -minimale
wie Datay
Generalisierung, wenn auch die Performan-
ce dieser Methode schlechter ist: Die Laufzeit nimmt mit der Anzahl der sekundären
Identikationsmerkmale im Grunde exponentiell zu. Durch verschiedene Optimierungen kann der Vorgang der Anonymisierung jedoch im Normalfall deutlich beschleunigt
werden.
Um eine Tabelle
T
in eine
k -anonyme
Form umzuwandlen, erzeugt Incognito alle
möglichen Generalisierungen auf Attributebene der Tabelle
T.
Dazu wird zuerst für
jedes sekundäre Identikationsmerkmal einzeln geklärt, ab welcher Generalisierungsstufe die Tabelle nur in Bezug auf dieses einzelne Attribut k -anonym wäre. Danach
werden immer gröÿere Gruppen von Attributen zusammengefasst und überprüft, bis
schlieÿlich die gesamte Menge sekundärer Identikationsmerkmale erreicht ist.
Dieses etappenweise Vorgehen hat den Vorteil, dass zuerst nur Kombinationen von
wenigen Attributen untersucht werden, die eine überschaubare Anzahl von möglichen
Generalisierungen ergeben und somit schnell durchsucht werden können. Die Generalisierungen, die keine
k -anonyme Tabelle ergeben, können gelöscht werden und müssen
somit in den folgenden Schritten nicht mehr beachtet werden, was zu einer bedeutenden Verkleinerung des Suchraums führt.
Beispiel: Tabelle 2.6 sowie die in Abbildung 2.17 dargestellten domain generalization hierarchies und value generalization hierarchies der Attribute Zipcode, Birthdate
4 Greedy
Algorithmen sind meist sehr schnell und nden zu vielen Problemen brauchbare, aber keine
optimalen Lösungen. Sie zeichnen sich dadurch aus, dass sie immer denjenigen Folgestand wählen,
der momentan das beste Ergebnis bzw. den gröÿtmöglichen Gewinn verspricht. Daher auch der
Name greedy (engl.) = gierig.
40
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
R.
Birthd.
M/F
ZIP
freq
b
20/09/65
m
02141
1
b
14/02/65
m
02141
1
b
23/10/65
f
02138
1
b
24/08/65
f
02138
1
b
07/11/64
f
02138
1
b
12/01/64
f
02138
1
w
23/10/64
m
02138
1
w
15/03/65
f
02139
1
w
13/08/64
m
02139
1
w
05/05/64
m
02139
1
w
13/02/67
m
02138
1
w
21/03/67
m
02138
1
2
12
2
3
R.
Birthd.
M/F
ZIP
freq
b
1965
m
02141
2
b
1965
f
02138
2
b
1964
f
02138
2
w
1964
m
02138
1
w
1965
f
02139
1
w
1964
m
02139
2
w
1967
m
02138
2
2
3
2
3
T2
T1
Race
Birthd.
M/F
ZIP
Problem
black
1965
m
02141
short of breath
black
1965
m
02141
chest pain
black
1965
f
02138
painful eye
black
1965
f
02138
wheezing
black
1964
f
02138
obesity
black
1964
f
02138
chest pain
white
1964
m
02139
obesity
white
1964
m
02139
fever
white
1967
m
02138
vomiting
white
1967
m
02138
back pain
T3
Abbildung 2.16: Einzelne Schritte der
k -Anonymisierung
Tabellenform mittels Datay [21]
41
personenbezogener Daten in
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
und Sex bilden die Grundlage für das folgende Beispiel.
Birthdate
Sex
Zipcode
Disease
1/21/76
Male
53715
Flu
4/13/86
Female
53715
Hepatitis
2/28/76
Male
53703
Bronchitis
1/21/76
Male
53703
Broken Arm
4/13/86
Female
53706
Sprained Ankle
2/28/76
Female
53706
Hang Nail
Tabelle 2.6: Patientendaten in Tabellenform [33]
Abbildung 2.17: Domain generalization hierarchies und value generalization hierarchies für die Attribute Zipcode (a, b), Birthdate (c, d) und Sex (e, f )
[33]
Abbildung 2.18 zeigt die Überprüfung der verschiedenen Generalisierungen, die sich
bei der Kombination zweier sekundärer Identikationsmerkmale der Tabelle 2.6 ergeben. Die erste Zeile zeigt das Generalisierungsgitter, das durch die Verbindung der
domain generalization hierarchies der Attribute Sex und Zipcode entsteht (Abbildung
2.17). Der so entstandene Graph wird mittels eines modizierten Breitensuchalgorithmus vollständig durchsucht und jeder Knoten daraufhin getestet, ob die Generalisierung, die er repräsentiert, die Ausgangstabelle in eine
Der Startknoten der Breitensuche ist
2.6 nicht die gewünschte
< S0 , Z0 >
k -anonyme
Form umwandelt.
und liefert hinsichtlich der Tabelle
k -anonyme Abwandlung. Daher wird dieser Knoten entfernt,
und es ensteht die zweite Abbildung der ersten Zeile. Hier wird zuerst der Knoten
< S1 , Z0 >
überprüft, und da er die Bedingung erfüllt im Gegensatz zum nächs-
ten Knoten
< S0 , Z1 >,
der entfernt wird wird dieser Knoten beibehalten. Dadurch
entsteht die letzte Abbildung der ersten Zeile. Die Überprüfungen weiterer Generalisierungen des Knotens
< S1 , Z0 > erübrigen sich, da sie natürlich auch eine k -anonyme
42
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Tabelle bilden, genauso wie Knoten
< S0 , Z2 >.
Damit ist dieser Baum vollständig
durchsucht, und es sind nur mehr gültige Generalisierungen vorhanden. Mit den verbleibenden zwei 2-Attributkombinationen Birthdate und Zipcode bzw. Birthdate und
Sex wird ebenso verfahren. Somit ergeben sich die restlichen Graphen der Abbildung
2.18.
Abbildung 2.18: 2-Attribut Generalisierungen der Tabelle 2.6 [33]
Diese werden im nächsten Schritt weiter zusammengefasst. Der so entstehende 3-Attribut Graph wird ebenfalls mittels Breitensuche vollständig durchsucht. (Der Verbindungsalgorithmus, der verschiedene Graphen miteinander vereint, kann in [33] nachgelesen werden.) Nach der Entfernung aller Knoten bzw. Generalisierungen, die keine
k -anonyme
Tabelle ergeben, ergibt sich der Baum, der unter Abbildung 2.19 (a) zu
sehen ist und der gleichzeitig auch das Endergebnis des Algorithmus darstellt: alle
möglichen
k -anonymen
Generalisierungen, die sich aufgrund der gegebenen Tabelle
2.6 und der gegebenen domain generalization hierarchies (Abbildung 2.17) ergeben.
Ohne das oben vorgestellte etappenweise Vorgehen bzw. das schrittweise Hinzufügen zusätzlicher sekundärer Identikationsmerkmale müsste der in Abbildung 2.19
(b) abgebildete 3-Attribut Graph durchsucht werden, um die Lösung des Beispiels zu
erhalten.
Experimente und Resultate: Neben dem Vergleich von Incognito mit anderen
43
k-
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Abbildung 2.19: (a) 3-Attribut Graph, generiert aus den resultierenden Graphen der
Abbildung 2.18; (b) 3-Attribut Graph ohne Einschränkung des Suchraums [33]
Anonymisierungsalgorithmen, die ebenfalls
k -minimale Generalisierungen auf Attribut-
ebene bieten, wurden auch zwei Abwandlungen bzw. Weiterentwicklungen von Incognito auf ihre Ezienz hin getestet:
Superroots Incognito : Die Überprüfung eines Knotens bzw. Generalisierung auf
Bildung einer
k -anonymen Tabelle wird beschleunigt, indem die Berechnung nicht auf
den Originaldaten, sondern auf anderen bereits berechneten Generalisierungen beruht.
Cube Incognito : Durch Berechnung einer Generalisierung der Originaltabelle vor
dem Start des eigentlichen Algorithmus wird versucht, Rechenzeit im weiteren Verlauf
von Incognito zu sparen, da dann diverse Berechnungen nicht auf der fein gegliederten
Originaltabelle, sondern auf der bereits vorgeneralisierten Tabelle basieren können. Bei
praktischen Tests zeigt es sich, dass dieser Ansatz bei eher kleinen Tabellen durchaus
Geschwindigkeitsvorteile bringt; bei gröÿeren Tabellen wird dieser Performancegewinn
durch die lange Vorbereitungszeit zunichte gemacht.
Abbildung 2.20 zeigt den Performancevergleich von Incognito, Superroots Incognito und Cube Incognito mit anderen
auf einer
4591581
k -Anonymisierungsalgorithmen,
basierend
Tupel umfassenden Datenbank, variierender Gröÿe der sekundären
Identikationsmerkmale und
k = 2.
Superroots Incognito liefert erwartungsgemäÿ
das beste Resultat, gefolgt vom normalen Incognito-Algorithmus. Cube Incognito
hat aufgrund der enormen Gröÿe der Ausgangstabelle leichte Geschwindigkeitsprobleme, liegt aber im Vergleich mit den anderen
k -Anonymisierungsstrategien
doch deut-
lich vorne. Dieser groÿe Performanceunterschied muss aber kritisch betrachtet werden,
da für den Vergleich verwendete Algorithmen wie Binary Search keine wirklich ezienten Methoden darstellen.
44
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Abbildung 2.20: Performancevergleich von Incognito, Superroots Incognito und
Cube Incognito mit anderen
k -Anonymisierungsalgorithmen
[33]
2.5.4 µ-ARGUS
µ-ARGUS [34] ist ein Softwarepaket (programmiert mit Borland C++), das dem
Benutzer erlaubt, Daten interaktiv und seinen Wünschen entsprechend in
k -anonyme
Daten umzuwandeln. Dabei werden zunächst globale Generalisierungen (= Generalisierungen auf Attributebene) durchgeführt, um anschlieÿend Ausreiÿer durch Unterdrückung auf Zellenebene zu eliminieren.
Im ersten Schritt hilft µ-ARGUS dem Benutzer bei der Auswahl der Attribute,
die sich für eine globale Generalisierung eignen. Wenn der Anwender mit dem Resultat nicht zufrieden ist, so kann die Auswahl auch geändert werden. Im nächsten
Schritt werden vom Algorithmus automatisch die Zelleneinträge ermittelt, die unterdrückt werden müssen, um
k -anonyme
Daten zu erhalten. Abbildung 2.21 zeigt das
funktionelle Design von µ-ARGUS, das einen Überblick der einzelnen Schritte und
Bestandteile des Algorithmus liefert.
Um dem Benutzer Hilfestellungen bieten zu können und die richtigen Entscheidungen zu treen, benötigt der Algorithmus Metadaten, die über eine ASCII-Datei
bereitgestellt werden können. Diese kann z.B. die value generalization hierarchy der
einzelnen Attribute enthalten, oder auch festlegen, bis zu welcher Stufe global generalisiert werden soll bzw. wann mit der lokalen Unterdrückung fortgesetzt werden
soll.
In [21] liefert L. Sweeny nach reverse engineering und Neuimplementation von µARGUS eine genauere Beschreibung des Algorithmus:
P T (Ax , . . . , Ay ) mit den sekundären IdentikationsmerkQP T = {A1 , . . . , An }, wobei {A1 , . . . , An } ⊆ {Ax , . . . , Ay }, domain generalihierarchies DGHAi und eine natürliche Zahl k , wobei k < |P T |. Auÿerdem
Gegeben sei eine Tabelle
malen
zation
45
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Abbildung 2.21: Funktionelles Design des µ-ARGUS-Algorithmus [34]
müssen die sekundären Identikationsmerkmale auf drei Gruppen aufgeteilt sein: Attribute mit der Kennzeichnung most identifying, more identifying und identifying,
die ähnlich wie bei Datay Einuss auf die Reihenfolge der Generalisierung ausüben.
1. Eine Frequenzliste
f req
wird angelegt, die pro Attribut die voneinander unter-
schiedlichen Werte und die Anzahl ihres Auftretens innerhalb von
2. Die Attribute werden entsprechend der
destens
k -mal
DGH
PT
speichert.
generalisiert, bis jeder Wert min-
vorkommt.
3. Verschiedene 2er und 3er Kombinationen der Attribute werden getestet, ob sie
k -anonym sind.
outliers gespeichert.
bereits
Wenn nicht, werden diese Kombinationen in die Datei
4. Der Benutzer bestimmt, ob ein Attribut, das in
werden soll.
46
outliers vorkommt, generalisiert
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
5. Schritte 3 und 4 werden so lange wiederholt, bis der Benutzer kein Attribut mehr
zur Generalisierung freigibt.
6. Der Zelleneintrag, der am öftesten in
outliers vorkommt, wird unterdrückt. Dieoutliers
ser Punkt wiederholt sich so lange, bis sich keine Kombinationen mehr in
benden.
Leider weist der Punkt 3 laut L. Sweeny [21] folgende Mängel auf: Der Algorithmus
testet nicht alle möglichen 2er und 3er Kombinationen; Kombinationen höheren Grades
werden überhaupt nicht überprüft. Dadurch kann es vorkommen, dass von µ-ARGUS
erzeugte Tabellen nicht der Bedingung der
k -Anonymität entsprechen. Somit ist dieser
Algorithmus für die Praxis nicht empfehlenswert.
2.5.5 Multidimensional k-Anonymity
In [23] präsentieren K. LeFevre, D. DeWitt und R. Ramakrishnan einen neuen multi-
dimensionalen
k -Anonymisierungsalgorithmus, der schneller als optimale Algorithmen
wie MinGen (siehe Kaptiel 2.5.1) arbeitet und trotzdem ansprechende Resultate erzeugt.
Eindimensionale und multidimensionale globale Generalisierung: Wie bereits erwähnt, werden bei einer globalen Generalisierung die Domänen der einzelnen sekundären Identikationsmerkmale in abgewandelte, generalisierte Domänen übergeführt
(= Generalisierung auf Attributebene). Dabei kann aber zwischen zwei Subklassen unterschieden werden: ein- und mehrdimensionale globale Generalisierung. Bei einer eindimensionalen globalen Generalisierung gibt es pro sekundärem Identikationsmerkmal eine Funktion, die die Domäne des jeweiligen Attributs in eine weniger spezische
überführt, wohingegen bei einer multidimensionalen globalen Generalisierung nur eine
einzige Funktion für alle sekundären Identikationsmerkmale genutzt wird.
Tabelle 2.7 zeigt sechs Datensätze in Tabellenform, die medizinische Daten enthalten. Die Tabellen 2.8 und 2.9 zeigen 2-anonyme Abwandlungen der Originaltabelle,
die durch ein- bzw. mehrdimensionale Generalisierung erzeugt wurden. Der Unterschied der zwei Methoden ist dabei deutlich sichtbar: Bei einer eindimensionalen Abwandlung werden gleiche Attributwerte der Originaltabelle stets auf gleiche Werte der
k -anonymisierten
Tabelle abgebildet (z.B. PLZ
1011
wird immer zu
[1010 − 1011]).
Tabelle 2.9 zeigt das Resultat durch multidimensionale Generalisierung: Hier wird
z.B. die PLZ
1011
einmal auf den Wert
[1010 − 1011]
abgebildet, und zweimal bleibt
der Originalwert erhalten. Damit ist diese Art der Generalisierung viel exibler und
kann sich den Anforderungen besser anpassen.
Eindimensionale Partitionierung einer Domäne: Bei einer eindimensionalen globalen Generalisierung ist zuvor eine eindimensionale Partitionierung der Domäne jedes
47
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Alter
M/W
PLZ
Diagnose
25
M
1011
Grippe
25
W
1020
Hepatitis
26
M
1011
Bronchitis
27
M
1010
Knochenbruch
27
W
1020
AIDS
28
M
1011
Herzinfarkt
Tabelle 2.7: medizinische Daten in Tabellenform [23]
Alter
M/W
PLZ
Diagnose
[25 − 28]
[25 − 28]
[25 − 28]
[25 − 28]
[25 − 28]
[25 − 28]
M
[1010 − 1011]
Grippe
W
1020
Hepatitis
M
Bronchitis
M
[1010 − 1011]
[1010 − 1011]
Knochenbruch
W
1020
AIDS
M
[1010 − 1011]
Herzinfarkt
Tabelle 2.8: 2-anonyme Abwandlung der Tabelle 2.7 durch eindimensionale globale
Generalisierung [23]
Attributs notwendig: Jede Domäne muss in eindimensionale, nicht überlappende Intervalle gegliedert werden, die insgesamt den ganzen Wertebereich umfassen. Die Werte,
die innerhalb eines Intervalls liegen, werden dann bei der Generalisierung auf diesen
Wertebereich abgebildet (Tabelle 2.8 Attribute
Alter
und
P LZ ).
(Strikte) multidimensionale Partitionierung: Hierbei werden nicht die einzelnen Domänen in eindimensionale Abschnitte eingeteilt, sondern der gesamte Wertebereich aller Attribute (ein
d-dimensionaler
Raum für
d
Attribute) wird in nicht überlappende
multidimensionale Regionen eingeteilt, um anschlieÿend die multidimensionale globale
Generalisierung durchführen zu können.
Räumliche Darstellung der Partitionierung: Um sich die Partitionierung besser vorstellen zu können, können die Attribute
A={A1 , A2 , . . . , Ad }
der Tabelle
d-dimensionalen Raum projiziert werden, wobei jedes Tupel der Tabelle T
T
in einen
einen Punkt
in diesem Raum darstellt.
Abbildung 2.22 a) stellt die Domänen der Attribute
Alter
und
P LZ
inklusive der
sechs Datensätze aus Tabelle 2.7 repräsentiert durch Punkte in einem zweidimensionalen Raum dar. Abbildung b) zeigt eine eindimensionale Partitionierung der Domäne
des Attributs
P LZ :
Die Werte
1010
und
zusammengefasst, wohingegen der Wert
1011 werden zu dem Intervall [1010 − 1011]
1020 nicht verändert/generalisiert wird. Ab-
48
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Alter
M/W
PLZ
Diagnose
[25 − 26]
[25 − 27]
[25 − 26]
[25 − 28]
[25 − 27]
[27 − 28]
M
1011
Grippe
W
1020
Hepatitis
M
1011
Bronchitis
M
[1010 − 1011]
Knochenbruch
W
1020
AIDS
M
[1010 − 1011]
Herzinfarkt
Tabelle 2.9: 2-anonyme Abwandlung der Tabelle 2.7 durch multidimensionale globale
Generalisierung [23]
Abbildung 2.22: Räumliche Darstellung a) der Domänen der Attribute
Alter und P LZ
der Tabelle 2.7; b) der Partitionierung der Domäne des Attributs
P LZ ;
und c) der multidimensionalen Partitionierung der Domänen
der Attribute
Alter
und
P LZ
[23]
bildung c) zeigt die multidimensionale Partitionierung, die zur Tabelle 2.9 geführt
hat. Korrekterweise sollte natürlich auch das dritte sekundäre Identikationsmerkmal M/W
vorhanden sein, doch da sich dadurch die Dimension der Darstellung
auf drei erhöhen würde, wurde aus Gründen der Übersichtlichkeit darauf verzichtet.
Dank dieser Grak kann man den Vorteil der multidimensionalen Partitionierung auf
den ersten Blick erkennen: Durch die exiblere Einteilung des Raumes sind kleinere
Regionen mit weniger Tupel möglich, was dazu führt, dass die Werte nicht zu stark
generalisiert werden müssen.
Laufzeitverhalten: Optimale strikte multidimensionale Partitionierung ist ebenso
wie optimale
k -Anonymisierung durch Unterdrückung und Generalisierung NP-schwer
(Kapitel 2.4.3). Der Beweis dafür kann in [23] nachgelesen werden.
Neben dem Laufzeitverhalten ist auch die maximale Gröÿe einer Region, die durch
multidimensionale Partitionierung entstehen kann, von groÿem Interesse und für die
Qualität der Generalisierung bedeutend. Wie bereits erwähnt, sind natürlich möglichst kleine Abschnitte erwünscht, da dadurch die Daten nur wenig verändert werden
49
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
müssen.
Abbildung 2.23: Menge an Punkten (a) ohne bzw. (b) mit möglicher Partitionierung
[23]
Abbildung 2.23 a) zeigt eine Menge an Punkten, angeordnet im 2-dimensionalen
Raum. Da ein Schnitt (=Partitionierung der Fläche) achsenparallel sein muss und nur
dann möglich ist, wenn die Anzahl der Punkte in den beiden entstehenden Partitionen
mindestens
k
beträgt, ist in diesem Fall keine Teilung dieser Fläche möglich. Erst nach
Hinzufügen eines weiteren Punktes (b) kann eine Partitionierung erfolgen.
Daraus folgt: Für jede Menge an Punkten
2d(k − 1) + m,
wobei
m
P
im
d-dimensionalen
Raum mit
die maximale Anzahl von Kopien eines Punktes aus
|P | >
P ist,
existiert eine mögliche Partitionierung.
Im Fall der eindimensionalen Partitionierung ist die maximale Anzahl der Punkte
(=Tupel) eines Intervalls nicht wie im multidimensionalen Fall unabhängig von der
Gesamtanzahl der Tupel der Tabelle
Datensätze mit und beträgt
T,
sondern wächst linear mit der Anzahl der
O(|T |).
Multidimensionale lokale Generalisierung: Im Gegensatz zu den bisher erwähnten
globalen Generalisierungsalgorithmen, gibt es natürlich auch die Möglichkeit einer
lokalen, multidimensionalen Generalisierung. Der hier beschriebene Ansatz lockert die
Anforderungen und Bedingungen, die für die strikte multidimensionale Partitionierung
gelten und trägt daher den Namen relaxed multidimensionale Partitionierung. Hierbei
ist es erlaubt, dass sich die Regionen, in die der Wertebereich eingeteilt ist, überlappen.
Abbildung 2.24 zeigt anhand der Gegenüberstellung der strikten (GT 1) und relaxed multidimensionalen Generalisierung (GT 2) der Tabelle
PT
der lokalen Generalisierung: Da es für die Domäne des Attributs
deutlich die Vorteile
P LZ
keine mögliche
strikte multidimensionale Partitionierung gibt, müssen alle Werte auf das gleiche Intervall abgebildet werden, damit aus der Originaltabelle
PT
eine 2-anonyme Tabelle
erstellt werden kann. Durch die gelockerten Bedingungen können drei überlappende
Regionen erstellt werden, die ebenfalls eine 2-anonyme Tabelle ergeben, die aber einen
deutlich höheren Informationsgehalt aufweist.
50
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
PLZ
Diagnose
1011
Grippe
1011
Hepatitis
1011
Bronchitis
1010
Knochenbruch
1020
AIDS
1011
Herzinfarkt
PT
PLZ
Diagnose
[1010 − 1020]
Grippe
[1010 − 1020]
Hepatitis
[1010 − 1020]
Bronchitis
[1010 − 1020] Knochenbruch
[1010 − 1020]
AIDS
[1010 − 1020]
Herzinfarkt
GT 1
PLZ
Diagnose
[1010 − 1011]
Grippe
1011
Hepatitis
1011
Bronchitis
[1010 − 1011] Knochenbruch
[1011 − 1020]
AIDS
[1011 − 1020]
Herzinfarkt
GT 2
Abbildung 2.24: Gegenüberstellung der strikten (GT 1) und relaxed multidimensionalen Generalisierung (GT 2) der Tabelle
greedy Partitionierungsalgorithmus:
PT
k -Anonymisierung
[23]
durch multidimensionale
Generalisierung erfolgt in zwei Schritten: Zuerst wird der Domänenraum in multidimensionale Regionen eingeteilt, bevor die Tabelle anhand dieser Partitionen in eine
k -anonyme
Form umgewandelt wird. In [23] wird ein Algorithmus vorgestellt, der ei-
ne Abwandlung eines Baumkonstruktionsalgorithmus darstellt und das Problem der
strikten multidimensionalen Partitionierung löst. Mittels kleiner Änderungen kann er
auch für die relaxed multidimensionale Generalisierung angepasst werden. Die Zeit-
n gleich der Anzahl der Tupel
ist. Jede Region enthält mindestens k und höchstens 2d(k−1)+m Punkte, wobei m die
komplexität des Algorithmus beträgt
0(nlogn),
wobei
maximale Anzahl von Kopien eines beliebigen Punktes ist (multidimensionale strikte
Partitionierung) bzw.
2k − 1 Punkte (relaxed multidimensionale Partitionierung). Aus
diesen worst case-Szenarien und den Metriken aus Kapitel 2.4.2 kann berechnet werden, dass selbst im schlechtesten Fall die
k -Anonymisierung
durch multidimensionale
Generalisierungen nur einen konstanten Faktor von der optimalen Lösung entfernt
ist: Die optimale Generalisierung (in Bezug auf die Metrik
ergibt den Wert
CAV G (RT ) ≥ 1,
AV G)
der Tabelle
RT
der sich nur um den Faktor zwei von der worst
case-Generalisierung durch relaxed multidimensionale Partitionierung unterscheidet:
CAV G (RT ) ≤ 2.
Experimente und Resultate: Um die Qualität und die Geschwindigkeit multidimen-
51
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
sionaler Generalisierung mit eindimensionaler Generalisierung vergleichen zu können,
dienten sowohl natürliche als auch künstlich erzeugte Daten als Ausgangspunkt. Wie
zu erwarten war, schnitt der multidimensionale Ansatz im Allgemeinen besser ab als
ein vergleichbarer eindimensionaler Algorithmus. Exemplarisch dafür wird hier auf
die unterschiedliche Partitionierung zweier sekundärer Identikationsmerkmale einer
künstlich erzeugten Tabelle (µ
= 25
und
σ = 0, 2)
mit
1000
Tupel eingegangen.
Abbildung 2.25: optimale eindimensionale (erste Zeile) bzw. multidimensionale (zweite Zeile) Partitionierung der Domänen zweier sekundärer Identikationsmerkmale [23]
Die zweite Zeile der Abbildung 2.25 zeigt, dass die multidimensionale Partitionierung
die multivariate Verteilung der zugrunde liegenden Daten gut wiedergibt, wohingegen
die eindimensionale Partitionierung eher zu einer Linearisierung der Attribute neigt
und besonders bei kleinem
k
anscheinend nur die Verteilung der Werte eines einzi-
gen Attributs beachtet. Dadurch wird das andere Attribut (hier das Attribut auf der
x-Achse) nur zu sehr groben Regionen zusammengefasst und dementsprechend (zu)
stark generalisiert.
Für weitere Resultate inklusive Diagramme kann auf [23] verwiesen werden.
2.5.6 k-Optimize
R. J. Bayardo und R. Agrawal präsentieren in [22] eine Methode zur
k -Anonymisierung,
die in den meisten Fällen optimale Ergebnisse (in Bezug auf die gegebene Metrik) trotz
deutlich gesteigerter Performance im Vergleich zu anderen Algorithmen liefert.
52
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Dieser Ansatz unterscheidet sich von den bisherigen Algorithmen in mehreren Punkten: Zum einen wird nicht von der Originaltabelle ausgegangen, die durch Generalisierung und Unterdrückung in eine
k -anonyme Form gebracht wird, sondern von einer
Tabelle mit komplett generalisierten sekundären Identikationsmerkmalen. Erst nach
und nach werden zusätzliche Informationen in Form speziellerer Werte der Attribute
der Tabelle hinzugefügt, bis diese nicht mehr der Bedingung der
k -Anonymität
ge-
nügen würde. Obwohl diese Änderung im Ablauf der Generalisierung eher willkürlich
erscheinen mag, ist sie ein wichtiger Beitrag zum Erfolg dieses Ansatzes. Auÿerdem
wird ein spezieller Baumsuchalgorithmus zum Aunden der besten Lösung verwendet, der durch spezielle Abbruchbedingungen den Suchraum entscheidend verkleinert
und auch eine dynamische Neuanordnung des Suchbaums unterstützt. Drittens wird
eine neue Datenmanagementstrategie eingesetzt, die die Kosten der Bewertung einer
k -Anonymisierung
drastisch reduziert.
Wie bereits erwähnt, muss zur Generalisierung eines Attributs zuerst seine Domäne in Intervalle partitioniert werden, welche alle möglichen Werte umfassen. So
Alter mit der Grunddomäne A0 = {1, 2, 3, . . . , 30}
A1 = {[1, 10] , [11, 20] , [21, 30]} partitioniert werden. Um
kann z.B. das (geordnete) Attribut
entsprechend der Domäne
diese Schreibweise zu verkürzen, wird im Folgenden nur mehr der kleinste Wert eines
Intervalls angegeben, und somit kann die Generalisierung des Attributs
dermaÿen angeschrieben werden:
Alter
folgen-
{1, 11, 21}.
Um eine Tabelle entsprechend der Methode von R. J. Bayardo und R. Agrawal in
eine
k -anonyme
Form umzuwandeln, müssen zuerst die Werte der Attribute geordnet
werden (z.B. aufsteigend), und wie oben erwähnt in Intervalle eingeteilt werden. Es
sollte beachtet werden, dass diese Intervalle nicht zu groÿ gewählt werden, da diese
Einteilung das Mindestmaÿ der späteren Generalisierung festlegt. Danach werden die
Attribute selbst geordnet und die Intervalle fortlaufend nummeriert. Abbildung 2.26
zeigt diese totale Ordnung dreier Attribute mit insgesamt neun möglichen Werten.
Abbildung 2.26: Ein Beispiel totaler Ordnung der Domänen einer Tabelle mit drei
Attributen und insgesamt neun möglichen Werten. [22]
Die Zahl des ersten Intervalls eines jeden Attributs ist mit dem Zeichen * markiert.
Eine Anonymisierung muss zumindest diese Werte enthalten (am Beispiel der Abbildung 2.26:
{1, 4, 6}).
Die Werte der Originaltabelle werden auf die Intervalle
oder W ] (Attribut
Ledig ] (Attribut
k -Anonymisierung:
[10 − 49] (Attribut Alter), [M
Dies entspricht dem allgemeinsten Fall der
Geschlecht) und [Verheiratet
F amilienstand) abgebildet.
53
oder Verwitwet oder Geschieden oder
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Der Startwert des Intervalls eines Attributs wird durch die entsprechende Zahl in der
Anonymisierung angegeben, und das so aufgespannte Intervall erstreckt sich bis zur
nächsten in der Anonymisierung angegebenen Zahl. Sollte diese bereits zum nächsten
Attribut gehören, so wird das Intervall so groÿ gewählt, dass es alle möglichen Werte des Attributs umfassen kann. Diese Art der
k -Anonymisierung
ist mit der weiter
oben beschriebenen Generalisierung eines einzelnen Attributs vergleichbar (abgekürzte
Schreibweise) auch wenn dies natürlich auf einer anderen Ebene geschieht.
Durch das Hinzufügen weiterer Werte zur Anonymisierung z.B.
{1, 4, 5, 6, 8}
er-
gibt sich also eine Tabelle mit zusätzlichen Informationen und höherer Aussagekraft
{1, 4, 5, 6, 8} würden sich folgende
[10 − 49] (Attribut Alter), [M ] und [W ] (Attribut Geschlecht) und
Verwitwet ] und [Geschieden oder Ledig ] (Attribut F amilienstand).
dank kleinerer Intervalle. Durch die Anonymisierung
Intervalle ergeben:
[Verheiratet
oder
Die Anonymisierung mit dem höchsten Informationsgehalt enthält natürlich alle möglichen Werte
{1, 2, 3, 4, 5, 6, 7, 8, 9}.
Natürlich besteht nun die Gefahr, dass eine Anonymisierung, die möglichst viele
Informationen der Originaltabelle beibehalten will, keine
k -anonyme
Tabelle erzeugt.
Deshalb wird eine systematische Suche im Lösungsraum durchgeführt, um die optimale
k -Anonymisierung
zu erhalten. Dazu wird das OPUS Framework verwendet,
das eine set-enumeration-search Strategie mit dynamischer Baumneuanordnung und
speziellen Abbruchsbedingungen ( pruning ) erweitert. Zuerst werden alle Untermengen eines Alphabets (= Anonymisierung) systematisch durch Erweiterung des Baums
aufgezählt (set-enumeration). Abbildung 2.27 zeigt ein Beispiel für das Alphabet
{1, 2, 3, 4}.
Jeder Knoten repräsentiert eine Anonymisierung, die auf ihre Kosten hin
getestet werden soll. Der oberste Knoten ({}), von dem aus der Baum zu wachsen
beginnt, stellt die allgemeinste Form der
k -Anonymisierung
dar erst nach und nach
werden zusätzliche Werte hinzugefügt und somit die Generalisierung spezieller. Die
(geordneten) Werte eines Knotens, die an seine Kinder weitergegeben werden können, nennt man tail set . (Bei Abbildung 2.28 wird das tail set innerhalb spitzer
Klammern für jeden Knoten angegeben.) Die Kinder erhalten zusätzlich zu den direkt
vererbten Werten des Elternknotens den ersten noch nicht an ein anderes Kind vergebenen Wert aus dem tail set. Somit ergibt sich der auf Abbildung 2.27 ersichtliche
Baum.
Natürlich könnte der soeben erstellte Baum mittels diverser Suchalgorithmen wie
der Tiefensuche nach der optimalen Anonymisierung durchsucht werden: Für jeden
Knoten, der ja eine Anonymisierung repräsentiert, werden die Kosten berechnet und
mit den bisherigen Kosten verglichen. Sollte sich ein besserer Wert ergeben, so werden
zukünftige Ergebnisse mit dieser Anonymisierung verglichen. Wenn dieser Algorithmus terminiert, hat man eine optimale Lösung identiziert unglücklicherweise ist
diese Methode, wie bereits erwähnt, nicht praktisch anwendbar, da der Suchraum im
Normalfall viel zu groÿ ist.
54
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Abbildung 2.27: Set-enumeration-Baum über das Alphabet
{1, 2, 3, 4}
[22]
Daher versucht der in [22] vorgestellte Algorithmus, die Knoten selbst bzw. Werte
im tail-set zu prunen. Dadurch kann der Suchraum erheblich eingeschränkt werden bzw. der Verzweigungsfaktor des Baums reduziert werden, wie es in Abbildung
2.28 deutlich ersichtlich ist: Der Wert 3 vom tail-set des Knotens
{1}
wird gestri-
chen, womit sich ein wesentlich kleinerer Baum als Abbildung 2.27 ergibt. Natürlich
darf ein Wert nur dann entfernt werden, wenn festgestellt wurde, dass Nachkommen
dieses gestrichenen Wertes/Knotens keine optimalen Lösungen ergeben können. Dies
kann durch Berechnung der Kosten (basierend auf der gegebenen Metrik), die von
den nachfolgenden Knoten erreicht werden könnten und dem Vergleich mit bereits bestehender Kosten, erfolgen. Überschreiten die neu berechneten Kosten die bisherigen
besten Ergebnisse, so kann dieser Knoten gelöscht werden. Ähnlich verhält es sich auch
mit dem Entfernen von Elementen aus dem tail-set genauere Angaben dazu und
zur Berechnung der Kosten können in [22] nachgelesen werden.
Eine weitere Möglichkeit, Werte zu prunen und somit den Suchraum möglichst
klein zu halten, ist die Möglichkeit, nutzlose Werte zu entfernen. Abbildung 2.29
zeigt dies an einem Beispiel: Eine Datei, deren Tupel sich aufgrund bereits erfolgter
Anonymisierung in fünf Äquivalenzklassen benden, wird durch einen weiteren Wert
in der Anonymisierung erneut unterteilt (strichlierte Linien). Wenn dadurch die Äquivalenzklassen in zu kleine Bereiche aufgebrochen werden (alle neuen Klassen kleiner
als
k ), so wird der hinzugefügte Wert als nutzloser Wert
eingestuft und kann gelöscht
werden.
Neben dem prunen von Werten kann sich auch die Neuanordnung des tail sets
positiv auf die Performance auswirken und auch das Löschen der richtigen Werte unterstützen. Durch die von einem Knoten
H
festgelegte Anonymisierung werden
die Tupel einer Tabelle in Äquivalenzklassen eingeteilt. Durch das Hinzufügen eines
55
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Abbildung 2.28: Set-enumeration-Baum über das Alphabet
{1, 2, 3, 4}
inklusive An-
gabe des tail-sets und pruning des Wertes 3 vom tail-set des
Knotens
{1}
[22].
Abbildung 2.29: Eine sortierte Datei mit in fünf Äquivalenzklassen eingeteilten Tupel.
Durch Hinzufügen eines Wertes zur Anonymisierung würden sich die
Äquivalenzklassen an den strichlierten Linien teilen. Wenn alle sich
so ergebenden neuen Äquivalenzklassen kleiner als
k
sind, wird der
hinzugefügte Wert als nutzloser Wert bezeichnet [22].
Elements des tail sets des Knotens
H
zur Anonymisierung werden die bereits be-
stehenden Klassen natürlich weiter aufgeteilt. Die Anzahl der so neu entstehenden
Äquivalenzklassen wird für jedes Element berechnet und diese dann in absteigender
Reihenfolge im tail set angeordnet. Somit werden Anonymisierungen, die viel verändern, möglichst bald getestet, wohingegen Anonymisierungen, die nur wenig bewirken,
bis zum Schluss aufgehoben oder sogar vorzeitig entfernt werden.
Ein weiterer anspruchsvoller Aspekt des k -Optimize-Algorithmus ist die eziente
Berechnung der Äquivalenzklassen, welche sich durch einen Knoten oder dem Hinzufügen eines zusätzlichen Wertes aus dem tail set ergeben, um die Kostenfunktionen zu
ermitteln. Ein einfacher und langsamer Ansatz wäre das Sortieren der gesamten Datensätze nach jeder Veränderung und anschlieÿendes Durchsuchen der Datei, um die
Grenzen der einzelnen Klassen zu nden. Da aber durch Hinzufügen eines zusätzlichen
Wertes zur Anonymisierung die Äquivalenzklassen nicht völlig neu deniert sondern
nur weiter unterteilt werden, ist es nicht nötig, die gesamte Datei zu durchsuchen. So
werden nur die relevanten Klassen genauer untersucht und anhand des hinzugefügten
Wertes aufgespalten.
56
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Experimente und Resultate: Für Testzwecke wurde eine Tabelle mit
30162 Tupel und
9 Attributen verwendet. Dabei wurde aber nicht nur k -Optimize mit anderen Algorithmen verglichen, sondern hauptsächlich der Algorithmus mit verschiedenen Kongurationen getestet. Abbildung 2.30 zeigt einen dieser Selbstvergleiche: Als Metrik
wurde die Discernibility Metric (Kapitel 2.4.2) verwendet. Folgende Einstellungen kamen zum Einsatz: Unterdrückung erlaubt/nicht erlaubt/teilweise erlaubt (sub limit)
und feine bzw. grobe Pre-Generalisierung eines Attributs (ne/coarse). Da durch
eine Pre-Generalisierung der Suchraum verkleinert wird, kann dadurch erwartungsgemäÿ eine Performancesteigerung von k -Optimize erreicht werden, wohingegen das
Gestatten von Unterdrückungen die Ezienz des Algorithmus deutlich verschlechtert.
Abbildung 2.30: Test des k -Optimize-Algorithmus mit verschiedenen Einstellungen
[22]
Auf den Vergleich mit anderen
k -Anonymisierungsalgorithmen
wurde in [22] nicht
besonders ausführlich eingegangen. Es wird nur erwähnt, dass greedy-Algorithmen
im Vergleich meist sehr schnell terminierten, jedoch suboptimale Ergebnisse erzielten,
wohingegen andere (bessere) Methoden wiederum relativ langsam konvergierten.
57
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
2.5.7 l-Diversity
l -Diversity [28] ist eine Weiterentwicklung der
k -Anonymität
und versucht durch
zusätzliche Beschränkungen und Forderungen zwei der in Kapitel 2.4.5 erwähnten
Angrie gegen
k -anonyme
Daten (Homogenitätsattacke und Angri durch Hinter-
grundwissen) zu verhindern.
Da bei beiden zuvor erwähnten Attacken Hintergrundinformationen des Angreifers
eine groÿe Rolle spielen, wird hier zuerst auf diesen Punkt eingegangen. Der Angreifer
kennt natürlich die veröentlichte
k -anonyme
Tabelle, und man kann annehmen, dass
ihm auch die Domäne jedes Attributs bekannt ist. Auÿerdem könnte er auch wissen,
dass eine spezielle Person in der Tabelle enthalten ist. Wenn dies der Fall ist, wird
er wahrscheinlich auch über die nicht sensiblen Attribute (= sekundäre Identikationsmerkmale) der Person Bescheid wissen und/oder auch einige sensible Attribute
ausschlieÿen können. Auch über die Verteilung der sensiblen und nicht sensiblen Attribute in der Bevölkerung (Demographisches Hintergrundwissen) könnte der Angreifer
informiert sein (z.B. Wahrscheinlichkeit von Krebs bei einem Patienten über 40).
Mittels des Bayes-Theorems wird in [28] versucht, das mögliche Hintergrundwissen eines Angreifers bei der Anonymisierung einer Tabelle zu berücksichtigen. Dabei
werden die Begrie prior belief und observed belief verwendet. Der Begri prior
belief steht für das eigentliche Hintergrundwissen einer Person. Nachdem sie aber die
veröentlichte Tabelle eingesehen hat, wandelt sich ihr prior belief in den observed belief um, welcher durch den Satz von Bayes berechnet werden kann. Das Ziel
ist nun, dass die Dierenz zwischen prior belief und observed belief möglichst gering ist mit anderen Worten, der Angreifer sollte nur an wenig neue Informationen
durch die veröentlichte Tabelle gelangen. In diesem Zusammenhang sind auch die
Begrie positive und negative disclosure wichtig. Von positive disclosure spricht
man dann, wenn der Angreifer, nachdem ihm die generalisierte Tabelle bekannt ist,
mit hoher Wahrscheinlichkeit das sensible Merkmal einer gewissen Person identizieren kann. Ein Beispiel dafür ist in Kapitel 2.4.5 zu nden, wo Alice aufgrund einer
Homogenitätsattacke das sensible Merkmal von Bob ausndig machen konnte. Wenn
ein Angreifer Werte des sensiblen Attributs mit hoher Wahrscheinlichkeit ausschlieÿen
kann, so handelt es sich um negative disclosure wie es auch beim Beispiel Angri
durch Hintergrundwissen im Kapitel 2.4.5 der Fall war. Doch nicht immer sind positive und negative disclosure so fatal wie bei den beiden vorangegangenen Beispielen:
Wenn Alice z.B. ausschlieÿen kann, dass Bob an Ebola leidet, so kann sie daraus keinen
groÿen Nutzen ziehen, da ihr prior belief für dieses Ereignis ohnehin klein war und
somit der Unterschied zwischen prior belief und observed belief ebenfalls gering
ausfällt.
Leider gibt es bei diesem Ansatz auch einige Nachteile: Man weiÿ im Allgemeinen
nicht die Verteilung der sensiblen und nichtsensiblen Attribute in der Gesamtbevölkerung
Ω,
die man aber benötigt, um den observed belief zu berechnen. Auÿerdem
58
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
kann man sich nicht sicher sein, was und wie viel der Angreifer tatsächlich weiÿ. Bei
speziellen und auÿergewöhnlichen Fällen kann zusätzliches Wissen des Angreifers auch
negative Auswirkungen für ihn haben: Wenn Bob z.B. eine für sein Alter ungewöhnliche Krankheit hat, so wird ein Angreifer, der den Zusammenhang zwischen Krankheit
und Alter kennt, diese Möglichkeit eher ausschlieÿen eine Person, die nicht über
dieses Wissen verfügt, wird die tatsächliche Krankheit eher in Erwägung ziehen. Daher muss bei der Veröentlichung der Daten darauf geachtet werden, dass man auch
Angreifer mit unterschiedlichen Stufen an Hintergrundwissen in Betracht zieht.
Um die zuvor beschriebenen Nachteile und Unzulänglichkeiten zu umgehen, wird in
[28] die l -Diversity eingeführt. Das Wort Diversity, das im Deutschen Mannigfaltigkeit oder auch Vielfalt bedeutet, bezieht sich auf das sensible Attribut, das pro
k -Gruppe
eine Gruppe aus mindestens
k
Tupel, die sich nicht durch die Kombinati-
on ihrer sekundären Identikationsmerkmale unterscheidet mindestens
Werte annehmen muss (l
Denition: Eine
k -Gruppe
ist
l-divers,
wenn das sensible Attribut der Gruppe zu-
l verschiedene Ausprägungen aufweist. Eine Tabelle T
k -Gruppe l-divers ist.
mindest
jede
l verschiedene
≥ 2).
ist dann l -divers, wenn
Durch diese Bedingung wird die Attacke durch Hintergrundwissen deutlich erschwert. Der Angreifer muss nun
l−1
sensible Werte durch negative disclosure
ausschlieÿen können, um an den tatsächlichen Wert zu kommen. Auch die Homogenitätsattacke ist bei einer
l-diversen
Tabelle aufgrund der verschiedenen Werte
des sensiblen Attributs nicht möglich. Ein Beispiel dafür zeigt Tabelle 2.10, die eine
3-diverse Abwandlung der Tabelle 2.3 darstellt und somit nicht mehr durch die beiden
erwähnten Angrie korrumpiert werden kann.
Zusammenfassend kann man folgende Vorteile der l -Diversity gegenüber der
k -Anonymität
und dem Ansatz mit dem Bayes-Theorem herausstreichen:
ˆ l-Diversity
schützt vor Homogenitätsattacken und Angrien durch Hinter-
grundwissen.
ˆ l-Diversity
benötigt trotzdem kein Wissen über die Verteilung der Attribute
in der Grundgesamtheit.
ˆ l-Diversity
setzt auch nicht voraus, dass man bei der Veröentlichung der Ta-
belle Informationen über einen möglichen Angreifer haben muss.
ˆ
Auch verschiedene Stufen von Hintergrundwissen müssen nicht extra in Betracht
gezogen werden.
ˆ l-Diversity
hat, wie auch die
k -Anonymität, die Eigenschaft (im Gegensatz zum
Ansatz mit dem Bayes-Theorem) monoton zu sein. Das bedeutet, dass eine weitere Generalisierung einer Tabelle, die bereits l -Diversity ist, wieder l -Diversity
ist. Diese Eigenschaft kann man sich bei der Umwandlung einer Tabelle in eine
59
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
PLZ
Alter
Nationalität
Diagnose
1
103*
*
Herzerkrankung
2
103*
*
Virale Infektion
3
103*
*
Krebs
4
103*
*
Krebs
5
11**
*
Krebs
6
11**
*
Herzerkrankung
7
11**
*
Virale Infektion
8
11**
*
Virale Infektion
9
101*
*
Herzerkrankung
10
101*
*
Virale Infektion
11
101*
*
Krebs
12
101*
≤ 40
≤ 40
≤ 40
≤ 40
> 40
> 40
> 40
> 40
≤ 40
≤ 40
≤ 40
≤ 40
*
Krebs
Tabelle 2.10: 3-diverse Abwandlung der Tabelle 2.3 [28]
l -Diversity Form zunutze machen. Wie schon erwähnt wurde, gibt es bereits
bei kleinen Tabellen mit wenigen Attributen eine groÿe Anzahl an möglichen
Lösungen. Um schneller ans Ziel und zu einer Lösung zu kommen, verwenden
viele Algorithmen Suchstrategien im Lösungsraum, die die Suche an einem Ast
vorzeitig abbrechen können, wenn gewisse Abbruchkriterien erfüllt sind. Ohne
der Eigenschaft der Monotonie könnten durch den vorzeitigen Stopp wichtige
Lösungen verloren gehen.
Die bisherigen Aussagen über die l -Diversity beruhen auf der Annahme, dass pro
Datensatz nur ein sensibles Attribut vorkommt. Wenn man das Prinzip der l -Diversity
auch auf mehrere medizinische Attribute pro Tabelle ausweiten will, ergeben sich neue
Herausforderungen, wie es in Tabelle 2.11 ersichtlich ist. Bei dieser Tabelle handelt es
sich um eine
k -Gruppe,
die sowohl auf das Attribut Symptom als auch auf Attribut
Diagnose bezogen 3-divers ist (jeweils ohne das andere Attribut). Ein Angreifer, der
weiÿ, dass sich eine bestimmte Person in dieser Tabelle bendet und z.B. ausschlieÿen
kann, dass die Person an Bluthochdruck leidet, hat somit das zweite sensible Merkmal
identiziert, und der Angri ist erfolgreich.
Eine Möglichkeit, diesem Angri entgegenzuwirken, wäre die zufällige Anordnung
der Werte eines sensiblen Attributs innerhalb einer
k -Gruppe,
um die Korrelation
zwischen den beiden Attributen aufzubrechen. Da aber eine derart groÿe Veränderung
der Daten für die meisten wissenschaftlichen Studien inakzeptabel wäre, ist von diesem
Lösungsansatz Abstand zu nehmen. Folgende Methode, die kurz in [28] skizziert wird,
eignet sich besser, um das zuvor beschriebene Problem zu lösen: Gegeben sei eine
60
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
PLZ
Alter
Nationalität
Symptom
Diagnose
1
103*
*
Bluthochdruck
Herzerkrankung
2
103*
*
Bluthochdruck
Virale Infektion
3
103*
*
Gelenksschmerzen
Krebs
4
103*
≤ 40
≤ 40
≤ 40
≤ 40
*
Bauchschmerzen
Krebs
Tabelle 2.11: 4-anonyme Tabelle mit zwei sensiblen Merkmalen [28]
Tabelle mit den sensiblen Attributen
S , V1 , V2 , . . . , Vm .
Zuerst werden die Attribute
V1 , V2 , . . . , Vm ignoriert und die Originaltabelle in eine l-diverse Tabelle bezogen
auf Attribut S umgewandelt. φ = 1 − 1/l und ts sei die Zahl der Tupel mit dem
0
Wert s des Attributs S innerhalb einer k -Gruppe. Für jedes s innerhalb einer k 0
Gruppe werden dφts0 e Tupel mit der Ausprägung s ausgewählt und die Werte der
Attribute V1 , V2 , . . . , Vm für diese Datensätze unterdrückt. Die zusätzliche Sicherheit
wird hier durch die Unterdrückung von Zelleninhalten erkauft. Die Information sinkt
dementsprechend weiter ab. Trotzdem hat diese Methode auch ihre Vorteile:
ˆ
Die Information durch das Attribut
ˆ
Die Information der restlichen sensiblen Attribute (V1 ,
S
bleibt vollständig erhalten.
V2 , . . . , Vm ) bleibt zumin-
dest teilweise erhalten.
ˆ
Die Information durch die Korrelation der einzelnen Attribute wird nicht verfälscht.
Experimente und Resultate: Um die Performance des l -Diversity Algorithmus einschätzen zu können, wurde in [28] die Zeit, die dieser Algorithmus braucht, um eine
Datenbank mit
45222
der verwendete
l-diverse Tabelle umzuwandeln, mit der benök -Anonymisierungsalgorithmus verglichen. (Leider wird
Tupel in eine
tigten Zeit eines normalen
k -Anonymisierungsalgorithmus
nicht näher erwähnt.) Abbildung 2.31
zeigt das Ergebnis des Vergleichs: Die Verarbeitungszeit nimmt bei steigender Anzahl
sekundärer Identikationsmerkmale bei beiden Algorithmen in etwa gleich zu.
Neben der Geschwindigkeit ist natürlich auch die Nützlichkeit der erhaltenen Daten
von Interesse. Um diese zu bestimmen, wurden die schon in Kapitel 2.4.2 erwähnten
Metriken verwendet. Dabei wurde festgestellt, dass auch hier die beiden getesteten
Algorithmen in den meisten Fällen etwa gleich abschnitten und die l -Diversity die
Daten nicht unbedingt stärker generalisiert, als es für das Erreichen einer
k -anonymen
Tabelle nötig ist. Für weiterführende Vergleiche und Tests in Bezug auf Performance
und Verwendbarkeit wird auf [28] verwiesen.
Obwohl auf manchen Gebieten der l -Diversity noch Forschungsbedarf besteht (z.B.
mehrere sensible Attribute pro Tabelle), kann man aufgrund der Vorzüge dieser Ano-
61
Kapitel 2.
Anonymisierung und Pseudonymisierung medizinischer Daten
Abbildung 2.31: Performancevergleich l -Diversity und
nymisierungsmethode (verglichen mit der
k -Anonymität
k -Anonymität
[28]
wird höherer Schutz der Da-
ten bei etwa gleicher Verarbeitungsgeschwindigkeit und ähnlicher Nützlichkeit geboten) durchaus von einer gelungenen Weiterentwicklung sprechen.
62
3 Methoden
3.1 Das Studiensystem ArchiMed
Der Name ArchiMed bezeichnet ein Multicenter-Studiensystem, das an der Medizinischen Universität Wien
2
(MSI)
1
an der Besonderen Einrichtung für Medizinische Statistik
vom Institut für Medizinische Informations- und Auswertesysteme (MIAS)
3
entwickelt wurde. In seiner ursprünglichen Version ist ArchiMed als Monocenter-
Studiensystem seit den Jahren 1997 bzw. 1999 an den Medizinischen Universitäten
Wien und Graz im Einsatz.
Ein Studiensystem wie ArchiMed [35] kann das Datenmanagement klinischer Studien eine Tätigkeit, die einen wesentlichen Teil der Arbeit eines wissenschaftlichen
Mitarbeiters einer Universitätsklinik darstellt erheblich erleichtern und vor allem
auch die Qualität der somit erstellten Studien steigern:
ˆ
Der Benutzer wird bei der Eingabe der Daten durch zahlreiche Systemkomponenten unterstützt (interaktive Datenvalidierung).
ˆ
Das System bietet eine integrierte Dokumentationsumgebung für die zuvor entwickelten Formulare.
ˆ
Ein Auswertesystem unterstützt die klinische Forschung durch statistische Analysen, die aufgrund vordenierter statistischer Funktionen in benutzerfreundlicher Form auch Benutzern mit geringer Erfahrung im statistischen Bereich
ermöglichen, die erhobenen Daten zu analysieren.
ˆ
Die für eine Studie nötige Patientenrekrutierung wird unterstützt und vereinfacht, indem Ein- und Ausschlusskriterien automatisch überprüft werden.
ˆ
Das Design der Studienformulare wird durch eine entsprechende Systemkomponente erleichtert, und der Endanwender kann ohne Unterstützung selbst die
benötigten Formulare entwerfen.
Im Gegensatz zu Monocenter-Studien sind Multicenter-Studien nicht an eine Institution gebunden, wo sie lokal durchgeführt werden, sondern können von mehreren
1 http://www.meduniwien.ac.at/
2 http://www.meduniwien.ac.at/msi/
3 http://www.meduniwien.ac.at/msi/mias/
63
Kapitel 3.
Methoden
Einrichtungen parallel betrieben werden. Dadurch ergeben sich natürlich zusätzliche
Anforderungen, die das Studiensystem erfüllen muss. Vor allem gesetzliche Vorschriften in Bezug auf Datenschutz und Datensicherheit müssen beachtet werden (siehe
Kapitel 1.2).
Um das derzeit noch verwendete ArchiMed Monocenter-Studienystem zu einem
Multicenter-Studiensystem zu erweitern, war es nötig, einige Systemkomponenten anzupassen, um folgende Funktionalitäten zu erhalten:
ˆ
Dokumentation der Studiendaten via Internet
ˆ
Sichere Datenübertragung
ˆ
Selektive Berechtigungsvergabe (sowohl für die einzelnen Studienpartner als auch
für die Studienzentrale)
ˆ
Einfacher Aufbau von neuen Studien mit exibler Zuordnung von Studienpartnern sowie deren Benutzer
ˆ
Möglichkeit zur raschen Erstellung bzw. Änderung von Studienformularen
ˆ
Protokollierung von Datenänderungen
ˆ
Export der Studiendaten mit der Möglichkeit einer Anonymisierung bzw. einer
k -Anonymisierung
Der letzte Punkt dieser Auistung die Ermöglichung eines (k -anonymen) Exports wurde im Rahmen dieser Arbeit verwirklicht. Aufbauend auf einem bereits
bestehenden Framework wurde ein Exportwerkzeug entwickelt, das dem Benutzer bei
der Erstellung eines Exports unterstützt, Vorschläge zum Erreichen der
k -Anonymität
gibt und den Export auch ausführt.
3.2 Methode der
Bevor ein spezieller
k -Anonymisierung
k -Anonymisierungsalgorithmus (siehe Kapitel 2.5) ausgewählt wer-
den konnte, mussten einige grundlegende Überlegungen getroen werden. Vor allem
stellte sich die Frage, ob und wie domain generalization hierarchies (DGH siehe
Kapitel 2.4) verwendet werden und wie weit der Benutzer selbst in die Anonymisierung
eingreifen sollte (automatische/manuelle
k -Anonymisierung). Viele der im Kapitel 2.5
vorgestellten Algorithmen basieren auf solchen Verallgemeinerungshierarchien, doch
kein Artikel geht im Speziellen darauf ein. Zu Fragen wie: Kann ein Benutzer, der nur
am Rande mit Algorithmen und Informationstechnologien vertraut ist (z.B. Ärzte),
eine seinen Anforderungen entsprechende
DGH
erstellen?, Hat es Sinn, Hierarchi-
en für einige immer wieder vorkommende Attribute x zu implementieren?, Welche
Attribute eignen sich für die Erstellung einer
64
DGH
bzw. welche Attribute sind dafür
Kapitel 3.
Methoden
eher ungeeignet?, Welche Alternativen zu dieser Technik gibt es? konnten durch
diese Artikel nicht beantwortet werden.
Aufgrund folgender Überlegungen wurde gegen die Verwendung von
DGHs
ent-
schieden:
ˆ
Verallgemeinerungshierarchien eignen sich nicht für alle Attribute. Wenn z.B.
nicht die gesamte Domäne eines Attributs bekannt ist, kann eine
DGH
nicht
erstellt werden.
ˆ
Viele Attribute haben eine groÿe (bis unendliche) Anzahl an möglichen Werten.
Dadurch gestaltet sich die Erstellung einer Hierarchie sehr arbeitsaufwändig.
ˆ
Verschiedene Aufgabenstellungen erfordern in den meisten Fällen auch unterschiedliche Hierarchien, die dementsprechend vom Benutzer selbst angelegt werden müssen und somit einen Mehraufwand darstellen oder auch den Benutzer
überfordern können. Auch in [36] wird darauf hingewiesen, dass das Erstellen
einer
DGH
keine triviale Tätigkeit ist und der Erfolg der
wesentlich von den vorhandenen
DGH s
k -Anonymisierung
abhängt.
Dadurch ergab sich die Notwendigkeit, nach einer anderen Möglichkeit der Generalisierung zu suchen. Schlieÿlich el die Entscheidung auf eine manuelle Editierung/Generalisierung der Werte mit Unterstützung des Exportwerkzeuges (mehr dazu
in Kapitel 4). Aufgrund der nicht automatischen Generalisierung waren viele der
k-
Anonymisierungsstrategien aus Kapitel 2.5 ungeeignet: Algorithmen wie MinGen
(siehe Kapitel 2.5.1) treen ihre Entscheidung auf Zellenebene und verändern so pro
Tabelle eine groÿe Anzahl an Zelleneinträgen, was zu einem zu groÿen Arbeitsaufwand
bei manueller Editierung führen würde. Daher kamen nur mehr wenige Algorithmen in
Frage, von denen eine leicht abgeänderte Form des Datay-Algorithmus ausgewählt
wurde (siehe Kapitel 2.5.2). Im Folgenden sind die Punkte aufgelistet, die zum Einsatz
von Datay führten:
ˆ
Die Entscheidungen, die dieser Algorithmus trit, sind verständlich und auch für
den Benutzer leicht nachvollziehbar.
ˆ
Datay ändert die Werte spalten- bzw. zeilenweise, was zu einem geringeren
Aufwand bei einer manuellen Editierung der Einträge führt.
ˆ
Datay lässt sich im Vergleich zu anderen Algorithmen relativ leicht implementieren.
ˆ
Aufgrund des eher einfachen Datay-Algorithmus hält sich der Rechenaufwand
in Grenzen, und die Entscheidungen sind in Echtzeit verfügbar. Die Qualität der
Anonymisierung ist daher nicht optimal, aber in den meisten Fällen ausreichend.
65
4 Resultate
Im Folgenden wird zunächst ein grober Überblick über den Funktionsumfang des
k -anonymen
Exportwerkzeugs gegeben, bevor konkret auf die Realisierung des Werk-
zeuges im System ArchiMed eingegangen wird. Dazu wird der Exportvorgang schrittweise anhand eines Beispiels erklärt.
4.1 Funktionsumfang des
k -anonymen
Datenexportwerkzeuges
Basierend auf den in der Datenbank des Systems ArchiMed bereits vorhandenen Tabellen EXPORTE, EXPORTPOSITIONEN, EXPORTERGEBNISSE und EXPORT-
ERGEBNISZEILEN liefert das Exportwerkzeug folgende Funktionalitäten die Reihenfolge der Funktionen entspricht der Abfolge der einzelnen Schritte beim Exportieren der gewünschten Studiendaten (siehe auch Abbildung 4.1):
1. Die Studie bzw. das Studienformular, das für den Export verwendet werden soll,
wird geönet.
2. Ein neuer Export wird angelegt bzw. ein bereits bestehender Export dieser Studie
wird ausgewählt.
3. Die Parameter für den Export werden festgelegt (bzw. geändert): Es kann das
Datums- und das Zeichenformat gewählt und ein Kommentar dem Export hinzugefügt werden. Auÿerdem kann das gewünschte Trennzeichen angegeben werden,
das die einzelnen Attributwerte des Exportergebnisses voneinander trennt. Diese
Parameter werden in der Tabelle EXPORTE gespeichert (pro Export ein Datensatz).
4. Die einzelnen Attribute, die exportiert werden sollen (= Exportpositionen), können ausgewählt werden. Zusätzlich wird jede Exportposition klassiziert, ob es
sich um ein primäres bzw. sekundäres Identikationsmerkmal oder um ein medizinisches Attribut handelt. Neben dieser Einteilung können noch weitere Parameter für jedes Attribut vergeben werden (z.B. neue Bezeichnung des Attributs
für den Export), die in der Tabelle EXPORTPOSITIONEN festgehalten werden
(pro Exportposition ein Datenbankeintrag).
66
Kapitel 4.
Resultate
5. Eine Exportvorschau wird generiert, die den aktuellen
k -Wert
berechnet und
die einzelnen Tupel des Exports, gereiht nach ihrer Häugkeit, wiedergibt. Wenn
der gewünschte Grad der Anonymisierung noch nicht erreicht ist, wird der Benutzer vom Exportwerkzeug auf mögliche Abänderungen der Daten hingewiesen,
die zu einer Erhöhung des
k -Wertes
führen.
6. Der Export wird durchgeführt und in den Tabellen EXPORTERGEBNISSE
bzw. EXPORTERGEBNISZEILEN gespeichert.
Abbildung 4.1: UML-Aktivitätsdiagramm, das den Ablauf eines
k -anonymen
Daten-
exports darstellt
4.2 Realisierung des
k -anonymen
Datenexports im
System ArchiMed
Um die Realisierung der zuvor angeführten Funktionen dem Leser möglichst übersichtlich zu präsentieren, werden anschlieÿend die einzelnen Schritte eines Exports anhand
eines Beispiels inklusive Screenshots und Erklärungen zu diversen Einstellungsmöglichkeiten vorgestellt:
Nachdem die gewünschte Studie geönet wurde (Abbildung 4.2 zeigt eine ausgewählte exemplarische Studie mit dem Bezeichner k-Anonyme Studie und die dazugehörigen bestehenden Dokumente), kann der Exportvorgang durch Betätigen des
Links Export gestartet werden.
Abbildung 4.3 zeigt den nächsten Schritt des Exportwerkzeuges: Alle bereits angelegten Exporte der im letzten Schritt ausgwählten Studie werden angezeigt.
67
Kapitel 4.
Resultate
Abbildung 4.2: Ein Screenshot der Studiendokumentation einer ausgewählten Studie
mit den bereits erstellten Dokumenten: Mittels des Menüpunkts Export (siehe Pfeil) kann der Exportvorgang zu dieser Studie gestartet
werden.
Abbildung 4.3: Liste der bereits vorhandenen Exporte einer Studie: Hier kann ein neuer Export angelegt werden (Button Neuen Export anlegen), ein bereits vorhandener ausgewählt werden (Link ändern) bzw. direkt zum
Formular Wählen Sie ein Exportergebnis (Abbildung 4.9) gesprungen
werden.
68
Kapitel 4.
Resultate
Nach Auswahl eines bereits erstellten Exports (Link ändern) bzw. nach Anlegen
eines neuen Exports (Button Neuen Export anlegen) gelangt man zur Maske Export
editieren, die Abbildung 4.4 zeigt. Hier kann man folgende Parameter des neuen
Exports vergeben bzw. Parameter des vorhandenen Exports ändern:
Abbildung 4.4: Maske zum Festlegen der Parameter eines Exports (z.B. Trennzeichen, Zeichenformat, Datumsformat,. . . )
Bezeichner:
Der Bezeichner (Name) des Exports kann hier vergeben werden.
Er ist unter anderem bei der Auswahl eines Exports sichtbar.
Trennzeichen:
Das Trennzeichen man kann zwischen TAB, Strichpunkt, Beistrich und Leerzeichen wählen trennt die einzelnen Attributwerte des Exportergebnisses voneinander. Daraus entsteht eine
Zeichenkette der Form: Text <Trennzeichen> Text <Trennzeichen> Text . . . z.B.: 1070;10.12.1965;88;70;. . . .
Zeichenformat
Das Konvertierungsformat für Zahlen bzw. Datum/Zeit kann
bzw. Datumsfor-
hier ausgewählt werden.
mat:
Kommentar:
Hier kann dem Export noch ein Kommentar hinzugefügt werden,
welcher bei der Auswahl eines Exports sichtbar ist.
Ein Klick auf den Link Weiter erstellt einen Export mit der soeben ausgewählten
Exportbeschreibung und legt einen entsprechenden Datensatz in der Tabelle EXPOR-
TE an. Nun müssen in der darauolgenden Maske (Abbildung 4.5) die gewünschten
Attribute (Exportposition) ausgewählt werden, die in den Export übernommen werden
sollen. Dazu wird im Dropdown-Menü Variablenart entsprechend der Aufgabenstellung Exportieren, Sekundäre Identikation, Primäre Identikation bzw. Nicht
69
Kapitel 4.
Resultate
Abbildung 4.5: Parametrierung der einzelnen Exportpositionen (z.B. Variablenart
zur Auswahl der gewünschten Exportpositionen, Funktion zur Auswahl einer Aggregatfunktion,. . . )
Exportieren ausgewählt. Für den Export werden nur Attribute mit den Parametern
Exportieren bzw. Sekundäre Identikation berücksichtigt. Exportpositionen mit
der Klassikation Sekundäre Identikation werden für die Berechnung des
k -Wertes
im nächsten Schritt verwendet, wohingegen Attribute mit dem Parameter Exportieren als unveränderlich angesehen werden.
Weitere Parameter, die pro Exportposition vergeben werden können:
Spalten-
Für die Exportposition kann hier optional ein neuer Bezeichner
bezeichner:
vergeben werden.
Funktion:
Nicht immer besteht der Wert eines Attributs aus einem einzigen Wert bzw. Zelle. So könnte es z.B. vorkommen, dass bei der
Bestimmung der Körpertemperatur eines Patienten diese zweimal gemessen werden muss und beide Werte eingetragen werden.
Somit kann man mittels Dropdown-Menü Funktion eine Aggregatfunktion wie Minimum, Maximum, Durchschnitt, Summe,. . . auswählen, die diese mehrfachen Werte zu einem einzigen Wert zusammenfasst. Wenn man die eben angesprochenen
zusätzlichen Werte aber nicht verwerfen bzw. zu einem einzigen
Wert zusammenfassen will, so hat man die Möglichkeit, durch
das +-Icon die entsprechende Position zu duplizieren und somit jedes einzelne Datum zu exportieren.
70
Kapitel 4.
Resultate
Spaltennr.:
Die Spaltennummer gibt an, an welcher Position (Spalte) des
Exports die jeweilige Exportposition erscheint. Wenn dieser Parameter nicht gesetzt wird, so wird einfach die nächste freie Position für diese Variable reserviert.
Abbildung 4.6: Die Exportvorschau zeigt eine Tabelle mit allen zuvor ausgewählten
sekundären Identikationsmerkmalen und ihren gespeicherten Werten,
gereiht nach ihrer Häugkeit. (Gleiche Tupel werden zusammengefasst.)
Der nächste Schritt der
k -Anonymisierung
zeigt eine Tabelle mit allen zuvor aus-
gewählten sekundären Identikationsmerkmalen und ihren gespeicherten Werten (siehe Abbildung 4.6 mit den sekundären Identikationsmerkmalen, die aus Abbildung
4.5 hervorgehen). Wenn mehrere Tupel die gleichen Ausprägungen der sekundären
Identikationsmerkmale besitzen, so werden sie zu einer einzelnen Zeile zusammengefasst und die Anzahl zusammengefasster Zeilen in einer zusätzlichen Spalte angezeigt.
Aufgrund dieser Häugkeiten kann leicht der momentane
der im Feld derzeitiger maximaler
k -Wert
k -Wert
berechnet werden,
angezeigt wird. Sollte der gewünschte
k-
Wert noch nicht erreicht sein, so gibt das Exportwerkzeug in Anlehnung an den
Datay-Algorithmus Empfehlungen aus, wie die vorhandenen Daten abgeändert
werden können, um das beste Ergebnis zu erzielen:
Sollten mehr als
k
Tupel eine Häugkeit von
≤k
besitzen, so wird vorgeschlagen,
das Attribut mit den meisten verschiedenen Werten zu generalisieren. Dazu kann der
Benutzer auf die Spaltenüberschrift dieser Exportposition klicken, um eine zusätzliche
71
Kapitel 4.
Resultate
Tabelle zu önen, die alle verschiedenen Werte dieser Position inklusive ihrer Häugkeiten wiedergibt (siehe Abbildung 4.7). Somit ist für den Anwender ersichtlich, welche
Werte nur selten vorkommen und demnach hinderlich für das Erreichen eines höheren
k -Wertes
sind. Um die (seltenen) Werte zu verallgemeinern, kann in der dritten
Spalte der Tabelle eine generalisierte Variante des Ausgangswertes eingetragen werden. Um diese Editierung zu vereinfachen bzw. zu beschleunigen kann unterhalb der
zusätzlichen Tabelle ein Intervall angegeben werden, das dazu dient, dass alle Werte
des ausgewählten Attributs auf die Zeichen innerhalb dieser Grenzen reduziert werden. Somit kann zum Beispiel ein Datum der Form dd.mm.yyyy leicht generalisiert
werden, indem Tage und Monate durch diese Funktion entfernt werden. Wenn der
Benutzer mit den Änderungen zufrieden ist, kann er diese Tabelle schlieÿen, und das
Exportwerkzeug berechnet den neuen
eine Häugkeit von
jedoch
≤k
≤k
k -Wert.
Sollten noch immer mehr als
k
Tupel
besitzen, so wiederholt sich der letzte Schritt abermals. Falls
Tupel eine Häugkeit von
≤k
aufweisen, so wird empfohlen, diese Aus-
reiÿer zu eliminieren, um die einzelnen Attribute nicht zu stark verallgemeinern zu
müssen. Wenn die geforderte
k -Anonymität erreicht ist, so kann der Benutzer den Ex-
port endgültig durchführen bzw. beenden und die Daten in einer Datei abspeichern.
Der Anwender ist natürlich nicht an die Empfehlung gebunden, sondern kann frei die
Daten manipulieren so kann es z.B. aus Sicht des Benutzers vorteilhaft sein, eine andere Exportposition als vorgeschlagen zu verallgemeinern, wenn diese wichtige Daten
enthält, die möglichst originalgetreu erhalten bleiben sollen.
k -Anonymisierung anhand der Abbildungen 4.6, 4.7 und 4.8:
k -Wert mit den Ausgangsdaerreichbar. Daher schlägt der k -Anonymisierungsalgorithmus vor, das
Praktisches Beispiel zur
Wie in Abbildungen 4.6 ersichtlich ist, ist der gewünschte
ten noch nicht
Attribut mit den meisten verschiedenen Ausprägungen hier die Exportposition Ge-
burtsdatum zu generalisieren. Da eine Verallgemeinerung des Geburtsdatums noch
nicht den gewünschten Erfolg mit sich bringt, wird im nächsten Schritt das Attribut
Postleitzahl generalisiert (siehe Abbildungen 4.7), da nun dieses Attribut die meisten
unterschiedlichen Werte enthält. Als nächstes wird vom
k -Anonymisierungsalgorithmus
vorgeschlagen, die Werte des Attributs Beruf abzuändern. Da es jedoch nur schwer
möglich ist, dieses Attribut sinnvoll zu verallgemeinern, werden alle Ausprägungen dieser Exportposition gelöscht. Dadurch ergibt sich Abbildung 4.8, die eine Tabelle zeigt,
die nur noch ein einziges Tupel enthält, welches nicht der gewünschten 2-Anonymität
genügt. Daher wird empfohlen, diese Zeile zu löschen. Nun kann die 2-anonyme Tabelle mittels eines Rechtsklicks auf den Link Datei in Textle exportieren exportiert
bzw. abgespeichert werden.
Neben diesem normalen Durchlauf des Exportwerkzeuges kann auch von einem
bereits angelegten Export durch Betätigen des önen-Links (siehe Abbildung 4.3)
direkt zum Formular Wählen Sie ein Exportergebnis (Abbildung 4.9) gesprungen
werden, wo ein neues Exportergebnis mit dem derzeitigen Datenbestand angelegt werden kann (Neues Exportergebnis anlegen). Auÿerdem kann auch durch Auswahl eines
72
Kapitel 4.
Resultate
Abbildung 4.7: Eine zusätzliche Tabelle (rechts), die die Werte der ausgewählten Exportposition beinhaltet und eine Editierung bzw. Generalisierung dieser ermöglicht.
Abbildung 4.8: Die Exportvorschau, die eine bereits teilweise generalisierte Tabelle
zeigt.
73
Kapitel 4.
Resultate
bereits vorhandenen Exportergebnisses dieses angezeigt werden.
Abbildung 4.10 fasst zur besseren Übersicht den Ablauf des Exportwerkzeuges als
UML-Aktivitätsdiagramm grob zusammen. Die einzelnen Zustände stellen die verschiedenen Formulare dar, wohingegen die Aktionen Tätigkeiten (unter anderem die
Betätigung von Links bzw. Buttons) kennzeichnen, die den Pfeilen entsprechend zu
den weiteren Schritten des Exportwerkzeuges führen.
Abbildung 4.9: Das Formular Wählen Sie ein Exportergebnis ermöglicht das Anlegen eines neuen Exportergebnisses (inklusive Kommentar). Zusätzlich
werden hier alle bereits vorhanden Exportergebnisse des Exports aufgelistet.
74
Kapitel 4.
Resultate
Abbildung 4.10: UML-Aktivitätsdiagramm eines Exportablaufs des Exportwerkzeuges
75
5 Diskussion
Folgende Erkenntnisse konnten durch Planung und Implementierung bzw. nach der
Fertigstellung des
ˆ
k -anonymen
Exportwerkzeuges gewonnen werden:
Aufgrund der manuellen Editierung/Generalisierung der Werte gestaltet sich die
k -Anonymisierung
trotz Unterstützung durch das Exportwerkzeug schwierig
und auch aufwendig: Es ist für den Benutzer bei der Generalisierung der Ausprägungen eines Attributs nicht immer klar ersichtlich, welche Werte ausschlaggebend dafür sind, dass kein höherer
k -Wert
erreicht werden kann und dement-
sprechend verändert werden sollten. Natürlich müssen in erster Linie Werte generalisiert werden, deren Häugkeit kleiner als das gewünschten
k
ist. Zusätzlich
können aber auch aufgrund der restlichen Attribut- bzw. Wertkombinationen
Werte mit deutlich gröÿerer Häugkeit als
k
verantwortlich für ein niedriges
k
sein, was bei groÿen Tabellen oftmals die Generalisierung erschwert.
Abbildung 5.1 zeigt dieses Problem anhand eines konkreten Beispiels: Die erste
Tabelle dieser Abbildung zeigt die sekundären Attribute einer Tabelle, die in eine
2-anonyme Form gebracht werden soll, wobei gleiche Tupel bereits zusammengefasst wurden. Um den aktuellen
k -Wert
zu erhöhen, wird die Exportposition
PLZ zur Generalisierung ausgewählt (siehe zweite Tabelle der Abbildung). Da
zwei Werte des Attributs nur zwei mal vorkommen, liegt der Entschluss nahe,
diese beiden Ausprägungen zu generalisieren (Generalisierungsmöglichkeit A).
Aus diesem Vorgang resultiert die dritte Tabelle der Abbilung 5.1, welche noch
immer nicht den Anforderungen der 2-Anonymität genügt. Der Generalisierungsvorschlag, den die vierte Tabelle zeigt (Generalisierungsmöglichkeit B), bringt
jedoch den gewünschten Erfolg, was auch die letzte Tabelle bestätigt.
ˆ
Bei der Umsetzung bzw. Planung des Exportwerkzeuges waren teilweise groÿe
Unterschiede zwischen Theorie und Praxis spürbar: Vor allem die Verwendung
einer
DGH
erwies sich bei konkreten praktischen Überlegungen als unvorteilhaft
bzw. schwer zu realisieren (siehe Kapitel 3.2), obwohl viele gröÿtenteils theoretische Abhandlungen zur
k -Anonymisierung
personenbezogener Daten diese
Technologie einsetzen. Die dabei verwendeten Beispiele zeigten zwar eindrucksvoll die Möglichkeiten von Verallgemeinerungshierarchien, doch auf etwaige Probleme oder Schwierigkeiten, die durch die praktische Anwendung entstehen bzw.
entstehen können, wurde nicht näher eingangen, was dazu führte, dass auf den
Einsatz einer
DGH
verzichtet wurde.
76
Kapitel 5.
ˆ
Diskussion
Auch im Nachhinein betrachtet, stellt der gewählte
k -Anonymisierungsalgorith-
mus Datay aufgrund der gegebenen Rahmenbedingungen eine gute Wahl dar:
Die leicht verständlichen Entscheidungen, die dieser Algorithmus trit, kombiniert mit relativ wenigen benötigten Editiervorgängen durch den Benutzer, machen ihn zu einem gut geeigneten Algorithmus, auch wenn er keine optimalen
Resultate erzielt.
Häufigkeit
Geburtsj.
PLZ
2
1988
1110
1
1989
1120
2
1980
1130
1
1989
1110
1
1988
1120
Häufigkeit
Geburtsj.
PLZ
Häufigkeit
Alter W.
Neuer W.
2
1988
1110
3
1110
1110
1
1989
11**
2
1120
11**
2
1980
11**
2
1130
11**
Generalisierungsmöglichkeit A
1
1989
1110
1
1988
11**
Häufigkeit
Alter W.
Neuer W.
Häufigkeit
Geburtsj.
PLZ
3
1110
11**
3
1988
11**
2
1120
11**
2
1989
11**
2
1130
1130
2
1980
1130
Generalisierungsmöglichkeit B
Abbildung 5.1: Verschiedene Generalisierungsmöglichkeiten des Attributs PLZ und
Auswirkungen auf die erreichtbare
k -Anonymität
Obwohl es bei der Bedienbarkeit bzw. Benutzerfreundlichkeit des Exportwerkzeuges
sicherlich noch Verbesserungsmöglichkeiten gibt (siehe Kapitel 6), erfüllt das Ergebnis
dieser Arbeit doch eindeutig die gestellten Anforderungen.
77
6 Ausblick
Warum medizinische Daten ausgetauscht bzw. übermittelt werden, wurde anhand
praktischer Beispiele wie der e-Health-Initiative in Österreich [5], die sich durch die
Vernetzung diverser Gesundheitsanbieter und einem somit erleichterten Informationsaustausch eine Qualitäts- und Ezienzsteigerung im Gesundheitswesen erwartet, ausführlich erläutert. Da beim Verarbeiten, Übermitteln bzw. Überlassen sensibler Daten zu denen auch medizinische Daten zählen entsprechende Gesetze eingehalten werden müssen (in Österreich: Datenschutzgesetz 2000 [10] und die Richtlinie
95/46/EG des Europäischen Parlaments und des Rates vom 24. Oktober 1995 zum
Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten und zum
freien Datenverkehr [11]), wurde auch auf die für diese Arbeit relevanten Gesetzestexte eingegangen. Aus der gesetzlichen Denition von indirekt personenbezogenen
bzw. anonymisierten Daten folgt, dass die Anonymisierung durch Löschen oder Verschlüsseln der primären Identikationsmerkmale nicht ausreichend ist, weil auf diesem
Wege veränderte Daten immer noch ohne groÿen Aufwand personenbezogene Informationen Preis geben können. Daher wurde auf dem Konzept der
setzt und verschiedene Möglichkeiten und Methoden zur
k -Anonymität
aufge-
k -Anonymisierung analysiert
k -anonymisierter
k -anonymisierter Daten ein-
und wiedergegeben. Zusätzlich wurde auch auf die Brauchbarkeit
Daten, Laufzeitverhalten und Metriken zur Bewertung
gegangen. Um einen
k -anonymes
k -Anonymisierungsalgorithmus
praktisch umzusetzen, wurde ein
Datenexportwerkzeug für das Multicenter-Studiensystem ArchiMed im
Rahmen dieser Arbeit implementiert. Neben der Erläuterung der Funktionsweise der
verwendeten Methode und den Kriterien, die zur Auswahl der Methode geführt haben, wurde auch ein Exportvorgang anhand eines konkreten Beispiels dokumentiert
und erklärt.
Auch wenn die gestellten Anforderungen an das
k -anonyme
Exportwerkzeug durch
die im Rahmen dieser Arbeit entwickelten Anwendung erfüllt wurden, bleibt trotzdem
noch Raum für Verbesserungen, die vielleicht in einem zukünftigen Projekt umgesetzt
werden könnten:
ˆ
Obwohl die Verwendung von
DGHs als einzige Generalisierungsmöglichkeit auf-
grund der weiter oben erwähnten Probleme nicht optimal erscheint, würde eine
optionale Einführung dieser Anonymisierungshierarchien die Benutzerfreundlichkeit wahrscheinlich erhöhen. Eine zusätzliche Option beim manuellen Editieren
der Werte (siehe Abbilung 4.7) könnte angeboten werden, um eine für dieses
78
Kapitel 6.
Ausblick
Attribut passende
DGH
zu laden und alle vorkommenden Werte durch eine
allgemeinere Form zu ersetzen.
ˆ
Eine weitere Verbesserung würde ein automatisches Speichern der Wertepaare
(Originalwert
↔
verallgemeinerter Wert) nach dem manuellen Generalisieren
darstellen. Denn somit würde man zumindest eine einstuge
DGH
erhalten, die
wiederverwendet werden kann und den Arbeitsaufwand bei der Generalisierung
ähnlicher Attribute verringert.
ˆ
Wenn zumindest optional tay noch weitere
DGHs eingeführt werden, könnte man neben Da-
k -Anonymisierungsalgorithmen anbieten, die auf solche Hier-
archien angewiesen sind. Natürlich würden sich hier besonders Algorithmen anbieten, die, anders als Datay, eher auf Qualität und nicht auf Geschwindigkeit
setzen (z.B. MinGen siehe Kapitel 2.5.1). So könnte der Benutzer auch die
Anonymisierungsstrategie ganz nach seinen Bedürfnissen auswählen.
79
Danksagung
An dieser Stelle möchte ich mich bei all jenen bedanken, die durch ihre fachliche
und persönliche Unterstützung zum Gelingen dieser Diplomarbeit beigetragen haben.
Besonderer Dank gebührt meinen Eltern, die mir dieses Studium durch ihre Unterstützung ermöglicht haben. Weiters danke ich Ao. Univ. Prof. Dipl. Ing. Dr. Georg
Duftschmid für die Betreuung meiner Magisterarbeit und Dr. Thomas Wrba für die
Hilfe beim praktischen Teil meiner Arbeit.
80
Abbildungsverzeichnis
1.1
1.2
2.1
2.2
Gespeicherte Attribute pro Geburt im US Staat Illinois . . . . . . . . .
1
UML-Aktivitätsdiagramm, das den Ablauf einer Anonymisierung bzw.
Pseudonymisierung zusammenfassend darstellt . . . . . . . . . . . . . .
9
Modell 1 Pseudonymisierung durch Datenquellen [8] . . . . . . . . . .
16
Modell 2 Pseudonymisierung durch Vertrauensstelle und Datensammelstelle [8]
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.3
Verknüpfung von Daten [18]
. . . . . . . . . . . . . . . . . . . . . . . .
20
2.4
Reidentizierung durch Verknüpfung [9] . . . . . . . . . . . . . . . . . .
21
2.5
Resultat des Verknüpfungsalgorithmus [9] . . . . . . . . . . . . . . . . .
21
2.6
Aktualisiertes Resultat des Verknüpfungsalgorithmus [9]
. . . . . . . .
22
2.7
Mitgliedschaft in einem anonymisierten Datenbestand [9] . . . . . . . .
23
2.8
domain generalization hierarchy und value generalization hierarchy
der PLZ-Domäne [21] . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.9
24
domain generalization hierarchy und value generalization hierarchy
der Geschlecht-Domäne [21]
. . . . . . . . . . . . . . . . . . . . . . . .
2.10 Verschiedene, zumindest 2-anonyme Generalisierungen der Tabelle
24
PT
[21] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
2.11 Fläche unter der ROC-Kurve (AUC) in Abhängigkeit vom Grad der
k -Anonymität
[26] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
2.12 Grasche Darstellung der Fläche unter der ROC-Kurve . . . . . . . . .
30
2.13 Histogramm der Wahrscheinlichkeiten der möglichen Ersetzungen der 8
fehlenden Zelleneinträge [27] . . . . . . . . . . . . . . . . . . . . . . . .
32
P T [18] . . . . . . . . .
2.2 (GT 1 und GT 2) und
33
die Verknüpfung der beiden Tabellen (LT ) . . . . . . . . . . . . . . . .
35
2.14 Zwei 2-anonyme Generalisierungen der Tabelle
2.15 Zwei 2-anonyme Abwandlungen der Tabelle
2.16 Einzelne Schritte der
k -Anonymisierung
Tabellenform mittels Datay [21]
personenbezogener Daten in
. . . . . . . . . . . . . . . . . . . .
41
2.17 Domain generalization hierarchies und value generalization hierarchies für die Attribute Zipcode (a, b), Birthdate (c, d) und Sex (e, f )
[33] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
2.18 2-Attribut Generalisierungen der Tabelle 2.6 [33] . . . . . . . . . . . . .
43
81
Abbildungsverzeichnis
2.19 (a) 3-Attribut Graph, generiert aus den resultierenden Graphen der Abbildung 2.18; (b) 3-Attribut Graph ohne Einschränkung des Suchraums
[33] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
2.20 Performancevergleich von Incognito, Superroots Incognito und Cu-
k -Anonymisierungsalgorithmen [33]
µ-ARGUS-Algorithmus [34] . . . .
be Incognito mit anderen
. . . . .
45
. . . . .
46
. . . . . . . . . . . . . . .
49
2.23 Menge an Punkten (a) ohne bzw. (b) mit möglicher Partitionierung [23]
50
2.21 Funktionelles Design des
2.22 Räumliche Darstellung einer Partitionierung
2.24 Gegenüberstellung der strikten (GT 1) und relaxed multidimensionalen
Generalisierung (GT 2) der Tabelle
PT
[23] . . . . . . . . . . . . . . . .
51
2.25 optimale eindimensionale bzw. multidimensionale Partitionierung der
Domänen zweier sekundärer Identikationsmerkmale [23]
. . . . . . . .
52
2.26 Ein Beispiel totaler Ordnung der Domänen einer Tabelle mit drei Attributen und insgesamt neun möglichen Werten. [22] . . . . . . . . . . .
2.27 Set-enumeration-Baum über das Alphabet
2.28 Set-enumeration-Baum über das Alphabet
{1, 2, 3, 4} [22] . . .
{1, 2, 3, 4} inklusive
. . . .
53
55
tail-
sets und pruning. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
2.29 Nutzloser Wert einer Anonymisierung . . . . . . . . . . . . . . . . . .
56
2.30 Test des k -Optimize-Algorithmus mit verschiedenen Einstellungen [22]
57
2.31 Performancevergleich l -Diversity und
62
4.1
k -Anonymität
UML-Aktivitätsdiagramm, das den Ablauf eines
[28]
. . . . . .
k -anonymen Datenex-
ports darstellt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2
Ein Screenshot der Studiendokumentation einer ausgewählten Studie
mit den bereits erstellten Dokumenten
4.3
4.4
67
. . . . . . . . . . . . . . . . . .
Liste der bereits vorhandenen Exporte einer Studie
. . . . . . . . . . .
68
68
Maske zum Festlegen der Parameter eines Exports (z.B. Trennzeichen,
Zeichenformat, Datumsformat,. . . )
. . . . . . . . . . . . . . . . . .
4.5
Auswahl bzw. Parametrierung der einzelnen Exportpositionen
4.6
Exportvorschau: Tupel gereiht nach ihren Häugkeiten
. . . . . . . .
71
4.7
Manuelle Editierung der Werte einer Exportposition . . . . . . . . . . .
73
4.8
4.9
. . . . .
69
Die Exportvorschau, die eine bereits teilweise generalisierte Tabelle
zeigt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
Auistung aller Exportergebnisse eines Exports
74
. . . . . . . . . . . . .
4.10 UML-Aktivitätsdiagramm eines Exportablaufs des Exportwerkzeuges
5.1
70
.
75
Verschiedene Generalisierungsmöglichkeiten des Attributs PLZ und Auswirkungen auf die erreichtbare
k -Anonymität
82
. . . . . . . . . . . . . . .
77
Tabellenverzeichnis
1.1
Personenbezogene, medizinische Daten in Tabellenform
. . . . . . . . .
4
1.2
Typische primäre Identikationsmerkmale [7] . . . . . . . . . . . . . . .
5
1.3
k -anonyme
. . . . . . . . . . . . . . . .
6
2.1
2-anonyme Tabelle durch Unterdrückung von Zelleninhalten [27] . . . .
31
2.2
Personenbezogene, medizinische Daten in Tabellenform
. . . . . . . . .
34
2.3
Personenbezogene, medizinische Daten in Tabellenform [28] . . . . . . .
36
2.4
4-anonyme Form der Tabelle 2.3 [28]
. . . . . . . . . . . . . . . . . . .
37
2.5
medizinische Daten in Tabellenform . . . . . . . . . . . . . . . . . . . .
37
2.6
Patientendaten in Tabellenform [33] . . . . . . . . . . . . . . . . . . . .
42
2.7
medizinische Daten in Tabellenform [23]
48
2.8
2-anonyme Abwandlung der Tabelle 2.7 durch eindimensionale globale
Form der Tabelle 1.1 mit
k=2
. . . . . . . . . . . . . . . . .
Generalisierung [23] . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.9
48
2-anonyme Abwandlung der Tabelle 2.7 durch multidimensionale globale Generalisierung [23] . . . . . . . . . . . . . . . . . . . . . . . . . .
2.10 3-diverse Abwandlung der Tabelle 2.3 [28]
49
. . . . . . . . . . . . . . . .
60
2.11 4-anonyme Tabelle mit zwei sensiblen Merkmalen [28] . . . . . . . . . .
61
83
Literaturverzeichnis
[1]
Sweeney, L.:
Information Explosion.
In: Condentiality, Disclosure, and
Data Access: Theory and Practical Applications for Statistical Agencies, Urban Institute, 2001, S.4374. explosion2.pdf
[2]
http://privacy.cs.cmu.edu/people/sweeney/
Clifton, C. ; Marks, D.: Security and Privacy Implications of Data Mining.
In: Workshop on Data Mining and Knowledge Discovery.
Montreal, Canada :
University of British Columbia Department of Computer Science, 1996, S.1519.
[3]
http://members.aol.com/ptaylor724/cv/pubs/dmkd.ps.gz
Healthcare Collaborative Network (HCN).
org/profiles/HCN.mspx.
[4]
[6]
Online Ressource, Abruf: 17.08.2006
Health Insurance Portability and Accountability Act.
hipaa/.
[5]
http://ccbh.ehealthinitiative.
http://www.hhs.gov/ocr/
Online Ressource, Abruf: 17.08.2006
e-Health-Initiative.
Praxisnetzwerk.
http://ehi.adv.at/. Online Ressource, Abruf: 17.08.2006
https://www.praxisnetzwerk.at/. Online Ressource, Abruf:
17.08.2006
[7]
Simonic, K. ; Gell, G. MAGDA-LENA Datenschutz-Policy für die Kommunikation in Forschung und Lehre.
index.html.
[8]
http://www.uni-graz.at/imi/datenschutz/
2001
Albert, J. ; David, D. ; Lagerfeld, C. ; Keil, W. ; Rey, H. ; Schöner, C. ; Siebert, I.
Management-Papier Pseudonymisierung / Anonymi-
http://atg.gvg-koeln.de/xpage/objects/pseudonymisierung/
docs/5/files/MP040316.pdf. 2004
sierung .
[9]
http://www.iso.org/iso/
en/CatalogueDetailPage.CatalogueDetail?CSNUMBER=42807&scopelist=
PROGRAMME. 2002. ISO/NP TS 25237
ISO/TS Health informatics Pseudonymisation.
[10] Datenschutzgesetz 2000 (DSG 2000).
http://www.dsk.gv.at/dsg2000d.htm.
BGBl. I Nr. 165/1999
84
Literaturverzeichnis
[11] Richtlinie 95/46/EG des Europäischen Parlaments und des Rates vom 24. Okto-
ber 1995 zum Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten und zum freien Datenverkehr.
9_95_46_EG_rahmen.html.
http://byds.juris.de/byds/061_9.
Amtsblatt NR. L 281 vom 23. November 1995, S.
3150
[12] 179. Bundesgesetz: Gesundheitsreformgesetz 2005.
http://www.bmgf.gv.at/
[13] Burggasser, H. ; Dorda, W. ; Gambal, J. ; Gell, G. ; Ingruber, H. ; Ko-
tschy, W. Rahmenbedingungen für ein logisches österreichisches Gesundheitsdatennetz (MAGDA-LENA V2.0).
STRING/.
http://www.meduniwien.ac.at/msi/mias/
2000
[14] Duftschmid, G. ; Wrba, T. ; Gall, W. ; Dorda, W.: The strategic approach
of managing healthcare data exchange in Austria. Methods Inf Med
43 (2004),
Nr. 2, S.124132
http://www.bmgf.gv.at/cms/site/detail.htm?
thema=CH0015&doc=CMS1150277592081. Online Ressource, Abruf: 17.08.2006
[15] STRING-Kommission.
[16] Health
le.
Insurance Portability and Accountability Act (HIPAA) Privacy Ru-
http://privacyruleandresearch.nih.gov/.
Online Ressource, Abruf:
17.08.2006
[17] Sweeney, L.:
Uniqueness of Simple Demographics in the U.S. Populati-
http://privacy.cs.cmu.edu/dataprivacy/papers/LIDAP-WP4abstract.
html. 2000. Carnegie Mellon University, Laboratory for International Data
on.
Privacy, Pittsburgh
[18] Sweeney, L.:
k-Anonymity: a model for protecting privacy.
Int J Uncertain
Fuzziness Knowl-Based Syst 10 (2002), Nr. 5, S.557570
[19] Sweeney, L.: Guaranteeing anonymity when sharing medical data, the Datay
system. J Am Med Inform Assoc (1997), S.5155
[20] Dalenius, T. ; Reiss, S.: Data swapping: A technique for disclosure control. J
Stat Plan Inference 6 (1982), S.7385
[21] Sweeney, L.:
Achieving k-anonymity privacy protection using generalization
and suppression. Int J Uncertain Fuzziness Knowl-Based Syst 10 (2002), Nr. 5,
S.571588
[22] Bayardo,
R.
Anonymization.
J.
;
Agrawal,
R.:
Data
Privacy
through
Optimal
k-
In: Proceedings of the 21st IEEE International Conference on
Data Engineering, 2005, S.217228
85
Literaturverzeichnis
[23] LeFevre, K. ; DeWitt, D. ; Ramakrishnan, R.:
anonymity
/ University of Wisconsin.
2005
Multidimensional
k-
(1521). Forschungsbericht.
http://www.cs.wisc.edu/techreports/2005/TR1521.pdf
[24] Meyerson, A. ; Williams, R.: General
k -anonymization
is hard / Carnegie
Mellon School of Computer Science. 2003 (CMU-CS-03-113). Forschungsbericht.
http://reports-archive.adm.cs.cmu.edu/anon/2003/CMU-CS-03-113.pdf
[25] Meyerson, A. ; Williams, R.: On the Complexity of Optimal
k -anonymity.
In:
Proceedings of the twenty-third ACM SIGMOD-SIGACT-SIGART symposium on
Principles of database systems, 2004, S.223228
[26] Ohno-Machado, L. ; Vinterbo, S. ; Dreiseitl, S.:
Eects of data anony-
mization by cell suppression on descriptive statistics and predictive modeling
performance. J Am Med Inform Assoc (2002), S.115119
[27] Dreiseitl, S. ; Vinterbo, S. ; Ohno-Machado, L.:
Extracting Information from Anonymized Sources.
Disambiguation Data:
In: Proceedings of the 2001
American Medical Informatics Annual Symposium, 2001, S.144148
[28] Machanavajjhala, A. ; Gehrke, J. ; Kifer, D. ; Venkitasubramaniam,
k -anonymity. In: Proceedings of the 22nd IEEE International Conference on Data Engineering, 2006. http://www.cs.cornell.
edu/johannes/papers/2006/2006-icde-publishing.pdf
M.: l-diversity: Privacy beyond
k -anonymity / US Census Bureau
Research Report. www.census.gov/srd/
[29] Winkler, W.: Using simulated annealing for
Statistical Research Division. 2002. papers/pdf/rrs2002-07.pdf
[30] Samarati, P. ; Sweeney, L.:
Protecting privacy when disclosing informati-
on: k-anonymity and its enforcement through generalization and suppression /
Computer Science Laboratory. 1998 (SRI-CSL-98-04). Forschungsbericht
[31] Ohrn, A. ; Ohno-Machado, L.: Using Boolean reasoning to anonymize databases. Artif Intell Med 15 (1999), Nr. 3, S.235254
[32] Zhong, S. ; Yang, Z. ; Wright, R. N.: Privacy-enhancing k-anonymization of
customer data.
In: Proceedings of the twenty-fourth ACM SIGMOD-SIGACT-
SIGART symposium on Principles of database systems, 2005, S.139147
[33] LeFevre, K. ; DeWitt, D. J. ; Ramakrishnan, R.: Incognito: Ecient FullDomain
k -Anonymity.
In: Proceedings of the ACM SIG-MOD International Con-
http://www.cse.iitb.ac.
in/dbms/Data/Courses/CS632/Papers/incognito.pdf
ference on Management of Data, 2005, S.4960. 86
Literaturverzeichnis
µ- and τ - argus: software for statistical
www.fcsm.gov/working-papers/hundepool.pdf. Willen-
[34] Hundepool, A. ; Willenborg, L.:
disclosure control.
borg, Statistics Netherlands
[35] Dorda, W. ; Wrba, T. ; Duftschmid, G. ; Sachs, P. ; Gall, W. ; Rehnelt,
C. ; Boldt, G. ; Premauer, W.: ArchiMed: a medical information and retrieval
system. Methods Inf Med 38 (1999), Nr. 1, S.1624
[36] Aggarwal, C. C. ; Yu, P. S.:
A Condensation Based Approach to Privacy
Preserving Data Mining. In: Proceedings of the EDBT Conference, 2004, S.183
199
87