Geolokalisierung mit anonymisierten IP-Adressen

Transcription

Geolokalisierung mit anonymisierten IP-Adressen
AUFSÄTZE
Ulrich Kühn
Geolokalisierung mit anonymisierten
IP-Adressen
Muss für die Bestimmung des geografischen Orts einer IP-Adresse diese vollständig vorliegen?
Welcher Verlust an Genauigkeit ist zu erwarten, wenn IP-Adressen zwecks Anonymisierung gekürzt werden? Auf Grundlage der Daten verschiedener Anbieter von Lokalisierungsdiensten
geht der folgende Beitrag diesen Fragen empirisch nach.
1 Einleitung
Die geografische Lokalisierung von Internet-Nutzern ist ein wichtiges Instrument
zur Analyse und Steuerung von OnlineAngeboten. Anwendungsbeispiele dieser
Technologie sind:
 Schaltung national oder regional differenzierter Werbung,
 landes- und sprachspezifische Gestaltung von Angeboten,
 Ausschluss von Nutzern aufgrund nationalrechtlicher Restriktionen1 sowie die
 Auswertung der Nutzerströme nach
örtlichen Kriterien.
Bei der Lokalisierung von Internet-Nutzern handelt es sich allerdings um ein
nichttriviales Problem, da im Rahmen der
zugrundeliegenden Netztechnologie (anders etwa als bei der Telefonie) keine Ortsinformationen verarbeitet werden oder
anfallen.
Eine wesentliche2 Grundlage der Ortsbestimmung eines Nutzers stellt dessen
IP-Adresse dar, die daher häufig längerfristig – und damit datenschutzrechtlich
problematisch – gespeichert wird.
2 Hintergrund
2.1 IP-Adressen
Gegenstand der Betrachtungen dieses
Artikels sind Adressen des Internet Protocols (IP) in der Version 4 [2]. Bei diesen
handelt es sich um 32-Bit-Zahlen mit einem Wert zwischen 0 und 2 32 – 1 =
4.294.967.295. Für deren Notation hat
sich jedoch nicht die Ganzzahlform, sondern eine Gruppierung in 8-Bit-Teilen
etabliert, z.B. „192.168.1.200“ (siehe
Abb. 1). Konzeptionell sind jedoch beide
Formen äquivalent und eindeutig ineinander umrechenbar.
Abb. 1 | IP-Adresse
Ulrich Kühn
Mitarbeiter beim
Hamburgischen
Beauftragten für
Datenschutz und
Informationsfreiheit,
Referat 2 Technikangelegenheiten
E-Mail: Ulrich.Kuehn@datenschutz.
hamburg.de
2.2 Personenbezug
von IP-Adressen
1 Ob die IP-Lokalisierung ein ausreichend wirksames Instrument ist, um erfolgreich Rechtsfolgen
daran zu knüpfen, wird seit geraumer Zeit stark diskutiert, siehe etwa [1].
2 Zusätzlich können weitere Kriterien einfließen,
z. B. die landessprachliche Version des InternetBrowsers oder HTTP-Kopfzeilen wie etwa
„Accept-Language“.
DuD • Datenschutz und Datensicherheit
Die Frage, ob IP-Adressen einen Personenbezug aufweisen, soll im Rahmen dieses Artikels nicht erörtert werden. Dass es
sich um personenbezogene Daten im Sinne des Datenschutzrechts handelt, wird
hier vereinfachend als gegeben angenommen. Auf die diesbezügliche streitige Diskussion wird insofern lediglich verwiesen
(exemplarisch [3, 4, 5], für einen Überblick
z. B. [6]).
12 | 2009
2.3 Anonymisierung
von IP-Adressen
Unter der Voraussetzung des Personenbezugs fallen IP-Adressen unter die Bestimmungen des Telemediengesetzes (TMG),
das eine Verwendung von Nutzungsdaten
über das Ende der Nutzung hinaus nur für
Zwecke der Abrechnung vorsieht (§ 15
Abs. 4). Umstritten ist bereits die Frage, ob
die IP-Adresse zur Bildung von Pseudonymen für Zwecke der Werbung, der Marktforschung oder zur bedarfsgerechten Gestaltung des Dienstes nach § 15 Abs. 3
TMG verwendet werden darf.
Eine dauerhafte oder längerfristige
Speicherung der IP-Adressen der Nutzer
ist hiermit in der Regel jedenfalls nicht
vereinbar. Neben dem vollständigen Nutzungsverzicht wäre eine Verwendung von
IP-Adressen allerdings auch dann rechtskonform möglich, wenn ihr Personenbezug unwiderruflich entfernt würde. Für
eine solche Anonymisierung hat sich analog zu dem Instrument der Rufnummernkürzung im Telekommunikationsbereich
(Einzelverbindungsnachweis nach § 99
Telekommunikationsgesetz) eine IP-Adresskürzung etabliert. Dabei werden, ausgehend vom niedrigstwertigen Bit, Teile
der Adresse gelöscht bzw. auf Null gesetzt
(Abb. 2).
Abb. 2 | Gekürzte IP-Adressen
Während das TKG eine Kürzung um drei
Stellen vorsieht, gehen die Auffassungen,
welches Maß an Kürzung für eine Ano747
AUFSÄTZE
nymisierung von IP-Adressen ausreichend ist, auseinander. Klar ist, dass ein
größeres Maß an Kürzung auch ein Mehr
an Anonymität bringt (wobei es sich bei
diesem Begriff allerdings strenggenommen nicht um einen graduellen, sondern
einen absoluten Wert handelt). Andererseits geht mit jedem gelöschten Bit auch
mehr Information verloren, die für statistische Auswertungen oder andere zulässige Zwecke gebraucht werden könnte. Bei
der IP-Adresskürzung handelt es sich daher um einen klassischen Zielkonflikt und
damit eine mögliche Kompromiss-Situation.
2.4 Lokalisierung von IP-Adressen
IP-Adressen können nicht nach Belieben
verwendet werden, sondern werden ähnlich wie Telefonnummern von Anbietern
(Providern) an die Internetnutzer vergeben. Im Unterschied zur Telefonnummer
wird die IP-Adresse jedoch nicht immer
konstant, sondern in den meisten Fällen
variabel aus einem festgelegten Bereich
vergeben. Diese Bereiche werden den Anbietern von Regionalen Registrierungsstellen – in Europa RIPE NCC (Réseaux IP
Européens Network Coordination Centre)
– zugewiesen, denen diese Aufgabe wiederum von der IANA (Internet Assigned
Numbers Authority) übertragen wurde.
Durch diese Bindung einer IP-Adresse
an einen Anbieter ist es in gewissem Rahmen möglich, ihr (und damit dem Nutzer)
einen geografischen Ort zuzuweisen.
Denn viele Anbieter sind nur in einem begrenzten örtlichen Bereich tätig, etwa in
einer Stadt oder einer Region. Aber auch
überregional tätige Anbieter verteilen ihre Adressen häufig nach geografischen
Kriterien, so dass auch Adressen größerer
Anbieter relativ genau verortet werden
können.
Eine solche IP-Geolokalisierung wird
von einer Reihe von Dienstleistern als
Webservice oder zur lokalen Nutzung angeboten. Diese Dienste basieren auf einer
tabellarischen Zuordnung von Adressbereichen zu geografischen Orten, so dass zu
einer bestimmten IP-Adresse lediglich der
entsprechende Adressbereich in der Tabelle aufgefunden werden muss. Da die
Adresszuordnung durch die Regionalen
Registrierungsstellen einem gewissen
Wandel im Rahmen des Marktgeschehens
unterliegt, müssen diese Tabellen entsprechend aktualisiert werden; dies wird
durch die Dienstleister sichergestellt.
748
Diese Art der IP-Geolokalisierung ist
beispielhaft in Abb. 3 dargestellt. Dabei
bezeichnet IPn eine IP-Adresse, I i ein Lokalisierungsintervall [IPa , IPb ] und Oi den
diesem Intervall zugeordneten geografischen Ort (z. B. ein Land, eine Stadt und/
oder ein Längen- und Breitengrad).
Abb. 3 | Lokalisierungsintervalle
Blocks Ai werden durch die Anonymisierung auf die gleiche Adresse i * 2b abgebildet. In die Anonymisierungsblöcke Ai fallen ggf. unterschiedliche Lokalisierungsintervalle I j mit verschiedenen Orten Ok .
Für Anonymisierungsblock An etwa sind
die Intervalle I 1, I 2, I 3 sowie die Orte
O1,O2 relevant.
Abb. 4: Lokalisierung und
Anonymisierung
In dem in Abb. 3 gezeigten Beispiel sind
alle Adressen
A ∈ [IP1, IP2 ] ∪ [IP4 , IP5 ]
dem Ort O1 zugeordnet, alle Adressen
A ∈ [IP2 + 1, IP2 ]
dem Ort O2 etc.
Die Intervalle sind überlappungsfrei,
decken jedoch nicht den gesamten Adressraum ab. Verschiedene Intervalle können
auf den gleichen Ort verweisen, da sie z. B.
demselben Adressinhaber zugeordnet
werden oder zwei verschiedenen Anbietern am selben Ort.
Neben dieser Provider-basierten Lokalisierung von IP-Adressen sind verschiedene IP-Lokalisierungstechniken entwickelt worden, die auf netztopologischen
Kriterien basieren, z. B. auf der Laufzeit
von IP-Paketen oder den zwischen zwei
Endpunkten befindlichen Routern [7, 8].
Diese werden hier aus systematischen
Gründen nicht betrachtet, da keine vollständige oder wenigstens ausreichend große Stichprobe auf Basis solcher Techniken
verfügbar war.
3 Lokalisierung von
anonymisierten IP-Adressen
Dieser Beitrag widmet sich der Frage, ob
und wie sich anonymisierte IP-Adressen
lokalisieren lassen. Insbesondere ist von
Interesse, welcher Anonymisierungsgrad,
d. h. welche Adresskürzung zu welchem
Fehler bei der Lokalisierung führt. Da der
konkrete Lokalisierungsfehler stark von
der jeweiligen einzelnen Adresse abhängig
ist, stehen hierbei Aussagen statistischer
Natur im Vordergrund.
Den Zusammenhang zwischen Lokalisierung und Anonymisierung zeigt Abb.
4: Der IP-Adressraum wird durch eine
Adresskürzung um b Bits in Anonymisierungsblöcke Ai der Länge 2b eingeteilt.
Alle Adressen innerhalb eines solchen
Befinden sich in einem Anonymisierungsblock mehrere Adressintervalle, die auf
mehrere (unterschiedliche) Orte abgebildet werden, muss bei einer Lokalisierung
der entsprechenden anonymisierten Adressen einer dieser Orte ausgewählt werden. Für eine Adresse, die einem anderen
als dem ausgewählten Ort zugeordnet ist,
ergibt sich dann ein Lokalisierungsfehler.
Wird für die Adressen in An etwa O1 als
Ort gewählt, werden die Adressen in I 2
fehlerhaft lokalisiert; das Maß des Fehlers
jeder einzelnen Adresse ergibt sich aus der
geografischen Distanz zwischen O1 und
O2 .
Die Auswahl einer geeigneten Lokalität
aus den verschiedenen Lokalitäten innerhalb eines Anonymisierungsblocks sollte
daher einer Optimierungsstrategie im
Sinne einer Fehlerminimierung folgen. Im
Rahmen dieser Untersuchung werden
zwei verschiedene Varianten betrachtet:
 Geringstmöglicher Gesamtfehler
Es wird die Lokalität ausgewählt, bei der
der Gesamtlokalisierungsfehler minimal ist. Dieser wird berechnet aus der
Summe der Lokalisierungsfehler aller
IP-Adressen innerhalb des Anonymisierungsblocks.
 Größtmögliche Übereinstimmung
Es wird die Lokalität ausgewählt, der die
meisten IP-Adressen innerhalb des Anonymisierungsblocks zugewiesen sind.
Auf diese Weise wird für möglichst viele Adressen ein Lokalisierungsfehler
von Null erreicht.
Sind nur zwei verschiedene Orte O1,O2 in
einem Anonymisierungsblock vorhanden,
liefern beide Optimierungen das gleiche
Ergebnis (da die Distanz zwischen O1 und
O2 identisch ist mit der Distanz zwischen
O2 und O1 ), für Blöcke mit mehreren Or-
DuD • Datenschutz und Datensicherheit
12 | 2009
AUFSÄTZE
ten können die Ergebnisse jedoch voneinander abweichen.
Allerdings zeigte sich, dass die Unterschiede der beiden Optimierungen bei den
hier betrachteten Daten sehr gering sind.
Im Rahmen der hier getroffenen Aussagen
können sie daher als gleichwertig angesehen werden.
Abb. 5 | Einortblöcke für verschiedene Anbieter
4 Untersuchte
Lokalisierungsdienste
Die Auswirkungen einer IP-Adresskürzung soll an real genutzten Lokalisierungsdiensten untersucht werden. Die
verwendeten Dienste sind im folgenden
aufgeführt. Für deren Auswahl wurden
folgende Kriterien verwendet:
 Die Lokalisierungsdaten sind frei verfügbar
 Die Daten enthalten ausreichende geografische Informationen (Land, Längen- und Breitengrad)
 Die Daten sind ausreichend aktuell und
damit vergleichbar
Abb. 6 | Ausschnitt aus Abb. 5
4.1 hostip.info
Bei hostip.info [9] handelt es sich um ein
frei organisiertes Projekt, bei dem durch
Meldungen der Nutzer eine Lokalisierungs-Datenbank aufgebaut und gepflegt
wird. Dabei werden allerdings nur die 24
höchstwertigen Bits der Adresse berücksichtigt, so dass alle Lokalisierungsintervalle 256 Adressen umfassen. Daher sind
diese Daten hier nur für Adresskürzungen
von mehr als 8 Bits von Interesse.
4.2 IP2Location
Der Anbieter IP2Location [10] stellt einen
kommerziellen IP-Geolokali sierungsdienst zur Verfügung, bietet für Demonstrationszwecke jedoch auch Auszüge aus
den Daten zur freien Verfügung an. Diese
Auszüge umfassen den Adressbereich
0.0.0.0 bis 99.255.255.255, d. h. knapp 40%
des gesamten Adressraums.
fügbaren IP-Geolokalisierung unter einer
„Open Data License“ zur freien Verfügung. Diese Daten ermöglichen die Ermittlung des Landes und des geografischen Orts für den gesamten IP-Adressraum.
4.4 IPInfoDB
Dieses Angebot [12] stellt verschiedene
Lokalisierungstabellen zur freien Verfügung. Sie basieren wesentlich auf den Daten von Maxmind und lassen daher ähnliche Ergebnisse erwarten.
4.3 Maxmind
5 Ergebnisse
Die Firma Maxmind [11] stellt eine eingeschränkte3 Version ihrer kommerziell ver-
Die für den Zeitraum September 2009 verfügbaren Daten der verschiedenen Anbieter wurden zunächst in ein einheitliches
Format überführt, in dem die einzelnen
3 Die Einschränkung betrifft im Wesentlichen die
Genauigkeit der Lokalisierung. So werden nach Angaben von Maxmind bei der freien Version z. B. 71%
aller IP-Adressen in Deutschland korrekt inner-halb
eines 40-km-Radius lokalisiert; bei der kommer-ziel-
DuD • Datenschutz und Datensicherheit
len Version gelingt dies bei 76% (Stand Oktober
2009).
12 | 2009
Lokalisierungsblöcke mit ihrer Anfangsund Endadresse sowie den zugehörigen
Ortsangaben (Land, Stadt, Längen- und
Breitengrad) zusammengefasst sind.
Anschließend wurde durch eine Reihe
von Perl-Skripten ermittelt, wie sich die
Ortsbestimmung bei unterschiedlichen
Adresskürzungen verhält. Ziel war es, statistische Aussagen über die gesamte Adressmenge zu erzielen. Als Verfeinerung
wurde teilweise auf die Adressen fokussiert, die sich in Deutschland befinden.
5.1 Ortsmengen
Die vorhandenen Daten wurden zunächst
daraufhin untersucht, wie häufig sich bei
unterschiedlichen Adresskürzungen genau einer oder mehr als ein Ort in den so
entstehenden Anonymisierungsblocks befindet. Werden alle Adressen eines Anonymisierungsblocks demselben Ort zugeordnet, führt die Anonymisierung zu keiner Fehllokalisierung. Abb. 5 und 6 zeigen
dies für die verschiedenen Anbieter. Dabei
749
AUFSÄTZE
Abb. 7 | Einortblöcke bezogen auf Deutschland
Betrachtet man die Situation für
Deutschland, d. h. nur diejenigen Anonymisierungsblöcke, in denen in Deutschland lokalisierte Adressen vorhanden
sind, zeigt sich ein insgesamt flacherer
Verlauf. Bei gleicher Adresskürzung ist
der Anteil der Blöcke, in denen nur ein Ort
vorhanden ist, vergleichsweise höher als
bei Betrachtung aller IP-Adressen weltweit (Abb. 7). Die Acht-Bit-Grenze ist hier
ebenfalls deutlich erkennbar.
5.2 Ortsfehler
Befinden sich in einem Anonymisierungsblock mehrere Orte, ist zusätzlich interessant, welches Maß an Fehllokalisierung
sich durch die Anonymisierung ergibt.
Die Adresskürzung kann dadurch direkt
mit Kilometerdistanzen in Verbindung
gebracht werden, um die eine anonymisierte IP-Adresse ungenauer verortet wird
als die vollständige.
Abb. 8 zeigt die durchschnittliche Kilometerabweichung pro IP-Adresse. Diese
wird berechnet als,
Abb. 8 | Fehllokalisierung verschiedener Anbieter
N
N −1 ∗ ∑ err (An , b)
n =1
Abb. 9 | Fehllokalisierung bezogen auf Deutschland
zeigt sich zum einen, dass die Verläufe relativ ähnlich sind,4 was dafür spricht, dass
es sich um eine grundsätzliche Eigenschaft der Verteilung von IP-Adressen
4 Lediglich die hostip.info-Kurve nimmt einen
etwas anderen Verlauf, indem sie – bedingt durch
die Berücksichtigung nur der 24 höchstwertigen
Bits – bis zur Kürzung um acht Bits konstant ist.
750
handelt, nicht nur der Datenbasis eines
einzelnen Anbieters. Zum anderen lässt
sich erkennen, dass die Adresskürzung
von acht Bits eine deutliche Grenze bildet:
verlaufen die Kurven bis dahin recht flach,
fallen sie anschließend vergleichsweise
steil ab.
wobei N die Anzahl der lokalisierbaren IPAdressen und err (An , b) die Distanz des
durch Kürzung um b Bits ermittelten
Orts der Adresse An von ihrem wahren
Ort ist.
Wie oben zeigt sich ein deutlicher
Sprung jenseits der Kürzung um acht Bits.
Bis zu dieser Grenze bleibt der durchschnittliche Fehler auch für den schlechtesten Anbieter bei unter zehn Kilometern. Begrenzt auf die Situation in
Deutschland ist der Genauigkeitsverlust
nochmals geringer und liegt bei einer Kürzung um maximal acht Bit bei unter vier
Kilometern (Abb. 9).
Betrachtet man die Adresskürzung um
acht Bits genauer und analysiert den Anteil der IP-Adressen, deren Fehllokalisierung sich oberhalb eines bestimmten
Werts befindet, ergibt sich Abb. 10. Dabei
zeigt sich, dass – je nach Anbieter – die
Entfernung, innerhalb derer 99% aller Adressen lokalisiert werden, zwischen 0 und
16 Kilometer liegt. Der in diesem Sinne
beste Anbieter lokalisiert 99,2% aller Adressen in einem Fehlerkreis von lediglich
sieben Kilometern; nur 0,8% aller Adressen liegen außerhalb dieses Gebiets.
Soll die Geolokalisierung ausschließlich
dazu verwendet werden, das Land zu ermitteln, aus dem heraus ein Nutzer auf ein
DuD • Datenschutz und Datensicherheit
12 | 2009
AUFSÄTZE
Angebot zugreift, reduziert sich die Fehlerquote weiter, so dass auch stärkere Adresskürzungen möglich werden. Abb. 11
zeigt den Anteil der IP-Adressen, die bei
verschiedenen Kürzungen zu einer Fehlzuordnung des Landes führen (d. h. die
ungekürzte Adresse wird in Land A, die
gekürzte jedoch in Land B lokalisiert).
Während bei einer Kürzung um acht Bit
der Anteil der Adressen mit falsch zugeordnetem Land im Promillebereich liegt,
steigt er bis sechzehn Bit auf knapp vier
Prozent. Erst anschließend erfolgt ein steilerer Anstieg.
6 Fazit
Der Konflikt zwischen dem Anspruch des
Nutzers eines Internetangebots an den
Schutz seiner personenbezogenen Daten
und dem Interesse des Anbieters an einer
Auswertung der Nutzungsdaten erweist
sich für den Aspekt der Geolokalisierung
als lösbar. Erfolgt statt einer Komplettlöschung der Adressen deren Kürzung, lassen sich beide Aspekte in ein ausgewogenes Verhältnis bringen. Dabei ist eine Kürzung um die acht niedrigstwertigen Bits
optimal, da die so gekürzten Adressen einerseits als ausreichend anonymisiert angesehen werden können und andererseits
die Geolokalisierung ohne einen unverhältnismäßig großen Qualitätsverlust weiterhin möglich ist. Kommt es bei der Lokalisierung nur auf das Land des Nutzers
an, führt auch eine stärkere Kürzung um
bis zu sechzehn Bits noch zu hinnehmbaren Genauigkeitsverlusten.
Quellen
[1] Hoeren, Thomas: Zoning und Geolocation –
Technische Ansätze zu einer Reterritorialisierung des Internet. In: MMR, 10. Jahrgang
(2007), Heft 1, S. 3 – 7, http://www.uni-muenster.de/Jura.itm/hoeren/INHALTE/publikationen/MMR2007_3.pdf
[2] Internet Protocol, RFC 791, Sept. 1981
DuD • Datenschutz und Datensicherheit
Abb. 10 | Falsch lokalisierte Adressen bei acht Bit Kürzung
Abb. 11 | Falsch zugeordnete Länder
[3] ARTICLE 29 DATA PROTECTION WORKING
PARTY: Opinion 4/2007 on the concept of
personal data, 2007, http://ec.europa.eu/justice_home/fsj/privacy/docs/wpdocs/2007/
wp136_en.pdf
[4] ARTICLE 29 DATA PROTECTION WORKING
PARTY: Opinion on data protection issues related to search engines, 2008, http://ec.europa.eu/justice_home/fsj/privacy/docs/wpdocs/2008/wp148_en.pdf
[5] Meyerdierks, Per: Sind IP-Adressen personenbezogene Daten? In: MMR, 12. Jahrgang
(2009), Heft 1, S. 8 – 14
[6] IP-Adressen-Recht, http://www.ip-adressenrecht.de/
12 | 2009
[7] Katz-Bassett, Ethan et al.: Towards IP Geolocation Using Delay and Topology Measurements. In: Proceeding of AMC IMC 2006,
http://www.cs.washington.edu/homes/arvind/papers/geoloc.pdf
[8] Laki, Sándor et al.: A Detailed Path-latency
Model for Router Geolocation. In: 5th International Conference on Testbeds and Research
Infrastructures for the Development of Networks & Communities and Workshops, 2009,
http://www.etomic.org/publications/geoloc.
pdf
[9] http://www.hostip.info/
[10] http://www.ip2location.com/default.aspx
[11] http://www.maxmind.com/
[12] http://www.ipinfodb.com/index.php
751