Geolokalisierung mit anonymisierten IP-Adressen
Transcription
Geolokalisierung mit anonymisierten IP-Adressen
AUFSÄTZE Ulrich Kühn Geolokalisierung mit anonymisierten IP-Adressen Muss für die Bestimmung des geografischen Orts einer IP-Adresse diese vollständig vorliegen? Welcher Verlust an Genauigkeit ist zu erwarten, wenn IP-Adressen zwecks Anonymisierung gekürzt werden? Auf Grundlage der Daten verschiedener Anbieter von Lokalisierungsdiensten geht der folgende Beitrag diesen Fragen empirisch nach. 1 Einleitung Die geografische Lokalisierung von Internet-Nutzern ist ein wichtiges Instrument zur Analyse und Steuerung von OnlineAngeboten. Anwendungsbeispiele dieser Technologie sind: Schaltung national oder regional differenzierter Werbung, landes- und sprachspezifische Gestaltung von Angeboten, Ausschluss von Nutzern aufgrund nationalrechtlicher Restriktionen1 sowie die Auswertung der Nutzerströme nach örtlichen Kriterien. Bei der Lokalisierung von Internet-Nutzern handelt es sich allerdings um ein nichttriviales Problem, da im Rahmen der zugrundeliegenden Netztechnologie (anders etwa als bei der Telefonie) keine Ortsinformationen verarbeitet werden oder anfallen. Eine wesentliche2 Grundlage der Ortsbestimmung eines Nutzers stellt dessen IP-Adresse dar, die daher häufig längerfristig – und damit datenschutzrechtlich problematisch – gespeichert wird. 2 Hintergrund 2.1 IP-Adressen Gegenstand der Betrachtungen dieses Artikels sind Adressen des Internet Protocols (IP) in der Version 4 [2]. Bei diesen handelt es sich um 32-Bit-Zahlen mit einem Wert zwischen 0 und 2 32 – 1 = 4.294.967.295. Für deren Notation hat sich jedoch nicht die Ganzzahlform, sondern eine Gruppierung in 8-Bit-Teilen etabliert, z.B. „192.168.1.200“ (siehe Abb. 1). Konzeptionell sind jedoch beide Formen äquivalent und eindeutig ineinander umrechenbar. Abb. 1 | IP-Adresse Ulrich Kühn Mitarbeiter beim Hamburgischen Beauftragten für Datenschutz und Informationsfreiheit, Referat 2 Technikangelegenheiten E-Mail: Ulrich.Kuehn@datenschutz. hamburg.de 2.2 Personenbezug von IP-Adressen 1 Ob die IP-Lokalisierung ein ausreichend wirksames Instrument ist, um erfolgreich Rechtsfolgen daran zu knüpfen, wird seit geraumer Zeit stark diskutiert, siehe etwa [1]. 2 Zusätzlich können weitere Kriterien einfließen, z. B. die landessprachliche Version des InternetBrowsers oder HTTP-Kopfzeilen wie etwa „Accept-Language“. DuD • Datenschutz und Datensicherheit Die Frage, ob IP-Adressen einen Personenbezug aufweisen, soll im Rahmen dieses Artikels nicht erörtert werden. Dass es sich um personenbezogene Daten im Sinne des Datenschutzrechts handelt, wird hier vereinfachend als gegeben angenommen. Auf die diesbezügliche streitige Diskussion wird insofern lediglich verwiesen (exemplarisch [3, 4, 5], für einen Überblick z. B. [6]). 12 | 2009 2.3 Anonymisierung von IP-Adressen Unter der Voraussetzung des Personenbezugs fallen IP-Adressen unter die Bestimmungen des Telemediengesetzes (TMG), das eine Verwendung von Nutzungsdaten über das Ende der Nutzung hinaus nur für Zwecke der Abrechnung vorsieht (§ 15 Abs. 4). Umstritten ist bereits die Frage, ob die IP-Adresse zur Bildung von Pseudonymen für Zwecke der Werbung, der Marktforschung oder zur bedarfsgerechten Gestaltung des Dienstes nach § 15 Abs. 3 TMG verwendet werden darf. Eine dauerhafte oder längerfristige Speicherung der IP-Adressen der Nutzer ist hiermit in der Regel jedenfalls nicht vereinbar. Neben dem vollständigen Nutzungsverzicht wäre eine Verwendung von IP-Adressen allerdings auch dann rechtskonform möglich, wenn ihr Personenbezug unwiderruflich entfernt würde. Für eine solche Anonymisierung hat sich analog zu dem Instrument der Rufnummernkürzung im Telekommunikationsbereich (Einzelverbindungsnachweis nach § 99 Telekommunikationsgesetz) eine IP-Adresskürzung etabliert. Dabei werden, ausgehend vom niedrigstwertigen Bit, Teile der Adresse gelöscht bzw. auf Null gesetzt (Abb. 2). Abb. 2 | Gekürzte IP-Adressen Während das TKG eine Kürzung um drei Stellen vorsieht, gehen die Auffassungen, welches Maß an Kürzung für eine Ano747 AUFSÄTZE nymisierung von IP-Adressen ausreichend ist, auseinander. Klar ist, dass ein größeres Maß an Kürzung auch ein Mehr an Anonymität bringt (wobei es sich bei diesem Begriff allerdings strenggenommen nicht um einen graduellen, sondern einen absoluten Wert handelt). Andererseits geht mit jedem gelöschten Bit auch mehr Information verloren, die für statistische Auswertungen oder andere zulässige Zwecke gebraucht werden könnte. Bei der IP-Adresskürzung handelt es sich daher um einen klassischen Zielkonflikt und damit eine mögliche Kompromiss-Situation. 2.4 Lokalisierung von IP-Adressen IP-Adressen können nicht nach Belieben verwendet werden, sondern werden ähnlich wie Telefonnummern von Anbietern (Providern) an die Internetnutzer vergeben. Im Unterschied zur Telefonnummer wird die IP-Adresse jedoch nicht immer konstant, sondern in den meisten Fällen variabel aus einem festgelegten Bereich vergeben. Diese Bereiche werden den Anbietern von Regionalen Registrierungsstellen – in Europa RIPE NCC (Réseaux IP Européens Network Coordination Centre) – zugewiesen, denen diese Aufgabe wiederum von der IANA (Internet Assigned Numbers Authority) übertragen wurde. Durch diese Bindung einer IP-Adresse an einen Anbieter ist es in gewissem Rahmen möglich, ihr (und damit dem Nutzer) einen geografischen Ort zuzuweisen. Denn viele Anbieter sind nur in einem begrenzten örtlichen Bereich tätig, etwa in einer Stadt oder einer Region. Aber auch überregional tätige Anbieter verteilen ihre Adressen häufig nach geografischen Kriterien, so dass auch Adressen größerer Anbieter relativ genau verortet werden können. Eine solche IP-Geolokalisierung wird von einer Reihe von Dienstleistern als Webservice oder zur lokalen Nutzung angeboten. Diese Dienste basieren auf einer tabellarischen Zuordnung von Adressbereichen zu geografischen Orten, so dass zu einer bestimmten IP-Adresse lediglich der entsprechende Adressbereich in der Tabelle aufgefunden werden muss. Da die Adresszuordnung durch die Regionalen Registrierungsstellen einem gewissen Wandel im Rahmen des Marktgeschehens unterliegt, müssen diese Tabellen entsprechend aktualisiert werden; dies wird durch die Dienstleister sichergestellt. 748 Diese Art der IP-Geolokalisierung ist beispielhaft in Abb. 3 dargestellt. Dabei bezeichnet IPn eine IP-Adresse, I i ein Lokalisierungsintervall [IPa , IPb ] und Oi den diesem Intervall zugeordneten geografischen Ort (z. B. ein Land, eine Stadt und/ oder ein Längen- und Breitengrad). Abb. 3 | Lokalisierungsintervalle Blocks Ai werden durch die Anonymisierung auf die gleiche Adresse i * 2b abgebildet. In die Anonymisierungsblöcke Ai fallen ggf. unterschiedliche Lokalisierungsintervalle I j mit verschiedenen Orten Ok . Für Anonymisierungsblock An etwa sind die Intervalle I 1, I 2, I 3 sowie die Orte O1,O2 relevant. Abb. 4: Lokalisierung und Anonymisierung In dem in Abb. 3 gezeigten Beispiel sind alle Adressen A ∈ [IP1, IP2 ] ∪ [IP4 , IP5 ] dem Ort O1 zugeordnet, alle Adressen A ∈ [IP2 + 1, IP2 ] dem Ort O2 etc. Die Intervalle sind überlappungsfrei, decken jedoch nicht den gesamten Adressraum ab. Verschiedene Intervalle können auf den gleichen Ort verweisen, da sie z. B. demselben Adressinhaber zugeordnet werden oder zwei verschiedenen Anbietern am selben Ort. Neben dieser Provider-basierten Lokalisierung von IP-Adressen sind verschiedene IP-Lokalisierungstechniken entwickelt worden, die auf netztopologischen Kriterien basieren, z. B. auf der Laufzeit von IP-Paketen oder den zwischen zwei Endpunkten befindlichen Routern [7, 8]. Diese werden hier aus systematischen Gründen nicht betrachtet, da keine vollständige oder wenigstens ausreichend große Stichprobe auf Basis solcher Techniken verfügbar war. 3 Lokalisierung von anonymisierten IP-Adressen Dieser Beitrag widmet sich der Frage, ob und wie sich anonymisierte IP-Adressen lokalisieren lassen. Insbesondere ist von Interesse, welcher Anonymisierungsgrad, d. h. welche Adresskürzung zu welchem Fehler bei der Lokalisierung führt. Da der konkrete Lokalisierungsfehler stark von der jeweiligen einzelnen Adresse abhängig ist, stehen hierbei Aussagen statistischer Natur im Vordergrund. Den Zusammenhang zwischen Lokalisierung und Anonymisierung zeigt Abb. 4: Der IP-Adressraum wird durch eine Adresskürzung um b Bits in Anonymisierungsblöcke Ai der Länge 2b eingeteilt. Alle Adressen innerhalb eines solchen Befinden sich in einem Anonymisierungsblock mehrere Adressintervalle, die auf mehrere (unterschiedliche) Orte abgebildet werden, muss bei einer Lokalisierung der entsprechenden anonymisierten Adressen einer dieser Orte ausgewählt werden. Für eine Adresse, die einem anderen als dem ausgewählten Ort zugeordnet ist, ergibt sich dann ein Lokalisierungsfehler. Wird für die Adressen in An etwa O1 als Ort gewählt, werden die Adressen in I 2 fehlerhaft lokalisiert; das Maß des Fehlers jeder einzelnen Adresse ergibt sich aus der geografischen Distanz zwischen O1 und O2 . Die Auswahl einer geeigneten Lokalität aus den verschiedenen Lokalitäten innerhalb eines Anonymisierungsblocks sollte daher einer Optimierungsstrategie im Sinne einer Fehlerminimierung folgen. Im Rahmen dieser Untersuchung werden zwei verschiedene Varianten betrachtet: Geringstmöglicher Gesamtfehler Es wird die Lokalität ausgewählt, bei der der Gesamtlokalisierungsfehler minimal ist. Dieser wird berechnet aus der Summe der Lokalisierungsfehler aller IP-Adressen innerhalb des Anonymisierungsblocks. Größtmögliche Übereinstimmung Es wird die Lokalität ausgewählt, der die meisten IP-Adressen innerhalb des Anonymisierungsblocks zugewiesen sind. Auf diese Weise wird für möglichst viele Adressen ein Lokalisierungsfehler von Null erreicht. Sind nur zwei verschiedene Orte O1,O2 in einem Anonymisierungsblock vorhanden, liefern beide Optimierungen das gleiche Ergebnis (da die Distanz zwischen O1 und O2 identisch ist mit der Distanz zwischen O2 und O1 ), für Blöcke mit mehreren Or- DuD • Datenschutz und Datensicherheit 12 | 2009 AUFSÄTZE ten können die Ergebnisse jedoch voneinander abweichen. Allerdings zeigte sich, dass die Unterschiede der beiden Optimierungen bei den hier betrachteten Daten sehr gering sind. Im Rahmen der hier getroffenen Aussagen können sie daher als gleichwertig angesehen werden. Abb. 5 | Einortblöcke für verschiedene Anbieter 4 Untersuchte Lokalisierungsdienste Die Auswirkungen einer IP-Adresskürzung soll an real genutzten Lokalisierungsdiensten untersucht werden. Die verwendeten Dienste sind im folgenden aufgeführt. Für deren Auswahl wurden folgende Kriterien verwendet: Die Lokalisierungsdaten sind frei verfügbar Die Daten enthalten ausreichende geografische Informationen (Land, Längen- und Breitengrad) Die Daten sind ausreichend aktuell und damit vergleichbar Abb. 6 | Ausschnitt aus Abb. 5 4.1 hostip.info Bei hostip.info [9] handelt es sich um ein frei organisiertes Projekt, bei dem durch Meldungen der Nutzer eine Lokalisierungs-Datenbank aufgebaut und gepflegt wird. Dabei werden allerdings nur die 24 höchstwertigen Bits der Adresse berücksichtigt, so dass alle Lokalisierungsintervalle 256 Adressen umfassen. Daher sind diese Daten hier nur für Adresskürzungen von mehr als 8 Bits von Interesse. 4.2 IP2Location Der Anbieter IP2Location [10] stellt einen kommerziellen IP-Geolokali sierungsdienst zur Verfügung, bietet für Demonstrationszwecke jedoch auch Auszüge aus den Daten zur freien Verfügung an. Diese Auszüge umfassen den Adressbereich 0.0.0.0 bis 99.255.255.255, d. h. knapp 40% des gesamten Adressraums. fügbaren IP-Geolokalisierung unter einer „Open Data License“ zur freien Verfügung. Diese Daten ermöglichen die Ermittlung des Landes und des geografischen Orts für den gesamten IP-Adressraum. 4.4 IPInfoDB Dieses Angebot [12] stellt verschiedene Lokalisierungstabellen zur freien Verfügung. Sie basieren wesentlich auf den Daten von Maxmind und lassen daher ähnliche Ergebnisse erwarten. 4.3 Maxmind 5 Ergebnisse Die Firma Maxmind [11] stellt eine eingeschränkte3 Version ihrer kommerziell ver- Die für den Zeitraum September 2009 verfügbaren Daten der verschiedenen Anbieter wurden zunächst in ein einheitliches Format überführt, in dem die einzelnen 3 Die Einschränkung betrifft im Wesentlichen die Genauigkeit der Lokalisierung. So werden nach Angaben von Maxmind bei der freien Version z. B. 71% aller IP-Adressen in Deutschland korrekt inner-halb eines 40-km-Radius lokalisiert; bei der kommer-ziel- DuD • Datenschutz und Datensicherheit len Version gelingt dies bei 76% (Stand Oktober 2009). 12 | 2009 Lokalisierungsblöcke mit ihrer Anfangsund Endadresse sowie den zugehörigen Ortsangaben (Land, Stadt, Längen- und Breitengrad) zusammengefasst sind. Anschließend wurde durch eine Reihe von Perl-Skripten ermittelt, wie sich die Ortsbestimmung bei unterschiedlichen Adresskürzungen verhält. Ziel war es, statistische Aussagen über die gesamte Adressmenge zu erzielen. Als Verfeinerung wurde teilweise auf die Adressen fokussiert, die sich in Deutschland befinden. 5.1 Ortsmengen Die vorhandenen Daten wurden zunächst daraufhin untersucht, wie häufig sich bei unterschiedlichen Adresskürzungen genau einer oder mehr als ein Ort in den so entstehenden Anonymisierungsblocks befindet. Werden alle Adressen eines Anonymisierungsblocks demselben Ort zugeordnet, führt die Anonymisierung zu keiner Fehllokalisierung. Abb. 5 und 6 zeigen dies für die verschiedenen Anbieter. Dabei 749 AUFSÄTZE Abb. 7 | Einortblöcke bezogen auf Deutschland Betrachtet man die Situation für Deutschland, d. h. nur diejenigen Anonymisierungsblöcke, in denen in Deutschland lokalisierte Adressen vorhanden sind, zeigt sich ein insgesamt flacherer Verlauf. Bei gleicher Adresskürzung ist der Anteil der Blöcke, in denen nur ein Ort vorhanden ist, vergleichsweise höher als bei Betrachtung aller IP-Adressen weltweit (Abb. 7). Die Acht-Bit-Grenze ist hier ebenfalls deutlich erkennbar. 5.2 Ortsfehler Befinden sich in einem Anonymisierungsblock mehrere Orte, ist zusätzlich interessant, welches Maß an Fehllokalisierung sich durch die Anonymisierung ergibt. Die Adresskürzung kann dadurch direkt mit Kilometerdistanzen in Verbindung gebracht werden, um die eine anonymisierte IP-Adresse ungenauer verortet wird als die vollständige. Abb. 8 zeigt die durchschnittliche Kilometerabweichung pro IP-Adresse. Diese wird berechnet als, Abb. 8 | Fehllokalisierung verschiedener Anbieter N N −1 ∗ ∑ err (An , b) n =1 Abb. 9 | Fehllokalisierung bezogen auf Deutschland zeigt sich zum einen, dass die Verläufe relativ ähnlich sind,4 was dafür spricht, dass es sich um eine grundsätzliche Eigenschaft der Verteilung von IP-Adressen 4 Lediglich die hostip.info-Kurve nimmt einen etwas anderen Verlauf, indem sie – bedingt durch die Berücksichtigung nur der 24 höchstwertigen Bits – bis zur Kürzung um acht Bits konstant ist. 750 handelt, nicht nur der Datenbasis eines einzelnen Anbieters. Zum anderen lässt sich erkennen, dass die Adresskürzung von acht Bits eine deutliche Grenze bildet: verlaufen die Kurven bis dahin recht flach, fallen sie anschließend vergleichsweise steil ab. wobei N die Anzahl der lokalisierbaren IPAdressen und err (An , b) die Distanz des durch Kürzung um b Bits ermittelten Orts der Adresse An von ihrem wahren Ort ist. Wie oben zeigt sich ein deutlicher Sprung jenseits der Kürzung um acht Bits. Bis zu dieser Grenze bleibt der durchschnittliche Fehler auch für den schlechtesten Anbieter bei unter zehn Kilometern. Begrenzt auf die Situation in Deutschland ist der Genauigkeitsverlust nochmals geringer und liegt bei einer Kürzung um maximal acht Bit bei unter vier Kilometern (Abb. 9). Betrachtet man die Adresskürzung um acht Bits genauer und analysiert den Anteil der IP-Adressen, deren Fehllokalisierung sich oberhalb eines bestimmten Werts befindet, ergibt sich Abb. 10. Dabei zeigt sich, dass – je nach Anbieter – die Entfernung, innerhalb derer 99% aller Adressen lokalisiert werden, zwischen 0 und 16 Kilometer liegt. Der in diesem Sinne beste Anbieter lokalisiert 99,2% aller Adressen in einem Fehlerkreis von lediglich sieben Kilometern; nur 0,8% aller Adressen liegen außerhalb dieses Gebiets. Soll die Geolokalisierung ausschließlich dazu verwendet werden, das Land zu ermitteln, aus dem heraus ein Nutzer auf ein DuD • Datenschutz und Datensicherheit 12 | 2009 AUFSÄTZE Angebot zugreift, reduziert sich die Fehlerquote weiter, so dass auch stärkere Adresskürzungen möglich werden. Abb. 11 zeigt den Anteil der IP-Adressen, die bei verschiedenen Kürzungen zu einer Fehlzuordnung des Landes führen (d. h. die ungekürzte Adresse wird in Land A, die gekürzte jedoch in Land B lokalisiert). Während bei einer Kürzung um acht Bit der Anteil der Adressen mit falsch zugeordnetem Land im Promillebereich liegt, steigt er bis sechzehn Bit auf knapp vier Prozent. Erst anschließend erfolgt ein steilerer Anstieg. 6 Fazit Der Konflikt zwischen dem Anspruch des Nutzers eines Internetangebots an den Schutz seiner personenbezogenen Daten und dem Interesse des Anbieters an einer Auswertung der Nutzungsdaten erweist sich für den Aspekt der Geolokalisierung als lösbar. Erfolgt statt einer Komplettlöschung der Adressen deren Kürzung, lassen sich beide Aspekte in ein ausgewogenes Verhältnis bringen. Dabei ist eine Kürzung um die acht niedrigstwertigen Bits optimal, da die so gekürzten Adressen einerseits als ausreichend anonymisiert angesehen werden können und andererseits die Geolokalisierung ohne einen unverhältnismäßig großen Qualitätsverlust weiterhin möglich ist. Kommt es bei der Lokalisierung nur auf das Land des Nutzers an, führt auch eine stärkere Kürzung um bis zu sechzehn Bits noch zu hinnehmbaren Genauigkeitsverlusten. Quellen [1] Hoeren, Thomas: Zoning und Geolocation – Technische Ansätze zu einer Reterritorialisierung des Internet. In: MMR, 10. Jahrgang (2007), Heft 1, S. 3 – 7, http://www.uni-muenster.de/Jura.itm/hoeren/INHALTE/publikationen/MMR2007_3.pdf [2] Internet Protocol, RFC 791, Sept. 1981 DuD • Datenschutz und Datensicherheit Abb. 10 | Falsch lokalisierte Adressen bei acht Bit Kürzung Abb. 11 | Falsch zugeordnete Länder [3] ARTICLE 29 DATA PROTECTION WORKING PARTY: Opinion 4/2007 on the concept of personal data, 2007, http://ec.europa.eu/justice_home/fsj/privacy/docs/wpdocs/2007/ wp136_en.pdf [4] ARTICLE 29 DATA PROTECTION WORKING PARTY: Opinion on data protection issues related to search engines, 2008, http://ec.europa.eu/justice_home/fsj/privacy/docs/wpdocs/2008/wp148_en.pdf [5] Meyerdierks, Per: Sind IP-Adressen personenbezogene Daten? In: MMR, 12. Jahrgang (2009), Heft 1, S. 8 – 14 [6] IP-Adressen-Recht, http://www.ip-adressenrecht.de/ 12 | 2009 [7] Katz-Bassett, Ethan et al.: Towards IP Geolocation Using Delay and Topology Measurements. In: Proceeding of AMC IMC 2006, http://www.cs.washington.edu/homes/arvind/papers/geoloc.pdf [8] Laki, Sándor et al.: A Detailed Path-latency Model for Router Geolocation. In: 5th International Conference on Testbeds and Research Infrastructures for the Development of Networks & Communities and Workshops, 2009, http://www.etomic.org/publications/geoloc. pdf [9] http://www.hostip.info/ [10] http://www.ip2location.com/default.aspx [11] http://www.maxmind.com/ [12] http://www.ipinfodb.com/index.php 751