k-Anonymität von GPS-Spuren mit Hilfe von DBSCAN

Transcription

Fachbereich Mathematik/Informatik
AG Datenbanksysteme
Bachelorarbeit
k-Anonymität von GPS-Spuren mit
Hilfe von DBSCAN und OPTICS
vorgelegt am: 17. Juli 2013
Autor:
Christian Windolf
[email protected]
Betreuer:
MSc. Sebastian Müller
[email protected]
Prüferin:
Prof. Dr. Agnès Voisard
Zweitprüfer:
Prof. Dr. Wolgang Mulzer
2
abstract
In this work will be evaluated, if the algorithms DBSCAN and OPTICS suit for
ensuring k-anonymity on GPS-traces. To evaluate these algorithms, a prototype was
created that tries to find clusters in GPS datasets, that can be aggregated in a way, that
it preserves as much as possible from the original data. Because a trace usually does not
go along closely with another trace over the whole length, the prototype splits them at
crossroads. The crossroads are found by the assumption, that the density rises locally
at crossroads and can be found by OPTICS. After splitting the tracks into segments,
DBSCAN is used to detect clusters on them. Finally, these cluster will be aggregated.
Zusammenfassung
In dieser Arbeit wird untersucht, wie gut die Cluster-Algorithmen DBSCAN und OPTICS geeignet sind, um k-Anonymität auf GPS-Spuren zu ermöglichen. Um dies zu
evaluieren, wurde ein Prototyp geschrieben, der versucht, Cluster in GPS-Datensätzen
zu finden, die so aggregiert werden können, dass möglichst viele Informationen über den
ursprünglichen Datensatz erhalten bleiben. Allerdings verlaufen Spuren normalerweise
nicht die ganze Zeit nebeneinander, sondern nur partiell. Um dieses Problem zu umgehen, werden die Spuren an Kreuzungen in Segment zerlegt. Die Kreuzungen werden
anhand der Annahme ermittelt, dass die Punktdichte in ihrer Nähe lokal ansteigt und
OPTICS geeignet ist, diese zu finden. Nachdem diese zerlegt worden sind, wird DBSCAN
eingesetzt, um Cluster zu erkennen, die schlussendlich aggregiert werden können.
Inhaltsverzeichnis
1. Einleitung
1.1. Aufgabenstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Verwandte Arbeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. Grundlagen
2.1. k-Anonymität . . . . . . . . . . . . .
2.2. Clusteranalyse . . . . . . . . . . . . .
2.2.1. DBSCAN . . . . . . . . . . .
2.2.2. OPTICS . . . . . . . . . . . .
2.3. Distanzfunktionen . . . . . . . . . . .
2.3.1. Fréchet-Distanz . . . . . . . .
2.3.2. Hausdorff-Distanz . . . . . . .
2.4. Unterstützende Funktionen . . . . . .
2.4.1. UTM-Projektion . . . . . . .
2.4.2. RBaum . . . . . . . . . . . .
2.4.3. Ramer-Douglas-Peucker-Filter
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
6
7
.
.
.
.
.
.
.
.
.
.
.
8
8
9
9
11
13
14
16
17
17
18
19
3. Design
3.1. Kreuzungserkennung . . . .
3.1.1. OPTICS . . . . . . .
3.1.2. Clusterextraktion .
3.1.3. Schwankungsanalyse
3.2. Aggregierung . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
22
25
28
28
4. Implementierung
4.1. Eingabe . . . . . . .
4.2. Bereinigung . . . . .
4.3. Karte . . . . . . . . .
4.4. Algorithmen . . . . .
4.5. Kreuzungserkennung
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
30
30
31
32
32
33
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5. Evaluation
36
5.1. Kreuzungserkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4
5.1.1. Optische Evaluation .
5.1.2. Statistische Evaluation
5.2. Aggregierung . . . . . . . . .
5.2.1. Optische Evaluation .
5.2.2. Statistische Evaluation
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
36
40
42
42
45
6. Fazit & Ausblick
47
6.1. Kreuzungserkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6.2. Aggregierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
6.3. Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7. Literaturverzeichnis
50
A. Verwendete Bibliotheken
53
B. CD-Inhalt
54
5
1 | Einleitung
Die Hürden, große Mengen an Bewegungsdaten über einzelne Personen zu sammeln,
sind in den vergangenen fünf Jahren deutlich gesunken. Durch die wachsende Verbreitung von Smartphones[Gar13] steigt automatisch auch die Verbreitung con GPSSensoren. (Im iPhone[App12] sind sie enthalten; Google empfiehlt für Android, das laut
Gartner[Gar13] beliebteste Betriebssystem für Smartphones ist, dass ein GPS-Sensor
eingebaut ist.[Goo13, Abschnitt 7.3.3]). Dadurch ergeben sich beispielsweise für Sozialwissenschaften neue Möglichkeiten, Bewegungsdaten kostengünstig zu sammeln, da
Teilnehmer einer Studie nur überredet werden müssen, Messungen auf ihrem Telefon
zuzulassen, anstatt ihnen einen GPS-Empfänger zur Verfügung zu stellen.[ROE09] Für
die Veröffentlichung der in einer Studie gesammelten Daten gibt es dann auch mehrere
Gründe: Zum einen erfordern wissenschaftliche Standarts, dass die Schlussfolgerungen
in den Arbeiten nachvollziehbar sein sollen. Zum anderen erleichtert die Veröffentlichung
anderen Forschungsgruppen, Ausgangsdatensätze für ihre Arbeiten zu erstellen.
1.1
|
Aufgabenstellung
In dieser Arbeit wird untersucht, in wie weit sich die Algorithmen DBSCAN und OPTICS eignen, um k-Anonymität auf GPS-Spuren sicher zu stellen, so dass die Daten
problemlos weiter gegeben werden können. Die Funktionsweise der verwendeten Algorithmen wird in den Abschnitten 2.2.1 und 2.2.2 sowie zusätzliche Distanzfunktionen
(2.3) und andere Werkzeuge (2.4) erläutert. In Kapitel 3 wird erläutert, wie diese Verfahren bei der Aggregation verwendet werden solllen. Die konkrete Implementierung
wird in 5 erläutert und die Ergebnisse werden in Kapitel 5 diskutiert.
1.2
|
Motivation
Neben Forschungsprojekten gibt es auch Benutzergruppen, die Daten für ein bestimmtes
Projekt sammeln. Ein Beispiel dafür ist das OpenStreetMap-Projekt, dessen Ziel es ist,
eine frei verfügbare Karte zu erstellen. Werden diese Datensätze veröffentlicht, reicht
es allerdings nicht, die Namen der Personen aus dem Datensatz zu entfernen. Philippe
Golle und Kurt Partige ermittelten in ihrer Studie [PG09], dass eine Reindentifizierung
möglich ist, sobald einem Angreifer Wohnort und Arbeitsplatz bekannt ist. Auch hilft es
wenig, wenn man die Enden an Straßenblöcken „abschneidet“. Golle und Partige zeigten,
6
dass danach immer noch eine Wahrscheinlichkeit von 10% besteht, dass die Spuren noch
ihrem Besitzer zugeordnet werden können.
Bei dieser Arbeit wird davon ausgegangen, dass einem Angreifer A ein k − anonymer
Datensatz aus Bewegungsdaten DSk−anonym zur Verfügung steht. A weiß, dass die Person P , über die A mehr wissen will, in DSk−anonym enthalten ist. A besitzt zudem
auch noch weitere Bewegungsinformationen DScache über P , über die man jedoch keine konkreten Annahmen machen kann, da die möglichen Quellen vielfältig sind. A und
P könnten sich möglicherweise begegnet sein, was A einen Ort und einen Zeitstempel
liefert.
Es ist wünschenswert, dass DSk−anonym es nicht zulässt, dass A dem Datensatz
DScache keine weiteren Informationen hinzufügen kann und gleichzeitig weiterhin statistische Auswertungen von DSk−anonym noch möglich sind. Um diese Anonymisierung
zu gewährleisten, werden die Spuren aggregiert, das heißt. es werden mehrere Spuren zu
einer Spur zusammen gefasst. Eine aggregierte Spur setzt sich dann aus mindestens k
Einzelspuren zusammen, um k-Anonymität zu gewährleisten.
1.3
|
Verwandte Arbeiten
Das Aggregieren von GPS-Spuren hat in den vergangenen Jahren deutlich an Bedeutung
gewonnen. Das hängt verständlicherweise damit zusammen, dass auch die Menge der
verfügbaren Daten deutlich angestiegen ist und dies nicht nur aus datenschutz-rechtlicher
Sicht Probleme aufwirft.
Johannes Mitlmeier [Mit12] beschäftigte sich ebenfalls mit diesem Thema. Er setzte
jedoch keine Clustering-Algorithmen ein, sondern lief entlang einer Spur und suchte währenddessen passende weitere Spuren. Beim Aggregieren wird dann berücksichtigt, dass
eine Spur bereits ein Aggregat sein kann und deshalb „schwerer“ sein kann. Als mögliche
zusätzlich Motivation für die Aggregierung von GPS-Daten nennt er die Komprimierung
iner sehr großen Datenmenge. Diese Arbeit baut dabei auf Ideen aus [MV12] auf.
Einen ähnlichen Ansatz wie Mitlmeier haben bereits Zhang und Sester [ZS10] geschildert, die allerdings nicht aggregierte Spuren nahmen und diese mit Einzelspuren
veränderten, sondern Kartendaten nahmen und diese mit GPS-Spuren aktualisierten.
Cao und Krumm [CK09] stellen hingegen einen Ansatz vor, bei dem sie Anziehungskräfte zwischen den Spuren simulieren. Dies diente vor allem dem Zweck, Messungenauigkeiten von GPS auszugleichen, wäre jedoch auch für eine Aggregation ein interessanter
Ansatz.
Könnecke [Kö13] nutzt in seiner Bachelorarbeit ebenfalls ein Verfahren zur Clusteranalye, allerdings k-means. Das Verfahren, um die gefundenen Cluster zu aggregieren, ist
dem Verfahren, das hier in dieser Arbeit vorgestellt wird, sehr ähnlich. Daher unterscheiden sich diese Arbeiten hauptsächlich durch die Verwendung der Clusteralgorithmen.
Franz Gatzke beschäftigte sich ebenfalls mit dem Thema k-Anonymität. Er evaluierte
dabei gleich vier verschiedene, wenn auch einfachere Algorithmen zur Aggregation.[Gat12]
7
2 | Grundlagen
In diesem Kapitel werden die wichtigsten Begriffe erläutert. In Abschnitt 2.1 wird erläutert, was die in 2.2 vorgestellten Algorithmen erreichen sollen. Darauf folgend werden
in Abschnitt 2.3 Distanzfunktionen erläutert, die diese Algorithmen verwenden können. Der letzte Abschnit 2.4 widmet sich einerseits der UTM -Projektion (2.4.1), die die
Implementierung der Algorithmen erleichtert und stellt den RBaum (2.4.2) vor - eine
Datenstruktur, die eine Beschleunigung der Laufzeit ermöglicht. Als letztes wird der
RDP-Filter vorgestellt (2.4.3).
2.1
|
k-Anonymität
Der Begriff k-Anonymität wurde von Latanya Sweeney eingeführt.[Swe02] Sie beschrieb
anhand von Datensätzen aus Krankenhäusern die entstandenen Datenschutzprobleme.
Krankenhäuser veröffentlichen Daten darüber, welche Fälle sie behandelt haben. Zusätzlich veröffentlich sie Postleitzahl, Geschlecht und Geburtsdatum der Patienten. Die
Namen wurden hingegen entfernt. Sweeney zeigte, dass es trotzdem möglich ist, die
eigentlichen Patienten zu reidentifizieren. Die Kombination aus den drei genannten Attributen macht dies bei 87% aller US-Bürger möglich. Daher wurde von ihr der Begriff
quasi-Identifizierer eingeführt. Quasi-Identifizierer sind Attribute, die auch in anderen
Datenquellen auftauchen können und dadurch die Identifizierung doch noch ermöglichen, obwohl die Daten auf den ersten Blick kaum den Eindruck erwecken, eine ganz
bestimmte Person zu beschreiben. Sensible Attribute sind wiederrum die Attribute, bei
denen nicht gewollt ist, dass sie einer bestimmten Person zugeordnet werden können.
Beispielsweise die Diagnose über eine bestimmte Krankheit.
Mit Hilfe des ebenfalls öffentlich zugänglichen Wöhlerregisters konnten die Behandlungen (also die sensiblen Attribute) den Personen zugeordnet werden, obwohl im Ausgangsdatensatz nur Quasi-Identifizierer vorhanden waren. Daher können solche Datensätze nicht als anonym betrachtet werden.
Definition 1 (k-Anonymität) Ein Datensatz ist dann k-anonym, wenn die Informationen für jede Person nicht von denen von mindestens k − 1 anderen Individuen im Datensatz unterscheidbar sind.1
8
k-Anonymität auf GPS-Spuren sicher zu stellen ist auch eine Frage, wie es interpretiert werden soll. Man kann den Datensatz nicht in sensible und quasi-identifizierende
Attribute unterteilen. Jeder Teil einer Spur kann quasi-identifizierend sein, weil A für
diesen bestimmten Ort bereits Informationen über P hat. Und umgekehrt kann jede
Stelle die sensible Information sein, an der A wirklich interessiert ist.
2.2
|
Clusteranalyse
Eine Clusteranalyse dient dazu, Gruppierungen in Datensätzen zu entdecken. Sie wird
vor allem im Datamining und beim Knowledge Discovery eingesetzt. Die dazu eingesetzten Clusteralgorithmen liefern jedoch unterschiedliche Arten von Clustern. Hierarchische
Clusterverfahren liefern innerhalb der Gruppierungen noch einmal Untergruppierungen
während partitionierende Verfahren die Objekte in Gruppen einordnen.
Jeder Clusteralgorithmus benötigt neben dem Datensatz als Eingabe noch zusätzlich
eine Distanzfunktion, die eine Ähnlichkeit zwischen zwei Objekten ermittelt.[SE00, S.
46f] Dabei bedeutet ein kleinerer Ergebniswert eine größere Ähnlichkeit. Für eine Distanzfunktion dist müssen die folgenden zwei weiteren Eigenschaften gelten:
1. Sie muss symmetrisch sein, also dist(x1 , x2 ) = dist(x2 , x1 ).
2. Falls sie identische Objekte vergleicht, so gilt: dist(x1 , x1 ) = 0.
2.2.1
|
DBSCAN
DBSCAN steht für „Density-Based Spatial Clustering of Application with Noise“. Der
Algorithmus ist ein dichte-basierter Cluster-Algorithmus und wurde 1996 an der LMU
München entwickelt.[SEKX96]. Der Algorithmus erhält als Eingabe neben dem Datensatz und der Distanzfunktion noch zwei weitere Parameter: ist der maximale Radius,
in dem nach Objekten gesucht werden kann. minP ts ist die minimale Anzahl an Objekten, die ein Cluster enthalten muss. Zum Verständnis von DBSCAN sind zunächst
einige Definitionen notwendig.
Definition 2 (-Umgebung) Sei D der Datensatz und als Eingabeparameter gegeben. Dann ist die -Umgebung N (p) eines Objektes p ∈ D wie folgt definiert:2
N (p) = {q ∈ D|dist(p, q) ≤ }
1 Vom
Autor aus dem Englischen übersetzt. Original: „A release provides k-anonymity protection if
the information for each person contained in the release can not be distinguished from at least k − 1
individuals whose information also appears in the release.“ [Swe02, S.1]
2 Übersetzung aus dem Englischen vom Autor. Original: „The Eps-Neighbourhood of a point p, denoted
by Neps (p), is defined by Neps = {q ∈ D|dist(p, q) ≤ “
9
Darauf aufbauen kann auch gleich die direkte Dichte-Erreichbarkeit (directly densityreachablity) definiert werden.
Definition 3 (direkte Dichte-Erreichbarkeit) Ein Objekt p ist direkt dichteerreichbar von q, wenn für die gegebenen Parameter und minP ts folgende Eigenschaften gelten: 3
1. p ∈ N (q)
2. |N (q)| ≥ minP ts
Zwei weitere Definitionen (Def. 4 und Def. 5) sind für das Verständnis von DBSCAN
notwendig. Sie werden zusätzlich in der Abbildung 2.1 erläutert.
Definition 4 (Dichte-Erreichbarkeit) Ein Objekt p ist von q dichteerreichbar, wenn es eine Kette von Objekten p1 . . . pn gibt mit p1 = q und
pn = p für die gilt: pi+1 ist direkt dichte-erreichbar von pi .4
p
p
q
o
q
Abbildung 2.1.: Links: Dichte-Erreichbarkeit von q nach p, sofern minP ts = 3 und durch die angezeigten Kreise dargestellt wird. Rechts zeigt die DichteVerbundenheit, welche eine symmetrische Beziehung darstellt. p und q
sind hier dichte-erreichbar von o aus.
Definition 5 (Dichte-Verbundenheit) Ein Punkten p ist dichte-verbunden zu
q, wenn es einen Punkt o gibt, von dem sowohl p als auch q dichte-erreichbar sind. 5
3 Übersetzung
aus dem Englischen vom Autor. Original: „A point p is directly density-reachable from
point q wrt Eps, MinPts if 1) p ∈ Neps (q) and 2) |Neps (q)| ≥ minP ts“
4 Übersetzung aus dem Englischen vom Autor. Original: „point p is density- reachable from a point q
wrt. Eps and MinPts if there is a chain of points p1 , . . . , pn , p1 = q, pn = p such that pi+1 is directly
density-reachable from pi .“
10
Nun kann man einen Cluster für DBSCAN definieren.
Definition 6 (Cluster) Sei D ein Datensatz und C eine nicht-leere Teilmenge von
D, die folgende Eigenschaften erfüllt:6
1. ∀p, q : falls p ∈ C ind q ist dichte-erreichbar von p, dann ist q ∈ C. (Maximalität)
2. ∀p, q ∈ C : p ist dichte-verbunden mit q. (Verbundenheit)
DBSCAN überprüft im Grunde genommen, ob diese Eigenschaften auf die Objekte
im Datensatz zutreffen. Treffen sie zu, werden sie Clustern zugeordnet, tun sie es nicht,
dann werden sie als Rauschen (noise) betrachtet.
DBSCAN hat vor allem zwei Vorteile im Gegensatz zum weit verbreiteten ClusterAlgorithmus k-means: Zum einen muss die Anzahl der Cluster nicht vor der Ausführung
festgelegt werden und zum anderen führen beeinflussen einzelne isolierte Obejkte nicht
das Endergebnis sondern werden als Rauschen erkannt.
Komplexität Der Algorithmus DBSCAN muss jedes einzelne Objekt untersuchen. Also
tut er es insgesamt n-mal, wenn die Größe des Datensatzes n beträgt. Bei der Untersuchung eines jeden Punktes, muss die -Umgebung bestimmt werden, bei der ebenfalls
noch einmal der komplette Datensatz durchlaufen werden muss. Dadurch entsteht insgesamt ein Laufzeitverhalten mit O(n2 ).
Die Autoren vom Algorithmus machen jedoch auf die Möglichkeit aufmerksam, einen
spatialen Index einzusetzen, der die Bestimmung der -Umgebung von O(n) auf O(log n)
reduzieren kann. Ein solcher spatialer Index, wie er auch in dieser Arbeit eingesetzt wird,
ist der RBaum. [Gut84], wird auch in Abschnitt 2.4.2 erläutert. Auf diese Weise lässt sich
die Gesamtkomplexität auf O(n·log n) reduzieren. Allerdings stimmt diese Annahme nur
unter der Vorraussetzung, dass die Distanzfunktion eine Laufzeit von O(1) hat.
2.2.2
|
OPTICS
Der Algorithmus OPTICS ist eine Erweiterung von DBSCAN. Sein Name OPTICS steht
dabei für „Ordering Points To Identify the Clustering Structure“. Er wurde ebenfalls an
der LMU München entwickelt und einige Autoren von DBSCAN wirkten auch an der
Entstehung von OPTICS mit. (Jörg Sanders und Hans-Peter Kriegel). Seine Eingabeparameter, neben dem Datensatz und der Distanzfunktion, sind ebenfalls minP ts und . 5 Übersetzung
aus dem Englischen vom Autor. Original: „A point p is density- connected to a point q
wrt. Eps and MinPts if there is a point o such that both, p and q are density-reachable from o wrt.
Eps and MinPts. “
6 Übersetzung von Autor aus dem Englischen. Original: „Let D be a database of points. A cluster C
wrt. Eps and MinPts is a non-empty subset of D satisfying the following conditions: 1) ∀p, q : if p ∈ C
and q is density-reachable from p wrt. Eps and MinPts, then q ∈ C. (Maximality) 2) ∀p, q ∈ C : p is
density-connected to q wrt. EPS and MinPts. (Connectivity) “
11
ist für das Funktionieren von OPTICS nicht zwingend notwendig, bietet allerdings eine
effektive Möglichkeit, Rechenleistung zu sparen und sollte daher mit angegeben werden.
OPTICS löst das Problem, dass für DBSCAN vor der Ausführung die Dichte (die sich
eben aus minP ts und zusammen setzt) mit angegeben werden muss. Setzt man zu
hoch und minP ts zu niedrig, so kann es passieren, dass DBSCAN sämtliche Objekte
in einem einzigen Cluster zusammen fasst, obwohl die Daten im Datensatz gleichmäßig
verteilt sind. Umgekehrt kann ein zu niedriges und zu hohes minP ts dazu führen, dass
alles als Rauschen betrachtet wird. Außerdem ist DBSCAN nicht in der Lage, Untercluster zu finden, so wie es hierarchische Clusteralgorithmen tun. Das Problem wird in
Abbildung 2.2 noch einmal explizit dargestellt.
OPTICS ist dabei kein klassischer Clusteralgorithmus, der in den Daten Klassen diskrete Klassen findet, sondern die Punkte des Datensatzes in der in Algorithmus 1 auf
Seite 23 bestimmten Reihenfolge darstellt und jedem Punkt eine Erreichbarkeitsdistanz
zuordnet. Das Ergebnis von OPTICS, das Erreichbarkeitsdistanzdiagramm, bietet für die
manuelle Auswertung einen groben Überblick über Zusammenhänge in den Datensätzen.
(siehe auch Abbildung 2.3).[KSAB99] Automatische Verfahren werden in den Abschnitten 3.1.2 und 3.1.3 vorgestellt. Für das Verständnis von OPTICS sind ebenfalls noch
A
B
C1
C3
C
C2
Abbildung 2.2.: DBSCAN hat das Problem, dass es keine Untercluster, hier C1 , C2 und
C3 nicht finden kann, sondern einfach nur C findet.
zwei weitere Definitionen notwendig:
Definition 7 (Kerndistanz) Sei D ein Datensatz, p ∈ D, minP ts ∈ N, > 0 und
N die Nachbarschaftsfunktion, minP ts−distance die Distanzfunktion zum minP ts’
Nachbarn. Dann ist die Kerndistanz
von p wie folgt definiert:7

UNDEFINED
wenn |N (p)| < minP ts
core − distance(p),minP ts = 
minP ts − distance(p) sonst
7 Übersetzung
aus dem Englischen durch den Autor. Original: Let p be an object from a database D,
let be a distance value, let N (p) be the -neighborhood of p, let M inP ts be a natural number and
12
Definition 8 (Erreichbarkeitsdistanz) Sei p, o ∈ D, N (x) die Nachbarschaftsfunktion, minP ts ∈ N, dann ist die Erreichbarkeitsdistanz von o nach p wie
folgt definiert: 8

UNDEFINED, wenn |N (o)| < minP ts
reachability − distance,minP ts =
max (core − distance(o), dist(o, p)) sonst
Aus der Definition für die Erreichbarkeitsdistanz folgt, dass p direkt dichte-erreichbar
von o ist.(siehe dazu auch Def. 4)
Komplexität Ähnlich wie DBSCAN ist es notwendig, dass OPTICS jeden Punkt betrachtet und zu diesem die -Umgebung bestimmt. Die Laufzeit liegt damit bei O(n2 ),
kann jedoch ebenfalls durch einen Index auf O(n · log n) reduziert werden.
2.3
|
Distanzfunktionen
Im vorherigen Abschnitt wurden Cluster-Algorithmen besprochen, die zum Funktionieren eine Distanzfunktion benötigen. Dabei muss die Dimension eines jeden Datenobjektes
immer gleich sein. Bei GPS-Punkten ist dies noch trivial. Es gibt den Längen- und Breitengrad und dadurch ist die Dimension für jeden Punkt eindeutig definiert: zwei. Wenn
man möchte, kann man noch den Zeitstempel oder die Höhe über dem Meeresspiegel
mit einbeziehen, aber es bleibt sehr offensichtlich, welche Dimension die Daten haben.
Bei Spuren hingegen wird es schwieriger. Eine Spur besteht aus mindestens zwei Punkten. Die Dimension lässt sich jetzt nur noch bestimmen, wenn man alle Punkte in einer
Menge zusammen fässt und diese als nur eine einzige Dimension betrachtet. Die in diesem Abschnitt vorgestellten Distanzfunktionen, die Fréchet- und die Hausdorff-Distanz,
ermöglich die Bestimmung der Distanz zwischen zwei Spuren. Beide Funktionen eignen
sich als Distanzfunktionen für Clusteralgorithmen, da sie sowohl symmetrisch als auch
bei zwei gleichen Eingaben den Wert 0 zurück liefern. (siehe auch Abschnitt 2.2).
let M inP ts − distance(p) be the distance from
( p to its M inP ts neighbor. Then, the core-distance
UNDEFINED,
if Card(N (p)) < M inP ts
of p is defined as core − distance,M inpts =
M inP ts − Distance(p), otherwise
8 Übersetzung aus dem Englischen vom Autor. Original: Let p and o be objects from a database D, let N (o) be the -neighborhood of o, and let M inP ts be a natural number. Then, the
reachability-distance
of p with respect to o is defined as reachability − distance,M inP ts (o, p) =
(
UNDEFINED, if Card(N (p)) < M inP ts
max (core − distance(o), dist(o, p))
13
Abbildung 2.3.: Das Erreichbarkeitsdistanzdiagramm von OPTICS. Auf der x-Achse befinden sich die Punkte in der von OPTICS bestimmten Anordnung (siehe auch Algorithmus 1). Auf der y-Achse ist die ermittelte Erreichbarkeitsdistanz. In den „Tälern“ dieses Diagrammes befinden sich nun die
Cluster
2.3.1
|
Fréchet-Distanz
Die Fréchet-Distanz ist ein Abstandsmaß zwischen zwei Strecken. In der Literatur gibt
es häufig das Beispiel mit dem Hund und seinem Besitzer, die auf den zwei zu messenden
Strecken entlang laufen. Der Besitzer ist mit seinem Hund über eine Leine verbunden.
Beiden ist es erlaubt, sich in beliebiger, aber nicht negativer Geschwindigkeit von ihrem jeweiligen Startpunkt zum Zielpunkt zu bewegen. Die Freéchet-Distanz ist definiert
als Antwort auf die Frage, wie lang die Leine mindestens sein muss, damit Hund und
Herrchen ihre jeweilige Strecke ablaufen können.[HA95]
Definition 9 (Fréchet-Distanz) Seien f : [a, a0 ] → V und f : [b, b0 ] → V polygonale
Linien. Dann beschreibt δF (f, g) deren Fréchet-Distanz, falls für δF (f, g) folgendes
gilt:
δF (f, g) :=
inf 0
max dist (f (α(t)), g(β(t)))
α[0,1]→[a,a ]
β[0,1]→[b,b0 ]
t∈[0,1]
Dabei sind α, β sind stetige, monoton steigende Funtionen mit α(0) = a, α(1) = a0 ,
β(0) = b) und β(1) = b0 .9
vom Autor aus dem Englischen. Original: „Let f : [a, a0 ] and g : [b, b0 ] be curves. Then
δF (f, g) denotes their Fréchet-distance, defined as:
9 Übersetzung
14
Bei der Berechnung der Fréchet-Distanz wird zwischen der allgemeinen und der diskreten Fréchet-Distanz unterschieden. Die diskrete Fréchet-Distanz benötigt neben den
zwei angegebenen Strecken noch als Parameter.
Definition 10 (Diskrete Fréchet-Distanz) Seien f und g zwei polygonale Linien und sei ∈ R, > 0. Dann ist die diskrete Fréchet-Distanz dδF (f, g, ) wie folgt
definiert:

wahr
falls δF (f, g) ≤ dδF (f, g, ) :=
falsch sonst
Für den Prototypen wurde die Fréchet-Distanz implementiert, allerdings kann diese
nur mit Koordinaten in einer ebenen Fläche umgehen und nicht mit sphärischen Koordinaten (wie Längen- und Breitengrad sind). Die Umgehung des Problems wird in
Abschnitt 2.4.1 behandelt. Diese Implementierung baut dabei auf einem Algorithmus
auf, den Alt und Godau [HA95] entwickelt haben. Die Funktionsweise des Algorithmus
kann anschaulich mit einem Free-Space-Diagramm dargestellt werden.
Für ein Free-Space-Diagramm (Abbildung 2.4) für die Fréchet-Distanz zwischen den
Polylinien P und Q werden die Koordinaten dieser beiden Polylinien auf der x- bzw.
y-Achse aufgetragen. Sei außerdem p(i), i ∈ [0, 1], bei der p(0) der Startpunkt von P
und p(1) der letzte Punkt von P ist. Analog gilt dies für q(i). Sofern dist(p(x), q(y)) >
, so wird (x, y) im Free-Space-Diagramm rot eingefärbt. Ist es danach noch möglich,
eine monoton steigende Kurve von (0, 0) nach (1, 1) zu „zeichnen“, so gibt die diskrete
Fréchet-Distanz den Wert „wahr“ zurück.
Nun gibt es allerdings unendlich viele Punkte in diesem Diagram und damit ist es
nicht berechenbar. Der „Trick“ bei der Berechnung dieses Diagramms ist folgender: Das
Free-Space-Diagramm zwischen zwei Kanten (eine Kante ist hier die direkte Verbindung
von genau zwei Punkten) bildet, sofern vorhanden, immer eine konvexe Ellipse. (Beweis
steht in [HA95]). Dadurch reicht es aus, die Schnittpunkte mit den Rändern der einzelnen
Zellen zu berechnen, um das Free-Space-Diagramm zu berechnen.
Komplexität Jede Zelle des Free-Space-Diagrammes kann mit konstanter Laufzeit O(1)
berechnet werden. Insgesamt müssen p · q Zellen berechnet werden.
Danach muss noch überprüft werden, ob man eine monoton steigende Funktion durch
dieses Diagramm zeichnen kann. Hierfür wird jede Zelle daraufhin untersucht, ob durch
sie selbst eine monoton steigende Funktion gezeichnet werden kann. Dies wird mit Hilfe
der Schnittpunkte an den Kanten mit der konvexen Free-Space-Ellipse errechnet. Danach
δF (f, g) := inf α[0,1]→[a,a0 ]
β[0,1]→[b,b0 ]
max
|f (α(t)), g(β(t))|
t∈[0,1]
where α, β range over continous and increasing functions with α(0) = a, α(1) = a0 , β(0) = b and
β(1) = b0 only.“
15
wird noch überprüft, ob die Zelle links oder unter der eigenen von (0, 0) aus erreichbar ist.
Insgesamt ergibt sich damit für die diskrete Fréchet-Distanz eine Laufzeit von O(p · q).
Da für den Prototypen nur die diskrete Fréchet-Distanz implementiert wurde, ist sie
nur für den Algorithmus DBSCAN geeignet und nicht für OPTICS, weil DBSCAN sich
tatsächlich nur für die Frage interessiert, ob die Distanz kleiner ist als .
Abbildung 2.4.: Das Free-Space-Diagramm für ein gegebenes und die polygonalen Linien P und Q. Dabei wird in dem Diagramm für jede Stelle auf P und
Q ein roter Punkt gesetzt, falls die Distanz größer als ist und weiß,
falls sie kleiner ist. Kann man nun eine monoton steigende Funktion
von links unten (0, 0) nach (1, 1) einzeichnen, so ist die Fréchet-Distanz
δF (P, Q) ≤ . Das Diagramm wurde aus der Arbeit von Alt und Godau
entnommen. [HA95]
2.3.2
|
Hausdorff-Distanz
Als Alternative für die Fréchet-Distanz kann auch die Hausdorff-Distanz verwendet
werden.[Hen99] Sie ist jedoch nicht direkt auf Strecken von Punkten definiert sondern
vergleicht ungeordnete Mengen von Punkten.
Definition 11 (Hausdorff-Distanz) Die Hausdorff-Distanz für zwei endliche
Mengen P und Q ist wie folgt definiert:
(
)
d(P, Q) = max sup (e, Q) , sup (e, P )
e∈P
e∈Q
Daher wird der Winkel bzw. die Richtung α der Strecken mit berücksichtigt. α wird dabei nur zwischen dem Start- und Endpunkt eines Segmentes berechnet. Dieser Wert wird
trotzdem als repräsentativ für das gesamte Segment betrachtet, da nach der Zerlegung
16
der Spuren die Segmente selten mehr als 100 Meter lang sind und meistens auch einen
geraden Verlauf haben. Wenn bei zwei Strecken s1 und s2 die Differenz einen Grenzwert
von 37 Grad überschreitet, wird die Distanz als unendlich hoch betrachtet. Damit die
Hausdorff-Distanz bei nah aneinander verlaufenden Segmenten niedrigere Werte als bei
Strecken, die fernab voneinander verlaufen, müssen auch die Punkte den selben Abstand
haben. Abbildung 2.5 verdeutlicht dies noch einmal.
Ein Vorteil der Hausdorff-Distanz ist hingegen, dass sie ohne Projektion auskommt
(abgesehen vom Index), da im Gegensatz zur Fréchet-Distanz nur Abstandsfunktionen
zwischen zwei Punkten (bestehend aus Längen- und Breitengrad) benötigt wird, die bereits implementiert wurden. Insgesamt ergibt sich damit für die diskrete Fréchet-Distanz
eine Laufzeit von O(p · q). Da jeder Punkt mit jedem verglichen werden muss, liegt die
Laufzeit der Hausdorff-Distanz ebenfalls bei O(|P | · |Q|).
(a) Die Abstände der Punkte müssen normalisiert werden
(b) Die Hausdorff-Distanz beachtet
nicht unterschiedliche Richtungen
Abbildung 2.5.: Links sieht man zwei Strecken, die sich in ihrem Verlauf stark ähneln.
Die Fréchet-Distanz würde einen einen geringen Abstand zwischen den
Strecken ermitteln, die Hausdorff-Distanz jedoch einen vergleichsweise hohen Wert. Damit die Hausdorff-Distanz einen ähnlich niedrigen
Wert liefert wie die Fréchet-Distanz, müssen müssen die Punkte auf den
Strecken einen regelmäßigen Abstand haben.
Rechts ist ein anderes Problem mit der Hausdorff-Distanz dargestellt.
Die Strecken verlaufen zwar nah beieinander, aber in völlig unterschiedliche Richtungen. Die Fréchet-Distanz würde deshalb auch hier einen
hohen Wert liefern, die Hausdorff-Distanz allerdings nicht. Deshalb wird
ein maximaler Winkelabstand zwischen den Strecken festgelegt, welcher
bei Überschreitung dazu führt, dass die Distanz zwischen den beiden
Strecken als unendlich betrachtet wird.
2.4
2.4.1
|
Unterstützende Funktionen
|
UTM-Projektion
Die Koordinaten aus dem GPX-Format sind Winkelangaben auf einer Kugel. Allerdings
lassen sich viele Berechnungen leichter durchführen, wenn sie in einer ebenen Fläche
lägen. Da auch für die Kartenerstellung eine ebene Repräsentation nötig ist, gibt es
17
bereits eine Vielzahl möglicher Projektionen. Für den Prototypen fiel die Wahl auf die
UTM -Projektion. UTM steht für universal transverse mercator coordinate system. Die
UTM -Projektion wurde 1947 beim US-Militär wingeführt, um rechtwinkelige Koordinaten weltweit auf militärischen Karten einheitlich benennen zu können. Bereiche nördlich
des 84. nördlichen Breitengrades und südlich des 80. südlichen Breitengrades werden
allerdings nicht betrachtet. Jede Zone ist dabei 6 Längengrade „breit“, jedoch kann
die „Höhe“ schwanken.[Syn87, S. 57f] Für Bereiche jenseits des 84. nördlichen bzw. 80.
südlichen Breitengrades sollten andere Projektionssystem verwendet werden, z.B. die
UPS -Projektion.
UTM wird in Deutschland schon länger auch zivil genutzt, insbesondere bei bei der
Feuerwehr und dem Katastrophenschutz. [Str96, S. 54]
Durch die UTM -Projektion entstehen Koordinaten, die in einer ebenen Fläche liegen.
Aufgrund der Mercator-Projektion sind diese winkeltreu. Ihre Abweichungen bei der
Distanz sind am Mittelmeridian (der Längengrad, der eine Zone vertikal in genau zwei
cm
und sind damit für unsere
gleich große Hälften teilt) am größten und betragen 40 km
Zwecke vernachlässigbar. [Str96, S. 55]
Allerdings ist der Prototyp dadurch gezwungen, mit Datensätzen zu arbeiten, bei
denen sämtliche Punkte in einer Zone liegen.
Innerhalb einer Zone werden Koordinaten zweidimensional jeweils in Metern angegeben. Einmal der Ost-Wert und einmal der Nord-Wert. Außerdem wird bei einer UTM Koordinate auch immer angegeben, in welcher Zone die Koordinate liegt. Die Bezeichnungen der Zonen bestehen aus einem Buchstaben und einer Zahl. Die Zonen sind von
Süden nach Norden mit Buchstaben versehen und von Westen nach Osten mit Zahlen.
Berlin liegt beispielsweise in der Zone U32.
2.4.2
|
RBaum
Der RBaum ist eine dynamische Indexstruktur für räumliches Suchen („A Dynamic Index Structure for Spatial Searching“ [Gut84]. Im Gegensatz zu den meisten Indexstrukturen, die nur eindimensional arbeiten, ist er in der Lage, mit beliebig vielen Dimensionen
umzugehen. Er benötigt allerdings zusätzlich eine spatiale Datenbank, in der jedes gespeicherte Objekt mit einem eindeutigen Schlüssel versehen ist. Er ist wie ein B-Baum
ausgeglichen und speichert in seinen Blättern die Schlüssel für die Datenobjekte. Jeder
Eintrag in den Blättern (ein Blatt kann mehrere Einträge haben, wie bei einem B-Baum
gibt es auch eine Mindestanzahl an Einträgen, für den Fall, dass die Wurzel kein Blatt
ist) besteht aus dem Schlüssel, der auf den eigentlichen Eintrag in der Datenbank zeigt,
und einer Mengen an Intervallen. Für jede Dimension wird ein Intervall angelegt, in dem
das Objekt liegt. Aus den einzelnen Intervallen entsteht also eine Bounding-Box.
Jeder Knoten besteht ebenfalls aus einer Bounding-Box und Zeigern zu Kinderknoten
bzw. Blättern. Eine Suchanfrage S wird ebenfalls in Form einer Bounding-Box gestellt.
Die Suche beginnt ebenfalls wie bei einem B-Baum in der Wurzel, allerdings, im Gegensatz zum B-Baum, kann es passieren, dass bei Knoten mehrere Unterbäume untersucht
werden müssen. Dies liegt daran, dass mehrere Bounding-Boxen der Kindsknoten sich
mit S schneiden. Die Laufzeit beträgt daher im best-case O(log n) - das ist die Höhe des
18
Baumes - und ist im wort-case O(n).
2.4.3
|
Ramer-Douglas-Peucker-Filter
p9
p3
p3
p4
p6
p5
(1)
p9
p8
p6
e 1 p5
p7
p1
p7
p8(2)
p1
p2
p2
p9
e3
p3
p9
p3
p4
e4
p6
p5
e2
p4
p4
p8
p8
p5 p6 p7
p8(4)
p1
(3)
p2
p2
p9
p3
p8
p1
p2
(5)
Abbildung 2.6.: Exemplarischer Ablauf des RDP-Filters, seine Funktionsweise wird in
Abschnitt 2.4.3 erläutert
Der RDP-Filter glättet Strecken und versucht so viel wie möglich vom eigentlichen
Streckenverlauf zu erhalten.[DP73] Der Algorithmus arbeitet rekursiv. Er zieht eine Kante vom Start- zum Endpunkt und überprüft, ob alle Punkte einen Abstand kleiner als zu dieser Kante haben. Ist dies der Fall, so werden sie einfach gelöscht. Wenn nicht, wird
der Punkt genommen, der den größten Abstand zu dieser Kante hat. An diesem Punkt
wird die Strecke unterteilt und der Algorithmus wird rekursiv auf die entstandenen Teilstrecken angewendet. Der Ablauf der Algorithmus wird hier exemplarisch erläutert und
bezieht sich dabei auf das in Abbildung 2.6 gezeigte Beispiel.
19
1. Gegeben ist eine Polylinie, die durch die Punkte p1 , . . . , p9 definiert ist.
2. Es wird eine Kante e1 zwischen p1 und p9 gezogen. Dabei wird festgestellt, dass p3
am weitesten von der Kante entfernt ist und diese Entfernung auch überschreitet.
3. Der Vorgang wird rekursiv wiederholt. Einmal für {p1 , p2 , p3 } und einmal für
{p3 , . . . , p9 }. p2 hat dabei eine zu große Entfernung zur neuen Kante e2 , weshalb die Strecke hier ebenfalls unterbrochen wird. Die neuen beiden Strecken
{p1 , p2 } und {p2 , P3 } bestehen nur aus zwei Punkten und der Algorithmus bricht
ab. p8 ist ebenfalls zu weit von der Kante e3 entfernt, allerdings entsteht hierbei nur
eine Teilstrecke {p8 , p9 }, die nur aus einer Kante besteht. Die Strecke {p3 , . . . , p8 }
hat hingegen mehr Punkte und der Algorithmus kann hier weiter fortgesetzt werden.
4. Sämtliche Punkte zwischen p3 und p8 haben eine Distanz kleiner als zur Kante
e4 und werden deshalb gelöscht.
5. Der Algorithmus bricht ab.
20
3 | Design
Bei der Aggregierung besteht das Problem, dass Spuren häufig über eine gewisse Strecke
nah beieinander laufen und danach wieder getrennte Wege gehen, wie Abbildung 3.1
dargestellt. Beide der in Abschnitt 2.3 besprochenen Distanzfunktionen liefern bei sol3
2
1
Abbildung 3.1.: Die Fréchet-Distanz zwischen den Strecken (1) und (2) gleicht ungefähr
der zwischen (3) und (1), obwohl letztere zumindestens teilweise nah beieinander laufen. Dadurch muss eine sinnvolle Zerlegung für die Strecken
gefunden, damit die Fréchet-Distanz sinnvolle Ergebnisse liefert.
chen Strecken hohe Werte und es wäre daher wünschenswert, die Spuren an Kreuzungen
zu zerlegen. Nachdem Spuren an Kreuzungen in Segmente zerlegt wurden, verbinden sie
im Idealfall eine Kreuzung mit der anderen. Bei zwei Segmenten, die die selben Kreuzungen verbinden wird nun erwartet, dass sie eine niedrige Distanz zueinander haben
und DBSCAN dies auch so einordnet.
Die zwei grundlegenden Arbeitsschritte, Kreuzungserkennung und Aggregierung, werden in diesem Kapitel erläutert.
3.1
|
Kreuzungserkennung
Die grundlegende Hypothese, wie Kreuzungen erkannt werden können, beruht auf folgenden zwei Hypothesen.
Hypothese 1 An einer Kreuzung überlagern sich die Spuren von mindestens zwei Straßen. Spuren bestehen wiederum aus Punkten, was zur Folge hätte, dass an Kreuzungen
die Dichte der Punkte ansteigt.
21
Hypothese 2 GPS-Emprfänger, wie beispielsweise die Kombination aus einem AndroidTelefon und der App mytracks [Sch10]1 , sind in der Lage, ihre Position in einem regelmäigen zeitlichen Intervall aufzuzeichnen. An Kreuzungen müssen Verkehrsteilnehmer
ihre Geschwindigkeit reduzieren, zeitbasierte GPS-Empfänger messen deshalb auch in
kürzeren räumlichen Abständen. Dadurch steigt die Dichte und OPTICS ermittelt für
diese Punkte eine niedrigere Erreichbarkeitsdistanz.
Letztendlich wird erwartet, dass die Punkt-Dichte an Kreuzungen ansteigt. Jedoch
erscheint es kaum sinnvoll, einen Grenzwert für die Punktdichte festzulegen, um damit die Kreuzungen zu erkennen. Eine Hauptstraße hat überall meistens eine höhere
Punktdichte als eine Kreuzung von Nebenstraßen. Bei OPTICS wird nun erwartet, dass
bestimmte „Täler“, egal auf welche „Höhe“ darauf hindeuten, dass dort eine Kreuzung
sein könnte.
3.1.1
|
OPTICS
Der Pseudocode von OPTICS wird in Algorithmus 1 dargestellt und hier erläutert.
Die Zeilen 2 und 3 sind Initialisierungsschritte. Die Variable results soll später die
Objekte aufnehmen und sie in der Reihenfolge speichern, in der sie dort eingetragen
wurden. Im Initialzustand sind alle Objekte als unverarbeitet markiert und ihrer Erreichbarkeitsdistanz ist auf unendlich gesetzt.
Als ersten Schritt nimmt OPTICS ein beliebiges unverarbeites Objekt o und bestimmt
dessen -Umgebung N (o). (Zeile 5) Danach wird die Erreichbarkeitsdistanz auf unendlich, bzw. undefiniert gesetzt (Zeile 6) und die Kerndistanz ermittelt (Zeile 7). Außerdem
wird o als verarbeitet (Zeile 8) markiert und an die geordnete Liste angehängt. Sofern
in N (o) bzw. neighbours weniger als minP ts Elemente vorhanden waren, so geht OPTICS zur Überprüfung des nächsten Punktes über. (Zeile 10) Wenn nicht, so wird die
Prozedur update() aufgerufen, deren Pseudocode auf Seite 24 zu finden ist. Ihre Aufgabe
ist es, für jedes Objekt p ∈ N (o) die Erreichbarkeitsdistanz von o nach p zu ermitteln.
Danach werden sie in der in Zeile 3 erstellten Prioritätswarteschlange eingefügt, in der
die Erreichbarkeitsdistanz als Schlüssel zum Ordnen genutzt wird. Dabei ist die Priorität
umso höher, je niedriger die Erreichbarkeitsdistanz ist.
In Zeile 12 wird damit begonnen, die Prioriätswarteschlange abzuarbeiten. Jedes Element o2 aus der Prioritätswarteschlange wird als verarbeitet markiert (Zeile 15) und an
result (Zeile 16) angehängt. Außerdem wird erneut die -Umgebung N (o2) bestimmt
(Zeile 14) und die Kerndistanz (Zeile 17) ermittelt.
Ebenfalls wird, falls |N (o2)| ≥ minP ts ist, was gleichbedeutend mit der Tatsache ist,
dass die Kerndistanz nicht unendlich bzw. definiert ist, noch einmal update() aufgerufen. Dadurch können sich bisherige Einträge in der Prioritätswarteschlange nach vorne
verschieben bzw. neue hinzu kommen.
Es ist durchaus möglich, dass die Prioritätswarteschlange erst dann leer wird, wenn
1 Es
können auch andere Aufzeichnungsmodi genutzt werden wie zum Beispiel in einem regelmäßigen
Entfernungsintervall
22
Algorithmus 1: OPTICS
Data : A dataset to cluster (DS), minimum amount of points (minPts), maximum
radius (eps)
Result : The dataset in the order created by OPTICS and each object is
annotated with a reachability-distance
1 begin
2
OrderedList results := new OrderedList();
/* queue is ordered by reachability-distance
*/
:=
3
PriorityQueue queue
new PriorityQueue();
4
for o ∈ DS do
5
if o not processed then
6
neighbours := DS.getNeighbours(eps, o);
7
o.reachability_distance := UNDEFINED;
/* See also def. 7 for the core distance
*/
8
o.setCoreDistance(DS, minPts, eps);
9
o.setProcessed(TRUE);
/* The very first point of the data set will always have an
undefined reachability distance
*/
10
results.append(o);
11
if o.core_distance not UNDEFINED then
/* calculate the reachability distance from each object
in the neighbourhood to o and store them in the
ordered queue. Pseudo code for update() can be found
on page 24
*/
12
update(queue, neighbours, o);
13
while queue.hasNext() do
14
o2 := queue.next();
15
neighbours2 := DS.getNeighbours(eps, o);
16
o2.setProcessed(TRUE);
17
results.append(o2);
18
o2.setCoreDistance(DS, minPts, eps);
19
if o2.core_distance not UNDEFINED then
/* manipulate the ordered queue again
*/
20
update(queue, neighbours2, o2);
21
end
22
end
23
end
24
end
25
end
26 end
23
Prozedur update(PriorityQueue queue, neighbours, centerObject)
/* if you look up upon algorithm 1 you can see, that this procedure
will be only invoked if the centerObject has a defined core
distance
*/
1 core_distance := centerObject.core_distance;
2 for o ∈ neighbours do
3
if o not processed then
4
tmp_reachability_distance := max(core_distance, dist(o,
centerObject);
/* o can only be in the priority queue, if it has already a
valid reachability distance and it is not processed. If the
new reachability-distance for o is valid (that means below
eps) it should be stored in the priority queue.
*/
5
if o.reachablity_distance is UNDEFINED then
/* o is not stored in the priority queue yet. Update the
reachability disance and insert it into the queue
*/
6
o.reachablity_distance := tmp_reachability_distance;
7
queue.insert(o);
8
else
9
if o.reachability_distance > tmp_reachability_distance then
10
o.reachability_distance := tmp_reachability_distance;
11
queue.move_up(o);
12
24
der komplette Datensatz abgearbeitet ist. Dies ist der Fall, wenn alle Punkte im Datensatz keine undefinierte Kerndistanz haben. Wenn nicht, wird vor der Abarbeitung des
kompletten Datensatzes die Schleife in Zeile 12 abgebrochen und der Algorithmus führt
Zeile 5 erneut aus.
Nach Abschluss der Ausführung ist jedes Objekt in der geordneten Liste und mit einer
Erreichbarkeitsdistanz versehen. Daraus kann man dann ein Erreichbarkeitsdistanzdiagramm erstellen, wie z.B. die Abbildungen 3.2 und 2.3.
Von einer Kreuzung wird nun erwartet, dass sie zu einem Tal im Erreichbarkeitsdistanzdiagramm führt, da dort eine lokale Erhöhung der Dichte erwartet wird. Abbildung
3.2 zeigt, wie vermutlich sich das Bild einer Kreuzung auf den Cluster auswirkt. In den
folgenden zwei Abschnitten werden Verfahren vorgestellt, die diese Täler erkennen und
extrahieren können.
3.1.2
|
Clusterextraktion
Für das Extrahieren der Cluster aus dem Erreichbarkeitsdistanzdiagramm (eine Folge
von Objekten {x1 , x2 , . . . , xn }) gibt es einen Algorithmus (der ebenfall in [KSAB99] beschrieben), bei dem steile Umgebungen (steep areas) ermittelt werden. Jedem Objekt xi
ist eine Erreichbarkeitsdistanz zugeordnet, die mittels r(i) ermittelt werden kann. Der
Algorithmus erhält zusätzlich als Eingabeparameter die Zahl ξ, welche zwischen 0 und 1
liegt und den Wert minP ts, bei dem Ankerst et al [KSAB99] empfehlen, ihn mit minP ts
bei der ursprünglichen Ausführung von OPTICS gleichzusetzen.
Definition 12 (ξ-steil fallendes Objekt) Ein Objekt ξi ist dann ξ-steil fallend
(ξ-steep downward point), wenn seine Erreichbarkeitsdistanz multipliziert mit (1 − ξ)
größer ist als die des Nachfolgers.
r(i) · (1 − ξ) ≥ r(i + 1)
Analog kann man auch einen ξ-steil steigenden Punkt definieren.2
Definition 13 (ξ-steil fallende Umgebung) Ein Intervall I = [xs , xe ], das eine
Teilmenge des Ergebnisses von OPTICS ist. I wird als ξ-steil fallende Umgebung
bezeichnet, genau dann, wenn:
• xs und xe sind ξ-steil fallende Objekte
2 Übersetzung
aus dem Englischen vom Autor. Original: „A point p ∈ {1, . . . , n − 1} is called a ξ-steep
downward point iff p’s successor is ξ% lower: DownP ointξ (p) ⇔ r(p) × (1 − ξ) ≥ r(p + 1)“
25
Kreuzung
Straße
Straße
Kreuzung
Abbildung 3.2.: Die Vermutung ist, dass bei Kreuzungen die Dichte steigt und die Erreichbarkeitsdistanz sinkt.
26
• ∀i, s < i ≤ e : r(i) ≤ r(i − 1)
• I hat nicht mehr als minP ts aufeinander folgende Objekte, die keine ξ-steil
fallenden Objekte. ∀[xs , xe ] ⊆ I mit @xi ∈ [xs , xe ] ist ξ-steil fallendes Objekt
⇒ e − s < minP ts
• I ist maximal: ∀J : (I ⊆ J ∧ J ist ξ-fallende Umgebung ⇒ I = J)
Analog kann auch die ξ-steil steigende Umgebung definiert werden.3
Ein Cluster sind dann alle Punkten, zwischen einer fallenden steilen Umgebung und
einer steigenden steilen Umgebung. Im Idealfall bilden der erste Punkt s der fallenden
steilen Umgebung und der letzte Punkt e der steigenden steilen Umgebung die „Grenzen“
des Clusters, sofern |r(s) − r(e)| ≤ ξ · r(e) ist. Falls dies nicht der Fall ist, wird nach einer
anderen möglichen Kombination aus den beiden steilen Gebieten gesucht, oder es kann
kein gültiger Cluster erstellt werden.
Zudem gilt ∀i, s < i < e : r(i) < r(s) ∧ r(i) < r(e), was bedeutet, dass kein Punkt eine
größere Erreichbarkeitsdistanz haben darf als die beiden begrenzenden Punkte.
Cluster
Abbildung 3.3.: Die beiden steilen Umgebungen sind rot hervor gehoben. Innerhalb eines Clusters darf kein Punkt eine höhere Erreichbarkeitsdistanz als die
beiden begrenzenden Punkte haben.
Dieses Verfahren würde erst einmal alle Cluster extrahieren. Auf Abbildung 3.2 würde
dies bedeuten, dass es auch die Straße extrahiert. Daher werden alle Cluster entfernt,
3 Übersetzung
vom Autor aus dem Englischen. Original: „An interval I = [s, e] is called a ξ-steep upward
area U pAreaξ (I) iff it satisfies the following conditions: s is a ξ-steep upward point U pP ointξ (s);
e is a ξ-steep upward point; each point between s and e is at least as hight as its predecessor:
∀, x, s < x ≤ e : r(x) ≥ r(x − 1); I does not contain more than minP ts consecutive points that are not
ξ-steep upward: ∀[s, e] ⊆ [s, e] : ((∀x ∈ [s, e] : ¬U pwardP ointξ (x)) ⇒ e − s < minP ts, I is maximal:
∀J : (I ⊆ J, U pAreaξ (J) ⇒ J = I
27
die Subcluster enthalten. Oder anderes formuliert: Es werden nur die Cluster extrahiert,
die auf der niedrigsten Hierarchieebene liegen.
3.1.3
|
Schwankungsanalyse
Alternativ zu den eben vorgestellten Verfahren wurde noch ein zweites Verfahren zur
Kreuzungserkennung entwickelt. Es erhält zwei Parameter: Zum einen ξ, ein Wert zwischen 0 und 1 sowie ∈ N.
Sei D = {x1 , x2 , . . . xn } der Datensatz und r(xi ) die Funktion, die die Erreichbarkeitsdistanz ermittelt. Der Algorithmus errechnet dann für jedes i ∈ {, + 1, . . . , n − } die
durchschnittliche Erreichbarkeitsdistanz (i, ), die wie folgt definiert ist:
i+
P
(i, ) =
j=i−
!
r(xj ) − r(xi )
2·
Sofern (i, ) · ξ ≥ r(xi ) ist, so wird xi als möglicher Repräsentant für eine Kreuzung betrachtet. Eine in diesem Verfahren ermittelte Kreuzung hat meistens dann auch mehrere
Repräsentatanten. Dieses Verfahren ermittelt keine Cluster im eigentlichen Sinne, sondern analysiert, wie stark die Erreichbarkeitsdistanz in einem Bereich des Diagrammes
schwankt.
3.2
|
Aggregierung
Im vorhergehenden Abschnitt wurde gezeigt, wie Kreuzungen mit der Hilfe von OPTICS erkannt werden können. Mit Hilfe dieser automatischen Erkennung können nun
die Spuren an den Kreuzungen zerlegt werden. Da die Strecken jetzt nur noch die Länge eines Straßenabschnittes haben, sinkt damit deutlich die Wahrscheinlichkeit, dass
die Distanzfunktion hohe Werte zurück liefert, obwohl sie teilweise nah beieinander
verlaufen. Als Distanzfunktion können zwei verschiedene Distanzen eingesetzt werden:
1
die Fréchet-Distanz und die Hausdorff2
3
6
Distanz. Mit der von DBSCAN durchge4
5
führten Clusteranalyse werden die einzelnen Spursegmente zwar in Gruppen zu1
sammen gefasst oder als Rauschen de2
3
6
klariert und verworfen, aber die Zusam4 5
menfassung, also das Aggregieren ist noch Abbildung 3.4.: Zusammenfassen eines Clunicht geschehen.
sters zu einer aggregierten
Das Verfahren zum Ermitteln des CluSpur. Schwarz sind zwei ursterzentrums arbeitet mit Spuren, die alsprünglicher Spuren dargele aus n Punkten bestehen. Daher müssen
stellt und grün die neu entdie Spuren, nachdem sie geclustert wurstandenen.
den, auf eine einheitliche Punktzahl gebracht werden. Dabei werden alle Punkte jeder Spur durchnummeriert. Danach wird
28
für jedes i ∈ [1, . . . , n] der Schwerpunkt aller Punkte mit der Nummer i berechnet. Abbildung 3.4 zeigt schematisch, wie dieser Algorithmus arbeitet.
29
4 | Implementierung
Um die in der vorher gehenden Verfahren anwenden zu können, wurde ein Prototyp
in Java 7 geschrieben, der diese Algorithmen implementiert und einige Werkzeuge zur
Evaluation liefert. Der Prototyp wurde GPSk genannt und erweitert den Prototypen
agg2graph, den Johannes Mitlmeier [Mit12] geschrieben hat.
4.1
|
Eingabe
Format Die Daten für dieses Projekt stammen von OpenStreetMap - sie wurden mit
Hilfe des Clients JOSM herunter geladen und als GPX-Datei auf der Festplatte gespeichert.
Die Abkürzung GPX steht für GPS Exchange Format und basiert auf dem XML-Format.[Top13]
Es ist ein einfaches Dateiformat, in dem Punkte einzeln als waypoints abgelegt werden
können oder auch ganze Strecken. Entweder als route, welche eine einfache Strecke darstellt, oder als track, in dem mehrere trackparts enthalten sind. Die Punkte werden
einfach mit Breiten- und Längengrad in einer GPX-Datei angegeben. Zusätzlich gibt
es noch die Möglichkeit, Angaben über den Zeitstempel, Messungenauigkeiten oder die
aktuelle Höhe zu machen. Da dies nur optional ist, sollte man sich keinesfalls darauf
verlassen, dass diese Daten bei einer Eingabedatei vorhanden sind. Außerdem kann an
jede Spur und an jeden Punkt auch noch ein <extensions-Element angehängt werden,
in dem völlig beliebige Daten abgespeichert werden. In diesem Projekt wird dies dazu
genutzt, um zusätzliche Informationen, wie zum Beispiel die errechnete Erreichbarkeitsdistanz, zu speichern.
Das Einlesen und die Ausgabe der Daten erfolgt mit Hilfe von JAXB. JAXB ist ein Teil
der Java-Bibliothek, die es ermöglicht, XML-Dokumente in einer JavaBean abzubilden
und umgekehrt. Der Vorteil dieser Technologie ist, dass die Verarbeitung der Daten sehr
einfach ist und JAXB eine valide Ausgabe von XML zusichert.[OM03] Der Nachteil ist,
dass JAXB das Dokument nicht einlesen kann, wenn der namespace in der GPX-Datei
nicht korrekt definiert wurde. In Listing 4.1 ist der Kopf einer GPX-Datei zu sehen, die
mit den Ergebnissen von OPTICS angereichert wurde.
Listing 4.1: Kopf einer von GPSk ausgegebenen GPX-Datei.
<n s 2 : g p x x m l n s : n s 2=" h t t p : //www. t o p o g r a f i x . com/GPX/1/1 "
x m l n s : n s 3=" h t t p : // i n f . fu−b e r l i n . de / agg2graph / e x t e n s i o n s / gpsk "
version=" 1 . 1 " c r e a t o r=" gpsk ">
<ns2:wpt l a t=" 52. 5177 37300 0000 0028 8946 4667 5325 9301 18560 7910 1562 5 "
30
l o n=" 13 .375974 199999 9999251 258486 7654368 2813644 409179 6875 ">
<n s 2 : e x t e n s i o n s>
<n s 3 : p o i n t −meta>
<r e a c h a b i l i t y D i s t a n c e>INF</ r e a c h a b i l i t y D i s t a n c e>
</ n s 3 : p o i n t −meta>
</ n s 2 : e x t e n s i o n s>
</ ns2:wpt>
<ns2:wpt l a t=" 52. 5177 6600 0000 00172 4856 7019 1235 8403 2058 7158 20312 5 "
l o n=" 1 3.37 59429 9999 9999 4720 3832 5620 8151 57890 3198 2421 875 ">
<n s 2 : e x t e n s i o n s>
<n s 3 : p o i n t −meta>
<r e a c h a b i l i t y D i s t a n c e>
6.406228352046712
</ r e a c h a b i l i t y D i s t a n c e>
</ n s 3 : p o i n t −meta>
</ n s 2 : e x t e n s i o n s>
Datenquelle Die Daten für dieses Projekt stammen von OpenStreetMap. Diese wurden
mit Hilfe des OSM-Clients JOSM herunter geladen. JOSM unterstützt nativ den Export
im osm-Format, bietet aber auch an, die Daten im GPX-Format zu exportieren.[Com13]
Beim Herunterladen kann man eine Bounding Box festlegen, in der die Daten liegen.
Außerdem kann festlegen, ob es Rohdaten seien sollen, die herunter geladen werden
oder Kartendaten. Da Kartendaten praktisch schon anonym sind, wurden ausschließlich
Rohdaten verwendet.
4.2
|
Bereinigung
Einige Spuren von OpenStreetMap verlaufen sowohl innerhalb als auch außerhalb der
festgelegten Bounding Box. JOSM löscht dann einfach alle Punkte, die außerhalb der
Bounding Box liegen. Wenn jedoch eine Spur die Bounding Box verlässt und später
wieder eintritt, so entsteht dadurch eine Kante in der Spur, die entlang des Randes der
Bounding Box entlang läuft. Um diesen Effekt zu vermeiden, werden die solche Kanten
entfernt und Spuren zerlegt.
Ebenfalls sind in Spuren Kanten vorhanden, die außergewöhnlich lang sind und die
eigentlich nur Sinn ergeben, wenn die Person mit dem Flugzeug unterwegs war. Eine andere Erklärung dafür sind Tunnel: In einem Tunnel gibt es keinen Empfang und manche
GPS-Spuren verbinden direkt Tunnelanfang mit dem -ende.
agg2graph bietet dafür eine effektive Filterfunktion, die für die Bereinigung der Daten
genutzt wurde. Sämtliche Datensätze, auf denen Operationen ausgeführt wurden (dies
betrifft alle Ergebnisse der Evaluation in Kapitel 5), wurden vorher von der agg2graphBibliothek bereinigt. Die Parameter dafür stehen in Tabelle 4.1. Johannes Mitlmeier
erläutert sie kurz in [Mit12, S.35ff].
31
minSegmentLength
1 minEdgeLength
0.1
maxSegmentLength
∞ maxEdgeLength
500
minEdgeLengthIncreaseFactor 10 maxZigZagAngle 30
minEdgeLengthAfterIncrease
30 maxNumOutliers 2
Tabelle 4.1.: Parameter für die Bereinigung der GPS-Spuren
4.3
|
Karte
Graphisch dargestellt wird alles im MapPanel dargestellt, welches die Klasse JXMapViewer erweitert, welcher aus der swingX-Bibliothek[Lab13] stammt. Obwohl agg2graph
bereits eine ähnliche Funktionaliät bereit stellt, wird diese nicht genutzt, da sie auf dem
JMapViewer (ohne X) basiert, die unter GPL-Lizenz steht und damit es nicht ermöglicht,
GPSk unter einer anderen Lizenz als GPL zu veröffentlichen.[Fou13] Der JXMapViewer
lädt automatisch die Kacheln, quadratische 256 × 256 Pixel große PNG-Bilder, die für
die Darstellung der Karte zusammen gefügt werden, von OpenStreetMap herunter. Diese
Kacheln werden zusätzlich auch auf der Festplatte gespeichert, um bei einer späteren
Ausführung des Prototypen immer noch eine Karte zeichnen zu können, selbst wenn
keine Internetverbindung vorhanden ist.
Zwar ist die Darstellung einer Karte für das Funktionieren des Prototypen nicht notwendig, allerdings lässt sich damit sehr einfach überprüfen, ob z.B. Kreuzungen richtig
erkannt wurden.
4.4
|
Algorithmen
Fast implementierte Algorithmus in GPSK erweitert die Klasse AbstractAlgorithm. Alternativ, wenn der Algorithmus mehr als zwei Datensätze benötigt, kann dieser stattdessen auch die Klasse MultipleInputAlgorithm erweitert werden. Ausgenommen ist
allerdings der Algorithmus OPTICS, der Dieser muss nur die Methode call() implementieren und eine @Options enthalten, die auf die Klasse für die Optionen zeigt. Eine
solche Options-Klasse ist beispielhaft in Listing 4.2 zu finden. Per reflections wird
diese von der Klassse RunAlgorithmAction ausgewertet und eine GUI erstellt, wie man
sie in Abbildung 4.1 sehen kann. RunAlgorithmAction erweitert die Klasse AbstractAlgorithm aus der Java-Bibliothek. Ihr Konstruktor erhält die Klasse vom Algorithmus
und das Objekt muss nur noch in einer entsprechenden Swing-Komponenente (JButton,
JMenuItem eingefügt werden.
Jeder Datensatz besteht aus Spuren und Punkten, die einem Objekt der GPSkEnvironment-Klasse gespeichert werden. Zusätzlich werden sämtliche GPSkEnvironment’s
in einer HashMap in der Singleton-Klasse EnvironmentManager gespeichert. Bei einem
Klick auf eine RunAlgorithmAction wird ein GUI-Element gebaut, in dem eine DropDown-Liste alle vorhandenen Datensätze auflistet (Algorithmen-Klassen können Filter
angeben, um unsinnige Eingabe zu verhindern) und es wird ein Textfeld angeboten, in
32
dem man den Schlüssel angeben kann, unter dem das Ergebnis gespeichert werden kann.
Beispielhaft ist eine solche Klasse für DBSCAN in Listing 4.2 zu finden.
Listing 4.2: Optionen Klasse für DBSCAN. Die Felder können zusätzliche Annotationen
haben (hier @Min, um Bedingungen für diese Objekte festzulegen. Die @Description-Annotation kann von der OptionsDialog-Klasse benutzt werden,
um Tooltips zu erstellen. Sie wurde in diesem Listing weggelassen, um Platz
zu sparen.
package de . fub . agg2graph . gpsk . a l g o r i t h m s ;
import de . fub . agg2graph . gpsk . a n n o t a t i o n s . D e s c r i p t i o n ;
import de . fub . agg2graph . gpsk . a n n o t a t i o n s . Min ;
/∗ ∗
∗
∗ @author C h r i s t i a n Windolf c h r i s t i a n w i n d o l f @ w e b . de
∗/
public c l a s s DBSCANoptions {
@Min( v a l u e =0)
@Description ( value = " [ . . . ] " )
public int minPts = 5 ;
@Min( v a l u e =0)
@Description ( value = " [ . . . ] " )
public double eps = 1 0 0 ;
@Override
public S t r i n g t o S t r i n g ( ) {
return
" DBSCANoptions{ " + " minPts=" + minPts + " , ␣ eps=" + eps + ’ } ’ ;
}
}
4.5
|
Kreuzungserkennung
Die Laufzeit von OPTICS lässt sich mit Hilfe eines Indizes, wie in Abschnitt 2.4.2
vorgestellt, von O(n2 ) auf O(n · log n) reduzieren. Diese Reduktion ist nicht nur in der
Theorie, sondern auch in der Praxis ausgesprochen relevant. Ein System, das mit einem
Core Duo T2400 und 2 GB RAM ausgestattet war benötigte bei einem Datensatz mit
3000 Punkten ungefähr 30 Sekunden, wenn kein Index verwendet wurde. Mit Index
konnte die Laufzeit auf weniger als eine Sekunde reduziert werden.
Die verwendete Bibliothek für den RBaum ist die jsi-Bibliothek [Mor13]. Sie kann
jedoch nur mit Koordinaten umgehen, die in einer ebenen Fläche liegen. Längen- und
33
Abbildung 4.1.: Beispielhafter Startdialog für DBSCAN. Das Feld input ist eine
DropDown-Liste, die alle vorhandenen Datensätze aus der GPSkEnvironment auflistet. Bei output steht, unter welchem Schlüssel die Ergebnisse nach der Ausführung in die GPSkEnvironment eingefügt werden sollen. Darunter stehen die Felder, die durch die Klasse DBSCANoptions automatisch erstellt wurden sowie den aus der @DescriptionAnnotation Tooltip. (siehe auch Listing 4.2)
34
Breitengrad sind keine solchen Koordinaten, weshalb die UTM -Projektion zum Einsatz
kommt. (siehe Abschnitt 2.4.1.
Die im Prototypen verwendetete Implementierung stammt aus der jsi-Bibliothek.[Mor13]
Allerdings kann ein R-Baum nur mit Rechtecken als Suchanfrage umgehen. [Gut84][S.49]
Dies führt dazu, dass die Nachbarschaftsanfrage N (p) (welche kreisförmig ist) nicht ganz
korrekt beanwortet wird und alle Punkte x mit dist(p, x) > nachträglich entfernt werden müssen, wie man in Abbildung 4.2 sehen kann. Der zu große Abfragebereich und
die Tatsache, dass Anfragen an den R-Baum nicht nur im best-case mit einer Laufzeit
von O(log n) beantwortet werden können, führt dazu, dass die Implementierung nicht
den best-case erreicht.
2·
2·
Abbildung 4.2.: Links eine normale Abfrage mit dem R-Baum, die zu viele Werte zurück liefert. Rechts ist ein konstruierter worst-case, bei dem die Abfrage
eine Laufzeit von O(n) benötigt unter der Annahme, dass gleich dem
Durchmesser des Datensatzes ist. Allerdings kann man auch deutlich erkennen, dass die zukünftigen Nachbarschaftsanfragen (es wird für jeden
Punkt eine gemacht) weniger als O(n) Schritte benötigen.
Wenn so groß wie der Durchmesser der Daten ist, führt dies auch dazu, dass eine
Abfrage den kompletten Datensatz zurück liefert und die Laufzeit den worst-case von
O(n2 ) erreicht.
35
5 | Evaluation
Um die Qualität der vorgestellten Verfahren und des Prototypen zu evaluieren, wurden Testdurchläufe mit Datensätzen von OpenStreetMap durchgeführt. Für die Überprüfung der Kreuzungserkennung wurde ein Datensatz aus der Umgebung des Berliner
Hauptbahnhofes genommen. (resources/hbf/hbf.gpx). Als Distanzfunktion wurde die
Fréchet-Distanz verwendet.
Für die Aggregierung wurde ein Datensatz aus West-Berlin, der sich vom Brandenburger Tor bis zum Bahnhof Westend erstreckt verwendet.
Der Prototyp erlaubt ist in der Lage, seine Ergebnisse in einem JXMapViewer einzuzeichnen und damit eine optische Evaluation der Daten zu ermöglichen.
5.1
|
Kreuzungserkennung
Die Kreuzungserkennung ist ein elementarer Vorverarbeitungsschritt für die Aggregierung. Das in Abschnitt 3.2 vorgestellte Verfahren kann ohne sie wenn überhaupt, nur
mit einem sehr großen Informationsverlust arbeiten.
Die Wahl auf die Umgebung des Berliner Hauptbahnhofes fiel vor allem deshalb, weil
sich dort mehrere Szenarien überlagern.
1. Eine Mischung aus geschwungenen Verkehrswegen (insbesondere an der Spree) und
geraden Verkehrswegen.
2. Es gibt drei verschiedene Verkehrsmittel: die Straßen (die sich wiederum in Radfahrer, Autofahrer und Fußgänger aufteilen können), die Bahn und die Schifffahrt.
Außerdem gibt es Spuren, die von einem zum anderen Verkehrsmittel wechseln.
3. Es gibt Stellen im Datensatz, an denen sich Spuren überschneiden, aber keine
Kreuzungen erkannt werden sollen. Eine Brücke über die Spree ist keine Kreuzung
zwischen der Straße und dem Fluss. Ebenfalls soll eine S-Bahn-Brücke nicht als
Kreuzung zwischen einer Straße und den Gleisen gewertet werden.
5.1.1
|
Optische Evaluation
Der RDP-Filter (siehe Abschnitt 2.4.3) wurde ursprünglich in den Prototypen eingebaut,
um Rechenleistung zu sparen und die Daten (wenn auch verlustbehaftet) zu komprimie-
36
Abbildung 5.1.: Die ermittelten Kreuzungen, die rot dargestellt sind, wurden ohne
RDP-Filter erzeugt. Die blauen Punkte sind hingegen mit RDP-Filter
als Vorverwarbeitungsschritt durchgeführt. GPSk hat dabei die blauen
Punkte in einer höheren Ebene gezeichnet als die roten, was bedeutet,
dass die roten einfach dort übermalt wurden, wo ursprünglich blaue
waren. Bei fast allen blauen Punkten liegt jedoch ein roter Punkt direkt darunter, abgesehen von den Rändern. Dort liegt meistens kein
roter Punkt unter einem blauen Punkt. Die Punkte wurden mit Hilfe
der Schwankungsanalyse aus dem Erreichbarkeitsdistanzdiagramm von
OPTICS ermittelt.
Links ist ein Bereich markiert, der auf der Kurve einer S-Bahn-Schiene
liegt. Hier liegen unter den blauen Punkten keine roten Punkte. Dies
liegt daran, dass die Strecke dort eine Kurve macht und der RDP-Filter
dort sehr viele Punkte nicht löscht. Der markierte Bereich links oben
zeigt hingegen wiederum eine Kreuzung, die ohne RDP (rot) gefunden
wurde, mit jedoch übersehen wurde. Der genaue Verlauf der Kurve in
diesem Bereich wird in Abbildung 5.2 dargestellt. Man sieht, dass dort
eine einzige Spur an genau dieser Kreuzung sehr viele Punkte hat, jedoch
wird dies vom RDP-Filter auf einen Punkt reduziert.
37
(a) ohne
RDP
(b) mit
RDP
Abbildung 5.2.: Der RDP-Filter reduziert diese Stelle auf einen einzigen Punkt macht
es in diesem Sonderfall unmöglich dies als Kreuzung zu erkennen.
ren. Die optische Analyse zeigt jedoch sehr deutlich, dass dieser Schritt die Ergebnisse
der Kreuzungserkennung deutlich verbessern kann.
Dies liegt daran, dass die in Abschnitt 3.1 vorgestellten Hypothesen nicht wirklich
zutreffen. Die erste Hypothese stimmt zwar, die zweite jedoch nicht. Fußgänger bleiben
an Kreuzungen nicht stehen, wenn sie keine Straße überqueren müssen und erhöhen die
Dichte der Punkte bei einer zeitbasierten Aufzeichnung nicht. PKWs wiederum müssen
ebenfalls kaum ihre Geschwindigkeit reduzieren, wenn die Ampel grün ist und sie geradeaus fahren. Umgekehrt können sie im Stau stecken bleiben und die Kreuzungserkennung
ordnet dies als Stau ein.
Wenn man jedoch den RDP-Filter als Vorverarbeitungsschritt durchlaufen lässt, so
werden die Spuren geglättet. Wenn eine Spur abbiegt, so muss der RDP-Filter an dieeser
Stelle den Punkt belassen. Wenn bei einem geraden Straßenverlauf nahezu alle Punkte
gelöscht werden, an Kreuzungen jedoch nicht, so entsteht wieder das Muster, auf das in
Abbildung 3.2 gehofft wurde.
Um die Auswirkungen des RDP-Filters besser zeigen zu können, wurden die Kreuzungen (mit und ohne RDP-Filter) ermittelt und mit Hilfe von GPSk auf einer Karte
eingezeichnet. Dies wurde zwei Mal durchgeführt. Einmal wurde für das Erreichbarkeitsdistanzdiagramm mit der Schwankungsanalyse ausgewertet (Abbildung 5.1) und einmal
mit der Clusterextraktion (Abbildung 5.3). Auf beiden Abbildungen kann man gut erkennen, dass mit dem RDP-Filter praktisch genau so viele Kreuzungen erkannt werden
wie ohne. Allerdings werden ohne RDP-Filter weitaus mehr Fehler gemacht als mit dem
Filter. OPTICS wurde für diese Abbildungen mit den Parametern = 75 Meter und
minP ts = 15 ausgeführt. Bei der Variante mit RDP-Filter (blaue Punkte) wurde auf
25 Meter gesetzt. Für die mit der Schwankungsanalyse erstellte Abbildung 5.1 wurde
ξ = 0.9 und = 10 gewählt. Die Variante mit der Clusterextraktion in Abbildung 5.3
bekam die Parameter ξ = 0.05 und minP ts = 15.
Der RDP-Filter hat jedoch nicht nur positive Auswirkungen auf die Ergebnisse.
An der Kreuzung Otto-Dix-Straße/Lesser-Ury-Weg (links oben auf Abbildung auf Abbildung 5.1, Vergrößerung mit Spuren aus dem Datensatz statt erkannten Kreuzungen
sind in Abbildung 5.2 zu sehen) verläuft nur eine Spur, bei der auf einmal die Punktdichte an einer Kreuzung deutlich ansteigt. Ohne RDP-Filter wird dies auch deshalb
als Kreuzung erkannt, aber mit RDP-Filter wird diese Punkte auf genau einen Punkt
reduziert, mit der Folge, dass sie nicht mehr erkannt wird.
Ein weiteres Problem ergibt sich mit der Besonderheit, dass Daten von OpenStreetMap
38
Abbildung 5.3.: Ein zweiter Vergleich bei der Kreuzungserkennung, diesmal allerdings
mit der Clusterextraktion statt mit der Schwankungsanalyse. Deutlich
zu sehen ist dabei, dass weniger Punkte entstehen als in Abbildung
5.1. Erneut zeigen die roten die Berrechnung ohne RDP-Filter und die
blauen Punkte mit RDP-Filter an. Man sieht allerdings wieder ähnliche
Artefakte: Ränder des Datensatzes und Kurven (z.B. auf der S-BahnStrecke im Südwesten) werden als Kreuzungen erkannt.
39
verwendet wurden. Diese Daten sind nur ein Ausschnitt des Gesamtdatensatzes und Spuren, die die festgelegte Bounding Box um den Hauptbahnhof verlassen, werden sie an den
Rändern abgeschnitten. Die Endpunkte dieser abgeschnittenen Punkte liegen dadurch
automatisch am Rand der Bounding Box. Der RDP-Filter wiederum entfernt niemals
die Endpunkte einer Strecke. Wenn jedoch wieder der RDP-Filter überall Punkte läscht,
jedoch nicht am Rand, so steigt dort die Dichte (und es sinkt die Erreichbarkeitsdistanz).
Die Folge ist, dass diese als Kreuzung eingestuft werden.
Deshalb gibt es in GPSk auch ein Werkzeug, dass einfach sämtliche Punkte, die weniger
als x Meter Abstand zum Rand haben, entfernt werden (Voreinstellung sind 25 Meter).
Bei der Erstellung der Abbildungen 5.1 und 5.3 ist jedoch dieses Tool nicht zum Einsatz
gekommen, um genau diesen Effekt zeigen zu können.
Ebenfalls auffällig ist die sehr große Ansammlung an Punkten auf dem Hauptbahnhof.
Dies ist erst einmal grundsätzlich nicht schlecht, da der Hauptbahnhof ein Verkehrsknotenpunkt ist. Wünschenswert wäre es natürlich, wenn er diesen auf einige sehr wenige
Punkte reduzieren würde, allerdings ist dieses Gelände sehr unübersichtlich.
Beim Vergleich zwischen den Abbildungen 5.1 (Schwankungsanalyse) und 5.3 (Clusterextraktion) fällt auf, dass die Schwankungsanalyse häufig einen ganzen Satz an Punkten
für eine Kreuzung erkennt, während die Clusterextraktion sich auf einen beschränkt. Dafür gibt es zwei Gründe: Die Schwankungsanalyse betrachtet eine steile Umgebung als
Kreuzung. Bei einer steil abfallenden Umgebung hat der letzte Punkt dieser Umgebung
nur Punkte, die eine höhere Erreichbarkeitsdistanz haben als er selbst und rechts einen
ungefähr ähnlichen hohen Wert. Unterm Strich ist die durchschnittliche Erreichbarkeitsdistanz in seiner näheren Umgebung niedriger als seine eigene und die Schwankungsanalyse „sieht“ eine Kreuzung. Nun ist jedoch in der Clusteranalyse jeder Cluster von zwei
steilen Umgebungen begrenzt. Der zweite Grund ist der, dass die Schwankungsanalyse
auch Cluster erkennt, die weniger als minP ts Punkte haben.
5.1.2
|
Statistische Evaluation
Bei der optischen Evaluation lieferte die Clusterextraktion mit dem RDP-Filter deutlich
bessere Ergebnisse, daher wird in diesem Abschnitt ihr Verhalten noch einmal statistisch
untersucht. Für die statistische Evaluation wird erneut der Datensatz vom Hauptbahnhof DSc verwendet. Dieser soll nun mit einem Referenzdatensatz DSr verglichen werden, in dem manuell alle Kreuzungen eingetragen wurden, die erkannt werden sollten.
Die Referenzdaten befinden sich in der Datei resources/hbfRef.gpx. Damit eine eine Kreuzung in diesen Referenzdatensatz eingetragen wurde musste sie folgende zwei
Bedingungen erfüllen:
1. Auf einer Straßenkarte muss eine Kreuzung erkennbar sein. (Es wurde dabei Bing
Maps in der höchsten Zoomstufe verwendet)
2. An der Stelle verlief auch eine Spur aus dem Datensatz.
Für den Vergleich zwischen diesen beiden Datensätzen wird die Erkennungs- (Def. 14)
und die Fehlerrate (Def. 15) ermittelt.
40
Definition 14 (Erkennungsrate) Sei DSc ein Datensatz mit errechneten Kreuzungen, DSr ein Referenzdatensatz mit manuell eingetragenen Kreuzungen und > 0
ein Maximalabstand. Dann ist die Erkennungsrate φ wie folgt definiert:
φ=
|{p|p ∈ DSr ∧ ∃q ∈ DSc : dist(p, q) ≤ }|
|DSr |
Definition 15 (Fehlerrate) Sei DSc ein Datensatz mit errechneten Kreuzungen,
DSr ein Referenzdatensatz mit manuel eingetragenen Kreuzungen und > 0. Dann
ist die Fehlerrate Φ wie folgt definiert:
Φ=
|{p|pinDSc ∧ ∃q ∈ DSr : dist(p, q) ≤ }|
|DSc |
Φ/φ
0, 7
0, 6
Fehlerrate Φ
Erkennungsrate φ
0, 5
ξ
0, 04
0, 08
0, 12
0, 16
0, 20
Abbildung 5.4.: Graphische Darstellung der ermittelten Erkennungsrate- bzw. Fehlerrate. Die Kreuzungen wurden mit Hilfe von OPTICS ( = 75 Meter,
minP ts = 15 und anschließender Clusterextraktion (minP ts = 15, ξ siehe x-Achse) ermittelt. Zudem wurden Kreuzungen entfernt, die weniger
als 25 Meter Abstand zum Rand des Datensatzen haben.
Die Graphik 5.4 zeigt, wie sich der Wert der Fehlerrate Φ und der Erkennungsrate φ
verhalten, wenn der Parameter ξ bei der Clusterextraktion verändert wird. Je niedriger
ξ wird, umso höher wird die Erkennungsrate und die Fehlerrate sinkt. Der Grund dafür sind Kurven. Eine Kurve auf einer Straße führt dazu, dass alle Verkehrteilnehmer
dazu gezwungen werden, abzubiegen und dem Straßenverlauf zu folgen. An genau diesen Stelle löscht nun der RDP-Filter keine Punkte, um möglichst viel vom eigentlichen
41
Spurverlauf zu erhalten. An einer Kreuzung hingegen haben die Verkehrsteilnehmer die
Wahl, ob sie geradeaus fahren oder abbiegen wollen. Daher sind die Täler im Erreichbarkeitsdistanzdiagramm an Kurven deutlich tiefer als an Kreuzungen und werden selbst
bei einem sehr hohen ξ noch erkannt.
Je niedrige ξ wird, umso mehr werden auch die etwas weniger tiefen Täler der Kreuzungen bemerkt. Die Tatsache, dass die Fehlerrate mit fallendem ξ ebenfalls sinkt, bedeutet
nicht, dass in absoluten Zahlen weniger Fehler gemacht werden. Dadurch, dass mehr
Kreuzungen korrekt erkannt werden, fällt einfach die relative Fehlerrate.
5.2
|
Aggregierung
Die Evaluation des Endergebnisses erfolgt ebenfalls mit optischen und statistischen Methoden. Da bei der optischen Analyse der Kreuzungserkennung die Kombination aus
RDP-Filter, OPTICS und Clusterextraktion die besten Ergebnisse lieferte, wurden diese eingesetzt, um die Spuren aufzuteilen, bevor die Aggregierung begann.
5.2.1
|
Optische Evaluation
Die graphischen Ergebnisse entsprechen weitestgehen den Erwartungen. In den meisten verlaufen die aggregierten Spuren über Hauptstraßen, Nebenstraßen werden selten
„erkannt“. Dies hängt häufig damit zusammen, dass im Quelldatensatz (resources/dbscan/berlin.gpx) zu wenig Spuren dort verlaufen. Ein anderer Grund ist die Tatsache, dass die Kreuzungserkennung auf Nebenstraßen selten Kreuzungen erkennt, so
dass es zu keiner Aufspaltung kommt. Dies führt dann wieder zu dem in Abbildung 3.1
dargestellten Problem, dass Segmente, die nur partiell nah beieinander laufen, nicht als
Cluster erkannt werden.
Auf den Hauptstraßen sind zudem häufig zwei Spuren zu sehen. Die Erklärung dafür
ist einfach: Jede Richtung hat ihre eigene Spur. Manche Straßen haben trotzdem nur eine
Spur, hier ist häufig ebenfalls der Mangel an Spuren der Grund für die andere Richtung
der Grund. Abbildung 5.5 zeigt graphisch das Ergebnis der Aggregierung.
Interessant ist dabei auch ein Blick auf einen Fritz-Schloss-Park (Abbildung 5.6). Man
würde zumindestens erwarten, dass in der aggregierten Datei Hauptstraßen eher erkannt
werden als Parkwege. Allerdings laufen im Ursprungsdatensatz (weiterhin resource/dbscan/berlin.gpx) auf der Haupstraße weitaus weniger Spuren entlang als im Park.
Es ist im Sinne der Anoynmität, dass Spuren, die zu wenige Nachbarn haben, entfernt
werden. Insofern liefert der Algorithmus das gewünschte Ergebnis. Die Grundaussage des
Datensatzes, dass OpenStreetMap-Nutzer sich häufig im Fritz-Schloss-Park aufhalten
(oder ihn einfach nur oft vermessen), bleibt erhalten - wie sie ihn erreicht haben (woraus
sich schließen ließe, wo sie wohnen), wurde gelöscht.
Allerdings bilden sich in unübersichtlichen Situationen (z.B. Fußgängerzonen) Cluster,
bei denen die Ermittlung des Zentroiden kaum noch möglich ist. Als Beispiel dient hier
die nähere Umgebung des Kölner Doms. Zwar werden hier noch einige Spuren aggregiert,
allerdings haben einige Aggregate eine kurze Länge, die kaum noch die ursprünglichen
42
Abbildung 5.5.: Die schwarzen Linien sind das Ergebnis der Durchführung mit den Parametern = 50 Meter und minP ts = 2. Bei den blauen Linien wurde
stattdessen minP ts stattdessen auf 5 gesetzt. Dabei liegen die blauen
Linien in einer höheren Schicht, und übermalen dabei fast alle schwarzen Linien. Das heißt, alles, was mit minP ts = 5 erkannt wurde, wurde
auch mit minP ts = 2 erkannt.
43
Abbildung 5.6.: Der Fritz-Schloss-Park. Die aggregierten Spuren sind blau eingezeichnet, die Original-Spuren rot. DBSCAN wurde hier mit den Parametern
= 50 Meter und minP ts = 5 ausgeführt.
44
Bewegungen wieder spiegeln. Abbildung 5.7 zeigt den Ausgangsdatensatz in Köln und
die Ergebnisse.
(a) Kölner Hauptbahnhof/Dom. Die bluen
Linien sind die aggregierten. Es wird zwar
noch anatzweise das Netz der dortigen
Fußgängerzone wieder gegeben, allerdings
sehr unsauber.
(b) Bei ausreichend vielen weiteren
Strecken fässt DBSCAN die beiden schwarzen Strecken zu einem
einzigen Cluster zusammen.
Abbildung 5.7.: Die Fußgängerzone in der Nähe des Kölner Doms stellt ein Problem
dar, da sich dort Cluster bilden, deren Zentroide nur noch etwas sehr
unscheinbares darstellen. Die rechte Skizze zeigt beispielhaft, wie in solchen Situationen unterm Strich zwei Spuren zusammen gefasst werden,
die eigentlich eine recht hohe Fréchet-Distanz haben.
5.2.2
|
Statistische Evaluation
Eine wichtige Stellschraube für die Aggregierung ist der Parameter minP ts. Er bestimmt direkt, ob eine Straße, auf der x Spuren verlaufen, ins Aggregat hinein kommen oder nicht. Die logische Konsequenz ist, dass mit steigendem minP ts die Anzahl
der aggregierten Spuren (also Zentren der ermittelten Cluster) sinkt. Auch die Summe
der Länge sämtlicher Aggregate müsste sinken. Testläufe mit dem Datensatz aus der
Datei resources/dbscan/berlin.gpx, deren Ergebnisse in der Abbildung 5.8 eingetragen wurden, bestätigen diese Vermutung. Die Messreihen einmal mit dem Parameter
= 50 Meter und einmal mit = 20 Meter durchgeführt.
45
= 50m, Länge
= 50m, Anzahl der Cluster
= 20m, Länge
480
2400
400
2000
320
1600
240
1200
160
800
80
400
4
8
12
16
20
Anzahl der Cluster
Länge aller Strecken in Kilometer
= 20m, Anzahl der Cluster
24
minPts
Abbildung 5.8.: Die blauen Linien sind die statistischen Ergebnisse für = 50 Meter und
die grünen Linien sind die Ergebnisse mit = 20 Meter. Die Linien, die
die Gesamtlänge aller aggregierten Spuren darstellen, sind durchgezogen. Die Linien, die die Anzahl der Cluster bzw. aggregierten Spuren
widerspiegeln sind gestrichelt.
46
6 | Fazit & Ausblick
In dieser Arbeit wurden bei der Kreuzungserkennung verschiedene Verfahren implementiert und evaluiert. Dabei lieferte das Verfahren mit RDP-Filter, OPTICS und der
Clsuterextraktion die besten Ergebnisse. In dieser Arbeit konnte darauf eine Art bestpractise ermittelt werden, wie Spuren mit dem Prototypen GPSk anonymisiert werden
können. Diese best-practise ist in dem Fließdiagramm in Abbildung 6.1 dargestellt.
Import
Reinigung
RDP-Filter
OPTICS
Splitter
Clusterextraktion
DBSCAN
Aggregierung
Abbildung 6.1.: Empfohlener Ablauf für die Anonymisierung der Spuren mit GPSk. Dabei stehen die durchgezogenen Linien für Spuren, die von einem Verarbeitungsschritt übergeben. Die gepunkteten Linien stehen hingegen
Punkte.
6.1
|
Kreuzungserkennung
Für die Anonymisierung mittels DBSCAN ist die Zerlegung der Spuren zwingend notwendig. (Ein Testdurchlauf mittels DBSCAN mit der Datei resources/dbscan/berlin.gpx
47
fand keinen einzigen Cluster). Die in der Arbeit vorgestellte Methode mit RDP-Filter,
OPTICS und der Clusterextraktion ist in erster Linie eine Kurvenerkennung, bei der
nebenbei Kreuzungen erkannt werden. Unterm Strich kann DBSCAN mit Hilfe dieses
Vorverarbeitungsschrittes plausible Ergebnisse liefern, allerdings könnten die Ergebnisse
durch eine bessere Kreuzungserkennung insgesamt verbessert werden.
6.2
|
Aggregierung
Es hat sich gezeigt, dass DBSCAN durchaus geeignet ist, um Spuren zu anonymisieren. Die Anonymität wird dabei vor allem dadurch gewährleistet, dass Spuren entfernt
werden. Ein Angreifer A kann aus der Tatsache, dass er weiß, P ’s Spuren im Datensatz
vorhanden ist, nicht schließen, dass P ’s Spuren in den aggregierten und veröffentlichten
Datensatz eingeflossen sind.
k-Anonymität wird schließlich dadurch zugesichert, dass DBSCAN Cluster erzeugt,
die eine Mindestgröße von minP ts + 1 haben. Dadurch gibt es immer minP ts + 1 nicht
unterscheidbare Quasi-Identifizierer. Also st k-Anonymität zugesichert unter der Vorraussetzung, dass bei DBSCAN der Parameter minP ts ≥ k − 1 ist.
Die aggregierten Ergebnisse wären auch dann noch k-anonym, wenn keine Spuren gelöscht würden. Es ist zwar sehr unwahrscheinlich, dass DBSCAN in einem gewöhnlichen
GPS-Datensatz kein Rauschen erkennt und nirgends eine Spur einzeln verläuft, dennoch sollte man darauf achten, dass DBSCAN einen Teil der Spuren entfernt, bevor ein
Datensatz veröffentlicht.
Eine zweite Eigenschaft der Ergebnisse, nämlich dass die verbleibenden Segmente nur
noch Kreuzungen miteinander verbinden, erhöht ebenfalls die Anonymität. Selbst wenn
ein Angreifer A die Information hat, dass P in genau diesem Aggregat enthalten ist,
kommt er nur bis zur nächsten Kreuzung. Innerhalb einer Großstadt ist dies bei einer
hohen Kreuzungsdichte kein Problem, in ländlichen Regionen ist der Abstand dazwischen
deutlich größer.
Neben der Anonymisierung ist dieses Verfahren auch zur Straßenerkennung geeignet.
Die Ergebnisse auf Abbildung 5.5 für minP ts = 2 liegen ziemlich genau auf den Straßen
- der niedrige Wert für minP ts führt nicht dazu, dass Straßen erkannt werden, die besser
als Rauschen hätten erkannt werden sollen.
6.3
|
Ausblick
Bei dem in dieser Arbeit vorgestellten Verfahren werden nur Distanzfunktionen verwendet, die räumliche Entfernungen messen. Bei der Aggregierung werden dadurch sämtliche
Zeitstempel zerstört. Sowohl bei der Definition der Distanzfunktionen für die Clusteranalyse als auch der Bestimmung der Clusterzentren könnte man diesen jedoch berücksichtigen. Sofern die Datendichte nicht hoch genug ist, kann man auch stattdessen bestimmte
Features der Zeitstempel extrahieren. Beispielsweise wäre es möglich, nur die Wochentage oder die Geschwindigkeit zu berücksichtigen, um so einen höheren Informationserhalt
48
trotz Anonysierung zu ermöglichen.
Eine weitere, noch nicht untersuchte Möglichkeit wäre, zu versuchen, die Kreuzungserkennung zu verbessern. Einen interessanten Ansatz dafür lieferte Simon Könnecke, der
überprüfte, ob Kanten sich schneiden und ob sie es annähernd rechtwinklig tun. [Kö13]
Das Verfahren lieferte vor allem bei einer dünnen Datendichte bessere Ergebnisse und
könnte mit dem hier vorgestellten Aggregationsverfahren kombiniert werden.
Anonymität Der entscheidende Unterschied zwischen Krankenhausdaten (auf deren
Basis häufig die Diskussion über Anonymität geführt wird) und GPS-Spuren ist eben,
dass es keine Trennung zwischen quasi-identifizierenden und sensiblen Attributen gibt.
1
Homogenitätsattacken
Bei Krankenhausdaten sind mit einer Wahrscheinlichkeit von 81
möglich, wenn die Datensätze 5-anonym sind. [MGKV06, S. 2] Machanavajjhala et al.
führten deshalb den Begriff der l-Diversität ein. l-Diversität bedeutet, dass für jede
vollständige Gruppe (also jede Gruppe enthält alle Tupel, die einen bestimmten QuasiIdentifizierer haben) aus Tupeln, die homogene Quasi-Identifizierer haben, dass sie min1
für die
destens l verschiedene sensible Attribute haben. Der „niedrige“ Wert von 81
Wahrscheinlichkeit der Homogenität der sensiblen Attribute deutet darauf hin, dass die
meisten 5-anonymen Krankenhausdatensätze automatisch zumindestens 2-divers sind.
Wenn jedoch sensible und quasi-identifizierende Attribute gleich sind, bedeutet dies,
dass alle k-anonymen Datensätze nur 1-divers sind. Zwar anonymisiert das hier vorgestellte Verfahren GPS-Spuren, aber das Kriterium k-Anonymität ist ein schlechter
Indikator für die tatsächliche Anonymität. Für die Evaluation zukünftiger Anonymisierungsverfahren auf GPS-Spuren wäre es daher sinnvoll, wenn zusätzliche Kriterien für
die Anonymität auf GPS-Spuren diskutiert werden würden.
49
7 | Literaturverzeichnis
[App12] Apple Computer Inc.: iPhone 3G - Technical Specifications. 2012.
– http://support.apple.com/kb/SP495, zuletzt aufgerufen am 25. Juni
2013
[CK09] Cao, Lili ; Krumm, John J.: From GPS Traces to a Routable Road Map.
In: Procedings from the 17th ACM SIGSPATIAL International Conference
on Advances in Geographic Information Systems, 2009, S. 3–12
[Com13] Community, JOSM: WikiStart - JOSM. 2013. – http://josm.
openstreetmap.de/wiki/De:WikiStart zuletzt aufgerufen am 21. Juni
2013
[DP73] Douglas, David ; Peucker, Thomas: Algorithms for the reduction of the
number of points required to represent a digitised line or its caricature. In:
The Canadian Cartographer 10 (1973), S. 112 – 122
[Fou13] Foundation, Free S.: Frequently Asked Questions About The GNU
License.
2013. –
http://www.gnu.org/licenses/gpl-faq.html#
GPLRequireSourcePostedPublic, zuletzt aufgerufen am 21. Juni 2013
[Gar13] Gartnet Inc.: Worldwide PC, Tablet and Mobile Phone Shipments to
Grow 5.9 Percent in 2013. 2013. – http://www.gartner.com/newsroom/
id/2525515, zuletzt aufgerufen am 25. Juni 2013
[Gat12] Gatzke, Franz: Anwendung von k-Anonymisierung auf statischen GPSDaten, Freie Universiät Berlin, Institut für Informatik, Bachelorarbeit, 2012
[Goo13] Google Inc.: Android 4.2 Compatibility Definition. 2013. – http://
static.googleusercontent.com/external_content/untrusted_dlcp/
source.android.com/de//compatibility/4.2/android-4.2-cdd.pdf
[Gut84] Guttman, A.: A Dynamic Index Structure for Spatial Searching. In: ACM
SIGMOD International Conference on Management of Data (1984)
[HA95] Helmut Alt, Michael G.: Computing the Frèchet-Distance between two
polygonal curves. In: International Journal of Computational Geometry and
Applications 5 (1995), S. 75–91
50
[Hen99] Henrikson, Jeff: Completeness And Total Boundedness of the Hausdorff
Metric. In: MIT Undergraduate Journal of Mathematics (1999)
[KSAB99] Kriegel, Hans-Peter ; Sander, Jörg ; Ankerst, Mihael ; Breuning,
Markus: OPTICS: Ordering Points to Identify the Clustering Structure. In:
ACM SIGMOD international conference on Management of data (1999)
[Kö13] Könnecke, Simon: Untersuchung einer Clustermethode zur Aggregation
von GPS-Spursegmenten, Freie Universiät Berlin, Institut für Informatik,
Bachelorarbeit, 2013
[Lab13] Labs, Swing: Swing Labs: Swing Component Extensions. 2013. – https:
//swingx.java.net/ zuletzt aufgerufen am 11. Juli 2013
[MGKV06] Machanavajjhala, Ashwin ; Gehrke, Johannes ; Kifer, Daniel ; Venkitasubramaniam, Muthuramakrishnan: l-diversity: Privacy beyond kAnoymity. In: ACM Transactions on Knowledge Discovery from Data
(TKDD) (2006)
[Mit12] Mitlmeier, Johannes: Generierung von Straßengraphen aus aggregierten
GPS-Spuren, Freie Universität Berlin, Institut für Informatik, Masterarbeit,
2012
[Mor13] Morris, Aled: JSI (Java Spatial Index) Rtree Library. 2013. – http:
//jsi.sourceforge.net/ zuletzt aufgerufen am 22. Juni 2013
[MV12] Müller, Sebastian ; Voisard, Agnés: Storing aggregated traces for map
construction. In: 8. GI/KuVS-Fachgespräch Ortsbezogene Anwendungen und
Dienste, 2012, S. 8–11
[OM03] Ort, Ed ; Mehta, Bhakti:
Java Architecture for XML Binding
(JAXB). 2003. – http://www.oracle.com/technetwork/articles/
javase/index-140168.html zuletzt aufgerufen am 21. Juni 2013
[PG09] Philippe Golle, Kurt P.: On the Anonymity of Home/Work Location
Pairs. In: Pervasive (2009)
[ROE09] Raento, Mika ; Oulasvirta, Antti ; Eagle, Nathan: Smartphones, an
emerging tool for social scientists. In: Socialogical & Methods and Research
(2009), S. 426–454
[Sch10] Schmidt, Torsten:
My tracks - eigene GPS-Daten aufzeichnen.
2010. –
http://www.netz-online.com/2010/09/13/
my-tracks-eigene-gps-daten-aufzeichnen/ zuletzt aufgerufen am
6. Juli 2013
[SE00] Sanders, Jörg ; Esters, Martin: Knowledge Discovery in Databases: Techniken und Anwendungen. Springer-Verlag GmbH, Heidelberg, 2000
51
[SEKX96] Sander, Jörg ; Ester, Martin ; Kriegel, Hans-Peter ; Xiaowei, Xu: A
Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. In: Proceedings of the Second International Conference on
Knowledge Discovery and Data Mining (1996)
[Str96] Strehmel, Ralf: Amtliches Bezugssystem der Lage: ETRS89. In: Vermessung Brandenburg 1/96 (1996)
[Swe02] Sweeney, L.: k-anonymity: A model for protecting privacy. In: International Journal on Uncertainty, Fuzziness and Knowledge-based Systems (2002)
[Syn87] Synder, John P.: Map Projections: A Working Manual. Geological Survey
(U.S.), 1987
[Top13] TopoGrafix: GPX 1.1 Schema Documentation. 2013. – http://www.
topografix.com/GPX/1/1/ zuletzt aufgerufen am 20. Juni 2013
[ZS10] Zhang, Lijuan ; Sester, Monika: Incremental Data Acquisition from GPSTraces. (2010)
52
A | Verwendete Bibliotheken
Der Prototyp GPSk erweitert den Prototypen agg2graph und nutzt einige seiner Funktionen.
• commons-jxpath-1.3.jar Erlaubt XPath-Ausdrücke auf JavaBeans http://commons.
apache.org/proper/commons-jxpath/
• frechet-0.0.1-SNAPSHOT.jar Vom Autor erstellte Implementierung der diskreten Fréchet-Distanz
• frechet.jar Implementierung der Fréchet-Distanz vom mytraj-Projekt. http:
//code.google.com/p/mytraj/ Wird nicht mehr wirklich verwendet, da sie abstürzt, wenn sich Spuren schneiden.
• hamcrest.jar Bibliothek zum Erstellen von Unit-Tests. http://code.google.
com/p/hamcrest/
• jarjar-1.4.jar Ant-Task, die das Erstellen einer Executable Jar erleichtern.
https://code.google.com/p/jarjar/
• jens.jar Die Implementierung der Fréchet Distanz durch Jens Fischer. Wird nicht
mehr benutzt, weil sie ein Speicherleck hat.
• jscience.jar Enthält die UTM -Projektion. http://jscience.org/
• jsi-1.0b8.jar Enhält eine RBaum-Implementierung http://jsi.sourceforge.
net/
• jts-1.8.jar Geometrie-Bibliothek. Wird von frechet.jar benötigt. Außerdem
existiert in GPSk ein Tool (welches nicht in der Arbeit selbst diskutiert wurde, da es
für die Erstellung der Ergebnisse, die in der Evaluation besprochen wurden, nicht
verwendet wurde), das Polygone um Kreuzungen zeichnen kann.
• junit-4.11.jar Framework zum Erstellen von Unit-Testsi http://junit.org/
• log4j-1.2.6 Framework zum Loggen von Ereignissen
• swingx-all-1.6.4.jar Enthält den JXMapViewer zum Darstellen von Karten.
53
B | CD-Inhalt
Dieser Arbeit liegt eine CD für Beispieldaten und Code bei.
• main.pdf Digitale Version dieser Arbeit
• resources Beispieldateien, die in der Evaluation verwendet wurden.
• GPSk Der Prototyp
– build_gpsk.gpx Ant-Skript zum Erstellen einer ausführbaren Jar-Datei.
– gpsk.jar auführbare Jar-Datei, die den Prototypen startet.
– res Ordner mit Resource für den Prototypen
– test Testdateien für Unit-Tests
– unit-test Quellcodes für Unit-Tests.
• de Quellpaket de.
• com Quellpaket com.
• org Quellpaket org.
54

k-Anonymität von GPS-Spuren mit Hilfe von DBSCAN

Transcription

Similar documents

Data Mining Analytische Informationssysteme

Volltext als PDF - und Kommunikationswissenschaft

Tutorials im Zusammenhang mit Verilog

licht.wissen 03