Datenqualität - Ein Überblick

Transcription

S. Schneemann
HTWK Leipzig
23.01.2008
S. Schneemann (HTWK Leipzig)
23.01.2008
1 / 29
Gliederung
1
2
3
4
5
6
Einleitung
Problematik
Datenqualitätsdimensionen
Genauigkeit
Vollständigkeit
Weitere Dimensionen
Programme
Anforderungen
Klassikation
Duplikatbehandlung mit IntelliClean
Messgröÿen
Durchführungsphasen
Zusammenfassung & Ausblick
23.01.2008
2 / 29
Einleitung
Einführendes Beispiel
ID
1
2
3
4
Title Director Year #Remakes LastRemakeYear
Casablanca
Dead Poets Society
Rman Holiday
Sabrina
Weir
Curtiz
Wylder
NULL
1942
1989
1953
1964
3
0
0
0
1940
NULL
NULL
1985
Die Regisseure der Filme mit der ID 1 und ID 2 sind vertauscht (Genauigkeit).
Das Jahr des letzten Remakes vom Film mit der ID 1 ist kleiner als Jahr der ersten
Produktion (Konsistenz).
Im Titel vom Film mit der ID 3 bendet sich ein Rechtschreibfehler. Korrigiert
lautet der Titel 'Roman Holiday' (Genauigkeit).
Die Spalte Regisseur im Film mit der ID 4 darf nicht leer sein (Vollständigkeit).
Der Film mit der ID 4 hat ein Datum in der Spalte mit der letzten Neuverlmung,
die Anzahl der Neuverlmungen ist jedoch 0 (Vollständigkeit, Aktualität,
Konsistenz).
23.01.2008
3 / 29
Einleitung
ID
1
2
3
4
Casablanca
Dead Poets Society
Rman Holiday
Sabrina
Weir
Curtiz
Wylder
NULL
1942
1989
1953
1964
3
0
0
0
1940
NULL
NULL
1985
Konsistenz).
23.01.2008
3 / 29
Einleitung
ID
1
2
3
4
Casablanca
Dead Poets Society
Rman Holiday
Sabrina
Weir
Curtiz
Wylder
NULL
1942
1989
1953
1964
3
0
0
0
1940
NULL
NULL
1985
Konsistenz).
23.01.2008
3 / 29
Einleitung
ID
1
2
3
4
Casablanca
Dead Poets Society
Rman Holiday
Sabrina
Weir
Curtiz
Wylder
NULL
1942
1989
1953
1964
3
0
0
0
1940
NULL
NULL
1985
Konsistenz).
23.01.2008
3 / 29
Einleitung
ID
1
2
3
4
Casablanca
Dead Poets Society
Rman Holiday
Sabrina
Weir
Curtiz
Wylder
NULL
1942
1989
1953
1964
3
0
0
0
1940
NULL
NULL
1985
Konsistenz).
23.01.2008
3 / 29
Einleitung
ID
1
2
3
4
Casablanca
Dead Poets Society
Rman Holiday
Sabrina
Weir
Curtiz
Wylder
NULL
1942
1989
1953
1964
3
0
0
0
1940
NULL
NULL
1985
Konsistenz).
23.01.2008
3 / 29
Problematik
Datenqualitätsprobleme
Welche grundlegenden Fragen stellen sich?
Ursachen Woher kommen Datenqualitätsprobleme?
Auswirkungen Was kosten Daten zweifelhafter Qualität?
Klassikation Passen Datenqualitätsprobleme in Schubladen?
23.01.2008
4 / 29
Problematik
23.01.2008
4 / 29
Problematik
23.01.2008
4 / 29
Problematik
23.01.2008
4 / 29
Problematik
Ursachen
Woher kommen Datenqualitätsprobleme?
Produktion Real-Welt-Objekte werden in verschiedenen Quellen
unterschiedlich abgespeichert; Manuelle Eingaben lassen
Raum zur Interpretation; Systematische Fehler
Speicherung typgleiche Daten werden in unterschiedlichen und/oder
ungeeigneten Formaten abgespeichert
Nutzung Nutzerbedürfnisse ändern sich; Zugris- und
Sicherheitsprobleme entstehen
23.01.2008
5 / 29
Problematik
Ursachen
23.01.2008
5 / 29
Problematik
Ursachen
23.01.2008
5 / 29
Problematik
Ursachen
23.01.2008
5 / 29
Problematik
Auswirkungen
Was kosten Daten zweifelhafter Qualität?
Imageverlust gegenüber Kunden durch Rechtschreibfehler in der
Anrede
Fehlkalkulationen bei Produktpreisgestaltung durch Nichtbeachtung
verschiedener Währungen in den zugrundeliegenden Daten
Fehleinschätzung bei Entscheidungen durch falsche Daten
Gefahr für Leib und Leben durch unzureichend genaue Messwerte bei
Sicherheitsprüfungen im Flugverkehr
23.01.2008
6 / 29
Problematik
Auswirkungen
Anrede
23.01.2008
6 / 29
Problematik
Auswirkungen
Anrede
23.01.2008
6 / 29
Problematik
Auswirkungen
Anrede
23.01.2008
6 / 29
Problematik
Auswirkungen
Anrede
23.01.2008
6 / 29
Problematik
Klassikation
Passen Datenqualitätsprobleme in Schubladen?
Eindeutig: Ja, zum Beispiel mittels Rahm & Do, aber ...
23.01.2008
7 / 29
Welche Dimensionen existieren?
Genauigkeit
Vollständigkeit
Konsistenz
Zeit
Kosten
...
23.01.2008
8 / 29
Genauigkeit
Vollständigkeit
Konsistenz
Zeit
Kosten
...
23.01.2008
8 / 29
Genauigkeit
Vollständigkeit
Konsistenz
Zeit
Kosten
...
23.01.2008
8 / 29
Genauigkeit
Vollständigkeit
Konsistenz
Zeit
Kosten
...
23.01.2008
8 / 29
Genauigkeit
Vollständigkeit
Konsistenz
Zeit
Kosten
...
23.01.2008
8 / 29
Genauigkeit
Vollständigkeit
Konsistenz
Zeit
Kosten
...
23.01.2008
8 / 29
Genauigkeit
Vollständigkeit
Konsistenz
Zeit
Kosten
...
23.01.2008
8 / 29
Genauigkeit
Syntaktische und Semantische Genauigkeit
Was ist Genauigkeit?
Entfernung zwischen einem korrekten Wert λ und seinem
gespeicherten Wert λ0
Arten von Genauigkeit
Syntaktische Genauigkeit Kosten für die Überführung des äuÿerlichen
Aufbaus von λ0 nach λ
Semantische Genauigkeit Kosten für die Überführung des Inhalts von
λ0 nach λ, wenn λ0 syntaktisch genau ist
23.01.2008
9 / 29
Genauigkeit
23.01.2008
9 / 29
Genauigkeit
23.01.2008
9 / 29
Genauigkeit
23.01.2008
9 / 29
Vollständigkeit
Kategorien von Vollständigkeit
Was ist Vollständigkeit?
Maÿ für den 'Füllstand' von Objekten (0 .. 1)
Wert-Vollständigkeit repräsentiert Null-Werte in einzelnen 'Feldern'
einer Relation
Tupel-Vollständigkeit repräsentiert Null-Werte innerhalb von 'Zeilen'
einer Relation
Attribut-Vollständigkeit repräsentiert Null-Werte innerhalb von
'Spalten' einer Relation
Relationen-Vollständigkeit repräsentiert Null-Werte innerhalb der
gesamten Relation
23.01.2008
10 / 29
Vollständigkeit
einer Relation
einer Relation
gesamten Relation
23.01.2008
10 / 29
Vollständigkeit
einer Relation
einer Relation
gesamten Relation
23.01.2008
10 / 29
Vollständigkeit
Beispiel für die unterschiedlichen Vollständigkeiten
ANR
Name
Vorname
E-Mail-Adresse
1
Ahnung
2 Besserwisser
3
Motzer
4
Stümper
Anton
Bea
Maik
Stefan
[email protected]
NULL
NULL
NULL
Tupel-Vollständigkeit für ANR 1 ist Vollständigkeit 1, sonst jeweils 34 , da
immer E-Mail-Adresse Null ist
Attribut-Vollständigkeit für Attribute ANR, Name und Vorname ist
Vollständigkeit bei 1, für E-Mail-Adresse bei 14
Relationen-Vollständigkeit Vollständigkeit von 4 Tupel ∗ 4 Attribute − 3
Null-Werte = 13
16
23.01.2008
11 / 29
Vollständigkeit
ANR
Name
Vorname
E-Mail-Adresse
1
Ahnung
2 Besserwisser
3
Motzer
4
Stümper
Anton
Bea
Maik
Stefan
[email protected]
NULL
NULL
NULL
Null-Werte = 13
16
23.01.2008
11 / 29
Vollständigkeit
ANR
Name
Vorname
E-Mail-Adresse
1
Ahnung
2 Besserwisser
3
Motzer
4
Stümper
Anton
Bea
Maik
Stefan
[email protected]
NULL
NULL
NULL
Null-Werte = 13
16
23.01.2008
11 / 29
Vollständigkeit
ANR
Name
Vorname
E-Mail-Adresse
1
Ahnung
2 Besserwisser
3
Motzer
4
Stümper
Anton
Bea
Maik
Stefan
[email protected]
NULL
NULL
NULL
Null-Werte = 13
16
23.01.2008
11 / 29
Vollständigkeit
Unterschiedlichen Bedeutungen von Null-Werten
ANR
Name
Vorname
E-Mail-Adresse
1
Ahnung
2 Besserwisser
3
Motzer
4
Stümper
Anton
Bea
Maik
Stefan
[email protected]
NULL
NULL
NULL
nicht existent bedeutet, dass bekannt ist, dass ein Wert nicht existiert.
existent und unbekannt bedeutet, dass bekannt ist, dass ein Wert existiert,
dieser selbst jedoch unbekannt ist.
Existenz unbekannt bedeutet, dass nicht bekannt ist, ob ein Wert existiert.
23.01.2008
12 / 29
Vollständigkeit
ANR
Name
Vorname
E-Mail-Adresse
1
Ahnung
2 Besserwisser
3
Motzer
4
Stümper
Anton
Bea
Maik
Stefan
[email protected]
NULL
NULL
NULL
23.01.2008
12 / 29
Vollständigkeit
ANR
Name
Vorname
E-Mail-Adresse
1
Ahnung
2 Besserwisser
3
Motzer
4
Stümper
Anton
Bea
Maik
Stefan
[email protected]
NULL
NULL
NULL
23.01.2008
12 / 29
Vollständigkeit
ANR
Name
Vorname
E-Mail-Adresse
1
Ahnung
2 Besserwisser
3
Motzer
4
Stümper
Anton
Bea
Maik
Stefan
[email protected]
NULL
NULL
NULL
23.01.2008
12 / 29
Weitere Dimensionen
Weitere Datenqualitätsdimensionen
Welche Dimensionen gibt es noch?
Konsistenz
Zeit
Kosten
Glaubwürdigkeit
Verfügbarkeit
Relevanz
...
23.01.2008
13 / 29
Weitere Dimensionen
Konsistenz
Zeit
Kosten
Glaubwürdigkeit
Verfügbarkeit
Relevanz
...
23.01.2008
13 / 29
Weitere Dimensionen
Konsistenz
Zeit
Kosten
Glaubwürdigkeit
Verfügbarkeit
Relevanz
...
23.01.2008
13 / 29
Weitere Dimensionen
Konsistenz
Zeit
Kosten
Glaubwürdigkeit
Verfügbarkeit
Relevanz
...
23.01.2008
13 / 29
Programme
Programme zur Verbessung der Datenqualität
Welche grundsätzlichen Fragen stellen sich?
Was sind Tools zur Datenqualitätsverbesserung?
Welche Anforderungen stellen sich?
Wie kann man die Programme unterteilen?
23.01.2008
14 / 29
Programme
23.01.2008
14 / 29
Programme
23.01.2008
14 / 29
Programme
23.01.2008
14 / 29
Programme
Anforderungen
Welche Anforderungen stellen sich? (1)
Data sources Unterstützung möglichst vieler verschiedenen Quellen
Extraction capabilities Extraktion nach Zeit, Intervall und Ereignis; Regeln
zur Selektivitätserhöhung; gleichzeitige Unterstützung
mehrerer Quellen
Loading capabilities Unterstützung von unterschiedlichen Typen von
Zielsystemen; paralleles Einfügen; Hinzufügen oder Ersetzen
Incremental updates Ziel: Zeit- und Trackosten verringern; Mittel: nur
neue oder geänderte Daten aus Quellsystem extrahieren; alle
Daten extrahieren und nur neu hinzugekommende oder
geänderte Daten in Zielsystem einspielen
23.01.2008
15 / 29
Programme
Anforderungen
mehrerer Quellen
23.01.2008
15 / 29
Programme
Anforderungen
mehrerer Quellen
23.01.2008
15 / 29
Programme
Anforderungen
mehrerer Quellen
23.01.2008
15 / 29
Programme
Anforderungen
Interface GUI oder Console
Metadata repository enthält Schema- und Mapping-Informationen;
Grundlage für gutes Merging mehrerer Datenquellen
Performance techniques Performance-Schub für groÿe Datensammlungen:
Lastverteilung, Parallelausführung, Partitionierung
Versioning ermöglicht den Rückgri auf ältere Regeldenitionen;
gleichzeitige Arbeit an groÿen Regelkatalogen
Function library enthält die vom Hersteller vorgesehene Funktionalität; ist
idealerweise erweiterbar
23.01.2008
16 / 29
Programme
Anforderungen
23.01.2008
16 / 29
Programme
Anforderungen
23.01.2008
16 / 29
Programme
Anforderungen
23.01.2008
16 / 29
Programme
Anforderungen
23.01.2008
16 / 29
Programme
Anforderungen
Language binding zur Denition eigener Funktionen oder Regeln in bereits
bekannter populärer Sprache (Java, Perl, usw.)
Debugging/tracing zur ezienten Überwachung und Kontrolle von
Regelanwendungen: bei Einführung Picht, gibt im laufenden
Betrieb Sicherheit
Exception handling Ereignisse, die nicht von den Regeln bearbeitet werden
können, müssen Ausnahmebehandlung erfahren
Data lineage speichert die Herkunft bestimmter Tupel oder Attribute bei
Mehr-Quellen-Systemen; erlaubt die Bewertung einzelner
Quellen
23.01.2008
17 / 29
Programme
Anforderungen
Betrieb Sicherheit
Quellen
23.01.2008
17 / 29
Programme
Anforderungen
Betrieb Sicherheit
Quellen
23.01.2008
17 / 29
Programme
Anforderungen
Betrieb Sicherheit
Quellen
23.01.2008
17 / 29
Programme
Klassikation
Wie kann man die Programme unterteilen? (1)
Data analysis Muster- und Regelerkennung auf den Daten; zum Beispiel:
'DataMining', 'statistische Bewertung'; Ziel: Aufspüren neuer
Kenntnisse, Validierung von Bekanntem
Data proling Verfahren, um Datenqualitätsprobleme aufzudecken; Ziel:
Protokolle über Dateninformationen vorhanden, die weitere
Konsequenzen ermöglichen
Data transformation (automatische) Zusammenführung von
unterschiedlichen Datenquellen mithilfe der
Meta-Repositories; Ziel: Schema-Verbindungen, Filterung,
Aggregation
Data cleaning Bereinigung der o. g. Dimensionsprobleme (u. a.
Genauigkeit, Vollständigkeit, Rechtschreibfehler,
Standardisierung, ...)
23.01.2008
18 / 29
Programme
Klassikation
Aggregation
23.01.2008
18 / 29
Programme
Klassikation
Aggregation
23.01.2008
18 / 29
Programme
Klassikation
Aggregation
23.01.2008
18 / 29
Programme
Klassikation
Duplication elemination Aunden und Entfernen/Mergen von Duplikaten
mit oder ohne Domänen-spezischem Wissen
Data enrichment (temporäre) Anreicherung von Datenbeständen mit
externen Quellen; Beispiele: Adressdaten, Demographische
Informationen
23.01.2008
19 / 29
Programme
Klassikation
Duplication elemination Aunden und Entfernen/Mergen von Duplikaten
mit oder ohne Domänen-spezischem Wissen
Data enrichment (temporäre) Anreicherung von Datenbeständen mit
externen Quellen; Beispiele: Adressdaten, Demographische
Informationen
23.01.2008
19 / 29
IntelliClean - the smartest way to clean data
Wie wird der Erfolg gemessen?
Wie arbeitet IntelliClean?
23.01.2008
20 / 29
23.01.2008
20 / 29
23.01.2008
20 / 29
Messgröÿen
Anzahl korrekt identizierter Duplikate ∗ 100%
Recall Anzahl
tatsächlich existierender Duplikate
falsch identizierter Duplikate
Positive-False-Error Anzahl
Anzahl aller identizierter Duplikate ∗ 100%
Precision 100% − False-Positive-Error
23.01.2008
21 / 29
Messgröÿen
Recall Anzahl
23.01.2008
21 / 29
Messgröÿen
Recall Anzahl
23.01.2008
21 / 29
Messgröÿen
Wie wird der Erfolg gemessen? Beispiel (1)
Recall Anzahl
Anzahl
identizierter Duplikate
Positive-False-Error Anzahlfalsch
aller identizierter Duplikate ∗ 100%
Gegeben sei DB mit Tupeln {A1 , A2 , A3 , A4 , B1 , B2 , C1 }, (gleiche
Buchstaben + unterschiedl. Index = Duplikate)
Algorithmus α hat Tupelmenge {A1 , A4 , C1 } und {B1 , B2 } als Duplikate
identiziert
Der Recall: 46 = 66.67%
Der Positive-False-Error: 15 = 20%
Precision: von 100% − 20% = 80%.
Beispiel
23.01.2008
22 / 29
Messgröÿen
Recall Anzahl
Anzahl
identizierter Duplikate
Positive-False-Error Anzahlfalsch
aller identizierter Duplikate ∗ 100%
Gegeben sei DB mit Tupeln {A1 , A2 , A3 , A4 , B1 , B2 , C1 }, (gleiche
Buchstaben + unterschiedl. Index = Duplikate)
Algorithmus α hat Tupelmenge {A1 , A4 , C1 } und {B1 , B2 } als Duplikate
identiziert
Der Recall: 64 = 66.67%
Der Positive-False-Error: 15 = 20%
Precision: von 100% − 20% = 80%.
Beispiel
23.01.2008
22 / 29
Messgröÿen
Recall Anzahl
Gegeben sei DB mit Tupeln {A1 , ...A100 , B1 }, (gleiche Buchstaben
+ unterschiedl. Index = Duplikate)
Algorithmus α hat Tupelmenge {A1 , ...A50 , B1 } als Duplikate identiziert
50
Der Recall: 100
= 50%
1
Der Positive-False-Error: 50
= 2%
Precision: von 100% − 2% = 98%.
Beispiel
23.01.2008
23 / 29
Messgröÿen
Recall Anzahl
Gegeben sei DB mit Tupeln {A1 , ...A100 , B1 }, (gleiche Buchstaben
+ unterschiedl. Index = Duplikate)
Algorithmus α hat Tupelmenge {A1 , ...A50 , B1 } als Duplikate identiziert
50
Der Recall: 100
= 50%
1
Der Positive-False-Error: 50
= 2%
Precision: von 100% − 2% = 98%.
Beispiel
23.01.2008
23 / 29
Phase 1: Pre-Processing
Phase 2: Processing
Phase 3: Post-Processing
23.01.2008
24 / 29
Phase 1: Pre-Processing
Standardisierung vereinheitlicht Daten aus unterschiedlichen Quellen
Abkürzungen, Zeitangaben und Genauigkeiten werden vereinheitlicht
Domänen-spezisches Wissen von Vorteil
Rechtschreibkorrektur mit Lockup-Tables
23.01.2008
25 / 29
Phase 2: Processing
IntelliClean enthält javabasiertes Expertensystem 'JESS'
arbeitet mit deklarativen Regeln von Fachleuten erstellt
Regel: Prämisse -> Konklusion
verschiedene Regelarten
Duplikat-Identikation wenn alle Teilvoraussetzungen die Prämisse
wahr machen, sind die beteiligten Tupel Duplikate
Vereinigung sind zwei Tupel Duplikate, gibt diese Regelart die
Vereinigungsform an
Aktualisierung Duplikaterkennungsübergreifende Bearbeitung aller
Tupel mit bestimmten Eigenschaften
Benachichtigung Probleme, für die keine autom. Behandlung
vorbereitet wurde
23.01.2008
26 / 29
Phase 2: Processing
Vereinigungsform an
vorbereitet wurde
23.01.2008
26 / 29
Phase 2: Processing
Vereinigungsform an
vorbereitet wurde
23.01.2008
26 / 29
Phase 2: Processing
Vereinigungsform an
vorbereitet wurde
23.01.2008
26 / 29
Phase 2: Processing
Vereinigungsform an
vorbereitet wurde
23.01.2008
26 / 29
Phase 3: Post-Processing
Nutzerinteraktion nötig
Sichten der Log-Dateien
manuelle Duplikat-Behandlung wenn nicht ausreichend präzise Regeln
deert werden konnten/sollten
Anpassung der Regelbestände
Zurückziehen nicht gewollter Änderungen
23.01.2008
27 / 29
Datenqualität - ein alter Hut?
Zusammenfassung
Ursachen und Auswirkungen mangelnder Datenqualität
Probleme sind klassizierbar
Daten und ihre Qualität sind mehrdimensional
Programme zur Unterstützung (Anforderungen, Klassikation)
Beispiel IntelliClean (Messgröÿen und Ablaufphasen)
Ausblick
weites Feld (hochgradig 'nicht-domänen-spezisch')
wachsende Datenbestände
Integrationswunsch wird zunehmen
Anforderungen (auch an Informatiker) werden steigen
23.01.2008
28 / 29
Zusammenfassung
Ausblick
23.01.2008
28 / 29
Zusammenfassung
Ausblick
23.01.2008
28 / 29
Vielen Dank für Ihre Aufmerksamkeit! Fragen?
23.01.2008
29 / 29

Datenqualität - Ein Überblick

Transcription

Similar documents

- Bergisch Gladbach

E304 Transformator

Kopie von Finanzvertrieb im Automobilhandel 2010

SQL - University of Bremen Database Systems Group

- Deutsches Marine Kompetenznetz – DMKN

Model: SFBC SFBPF SFBL COUNTERFLOW JET BUSE

und Vorwort - Das ZMS

2.3 Implementierung von Prozessen