Datenqualität - Ein Überblick

Transcription

Datenqualität - Ein Überblick
Datenqualität - Ein Überblick
S. Schneemann
HTWK Leipzig
23.01.2008
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
1 / 29
Gliederung
1
2
3
4
5
6
Einleitung
Problematik
Datenqualitätsdimensionen
Genauigkeit
Vollständigkeit
Weitere Dimensionen
Programme
Anforderungen
Klassikation
Duplikatbehandlung mit IntelliClean
Messgröÿen
Durchführungsphasen
Zusammenfassung & Ausblick
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
2 / 29
Einleitung
Einführendes Beispiel
ID
1
2
3
4
Title Director Year #Remakes LastRemakeYear
Casablanca
Dead Poets Society
Rman Holiday
Sabrina
Weir
Curtiz
Wylder
NULL
1942
1989
1953
1964
3
0
0
0
1940
NULL
NULL
1985
Die Regisseure der Filme mit der ID 1 und ID 2 sind vertauscht (Genauigkeit).
Das Jahr des letzten Remakes vom Film mit der ID 1 ist kleiner als Jahr der ersten
Produktion (Konsistenz).
Im Titel vom Film mit der ID 3 bendet sich ein Rechtschreibfehler. Korrigiert
lautet der Titel 'Roman Holiday' (Genauigkeit).
Die Spalte Regisseur im Film mit der ID 4 darf nicht leer sein (Vollständigkeit).
Der Film mit der ID 4 hat ein Datum in der Spalte mit der letzten Neuverlmung,
die Anzahl der Neuverlmungen ist jedoch 0 (Vollständigkeit, Aktualität,
Konsistenz).
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
3 / 29
Einleitung
Einführendes Beispiel
ID
1
2
3
4
Title Director Year #Remakes LastRemakeYear
Casablanca
Dead Poets Society
Rman Holiday
Sabrina
Weir
Curtiz
Wylder
NULL
1942
1989
1953
1964
3
0
0
0
1940
NULL
NULL
1985
Die Regisseure der Filme mit der ID 1 und ID 2 sind vertauscht (Genauigkeit).
Das Jahr des letzten Remakes vom Film mit der ID 1 ist kleiner als Jahr der ersten
Produktion (Konsistenz).
Im Titel vom Film mit der ID 3 bendet sich ein Rechtschreibfehler. Korrigiert
lautet der Titel 'Roman Holiday' (Genauigkeit).
Die Spalte Regisseur im Film mit der ID 4 darf nicht leer sein (Vollständigkeit).
Der Film mit der ID 4 hat ein Datum in der Spalte mit der letzten Neuverlmung,
die Anzahl der Neuverlmungen ist jedoch 0 (Vollständigkeit, Aktualität,
Konsistenz).
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
3 / 29
Einleitung
Einführendes Beispiel
ID
1
2
3
4
Title Director Year #Remakes LastRemakeYear
Casablanca
Dead Poets Society
Rman Holiday
Sabrina
Weir
Curtiz
Wylder
NULL
1942
1989
1953
1964
3
0
0
0
1940
NULL
NULL
1985
Die Regisseure der Filme mit der ID 1 und ID 2 sind vertauscht (Genauigkeit).
Das Jahr des letzten Remakes vom Film mit der ID 1 ist kleiner als Jahr der ersten
Produktion (Konsistenz).
Im Titel vom Film mit der ID 3 bendet sich ein Rechtschreibfehler. Korrigiert
lautet der Titel 'Roman Holiday' (Genauigkeit).
Die Spalte Regisseur im Film mit der ID 4 darf nicht leer sein (Vollständigkeit).
Der Film mit der ID 4 hat ein Datum in der Spalte mit der letzten Neuverlmung,
die Anzahl der Neuverlmungen ist jedoch 0 (Vollständigkeit, Aktualität,
Konsistenz).
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
3 / 29
Einleitung
Einführendes Beispiel
ID
1
2
3
4
Title Director Year #Remakes LastRemakeYear
Casablanca
Dead Poets Society
Rman Holiday
Sabrina
Weir
Curtiz
Wylder
NULL
1942
1989
1953
1964
3
0
0
0
1940
NULL
NULL
1985
Die Regisseure der Filme mit der ID 1 und ID 2 sind vertauscht (Genauigkeit).
Das Jahr des letzten Remakes vom Film mit der ID 1 ist kleiner als Jahr der ersten
Produktion (Konsistenz).
Im Titel vom Film mit der ID 3 bendet sich ein Rechtschreibfehler. Korrigiert
lautet der Titel 'Roman Holiday' (Genauigkeit).
Die Spalte Regisseur im Film mit der ID 4 darf nicht leer sein (Vollständigkeit).
Der Film mit der ID 4 hat ein Datum in der Spalte mit der letzten Neuverlmung,
die Anzahl der Neuverlmungen ist jedoch 0 (Vollständigkeit, Aktualität,
Konsistenz).
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
3 / 29
Einleitung
Einführendes Beispiel
ID
1
2
3
4
Title Director Year #Remakes LastRemakeYear
Casablanca
Dead Poets Society
Rman Holiday
Sabrina
Weir
Curtiz
Wylder
NULL
1942
1989
1953
1964
3
0
0
0
1940
NULL
NULL
1985
Die Regisseure der Filme mit der ID 1 und ID 2 sind vertauscht (Genauigkeit).
Das Jahr des letzten Remakes vom Film mit der ID 1 ist kleiner als Jahr der ersten
Produktion (Konsistenz).
Im Titel vom Film mit der ID 3 bendet sich ein Rechtschreibfehler. Korrigiert
lautet der Titel 'Roman Holiday' (Genauigkeit).
Die Spalte Regisseur im Film mit der ID 4 darf nicht leer sein (Vollständigkeit).
Der Film mit der ID 4 hat ein Datum in der Spalte mit der letzten Neuverlmung,
die Anzahl der Neuverlmungen ist jedoch 0 (Vollständigkeit, Aktualität,
Konsistenz).
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
3 / 29
Einleitung
Einführendes Beispiel
ID
1
2
3
4
Title Director Year #Remakes LastRemakeYear
Casablanca
Dead Poets Society
Rman Holiday
Sabrina
Weir
Curtiz
Wylder
NULL
1942
1989
1953
1964
3
0
0
0
1940
NULL
NULL
1985
Die Regisseure der Filme mit der ID 1 und ID 2 sind vertauscht (Genauigkeit).
Das Jahr des letzten Remakes vom Film mit der ID 1 ist kleiner als Jahr der ersten
Produktion (Konsistenz).
Im Titel vom Film mit der ID 3 bendet sich ein Rechtschreibfehler. Korrigiert
lautet der Titel 'Roman Holiday' (Genauigkeit).
Die Spalte Regisseur im Film mit der ID 4 darf nicht leer sein (Vollständigkeit).
Der Film mit der ID 4 hat ein Datum in der Spalte mit der letzten Neuverlmung,
die Anzahl der Neuverlmungen ist jedoch 0 (Vollständigkeit, Aktualität,
Konsistenz).
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
3 / 29
Problematik
Datenqualitätsprobleme
Welche grundlegenden Fragen stellen sich?
Ursachen Woher kommen Datenqualitätsprobleme?
Auswirkungen Was kosten Daten zweifelhafter Qualität?
Klassikation Passen Datenqualitätsprobleme in Schubladen?
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
4 / 29
Problematik
Datenqualitätsprobleme
Welche grundlegenden Fragen stellen sich?
Ursachen Woher kommen Datenqualitätsprobleme?
Auswirkungen Was kosten Daten zweifelhafter Qualität?
Klassikation Passen Datenqualitätsprobleme in Schubladen?
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
4 / 29
Problematik
Datenqualitätsprobleme
Welche grundlegenden Fragen stellen sich?
Ursachen Woher kommen Datenqualitätsprobleme?
Auswirkungen Was kosten Daten zweifelhafter Qualität?
Klassikation Passen Datenqualitätsprobleme in Schubladen?
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
4 / 29
Problematik
Datenqualitätsprobleme
Welche grundlegenden Fragen stellen sich?
Ursachen Woher kommen Datenqualitätsprobleme?
Auswirkungen Was kosten Daten zweifelhafter Qualität?
Klassikation Passen Datenqualitätsprobleme in Schubladen?
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
4 / 29
Problematik
Ursachen
Woher kommen Datenqualitätsprobleme?
Produktion Real-Welt-Objekte werden in verschiedenen Quellen
unterschiedlich abgespeichert; Manuelle Eingaben lassen
Raum zur Interpretation; Systematische Fehler
Speicherung typgleiche Daten werden in unterschiedlichen und/oder
ungeeigneten Formaten abgespeichert
Nutzung Nutzerbedürfnisse ändern sich; Zugris- und
Sicherheitsprobleme entstehen
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
5 / 29
Problematik
Ursachen
Woher kommen Datenqualitätsprobleme?
Produktion Real-Welt-Objekte werden in verschiedenen Quellen
unterschiedlich abgespeichert; Manuelle Eingaben lassen
Raum zur Interpretation; Systematische Fehler
Speicherung typgleiche Daten werden in unterschiedlichen und/oder
ungeeigneten Formaten abgespeichert
Nutzung Nutzerbedürfnisse ändern sich; Zugris- und
Sicherheitsprobleme entstehen
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
5 / 29
Problematik
Ursachen
Woher kommen Datenqualitätsprobleme?
Produktion Real-Welt-Objekte werden in verschiedenen Quellen
unterschiedlich abgespeichert; Manuelle Eingaben lassen
Raum zur Interpretation; Systematische Fehler
Speicherung typgleiche Daten werden in unterschiedlichen und/oder
ungeeigneten Formaten abgespeichert
Nutzung Nutzerbedürfnisse ändern sich; Zugris- und
Sicherheitsprobleme entstehen
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
5 / 29
Problematik
Ursachen
Woher kommen Datenqualitätsprobleme?
Produktion Real-Welt-Objekte werden in verschiedenen Quellen
unterschiedlich abgespeichert; Manuelle Eingaben lassen
Raum zur Interpretation; Systematische Fehler
Speicherung typgleiche Daten werden in unterschiedlichen und/oder
ungeeigneten Formaten abgespeichert
Nutzung Nutzerbedürfnisse ändern sich; Zugris- und
Sicherheitsprobleme entstehen
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
5 / 29
Problematik
Auswirkungen
Was kosten Daten zweifelhafter Qualität?
Imageverlust gegenüber Kunden durch Rechtschreibfehler in der
Anrede
Fehlkalkulationen bei Produktpreisgestaltung durch Nichtbeachtung
verschiedener Währungen in den zugrundeliegenden Daten
Fehleinschätzung bei Entscheidungen durch falsche Daten
Gefahr für Leib und Leben durch unzureichend genaue Messwerte bei
Sicherheitsprüfungen im Flugverkehr
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
6 / 29
Problematik
Auswirkungen
Was kosten Daten zweifelhafter Qualität?
Imageverlust gegenüber Kunden durch Rechtschreibfehler in der
Anrede
Fehlkalkulationen bei Produktpreisgestaltung durch Nichtbeachtung
verschiedener Währungen in den zugrundeliegenden Daten
Fehleinschätzung bei Entscheidungen durch falsche Daten
Gefahr für Leib und Leben durch unzureichend genaue Messwerte bei
Sicherheitsprüfungen im Flugverkehr
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
6 / 29
Problematik
Auswirkungen
Was kosten Daten zweifelhafter Qualität?
Imageverlust gegenüber Kunden durch Rechtschreibfehler in der
Anrede
Fehlkalkulationen bei Produktpreisgestaltung durch Nichtbeachtung
verschiedener Währungen in den zugrundeliegenden Daten
Fehleinschätzung bei Entscheidungen durch falsche Daten
Gefahr für Leib und Leben durch unzureichend genaue Messwerte bei
Sicherheitsprüfungen im Flugverkehr
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
6 / 29
Problematik
Auswirkungen
Was kosten Daten zweifelhafter Qualität?
Imageverlust gegenüber Kunden durch Rechtschreibfehler in der
Anrede
Fehlkalkulationen bei Produktpreisgestaltung durch Nichtbeachtung
verschiedener Währungen in den zugrundeliegenden Daten
Fehleinschätzung bei Entscheidungen durch falsche Daten
Gefahr für Leib und Leben durch unzureichend genaue Messwerte bei
Sicherheitsprüfungen im Flugverkehr
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
6 / 29
Problematik
Auswirkungen
Was kosten Daten zweifelhafter Qualität?
Imageverlust gegenüber Kunden durch Rechtschreibfehler in der
Anrede
Fehlkalkulationen bei Produktpreisgestaltung durch Nichtbeachtung
verschiedener Währungen in den zugrundeliegenden Daten
Fehleinschätzung bei Entscheidungen durch falsche Daten
Gefahr für Leib und Leben durch unzureichend genaue Messwerte bei
Sicherheitsprüfungen im Flugverkehr
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
6 / 29
Problematik
Klassikation
Passen Datenqualitätsprobleme in Schubladen?
Eindeutig: Ja, zum Beispiel mittels Rahm & Do, aber ...
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
7 / 29
Datenqualitätsdimensionen
Datenqualitätsdimensionen
Welche Dimensionen existieren?
Genauigkeit
Vollständigkeit
Konsistenz
Zeit
Kosten
...
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
8 / 29
Datenqualitätsdimensionen
Datenqualitätsdimensionen
Welche Dimensionen existieren?
Genauigkeit
Vollständigkeit
Konsistenz
Zeit
Kosten
...
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
8 / 29
Datenqualitätsdimensionen
Datenqualitätsdimensionen
Welche Dimensionen existieren?
Genauigkeit
Vollständigkeit
Konsistenz
Zeit
Kosten
...
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
8 / 29
Datenqualitätsdimensionen
Datenqualitätsdimensionen
Welche Dimensionen existieren?
Genauigkeit
Vollständigkeit
Konsistenz
Zeit
Kosten
...
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
8 / 29
Datenqualitätsdimensionen
Datenqualitätsdimensionen
Welche Dimensionen existieren?
Genauigkeit
Vollständigkeit
Konsistenz
Zeit
Kosten
...
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
8 / 29
Datenqualitätsdimensionen
Datenqualitätsdimensionen
Welche Dimensionen existieren?
Genauigkeit
Vollständigkeit
Konsistenz
Zeit
Kosten
...
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
8 / 29
Datenqualitätsdimensionen
Datenqualitätsdimensionen
Welche Dimensionen existieren?
Genauigkeit
Vollständigkeit
Konsistenz
Zeit
Kosten
...
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
8 / 29
Datenqualitätsdimensionen
Genauigkeit
Syntaktische und Semantische Genauigkeit
Was ist Genauigkeit?
Entfernung zwischen einem korrekten Wert λ und seinem
gespeicherten Wert λ0
Arten von Genauigkeit
Syntaktische Genauigkeit Kosten für die Überführung des äuÿerlichen
Aufbaus von λ0 nach λ
Semantische Genauigkeit Kosten für die Überführung des Inhalts von
λ0 nach λ, wenn λ0 syntaktisch genau ist
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
9 / 29
Datenqualitätsdimensionen
Genauigkeit
Syntaktische und Semantische Genauigkeit
Was ist Genauigkeit?
Entfernung zwischen einem korrekten Wert λ und seinem
gespeicherten Wert λ0
Arten von Genauigkeit
Syntaktische Genauigkeit Kosten für die Überführung des äuÿerlichen
Aufbaus von λ0 nach λ
Semantische Genauigkeit Kosten für die Überführung des Inhalts von
λ0 nach λ, wenn λ0 syntaktisch genau ist
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
9 / 29
Datenqualitätsdimensionen
Genauigkeit
Syntaktische und Semantische Genauigkeit
Was ist Genauigkeit?
Entfernung zwischen einem korrekten Wert λ und seinem
gespeicherten Wert λ0
Arten von Genauigkeit
Syntaktische Genauigkeit Kosten für die Überführung des äuÿerlichen
Aufbaus von λ0 nach λ
Semantische Genauigkeit Kosten für die Überführung des Inhalts von
λ0 nach λ, wenn λ0 syntaktisch genau ist
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
9 / 29
Datenqualitätsdimensionen
Genauigkeit
Syntaktische und Semantische Genauigkeit
Was ist Genauigkeit?
Entfernung zwischen einem korrekten Wert λ und seinem
gespeicherten Wert λ0
Arten von Genauigkeit
Syntaktische Genauigkeit Kosten für die Überführung des äuÿerlichen
Aufbaus von λ0 nach λ
Semantische Genauigkeit Kosten für die Überführung des Inhalts von
λ0 nach λ, wenn λ0 syntaktisch genau ist
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
9 / 29
Datenqualitätsdimensionen
Vollständigkeit
Kategorien von Vollständigkeit
Was ist Vollständigkeit?
Maÿ für den 'Füllstand' von Objekten (0 .. 1)
Arten von Genauigkeit
Wert-Vollständigkeit repräsentiert Null-Werte in einzelnen 'Feldern'
einer Relation
Tupel-Vollständigkeit repräsentiert Null-Werte innerhalb von 'Zeilen'
einer Relation
Attribut-Vollständigkeit repräsentiert Null-Werte innerhalb von
'Spalten' einer Relation
Relationen-Vollständigkeit repräsentiert Null-Werte innerhalb der
gesamten Relation
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
10 / 29
Datenqualitätsdimensionen
Vollständigkeit
Kategorien von Vollständigkeit
Was ist Vollständigkeit?
Maÿ für den 'Füllstand' von Objekten (0 .. 1)
Arten von Genauigkeit
Wert-Vollständigkeit repräsentiert Null-Werte in einzelnen 'Feldern'
einer Relation
Tupel-Vollständigkeit repräsentiert Null-Werte innerhalb von 'Zeilen'
einer Relation
Attribut-Vollständigkeit repräsentiert Null-Werte innerhalb von
'Spalten' einer Relation
Relationen-Vollständigkeit repräsentiert Null-Werte innerhalb der
gesamten Relation
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
10 / 29
Datenqualitätsdimensionen
Vollständigkeit
Kategorien von Vollständigkeit
Was ist Vollständigkeit?
Maÿ für den 'Füllstand' von Objekten (0 .. 1)
Arten von Genauigkeit
Wert-Vollständigkeit repräsentiert Null-Werte in einzelnen 'Feldern'
einer Relation
Tupel-Vollständigkeit repräsentiert Null-Werte innerhalb von 'Zeilen'
einer Relation
Attribut-Vollständigkeit repräsentiert Null-Werte innerhalb von
'Spalten' einer Relation
Relationen-Vollständigkeit repräsentiert Null-Werte innerhalb der
gesamten Relation
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
10 / 29
Datenqualitätsdimensionen
Vollständigkeit
Beispiel für die unterschiedlichen Vollständigkeiten
ANR
Name
Vorname
E-Mail-Adresse
1
Ahnung
2 Besserwisser
3
Motzer
4
Stümper
Anton
Bea
Maik
Stefan
[email protected]
NULL
NULL
NULL
Tupel-Vollständigkeit für ANR 1 ist Vollständigkeit 1, sonst jeweils 34 , da
immer E-Mail-Adresse Null ist
Attribut-Vollständigkeit für Attribute ANR, Name und Vorname ist
Vollständigkeit bei 1, für E-Mail-Adresse bei 14
Relationen-Vollständigkeit Vollständigkeit von 4 Tupel ∗ 4 Attribute − 3
Null-Werte = 13
16
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
11 / 29
Datenqualitätsdimensionen
Vollständigkeit
Beispiel für die unterschiedlichen Vollständigkeiten
ANR
Name
Vorname
E-Mail-Adresse
1
Ahnung
2 Besserwisser
3
Motzer
4
Stümper
Anton
Bea
Maik
Stefan
[email protected]
NULL
NULL
NULL
Tupel-Vollständigkeit für ANR 1 ist Vollständigkeit 1, sonst jeweils 34 , da
immer E-Mail-Adresse Null ist
Attribut-Vollständigkeit für Attribute ANR, Name und Vorname ist
Vollständigkeit bei 1, für E-Mail-Adresse bei 14
Relationen-Vollständigkeit Vollständigkeit von 4 Tupel ∗ 4 Attribute − 3
Null-Werte = 13
16
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
11 / 29
Datenqualitätsdimensionen
Vollständigkeit
Beispiel für die unterschiedlichen Vollständigkeiten
ANR
Name
Vorname
E-Mail-Adresse
1
Ahnung
2 Besserwisser
3
Motzer
4
Stümper
Anton
Bea
Maik
Stefan
[email protected]
NULL
NULL
NULL
Tupel-Vollständigkeit für ANR 1 ist Vollständigkeit 1, sonst jeweils 34 , da
immer E-Mail-Adresse Null ist
Attribut-Vollständigkeit für Attribute ANR, Name und Vorname ist
Vollständigkeit bei 1, für E-Mail-Adresse bei 14
Relationen-Vollständigkeit Vollständigkeit von 4 Tupel ∗ 4 Attribute − 3
Null-Werte = 13
16
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
11 / 29
Datenqualitätsdimensionen
Vollständigkeit
Beispiel für die unterschiedlichen Vollständigkeiten
ANR
Name
Vorname
E-Mail-Adresse
1
Ahnung
2 Besserwisser
3
Motzer
4
Stümper
Anton
Bea
Maik
Stefan
[email protected]
NULL
NULL
NULL
Tupel-Vollständigkeit für ANR 1 ist Vollständigkeit 1, sonst jeweils 34 , da
immer E-Mail-Adresse Null ist
Attribut-Vollständigkeit für Attribute ANR, Name und Vorname ist
Vollständigkeit bei 1, für E-Mail-Adresse bei 14
Relationen-Vollständigkeit Vollständigkeit von 4 Tupel ∗ 4 Attribute − 3
Null-Werte = 13
16
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
11 / 29
Datenqualitätsdimensionen
Vollständigkeit
Unterschiedlichen Bedeutungen von Null-Werten
ANR
Name
Vorname
E-Mail-Adresse
1
Ahnung
2 Besserwisser
3
Motzer
4
Stümper
Anton
Bea
Maik
Stefan
[email protected]
NULL
NULL
NULL
nicht existent bedeutet, dass bekannt ist, dass ein Wert nicht existiert.
existent und unbekannt bedeutet, dass bekannt ist, dass ein Wert existiert,
dieser selbst jedoch unbekannt ist.
Existenz unbekannt bedeutet, dass nicht bekannt ist, ob ein Wert existiert.
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
12 / 29
Datenqualitätsdimensionen
Vollständigkeit
Unterschiedlichen Bedeutungen von Null-Werten
ANR
Name
Vorname
E-Mail-Adresse
1
Ahnung
2 Besserwisser
3
Motzer
4
Stümper
Anton
Bea
Maik
Stefan
[email protected]
NULL
NULL
NULL
nicht existent bedeutet, dass bekannt ist, dass ein Wert nicht existiert.
existent und unbekannt bedeutet, dass bekannt ist, dass ein Wert existiert,
dieser selbst jedoch unbekannt ist.
Existenz unbekannt bedeutet, dass nicht bekannt ist, ob ein Wert existiert.
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
12 / 29
Datenqualitätsdimensionen
Vollständigkeit
Unterschiedlichen Bedeutungen von Null-Werten
ANR
Name
Vorname
E-Mail-Adresse
1
Ahnung
2 Besserwisser
3
Motzer
4
Stümper
Anton
Bea
Maik
Stefan
[email protected]
NULL
NULL
NULL
nicht existent bedeutet, dass bekannt ist, dass ein Wert nicht existiert.
existent und unbekannt bedeutet, dass bekannt ist, dass ein Wert existiert,
dieser selbst jedoch unbekannt ist.
Existenz unbekannt bedeutet, dass nicht bekannt ist, ob ein Wert existiert.
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
12 / 29
Datenqualitätsdimensionen
Vollständigkeit
Unterschiedlichen Bedeutungen von Null-Werten
ANR
Name
Vorname
E-Mail-Adresse
1
Ahnung
2 Besserwisser
3
Motzer
4
Stümper
Anton
Bea
Maik
Stefan
[email protected]
NULL
NULL
NULL
nicht existent bedeutet, dass bekannt ist, dass ein Wert nicht existiert.
existent und unbekannt bedeutet, dass bekannt ist, dass ein Wert existiert,
dieser selbst jedoch unbekannt ist.
Existenz unbekannt bedeutet, dass nicht bekannt ist, ob ein Wert existiert.
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
12 / 29
Datenqualitätsdimensionen
Weitere Dimensionen
Weitere Datenqualitätsdimensionen
Welche Dimensionen gibt es noch?
Konsistenz
Zeit
Kosten
Glaubwürdigkeit
Verfügbarkeit
Relevanz
...
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
13 / 29
Datenqualitätsdimensionen
Weitere Dimensionen
Weitere Datenqualitätsdimensionen
Welche Dimensionen gibt es noch?
Konsistenz
Zeit
Kosten
Glaubwürdigkeit
Verfügbarkeit
Relevanz
...
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
13 / 29
Datenqualitätsdimensionen
Weitere Dimensionen
Weitere Datenqualitätsdimensionen
Welche Dimensionen gibt es noch?
Konsistenz
Zeit
Kosten
Glaubwürdigkeit
Verfügbarkeit
Relevanz
...
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
13 / 29
Datenqualitätsdimensionen
Weitere Dimensionen
Weitere Datenqualitätsdimensionen
Welche Dimensionen gibt es noch?
Konsistenz
Zeit
Kosten
Glaubwürdigkeit
Verfügbarkeit
Relevanz
...
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
13 / 29
Programme
Programme zur Verbessung der Datenqualität
Welche grundsätzlichen Fragen stellen sich?
Was sind Tools zur Datenqualitätsverbesserung?
Welche Anforderungen stellen sich?
Wie kann man die Programme unterteilen?
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
14 / 29
Programme
Programme zur Verbessung der Datenqualität
Welche grundsätzlichen Fragen stellen sich?
Was sind Tools zur Datenqualitätsverbesserung?
Welche Anforderungen stellen sich?
Wie kann man die Programme unterteilen?
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
14 / 29
Programme
Programme zur Verbessung der Datenqualität
Welche grundsätzlichen Fragen stellen sich?
Was sind Tools zur Datenqualitätsverbesserung?
Welche Anforderungen stellen sich?
Wie kann man die Programme unterteilen?
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
14 / 29
Programme
Programme zur Verbessung der Datenqualität
Welche grundsätzlichen Fragen stellen sich?
Was sind Tools zur Datenqualitätsverbesserung?
Welche Anforderungen stellen sich?
Wie kann man die Programme unterteilen?
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
14 / 29
Programme
Anforderungen
Welche Anforderungen stellen sich? (1)
Data sources Unterstützung möglichst vieler verschiedenen Quellen
Extraction capabilities Extraktion nach Zeit, Intervall und Ereignis; Regeln
zur Selektivitätserhöhung; gleichzeitige Unterstützung
mehrerer Quellen
Loading capabilities Unterstützung von unterschiedlichen Typen von
Zielsystemen; paralleles Einfügen; Hinzufügen oder Ersetzen
Incremental updates Ziel: Zeit- und Trackosten verringern; Mittel: nur
neue oder geänderte Daten aus Quellsystem extrahieren; alle
Daten extrahieren und nur neu hinzugekommende oder
geänderte Daten in Zielsystem einspielen
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
15 / 29
Programme
Anforderungen
Welche Anforderungen stellen sich? (1)
Data sources Unterstützung möglichst vieler verschiedenen Quellen
Extraction capabilities Extraktion nach Zeit, Intervall und Ereignis; Regeln
zur Selektivitätserhöhung; gleichzeitige Unterstützung
mehrerer Quellen
Loading capabilities Unterstützung von unterschiedlichen Typen von
Zielsystemen; paralleles Einfügen; Hinzufügen oder Ersetzen
Incremental updates Ziel: Zeit- und Trackosten verringern; Mittel: nur
neue oder geänderte Daten aus Quellsystem extrahieren; alle
Daten extrahieren und nur neu hinzugekommende oder
geänderte Daten in Zielsystem einspielen
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
15 / 29
Programme
Anforderungen
Welche Anforderungen stellen sich? (1)
Data sources Unterstützung möglichst vieler verschiedenen Quellen
Extraction capabilities Extraktion nach Zeit, Intervall und Ereignis; Regeln
zur Selektivitätserhöhung; gleichzeitige Unterstützung
mehrerer Quellen
Loading capabilities Unterstützung von unterschiedlichen Typen von
Zielsystemen; paralleles Einfügen; Hinzufügen oder Ersetzen
Incremental updates Ziel: Zeit- und Trackosten verringern; Mittel: nur
neue oder geänderte Daten aus Quellsystem extrahieren; alle
Daten extrahieren und nur neu hinzugekommende oder
geänderte Daten in Zielsystem einspielen
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
15 / 29
Programme
Anforderungen
Welche Anforderungen stellen sich? (1)
Data sources Unterstützung möglichst vieler verschiedenen Quellen
Extraction capabilities Extraktion nach Zeit, Intervall und Ereignis; Regeln
zur Selektivitätserhöhung; gleichzeitige Unterstützung
mehrerer Quellen
Loading capabilities Unterstützung von unterschiedlichen Typen von
Zielsystemen; paralleles Einfügen; Hinzufügen oder Ersetzen
Incremental updates Ziel: Zeit- und Trackosten verringern; Mittel: nur
neue oder geänderte Daten aus Quellsystem extrahieren; alle
Daten extrahieren und nur neu hinzugekommende oder
geänderte Daten in Zielsystem einspielen
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
15 / 29
Programme
Anforderungen
Welche Anforderungen stellen sich? (2)
Interface GUI oder Console
Metadata repository enthält Schema- und Mapping-Informationen;
Grundlage für gutes Merging mehrerer Datenquellen
Performance techniques Performance-Schub für groÿe Datensammlungen:
Lastverteilung, Parallelausführung, Partitionierung
Versioning ermöglicht den Rückgri auf ältere Regeldenitionen;
gleichzeitige Arbeit an groÿen Regelkatalogen
Function library enthält die vom Hersteller vorgesehene Funktionalität; ist
idealerweise erweiterbar
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
16 / 29
Programme
Anforderungen
Welche Anforderungen stellen sich? (2)
Interface GUI oder Console
Metadata repository enthält Schema- und Mapping-Informationen;
Grundlage für gutes Merging mehrerer Datenquellen
Performance techniques Performance-Schub für groÿe Datensammlungen:
Lastverteilung, Parallelausführung, Partitionierung
Versioning ermöglicht den Rückgri auf ältere Regeldenitionen;
gleichzeitige Arbeit an groÿen Regelkatalogen
Function library enthält die vom Hersteller vorgesehene Funktionalität; ist
idealerweise erweiterbar
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
16 / 29
Programme
Anforderungen
Welche Anforderungen stellen sich? (2)
Interface GUI oder Console
Metadata repository enthält Schema- und Mapping-Informationen;
Grundlage für gutes Merging mehrerer Datenquellen
Performance techniques Performance-Schub für groÿe Datensammlungen:
Lastverteilung, Parallelausführung, Partitionierung
Versioning ermöglicht den Rückgri auf ältere Regeldenitionen;
gleichzeitige Arbeit an groÿen Regelkatalogen
Function library enthält die vom Hersteller vorgesehene Funktionalität; ist
idealerweise erweiterbar
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
16 / 29
Programme
Anforderungen
Welche Anforderungen stellen sich? (2)
Interface GUI oder Console
Metadata repository enthält Schema- und Mapping-Informationen;
Grundlage für gutes Merging mehrerer Datenquellen
Performance techniques Performance-Schub für groÿe Datensammlungen:
Lastverteilung, Parallelausführung, Partitionierung
Versioning ermöglicht den Rückgri auf ältere Regeldenitionen;
gleichzeitige Arbeit an groÿen Regelkatalogen
Function library enthält die vom Hersteller vorgesehene Funktionalität; ist
idealerweise erweiterbar
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
16 / 29
Programme
Anforderungen
Welche Anforderungen stellen sich? (2)
Interface GUI oder Console
Metadata repository enthält Schema- und Mapping-Informationen;
Grundlage für gutes Merging mehrerer Datenquellen
Performance techniques Performance-Schub für groÿe Datensammlungen:
Lastverteilung, Parallelausführung, Partitionierung
Versioning ermöglicht den Rückgri auf ältere Regeldenitionen;
gleichzeitige Arbeit an groÿen Regelkatalogen
Function library enthält die vom Hersteller vorgesehene Funktionalität; ist
idealerweise erweiterbar
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
16 / 29
Programme
Anforderungen
Welche Anforderungen stellen sich? (3)
Language binding zur Denition eigener Funktionen oder Regeln in bereits
bekannter populärer Sprache (Java, Perl, usw.)
Debugging/tracing zur ezienten Überwachung und Kontrolle von
Regelanwendungen: bei Einführung Picht, gibt im laufenden
Betrieb Sicherheit
Exception handling Ereignisse, die nicht von den Regeln bearbeitet werden
können, müssen Ausnahmebehandlung erfahren
Data lineage speichert die Herkunft bestimmter Tupel oder Attribute bei
Mehr-Quellen-Systemen; erlaubt die Bewertung einzelner
Quellen
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
17 / 29
Programme
Anforderungen
Welche Anforderungen stellen sich? (3)
Language binding zur Denition eigener Funktionen oder Regeln in bereits
bekannter populärer Sprache (Java, Perl, usw.)
Debugging/tracing zur ezienten Überwachung und Kontrolle von
Regelanwendungen: bei Einführung Picht, gibt im laufenden
Betrieb Sicherheit
Exception handling Ereignisse, die nicht von den Regeln bearbeitet werden
können, müssen Ausnahmebehandlung erfahren
Data lineage speichert die Herkunft bestimmter Tupel oder Attribute bei
Mehr-Quellen-Systemen; erlaubt die Bewertung einzelner
Quellen
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
17 / 29
Programme
Anforderungen
Welche Anforderungen stellen sich? (3)
Language binding zur Denition eigener Funktionen oder Regeln in bereits
bekannter populärer Sprache (Java, Perl, usw.)
Debugging/tracing zur ezienten Überwachung und Kontrolle von
Regelanwendungen: bei Einführung Picht, gibt im laufenden
Betrieb Sicherheit
Exception handling Ereignisse, die nicht von den Regeln bearbeitet werden
können, müssen Ausnahmebehandlung erfahren
Data lineage speichert die Herkunft bestimmter Tupel oder Attribute bei
Mehr-Quellen-Systemen; erlaubt die Bewertung einzelner
Quellen
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
17 / 29
Programme
Anforderungen
Welche Anforderungen stellen sich? (3)
Language binding zur Denition eigener Funktionen oder Regeln in bereits
bekannter populärer Sprache (Java, Perl, usw.)
Debugging/tracing zur ezienten Überwachung und Kontrolle von
Regelanwendungen: bei Einführung Picht, gibt im laufenden
Betrieb Sicherheit
Exception handling Ereignisse, die nicht von den Regeln bearbeitet werden
können, müssen Ausnahmebehandlung erfahren
Data lineage speichert die Herkunft bestimmter Tupel oder Attribute bei
Mehr-Quellen-Systemen; erlaubt die Bewertung einzelner
Quellen
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
17 / 29
Programme
Klassikation
Wie kann man die Programme unterteilen? (1)
Data analysis Muster- und Regelerkennung auf den Daten; zum Beispiel:
'DataMining', 'statistische Bewertung'; Ziel: Aufspüren neuer
Kenntnisse, Validierung von Bekanntem
Data proling Verfahren, um Datenqualitätsprobleme aufzudecken; Ziel:
Protokolle über Dateninformationen vorhanden, die weitere
Konsequenzen ermöglichen
Data transformation (automatische) Zusammenführung von
unterschiedlichen Datenquellen mithilfe der
Meta-Repositories; Ziel: Schema-Verbindungen, Filterung,
Aggregation
Data cleaning Bereinigung der o. g. Dimensionsprobleme (u. a.
Genauigkeit, Vollständigkeit, Rechtschreibfehler,
Standardisierung, ...)
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
18 / 29
Programme
Klassikation
Wie kann man die Programme unterteilen? (1)
Data analysis Muster- und Regelerkennung auf den Daten; zum Beispiel:
'DataMining', 'statistische Bewertung'; Ziel: Aufspüren neuer
Kenntnisse, Validierung von Bekanntem
Data proling Verfahren, um Datenqualitätsprobleme aufzudecken; Ziel:
Protokolle über Dateninformationen vorhanden, die weitere
Konsequenzen ermöglichen
Data transformation (automatische) Zusammenführung von
unterschiedlichen Datenquellen mithilfe der
Meta-Repositories; Ziel: Schema-Verbindungen, Filterung,
Aggregation
Data cleaning Bereinigung der o. g. Dimensionsprobleme (u. a.
Genauigkeit, Vollständigkeit, Rechtschreibfehler,
Standardisierung, ...)
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
18 / 29
Programme
Klassikation
Wie kann man die Programme unterteilen? (1)
Data analysis Muster- und Regelerkennung auf den Daten; zum Beispiel:
'DataMining', 'statistische Bewertung'; Ziel: Aufspüren neuer
Kenntnisse, Validierung von Bekanntem
Data proling Verfahren, um Datenqualitätsprobleme aufzudecken; Ziel:
Protokolle über Dateninformationen vorhanden, die weitere
Konsequenzen ermöglichen
Data transformation (automatische) Zusammenführung von
unterschiedlichen Datenquellen mithilfe der
Meta-Repositories; Ziel: Schema-Verbindungen, Filterung,
Aggregation
Data cleaning Bereinigung der o. g. Dimensionsprobleme (u. a.
Genauigkeit, Vollständigkeit, Rechtschreibfehler,
Standardisierung, ...)
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
18 / 29
Programme
Klassikation
Wie kann man die Programme unterteilen? (1)
Data analysis Muster- und Regelerkennung auf den Daten; zum Beispiel:
'DataMining', 'statistische Bewertung'; Ziel: Aufspüren neuer
Kenntnisse, Validierung von Bekanntem
Data proling Verfahren, um Datenqualitätsprobleme aufzudecken; Ziel:
Protokolle über Dateninformationen vorhanden, die weitere
Konsequenzen ermöglichen
Data transformation (automatische) Zusammenführung von
unterschiedlichen Datenquellen mithilfe der
Meta-Repositories; Ziel: Schema-Verbindungen, Filterung,
Aggregation
Data cleaning Bereinigung der o. g. Dimensionsprobleme (u. a.
Genauigkeit, Vollständigkeit, Rechtschreibfehler,
Standardisierung, ...)
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
18 / 29
Programme
Klassikation
Wie kann man die Programme unterteilen? (2)
Duplication elemination Aunden und Entfernen/Mergen von Duplikaten
mit oder ohne Domänen-spezischem Wissen
Data enrichment (temporäre) Anreicherung von Datenbeständen mit
externen Quellen; Beispiele: Adressdaten, Demographische
Informationen
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
19 / 29
Programme
Klassikation
Wie kann man die Programme unterteilen? (2)
Duplication elemination Aunden und Entfernen/Mergen von Duplikaten
mit oder ohne Domänen-spezischem Wissen
Data enrichment (temporäre) Anreicherung von Datenbeständen mit
externen Quellen; Beispiele: Adressdaten, Demographische
Informationen
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
19 / 29
Duplikatbehandlung mit IntelliClean
IntelliClean - the smartest way to clean data
Welche grundsätzlichen Fragen stellen sich?
Wie wird der Erfolg gemessen?
Wie arbeitet IntelliClean?
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
20 / 29
Duplikatbehandlung mit IntelliClean
IntelliClean - the smartest way to clean data
Welche grundsätzlichen Fragen stellen sich?
Wie wird der Erfolg gemessen?
Wie arbeitet IntelliClean?
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
20 / 29
Duplikatbehandlung mit IntelliClean
IntelliClean - the smartest way to clean data
Welche grundsätzlichen Fragen stellen sich?
Wie wird der Erfolg gemessen?
Wie arbeitet IntelliClean?
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
20 / 29
Duplikatbehandlung mit IntelliClean
Messgröÿen
Wie wird der Erfolg gemessen?
Anzahl korrekt identizierter Duplikate ∗ 100%
Recall Anzahl
tatsächlich existierender Duplikate
falsch identizierter Duplikate
Positive-False-Error Anzahl
Anzahl aller identizierter Duplikate ∗ 100%
Precision 100% − False-Positive-Error
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
21 / 29
Duplikatbehandlung mit IntelliClean
Messgröÿen
Wie wird der Erfolg gemessen?
Anzahl korrekt identizierter Duplikate ∗ 100%
Recall Anzahl
tatsächlich existierender Duplikate
falsch identizierter Duplikate
Positive-False-Error Anzahl
Anzahl aller identizierter Duplikate ∗ 100%
Precision 100% − False-Positive-Error
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
21 / 29
Duplikatbehandlung mit IntelliClean
Messgröÿen
Wie wird der Erfolg gemessen?
Anzahl korrekt identizierter Duplikate ∗ 100%
Recall Anzahl
tatsächlich existierender Duplikate
falsch identizierter Duplikate
Positive-False-Error Anzahl
Anzahl aller identizierter Duplikate ∗ 100%
Precision 100% − False-Positive-Error
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
21 / 29
Duplikatbehandlung mit IntelliClean
Messgröÿen
Wie wird der Erfolg gemessen? Beispiel (1)
Anzahl korrekt identizierter Duplikate ∗ 100%
Recall Anzahl
tatsächlich existierender Duplikate
Anzahl
identizierter Duplikate
Positive-False-Error Anzahlfalsch
aller identizierter Duplikate ∗ 100%
Precision 100% − False-Positive-Error
Gegeben sei DB mit Tupeln {A1 , A2 , A3 , A4 , B1 , B2 , C1 }, (gleiche
Buchstaben + unterschiedl. Index = Duplikate)
Algorithmus α hat Tupelmenge {A1 , A4 , C1 } und {B1 , B2 } als Duplikate
identiziert
Der Recall: 46 = 66.67%
Der Positive-False-Error: 15 = 20%
Precision: von 100% − 20% = 80%.
Beispiel
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
22 / 29
Duplikatbehandlung mit IntelliClean
Messgröÿen
Wie wird der Erfolg gemessen? Beispiel (1)
Anzahl korrekt identizierter Duplikate ∗ 100%
Recall Anzahl
tatsächlich existierender Duplikate
Anzahl
identizierter Duplikate
Positive-False-Error Anzahlfalsch
aller identizierter Duplikate ∗ 100%
Precision 100% − False-Positive-Error
Gegeben sei DB mit Tupeln {A1 , A2 , A3 , A4 , B1 , B2 , C1 }, (gleiche
Buchstaben + unterschiedl. Index = Duplikate)
Algorithmus α hat Tupelmenge {A1 , A4 , C1 } und {B1 , B2 } als Duplikate
identiziert
Der Recall: 64 = 66.67%
Der Positive-False-Error: 15 = 20%
Precision: von 100% − 20% = 80%.
Beispiel
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
22 / 29
Duplikatbehandlung mit IntelliClean
Messgröÿen
Wie wird der Erfolg gemessen? Beispiel (2)
Anzahl korrekt identizierter Duplikate ∗ 100%
Recall Anzahl
tatsächlich existierender Duplikate
falsch identizierter Duplikate
Positive-False-Error Anzahl
Anzahl aller identizierter Duplikate ∗ 100%
Precision 100% − False-Positive-Error
Gegeben sei DB mit Tupeln {A1 , ...A100 , B1 }, (gleiche Buchstaben
+ unterschiedl. Index = Duplikate)
Algorithmus α hat Tupelmenge {A1 , ...A50 , B1 } als Duplikate identiziert
50
Der Recall: 100
= 50%
1
Der Positive-False-Error: 50
= 2%
Precision: von 100% − 2% = 98%.
Beispiel
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
23 / 29
Duplikatbehandlung mit IntelliClean
Messgröÿen
Wie wird der Erfolg gemessen? Beispiel (2)
Anzahl korrekt identizierter Duplikate ∗ 100%
Recall Anzahl
tatsächlich existierender Duplikate
falsch identizierter Duplikate
Positive-False-Error Anzahl
Anzahl aller identizierter Duplikate ∗ 100%
Precision 100% − False-Positive-Error
Gegeben sei DB mit Tupeln {A1 , ...A100 , B1 }, (gleiche Buchstaben
+ unterschiedl. Index = Duplikate)
Algorithmus α hat Tupelmenge {A1 , ...A50 , B1 } als Duplikate identiziert
50
Der Recall: 100
= 50%
1
Der Positive-False-Error: 50
= 2%
Precision: von 100% − 2% = 98%.
Beispiel
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
23 / 29
Duplikatbehandlung mit IntelliClean
Durchführungsphasen
Wie arbeitet IntelliClean?
Phase 1: Pre-Processing
Phase 2: Processing
Phase 3: Post-Processing
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
24 / 29
Duplikatbehandlung mit IntelliClean
Durchführungsphasen
Phase 1: Pre-Processing
Standardisierung vereinheitlicht Daten aus unterschiedlichen Quellen
Abkürzungen, Zeitangaben und Genauigkeiten werden vereinheitlicht
Domänen-spezisches Wissen von Vorteil
Rechtschreibkorrektur mit Lockup-Tables
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
25 / 29
Duplikatbehandlung mit IntelliClean
Durchführungsphasen
Phase 2: Processing
IntelliClean enthält javabasiertes Expertensystem 'JESS'
arbeitet mit deklarativen Regeln von Fachleuten erstellt
Regel: Prämisse -> Konklusion
verschiedene Regelarten
Duplikat-Identikation wenn alle Teilvoraussetzungen die Prämisse
wahr machen, sind die beteiligten Tupel Duplikate
Vereinigung sind zwei Tupel Duplikate, gibt diese Regelart die
Vereinigungsform an
Aktualisierung Duplikaterkennungsübergreifende Bearbeitung aller
Tupel mit bestimmten Eigenschaften
Benachichtigung Probleme, für die keine autom. Behandlung
vorbereitet wurde
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
26 / 29
Duplikatbehandlung mit IntelliClean
Durchführungsphasen
Phase 2: Processing
IntelliClean enthält javabasiertes Expertensystem 'JESS'
arbeitet mit deklarativen Regeln von Fachleuten erstellt
Regel: Prämisse -> Konklusion
verschiedene Regelarten
Duplikat-Identikation wenn alle Teilvoraussetzungen die Prämisse
wahr machen, sind die beteiligten Tupel Duplikate
Vereinigung sind zwei Tupel Duplikate, gibt diese Regelart die
Vereinigungsform an
Aktualisierung Duplikaterkennungsübergreifende Bearbeitung aller
Tupel mit bestimmten Eigenschaften
Benachichtigung Probleme, für die keine autom. Behandlung
vorbereitet wurde
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
26 / 29
Duplikatbehandlung mit IntelliClean
Durchführungsphasen
Phase 2: Processing
IntelliClean enthält javabasiertes Expertensystem 'JESS'
arbeitet mit deklarativen Regeln von Fachleuten erstellt
Regel: Prämisse -> Konklusion
verschiedene Regelarten
Duplikat-Identikation wenn alle Teilvoraussetzungen die Prämisse
wahr machen, sind die beteiligten Tupel Duplikate
Vereinigung sind zwei Tupel Duplikate, gibt diese Regelart die
Vereinigungsform an
Aktualisierung Duplikaterkennungsübergreifende Bearbeitung aller
Tupel mit bestimmten Eigenschaften
Benachichtigung Probleme, für die keine autom. Behandlung
vorbereitet wurde
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
26 / 29
Duplikatbehandlung mit IntelliClean
Durchführungsphasen
Phase 2: Processing
IntelliClean enthält javabasiertes Expertensystem 'JESS'
arbeitet mit deklarativen Regeln von Fachleuten erstellt
Regel: Prämisse -> Konklusion
verschiedene Regelarten
Duplikat-Identikation wenn alle Teilvoraussetzungen die Prämisse
wahr machen, sind die beteiligten Tupel Duplikate
Vereinigung sind zwei Tupel Duplikate, gibt diese Regelart die
Vereinigungsform an
Aktualisierung Duplikaterkennungsübergreifende Bearbeitung aller
Tupel mit bestimmten Eigenschaften
Benachichtigung Probleme, für die keine autom. Behandlung
vorbereitet wurde
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
26 / 29
Duplikatbehandlung mit IntelliClean
Durchführungsphasen
Phase 2: Processing
IntelliClean enthält javabasiertes Expertensystem 'JESS'
arbeitet mit deklarativen Regeln von Fachleuten erstellt
Regel: Prämisse -> Konklusion
verschiedene Regelarten
Duplikat-Identikation wenn alle Teilvoraussetzungen die Prämisse
wahr machen, sind die beteiligten Tupel Duplikate
Vereinigung sind zwei Tupel Duplikate, gibt diese Regelart die
Vereinigungsform an
Aktualisierung Duplikaterkennungsübergreifende Bearbeitung aller
Tupel mit bestimmten Eigenschaften
Benachichtigung Probleme, für die keine autom. Behandlung
vorbereitet wurde
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
26 / 29
Duplikatbehandlung mit IntelliClean
Durchführungsphasen
Phase 3: Post-Processing
Nutzerinteraktion nötig
Sichten der Log-Dateien
manuelle Duplikat-Behandlung wenn nicht ausreichend präzise Regeln
deert werden konnten/sollten
Anpassung der Regelbestände
Zurückziehen nicht gewollter Änderungen
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
27 / 29
Zusammenfassung & Ausblick
Datenqualität - ein alter Hut?
Zusammenfassung
Ursachen und Auswirkungen mangelnder Datenqualität
Probleme sind klassizierbar
Daten und ihre Qualität sind mehrdimensional
Programme zur Unterstützung (Anforderungen, Klassikation)
Beispiel IntelliClean (Messgröÿen und Ablaufphasen)
Ausblick
weites Feld (hochgradig 'nicht-domänen-spezisch')
wachsende Datenbestände
Integrationswunsch wird zunehmen
Anforderungen (auch an Informatiker) werden steigen
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
28 / 29
Zusammenfassung & Ausblick
Datenqualität - ein alter Hut?
Zusammenfassung
Ursachen und Auswirkungen mangelnder Datenqualität
Probleme sind klassizierbar
Daten und ihre Qualität sind mehrdimensional
Programme zur Unterstützung (Anforderungen, Klassikation)
Beispiel IntelliClean (Messgröÿen und Ablaufphasen)
Ausblick
weites Feld (hochgradig 'nicht-domänen-spezisch')
wachsende Datenbestände
Integrationswunsch wird zunehmen
Anforderungen (auch an Informatiker) werden steigen
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
28 / 29
Zusammenfassung & Ausblick
Datenqualität - ein alter Hut?
Zusammenfassung
Ursachen und Auswirkungen mangelnder Datenqualität
Probleme sind klassizierbar
Daten und ihre Qualität sind mehrdimensional
Programme zur Unterstützung (Anforderungen, Klassikation)
Beispiel IntelliClean (Messgröÿen und Ablaufphasen)
Ausblick
weites Feld (hochgradig 'nicht-domänen-spezisch')
wachsende Datenbestände
Integrationswunsch wird zunehmen
Anforderungen (auch an Informatiker) werden steigen
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
28 / 29
Zusammenfassung & Ausblick
Vielen Dank für Ihre Aufmerksamkeit! Fragen?
S. Schneemann (HTWK Leipzig)
Datenqualität - Ein Überblick
23.01.2008
29 / 29