Datenqualität - Ein Überblick
Transcription
Datenqualität - Ein Überblick
Datenqualität - Ein Überblick S. Schneemann HTWK Leipzig 23.01.2008 S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 1 / 29 Gliederung 1 2 3 4 5 6 Einleitung Problematik Datenqualitätsdimensionen Genauigkeit Vollständigkeit Weitere Dimensionen Programme Anforderungen Klassikation Duplikatbehandlung mit IntelliClean Messgröÿen Durchführungsphasen Zusammenfassung & Ausblick S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 2 / 29 Einleitung Einführendes Beispiel ID 1 2 3 4 Title Director Year #Remakes LastRemakeYear Casablanca Dead Poets Society Rman Holiday Sabrina Weir Curtiz Wylder NULL 1942 1989 1953 1964 3 0 0 0 1940 NULL NULL 1985 Die Regisseure der Filme mit der ID 1 und ID 2 sind vertauscht (Genauigkeit). Das Jahr des letzten Remakes vom Film mit der ID 1 ist kleiner als Jahr der ersten Produktion (Konsistenz). Im Titel vom Film mit der ID 3 bendet sich ein Rechtschreibfehler. Korrigiert lautet der Titel 'Roman Holiday' (Genauigkeit). Die Spalte Regisseur im Film mit der ID 4 darf nicht leer sein (Vollständigkeit). Der Film mit der ID 4 hat ein Datum in der Spalte mit der letzten Neuverlmung, die Anzahl der Neuverlmungen ist jedoch 0 (Vollständigkeit, Aktualität, Konsistenz). S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 3 / 29 Einleitung Einführendes Beispiel ID 1 2 3 4 Title Director Year #Remakes LastRemakeYear Casablanca Dead Poets Society Rman Holiday Sabrina Weir Curtiz Wylder NULL 1942 1989 1953 1964 3 0 0 0 1940 NULL NULL 1985 Die Regisseure der Filme mit der ID 1 und ID 2 sind vertauscht (Genauigkeit). Das Jahr des letzten Remakes vom Film mit der ID 1 ist kleiner als Jahr der ersten Produktion (Konsistenz). Im Titel vom Film mit der ID 3 bendet sich ein Rechtschreibfehler. Korrigiert lautet der Titel 'Roman Holiday' (Genauigkeit). Die Spalte Regisseur im Film mit der ID 4 darf nicht leer sein (Vollständigkeit). Der Film mit der ID 4 hat ein Datum in der Spalte mit der letzten Neuverlmung, die Anzahl der Neuverlmungen ist jedoch 0 (Vollständigkeit, Aktualität, Konsistenz). S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 3 / 29 Einleitung Einführendes Beispiel ID 1 2 3 4 Title Director Year #Remakes LastRemakeYear Casablanca Dead Poets Society Rman Holiday Sabrina Weir Curtiz Wylder NULL 1942 1989 1953 1964 3 0 0 0 1940 NULL NULL 1985 Die Regisseure der Filme mit der ID 1 und ID 2 sind vertauscht (Genauigkeit). Das Jahr des letzten Remakes vom Film mit der ID 1 ist kleiner als Jahr der ersten Produktion (Konsistenz). Im Titel vom Film mit der ID 3 bendet sich ein Rechtschreibfehler. Korrigiert lautet der Titel 'Roman Holiday' (Genauigkeit). Die Spalte Regisseur im Film mit der ID 4 darf nicht leer sein (Vollständigkeit). Der Film mit der ID 4 hat ein Datum in der Spalte mit der letzten Neuverlmung, die Anzahl der Neuverlmungen ist jedoch 0 (Vollständigkeit, Aktualität, Konsistenz). S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 3 / 29 Einleitung Einführendes Beispiel ID 1 2 3 4 Title Director Year #Remakes LastRemakeYear Casablanca Dead Poets Society Rman Holiday Sabrina Weir Curtiz Wylder NULL 1942 1989 1953 1964 3 0 0 0 1940 NULL NULL 1985 Die Regisseure der Filme mit der ID 1 und ID 2 sind vertauscht (Genauigkeit). Das Jahr des letzten Remakes vom Film mit der ID 1 ist kleiner als Jahr der ersten Produktion (Konsistenz). Im Titel vom Film mit der ID 3 bendet sich ein Rechtschreibfehler. Korrigiert lautet der Titel 'Roman Holiday' (Genauigkeit). Die Spalte Regisseur im Film mit der ID 4 darf nicht leer sein (Vollständigkeit). Der Film mit der ID 4 hat ein Datum in der Spalte mit der letzten Neuverlmung, die Anzahl der Neuverlmungen ist jedoch 0 (Vollständigkeit, Aktualität, Konsistenz). S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 3 / 29 Einleitung Einführendes Beispiel ID 1 2 3 4 Title Director Year #Remakes LastRemakeYear Casablanca Dead Poets Society Rman Holiday Sabrina Weir Curtiz Wylder NULL 1942 1989 1953 1964 3 0 0 0 1940 NULL NULL 1985 Die Regisseure der Filme mit der ID 1 und ID 2 sind vertauscht (Genauigkeit). Das Jahr des letzten Remakes vom Film mit der ID 1 ist kleiner als Jahr der ersten Produktion (Konsistenz). Im Titel vom Film mit der ID 3 bendet sich ein Rechtschreibfehler. Korrigiert lautet der Titel 'Roman Holiday' (Genauigkeit). Die Spalte Regisseur im Film mit der ID 4 darf nicht leer sein (Vollständigkeit). Der Film mit der ID 4 hat ein Datum in der Spalte mit der letzten Neuverlmung, die Anzahl der Neuverlmungen ist jedoch 0 (Vollständigkeit, Aktualität, Konsistenz). S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 3 / 29 Einleitung Einführendes Beispiel ID 1 2 3 4 Title Director Year #Remakes LastRemakeYear Casablanca Dead Poets Society Rman Holiday Sabrina Weir Curtiz Wylder NULL 1942 1989 1953 1964 3 0 0 0 1940 NULL NULL 1985 Die Regisseure der Filme mit der ID 1 und ID 2 sind vertauscht (Genauigkeit). Das Jahr des letzten Remakes vom Film mit der ID 1 ist kleiner als Jahr der ersten Produktion (Konsistenz). Im Titel vom Film mit der ID 3 bendet sich ein Rechtschreibfehler. Korrigiert lautet der Titel 'Roman Holiday' (Genauigkeit). Die Spalte Regisseur im Film mit der ID 4 darf nicht leer sein (Vollständigkeit). Der Film mit der ID 4 hat ein Datum in der Spalte mit der letzten Neuverlmung, die Anzahl der Neuverlmungen ist jedoch 0 (Vollständigkeit, Aktualität, Konsistenz). S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 3 / 29 Problematik Datenqualitätsprobleme Welche grundlegenden Fragen stellen sich? Ursachen Woher kommen Datenqualitätsprobleme? Auswirkungen Was kosten Daten zweifelhafter Qualität? Klassikation Passen Datenqualitätsprobleme in Schubladen? S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 4 / 29 Problematik Datenqualitätsprobleme Welche grundlegenden Fragen stellen sich? Ursachen Woher kommen Datenqualitätsprobleme? Auswirkungen Was kosten Daten zweifelhafter Qualität? Klassikation Passen Datenqualitätsprobleme in Schubladen? S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 4 / 29 Problematik Datenqualitätsprobleme Welche grundlegenden Fragen stellen sich? Ursachen Woher kommen Datenqualitätsprobleme? Auswirkungen Was kosten Daten zweifelhafter Qualität? Klassikation Passen Datenqualitätsprobleme in Schubladen? S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 4 / 29 Problematik Datenqualitätsprobleme Welche grundlegenden Fragen stellen sich? Ursachen Woher kommen Datenqualitätsprobleme? Auswirkungen Was kosten Daten zweifelhafter Qualität? Klassikation Passen Datenqualitätsprobleme in Schubladen? S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 4 / 29 Problematik Ursachen Woher kommen Datenqualitätsprobleme? Produktion Real-Welt-Objekte werden in verschiedenen Quellen unterschiedlich abgespeichert; Manuelle Eingaben lassen Raum zur Interpretation; Systematische Fehler Speicherung typgleiche Daten werden in unterschiedlichen und/oder ungeeigneten Formaten abgespeichert Nutzung Nutzerbedürfnisse ändern sich; Zugris- und Sicherheitsprobleme entstehen S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 5 / 29 Problematik Ursachen Woher kommen Datenqualitätsprobleme? Produktion Real-Welt-Objekte werden in verschiedenen Quellen unterschiedlich abgespeichert; Manuelle Eingaben lassen Raum zur Interpretation; Systematische Fehler Speicherung typgleiche Daten werden in unterschiedlichen und/oder ungeeigneten Formaten abgespeichert Nutzung Nutzerbedürfnisse ändern sich; Zugris- und Sicherheitsprobleme entstehen S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 5 / 29 Problematik Ursachen Woher kommen Datenqualitätsprobleme? Produktion Real-Welt-Objekte werden in verschiedenen Quellen unterschiedlich abgespeichert; Manuelle Eingaben lassen Raum zur Interpretation; Systematische Fehler Speicherung typgleiche Daten werden in unterschiedlichen und/oder ungeeigneten Formaten abgespeichert Nutzung Nutzerbedürfnisse ändern sich; Zugris- und Sicherheitsprobleme entstehen S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 5 / 29 Problematik Ursachen Woher kommen Datenqualitätsprobleme? Produktion Real-Welt-Objekte werden in verschiedenen Quellen unterschiedlich abgespeichert; Manuelle Eingaben lassen Raum zur Interpretation; Systematische Fehler Speicherung typgleiche Daten werden in unterschiedlichen und/oder ungeeigneten Formaten abgespeichert Nutzung Nutzerbedürfnisse ändern sich; Zugris- und Sicherheitsprobleme entstehen S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 5 / 29 Problematik Auswirkungen Was kosten Daten zweifelhafter Qualität? Imageverlust gegenüber Kunden durch Rechtschreibfehler in der Anrede Fehlkalkulationen bei Produktpreisgestaltung durch Nichtbeachtung verschiedener Währungen in den zugrundeliegenden Daten Fehleinschätzung bei Entscheidungen durch falsche Daten Gefahr für Leib und Leben durch unzureichend genaue Messwerte bei Sicherheitsprüfungen im Flugverkehr S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 6 / 29 Problematik Auswirkungen Was kosten Daten zweifelhafter Qualität? Imageverlust gegenüber Kunden durch Rechtschreibfehler in der Anrede Fehlkalkulationen bei Produktpreisgestaltung durch Nichtbeachtung verschiedener Währungen in den zugrundeliegenden Daten Fehleinschätzung bei Entscheidungen durch falsche Daten Gefahr für Leib und Leben durch unzureichend genaue Messwerte bei Sicherheitsprüfungen im Flugverkehr S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 6 / 29 Problematik Auswirkungen Was kosten Daten zweifelhafter Qualität? Imageverlust gegenüber Kunden durch Rechtschreibfehler in der Anrede Fehlkalkulationen bei Produktpreisgestaltung durch Nichtbeachtung verschiedener Währungen in den zugrundeliegenden Daten Fehleinschätzung bei Entscheidungen durch falsche Daten Gefahr für Leib und Leben durch unzureichend genaue Messwerte bei Sicherheitsprüfungen im Flugverkehr S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 6 / 29 Problematik Auswirkungen Was kosten Daten zweifelhafter Qualität? Imageverlust gegenüber Kunden durch Rechtschreibfehler in der Anrede Fehlkalkulationen bei Produktpreisgestaltung durch Nichtbeachtung verschiedener Währungen in den zugrundeliegenden Daten Fehleinschätzung bei Entscheidungen durch falsche Daten Gefahr für Leib und Leben durch unzureichend genaue Messwerte bei Sicherheitsprüfungen im Flugverkehr S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 6 / 29 Problematik Auswirkungen Was kosten Daten zweifelhafter Qualität? Imageverlust gegenüber Kunden durch Rechtschreibfehler in der Anrede Fehlkalkulationen bei Produktpreisgestaltung durch Nichtbeachtung verschiedener Währungen in den zugrundeliegenden Daten Fehleinschätzung bei Entscheidungen durch falsche Daten Gefahr für Leib und Leben durch unzureichend genaue Messwerte bei Sicherheitsprüfungen im Flugverkehr S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 6 / 29 Problematik Klassikation Passen Datenqualitätsprobleme in Schubladen? Eindeutig: Ja, zum Beispiel mittels Rahm & Do, aber ... S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 7 / 29 Datenqualitätsdimensionen Datenqualitätsdimensionen Welche Dimensionen existieren? Genauigkeit Vollständigkeit Konsistenz Zeit Kosten ... S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 8 / 29 Datenqualitätsdimensionen Datenqualitätsdimensionen Welche Dimensionen existieren? Genauigkeit Vollständigkeit Konsistenz Zeit Kosten ... S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 8 / 29 Datenqualitätsdimensionen Datenqualitätsdimensionen Welche Dimensionen existieren? Genauigkeit Vollständigkeit Konsistenz Zeit Kosten ... S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 8 / 29 Datenqualitätsdimensionen Datenqualitätsdimensionen Welche Dimensionen existieren? Genauigkeit Vollständigkeit Konsistenz Zeit Kosten ... S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 8 / 29 Datenqualitätsdimensionen Datenqualitätsdimensionen Welche Dimensionen existieren? Genauigkeit Vollständigkeit Konsistenz Zeit Kosten ... S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 8 / 29 Datenqualitätsdimensionen Datenqualitätsdimensionen Welche Dimensionen existieren? Genauigkeit Vollständigkeit Konsistenz Zeit Kosten ... S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 8 / 29 Datenqualitätsdimensionen Datenqualitätsdimensionen Welche Dimensionen existieren? Genauigkeit Vollständigkeit Konsistenz Zeit Kosten ... S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 8 / 29 Datenqualitätsdimensionen Genauigkeit Syntaktische und Semantische Genauigkeit Was ist Genauigkeit? Entfernung zwischen einem korrekten Wert λ und seinem gespeicherten Wert λ0 Arten von Genauigkeit Syntaktische Genauigkeit Kosten für die Überführung des äuÿerlichen Aufbaus von λ0 nach λ Semantische Genauigkeit Kosten für die Überführung des Inhalts von λ0 nach λ, wenn λ0 syntaktisch genau ist S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 9 / 29 Datenqualitätsdimensionen Genauigkeit Syntaktische und Semantische Genauigkeit Was ist Genauigkeit? Entfernung zwischen einem korrekten Wert λ und seinem gespeicherten Wert λ0 Arten von Genauigkeit Syntaktische Genauigkeit Kosten für die Überführung des äuÿerlichen Aufbaus von λ0 nach λ Semantische Genauigkeit Kosten für die Überführung des Inhalts von λ0 nach λ, wenn λ0 syntaktisch genau ist S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 9 / 29 Datenqualitätsdimensionen Genauigkeit Syntaktische und Semantische Genauigkeit Was ist Genauigkeit? Entfernung zwischen einem korrekten Wert λ und seinem gespeicherten Wert λ0 Arten von Genauigkeit Syntaktische Genauigkeit Kosten für die Überführung des äuÿerlichen Aufbaus von λ0 nach λ Semantische Genauigkeit Kosten für die Überführung des Inhalts von λ0 nach λ, wenn λ0 syntaktisch genau ist S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 9 / 29 Datenqualitätsdimensionen Genauigkeit Syntaktische und Semantische Genauigkeit Was ist Genauigkeit? Entfernung zwischen einem korrekten Wert λ und seinem gespeicherten Wert λ0 Arten von Genauigkeit Syntaktische Genauigkeit Kosten für die Überführung des äuÿerlichen Aufbaus von λ0 nach λ Semantische Genauigkeit Kosten für die Überführung des Inhalts von λ0 nach λ, wenn λ0 syntaktisch genau ist S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 9 / 29 Datenqualitätsdimensionen Vollständigkeit Kategorien von Vollständigkeit Was ist Vollständigkeit? Maÿ für den 'Füllstand' von Objekten (0 .. 1) Arten von Genauigkeit Wert-Vollständigkeit repräsentiert Null-Werte in einzelnen 'Feldern' einer Relation Tupel-Vollständigkeit repräsentiert Null-Werte innerhalb von 'Zeilen' einer Relation Attribut-Vollständigkeit repräsentiert Null-Werte innerhalb von 'Spalten' einer Relation Relationen-Vollständigkeit repräsentiert Null-Werte innerhalb der gesamten Relation S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 10 / 29 Datenqualitätsdimensionen Vollständigkeit Kategorien von Vollständigkeit Was ist Vollständigkeit? Maÿ für den 'Füllstand' von Objekten (0 .. 1) Arten von Genauigkeit Wert-Vollständigkeit repräsentiert Null-Werte in einzelnen 'Feldern' einer Relation Tupel-Vollständigkeit repräsentiert Null-Werte innerhalb von 'Zeilen' einer Relation Attribut-Vollständigkeit repräsentiert Null-Werte innerhalb von 'Spalten' einer Relation Relationen-Vollständigkeit repräsentiert Null-Werte innerhalb der gesamten Relation S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 10 / 29 Datenqualitätsdimensionen Vollständigkeit Kategorien von Vollständigkeit Was ist Vollständigkeit? Maÿ für den 'Füllstand' von Objekten (0 .. 1) Arten von Genauigkeit Wert-Vollständigkeit repräsentiert Null-Werte in einzelnen 'Feldern' einer Relation Tupel-Vollständigkeit repräsentiert Null-Werte innerhalb von 'Zeilen' einer Relation Attribut-Vollständigkeit repräsentiert Null-Werte innerhalb von 'Spalten' einer Relation Relationen-Vollständigkeit repräsentiert Null-Werte innerhalb der gesamten Relation S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 10 / 29 Datenqualitätsdimensionen Vollständigkeit Beispiel für die unterschiedlichen Vollständigkeiten ANR Name Vorname E-Mail-Adresse 1 Ahnung 2 Besserwisser 3 Motzer 4 Stümper Anton Bea Maik Stefan [email protected] NULL NULL NULL Tupel-Vollständigkeit für ANR 1 ist Vollständigkeit 1, sonst jeweils 34 , da immer E-Mail-Adresse Null ist Attribut-Vollständigkeit für Attribute ANR, Name und Vorname ist Vollständigkeit bei 1, für E-Mail-Adresse bei 14 Relationen-Vollständigkeit Vollständigkeit von 4 Tupel ∗ 4 Attribute − 3 Null-Werte = 13 16 S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 11 / 29 Datenqualitätsdimensionen Vollständigkeit Beispiel für die unterschiedlichen Vollständigkeiten ANR Name Vorname E-Mail-Adresse 1 Ahnung 2 Besserwisser 3 Motzer 4 Stümper Anton Bea Maik Stefan [email protected] NULL NULL NULL Tupel-Vollständigkeit für ANR 1 ist Vollständigkeit 1, sonst jeweils 34 , da immer E-Mail-Adresse Null ist Attribut-Vollständigkeit für Attribute ANR, Name und Vorname ist Vollständigkeit bei 1, für E-Mail-Adresse bei 14 Relationen-Vollständigkeit Vollständigkeit von 4 Tupel ∗ 4 Attribute − 3 Null-Werte = 13 16 S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 11 / 29 Datenqualitätsdimensionen Vollständigkeit Beispiel für die unterschiedlichen Vollständigkeiten ANR Name Vorname E-Mail-Adresse 1 Ahnung 2 Besserwisser 3 Motzer 4 Stümper Anton Bea Maik Stefan [email protected] NULL NULL NULL Tupel-Vollständigkeit für ANR 1 ist Vollständigkeit 1, sonst jeweils 34 , da immer E-Mail-Adresse Null ist Attribut-Vollständigkeit für Attribute ANR, Name und Vorname ist Vollständigkeit bei 1, für E-Mail-Adresse bei 14 Relationen-Vollständigkeit Vollständigkeit von 4 Tupel ∗ 4 Attribute − 3 Null-Werte = 13 16 S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 11 / 29 Datenqualitätsdimensionen Vollständigkeit Beispiel für die unterschiedlichen Vollständigkeiten ANR Name Vorname E-Mail-Adresse 1 Ahnung 2 Besserwisser 3 Motzer 4 Stümper Anton Bea Maik Stefan [email protected] NULL NULL NULL Tupel-Vollständigkeit für ANR 1 ist Vollständigkeit 1, sonst jeweils 34 , da immer E-Mail-Adresse Null ist Attribut-Vollständigkeit für Attribute ANR, Name und Vorname ist Vollständigkeit bei 1, für E-Mail-Adresse bei 14 Relationen-Vollständigkeit Vollständigkeit von 4 Tupel ∗ 4 Attribute − 3 Null-Werte = 13 16 S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 11 / 29 Datenqualitätsdimensionen Vollständigkeit Unterschiedlichen Bedeutungen von Null-Werten ANR Name Vorname E-Mail-Adresse 1 Ahnung 2 Besserwisser 3 Motzer 4 Stümper Anton Bea Maik Stefan [email protected] NULL NULL NULL nicht existent bedeutet, dass bekannt ist, dass ein Wert nicht existiert. existent und unbekannt bedeutet, dass bekannt ist, dass ein Wert existiert, dieser selbst jedoch unbekannt ist. Existenz unbekannt bedeutet, dass nicht bekannt ist, ob ein Wert existiert. S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 12 / 29 Datenqualitätsdimensionen Vollständigkeit Unterschiedlichen Bedeutungen von Null-Werten ANR Name Vorname E-Mail-Adresse 1 Ahnung 2 Besserwisser 3 Motzer 4 Stümper Anton Bea Maik Stefan [email protected] NULL NULL NULL nicht existent bedeutet, dass bekannt ist, dass ein Wert nicht existiert. existent und unbekannt bedeutet, dass bekannt ist, dass ein Wert existiert, dieser selbst jedoch unbekannt ist. Existenz unbekannt bedeutet, dass nicht bekannt ist, ob ein Wert existiert. S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 12 / 29 Datenqualitätsdimensionen Vollständigkeit Unterschiedlichen Bedeutungen von Null-Werten ANR Name Vorname E-Mail-Adresse 1 Ahnung 2 Besserwisser 3 Motzer 4 Stümper Anton Bea Maik Stefan [email protected] NULL NULL NULL nicht existent bedeutet, dass bekannt ist, dass ein Wert nicht existiert. existent und unbekannt bedeutet, dass bekannt ist, dass ein Wert existiert, dieser selbst jedoch unbekannt ist. Existenz unbekannt bedeutet, dass nicht bekannt ist, ob ein Wert existiert. S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 12 / 29 Datenqualitätsdimensionen Vollständigkeit Unterschiedlichen Bedeutungen von Null-Werten ANR Name Vorname E-Mail-Adresse 1 Ahnung 2 Besserwisser 3 Motzer 4 Stümper Anton Bea Maik Stefan [email protected] NULL NULL NULL nicht existent bedeutet, dass bekannt ist, dass ein Wert nicht existiert. existent und unbekannt bedeutet, dass bekannt ist, dass ein Wert existiert, dieser selbst jedoch unbekannt ist. Existenz unbekannt bedeutet, dass nicht bekannt ist, ob ein Wert existiert. S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 12 / 29 Datenqualitätsdimensionen Weitere Dimensionen Weitere Datenqualitätsdimensionen Welche Dimensionen gibt es noch? Konsistenz Zeit Kosten Glaubwürdigkeit Verfügbarkeit Relevanz ... S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 13 / 29 Datenqualitätsdimensionen Weitere Dimensionen Weitere Datenqualitätsdimensionen Welche Dimensionen gibt es noch? Konsistenz Zeit Kosten Glaubwürdigkeit Verfügbarkeit Relevanz ... S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 13 / 29 Datenqualitätsdimensionen Weitere Dimensionen Weitere Datenqualitätsdimensionen Welche Dimensionen gibt es noch? Konsistenz Zeit Kosten Glaubwürdigkeit Verfügbarkeit Relevanz ... S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 13 / 29 Datenqualitätsdimensionen Weitere Dimensionen Weitere Datenqualitätsdimensionen Welche Dimensionen gibt es noch? Konsistenz Zeit Kosten Glaubwürdigkeit Verfügbarkeit Relevanz ... S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 13 / 29 Programme Programme zur Verbessung der Datenqualität Welche grundsätzlichen Fragen stellen sich? Was sind Tools zur Datenqualitätsverbesserung? Welche Anforderungen stellen sich? Wie kann man die Programme unterteilen? S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 14 / 29 Programme Programme zur Verbessung der Datenqualität Welche grundsätzlichen Fragen stellen sich? Was sind Tools zur Datenqualitätsverbesserung? Welche Anforderungen stellen sich? Wie kann man die Programme unterteilen? S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 14 / 29 Programme Programme zur Verbessung der Datenqualität Welche grundsätzlichen Fragen stellen sich? Was sind Tools zur Datenqualitätsverbesserung? Welche Anforderungen stellen sich? Wie kann man die Programme unterteilen? S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 14 / 29 Programme Programme zur Verbessung der Datenqualität Welche grundsätzlichen Fragen stellen sich? Was sind Tools zur Datenqualitätsverbesserung? Welche Anforderungen stellen sich? Wie kann man die Programme unterteilen? S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 14 / 29 Programme Anforderungen Welche Anforderungen stellen sich? (1) Data sources Unterstützung möglichst vieler verschiedenen Quellen Extraction capabilities Extraktion nach Zeit, Intervall und Ereignis; Regeln zur Selektivitätserhöhung; gleichzeitige Unterstützung mehrerer Quellen Loading capabilities Unterstützung von unterschiedlichen Typen von Zielsystemen; paralleles Einfügen; Hinzufügen oder Ersetzen Incremental updates Ziel: Zeit- und Trackosten verringern; Mittel: nur neue oder geänderte Daten aus Quellsystem extrahieren; alle Daten extrahieren und nur neu hinzugekommende oder geänderte Daten in Zielsystem einspielen S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 15 / 29 Programme Anforderungen Welche Anforderungen stellen sich? (1) Data sources Unterstützung möglichst vieler verschiedenen Quellen Extraction capabilities Extraktion nach Zeit, Intervall und Ereignis; Regeln zur Selektivitätserhöhung; gleichzeitige Unterstützung mehrerer Quellen Loading capabilities Unterstützung von unterschiedlichen Typen von Zielsystemen; paralleles Einfügen; Hinzufügen oder Ersetzen Incremental updates Ziel: Zeit- und Trackosten verringern; Mittel: nur neue oder geänderte Daten aus Quellsystem extrahieren; alle Daten extrahieren und nur neu hinzugekommende oder geänderte Daten in Zielsystem einspielen S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 15 / 29 Programme Anforderungen Welche Anforderungen stellen sich? (1) Data sources Unterstützung möglichst vieler verschiedenen Quellen Extraction capabilities Extraktion nach Zeit, Intervall und Ereignis; Regeln zur Selektivitätserhöhung; gleichzeitige Unterstützung mehrerer Quellen Loading capabilities Unterstützung von unterschiedlichen Typen von Zielsystemen; paralleles Einfügen; Hinzufügen oder Ersetzen Incremental updates Ziel: Zeit- und Trackosten verringern; Mittel: nur neue oder geänderte Daten aus Quellsystem extrahieren; alle Daten extrahieren und nur neu hinzugekommende oder geänderte Daten in Zielsystem einspielen S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 15 / 29 Programme Anforderungen Welche Anforderungen stellen sich? (1) Data sources Unterstützung möglichst vieler verschiedenen Quellen Extraction capabilities Extraktion nach Zeit, Intervall und Ereignis; Regeln zur Selektivitätserhöhung; gleichzeitige Unterstützung mehrerer Quellen Loading capabilities Unterstützung von unterschiedlichen Typen von Zielsystemen; paralleles Einfügen; Hinzufügen oder Ersetzen Incremental updates Ziel: Zeit- und Trackosten verringern; Mittel: nur neue oder geänderte Daten aus Quellsystem extrahieren; alle Daten extrahieren und nur neu hinzugekommende oder geänderte Daten in Zielsystem einspielen S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 15 / 29 Programme Anforderungen Welche Anforderungen stellen sich? (2) Interface GUI oder Console Metadata repository enthält Schema- und Mapping-Informationen; Grundlage für gutes Merging mehrerer Datenquellen Performance techniques Performance-Schub für groÿe Datensammlungen: Lastverteilung, Parallelausführung, Partitionierung Versioning ermöglicht den Rückgri auf ältere Regeldenitionen; gleichzeitige Arbeit an groÿen Regelkatalogen Function library enthält die vom Hersteller vorgesehene Funktionalität; ist idealerweise erweiterbar S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 16 / 29 Programme Anforderungen Welche Anforderungen stellen sich? (2) Interface GUI oder Console Metadata repository enthält Schema- und Mapping-Informationen; Grundlage für gutes Merging mehrerer Datenquellen Performance techniques Performance-Schub für groÿe Datensammlungen: Lastverteilung, Parallelausführung, Partitionierung Versioning ermöglicht den Rückgri auf ältere Regeldenitionen; gleichzeitige Arbeit an groÿen Regelkatalogen Function library enthält die vom Hersteller vorgesehene Funktionalität; ist idealerweise erweiterbar S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 16 / 29 Programme Anforderungen Welche Anforderungen stellen sich? (2) Interface GUI oder Console Metadata repository enthält Schema- und Mapping-Informationen; Grundlage für gutes Merging mehrerer Datenquellen Performance techniques Performance-Schub für groÿe Datensammlungen: Lastverteilung, Parallelausführung, Partitionierung Versioning ermöglicht den Rückgri auf ältere Regeldenitionen; gleichzeitige Arbeit an groÿen Regelkatalogen Function library enthält die vom Hersteller vorgesehene Funktionalität; ist idealerweise erweiterbar S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 16 / 29 Programme Anforderungen Welche Anforderungen stellen sich? (2) Interface GUI oder Console Metadata repository enthält Schema- und Mapping-Informationen; Grundlage für gutes Merging mehrerer Datenquellen Performance techniques Performance-Schub für groÿe Datensammlungen: Lastverteilung, Parallelausführung, Partitionierung Versioning ermöglicht den Rückgri auf ältere Regeldenitionen; gleichzeitige Arbeit an groÿen Regelkatalogen Function library enthält die vom Hersteller vorgesehene Funktionalität; ist idealerweise erweiterbar S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 16 / 29 Programme Anforderungen Welche Anforderungen stellen sich? (2) Interface GUI oder Console Metadata repository enthält Schema- und Mapping-Informationen; Grundlage für gutes Merging mehrerer Datenquellen Performance techniques Performance-Schub für groÿe Datensammlungen: Lastverteilung, Parallelausführung, Partitionierung Versioning ermöglicht den Rückgri auf ältere Regeldenitionen; gleichzeitige Arbeit an groÿen Regelkatalogen Function library enthält die vom Hersteller vorgesehene Funktionalität; ist idealerweise erweiterbar S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 16 / 29 Programme Anforderungen Welche Anforderungen stellen sich? (3) Language binding zur Denition eigener Funktionen oder Regeln in bereits bekannter populärer Sprache (Java, Perl, usw.) Debugging/tracing zur ezienten Überwachung und Kontrolle von Regelanwendungen: bei Einführung Picht, gibt im laufenden Betrieb Sicherheit Exception handling Ereignisse, die nicht von den Regeln bearbeitet werden können, müssen Ausnahmebehandlung erfahren Data lineage speichert die Herkunft bestimmter Tupel oder Attribute bei Mehr-Quellen-Systemen; erlaubt die Bewertung einzelner Quellen S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 17 / 29 Programme Anforderungen Welche Anforderungen stellen sich? (3) Language binding zur Denition eigener Funktionen oder Regeln in bereits bekannter populärer Sprache (Java, Perl, usw.) Debugging/tracing zur ezienten Überwachung und Kontrolle von Regelanwendungen: bei Einführung Picht, gibt im laufenden Betrieb Sicherheit Exception handling Ereignisse, die nicht von den Regeln bearbeitet werden können, müssen Ausnahmebehandlung erfahren Data lineage speichert die Herkunft bestimmter Tupel oder Attribute bei Mehr-Quellen-Systemen; erlaubt die Bewertung einzelner Quellen S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 17 / 29 Programme Anforderungen Welche Anforderungen stellen sich? (3) Language binding zur Denition eigener Funktionen oder Regeln in bereits bekannter populärer Sprache (Java, Perl, usw.) Debugging/tracing zur ezienten Überwachung und Kontrolle von Regelanwendungen: bei Einführung Picht, gibt im laufenden Betrieb Sicherheit Exception handling Ereignisse, die nicht von den Regeln bearbeitet werden können, müssen Ausnahmebehandlung erfahren Data lineage speichert die Herkunft bestimmter Tupel oder Attribute bei Mehr-Quellen-Systemen; erlaubt die Bewertung einzelner Quellen S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 17 / 29 Programme Anforderungen Welche Anforderungen stellen sich? (3) Language binding zur Denition eigener Funktionen oder Regeln in bereits bekannter populärer Sprache (Java, Perl, usw.) Debugging/tracing zur ezienten Überwachung und Kontrolle von Regelanwendungen: bei Einführung Picht, gibt im laufenden Betrieb Sicherheit Exception handling Ereignisse, die nicht von den Regeln bearbeitet werden können, müssen Ausnahmebehandlung erfahren Data lineage speichert die Herkunft bestimmter Tupel oder Attribute bei Mehr-Quellen-Systemen; erlaubt die Bewertung einzelner Quellen S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 17 / 29 Programme Klassikation Wie kann man die Programme unterteilen? (1) Data analysis Muster- und Regelerkennung auf den Daten; zum Beispiel: 'DataMining', 'statistische Bewertung'; Ziel: Aufspüren neuer Kenntnisse, Validierung von Bekanntem Data proling Verfahren, um Datenqualitätsprobleme aufzudecken; Ziel: Protokolle über Dateninformationen vorhanden, die weitere Konsequenzen ermöglichen Data transformation (automatische) Zusammenführung von unterschiedlichen Datenquellen mithilfe der Meta-Repositories; Ziel: Schema-Verbindungen, Filterung, Aggregation Data cleaning Bereinigung der o. g. Dimensionsprobleme (u. a. Genauigkeit, Vollständigkeit, Rechtschreibfehler, Standardisierung, ...) S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 18 / 29 Programme Klassikation Wie kann man die Programme unterteilen? (1) Data analysis Muster- und Regelerkennung auf den Daten; zum Beispiel: 'DataMining', 'statistische Bewertung'; Ziel: Aufspüren neuer Kenntnisse, Validierung von Bekanntem Data proling Verfahren, um Datenqualitätsprobleme aufzudecken; Ziel: Protokolle über Dateninformationen vorhanden, die weitere Konsequenzen ermöglichen Data transformation (automatische) Zusammenführung von unterschiedlichen Datenquellen mithilfe der Meta-Repositories; Ziel: Schema-Verbindungen, Filterung, Aggregation Data cleaning Bereinigung der o. g. Dimensionsprobleme (u. a. Genauigkeit, Vollständigkeit, Rechtschreibfehler, Standardisierung, ...) S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 18 / 29 Programme Klassikation Wie kann man die Programme unterteilen? (1) Data analysis Muster- und Regelerkennung auf den Daten; zum Beispiel: 'DataMining', 'statistische Bewertung'; Ziel: Aufspüren neuer Kenntnisse, Validierung von Bekanntem Data proling Verfahren, um Datenqualitätsprobleme aufzudecken; Ziel: Protokolle über Dateninformationen vorhanden, die weitere Konsequenzen ermöglichen Data transformation (automatische) Zusammenführung von unterschiedlichen Datenquellen mithilfe der Meta-Repositories; Ziel: Schema-Verbindungen, Filterung, Aggregation Data cleaning Bereinigung der o. g. Dimensionsprobleme (u. a. Genauigkeit, Vollständigkeit, Rechtschreibfehler, Standardisierung, ...) S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 18 / 29 Programme Klassikation Wie kann man die Programme unterteilen? (1) Data analysis Muster- und Regelerkennung auf den Daten; zum Beispiel: 'DataMining', 'statistische Bewertung'; Ziel: Aufspüren neuer Kenntnisse, Validierung von Bekanntem Data proling Verfahren, um Datenqualitätsprobleme aufzudecken; Ziel: Protokolle über Dateninformationen vorhanden, die weitere Konsequenzen ermöglichen Data transformation (automatische) Zusammenführung von unterschiedlichen Datenquellen mithilfe der Meta-Repositories; Ziel: Schema-Verbindungen, Filterung, Aggregation Data cleaning Bereinigung der o. g. Dimensionsprobleme (u. a. Genauigkeit, Vollständigkeit, Rechtschreibfehler, Standardisierung, ...) S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 18 / 29 Programme Klassikation Wie kann man die Programme unterteilen? (2) Duplication elemination Aunden und Entfernen/Mergen von Duplikaten mit oder ohne Domänen-spezischem Wissen Data enrichment (temporäre) Anreicherung von Datenbeständen mit externen Quellen; Beispiele: Adressdaten, Demographische Informationen S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 19 / 29 Programme Klassikation Wie kann man die Programme unterteilen? (2) Duplication elemination Aunden und Entfernen/Mergen von Duplikaten mit oder ohne Domänen-spezischem Wissen Data enrichment (temporäre) Anreicherung von Datenbeständen mit externen Quellen; Beispiele: Adressdaten, Demographische Informationen S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 19 / 29 Duplikatbehandlung mit IntelliClean IntelliClean - the smartest way to clean data Welche grundsätzlichen Fragen stellen sich? Wie wird der Erfolg gemessen? Wie arbeitet IntelliClean? S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 20 / 29 Duplikatbehandlung mit IntelliClean IntelliClean - the smartest way to clean data Welche grundsätzlichen Fragen stellen sich? Wie wird der Erfolg gemessen? Wie arbeitet IntelliClean? S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 20 / 29 Duplikatbehandlung mit IntelliClean IntelliClean - the smartest way to clean data Welche grundsätzlichen Fragen stellen sich? Wie wird der Erfolg gemessen? Wie arbeitet IntelliClean? S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 20 / 29 Duplikatbehandlung mit IntelliClean Messgröÿen Wie wird der Erfolg gemessen? Anzahl korrekt identizierter Duplikate ∗ 100% Recall Anzahl tatsächlich existierender Duplikate falsch identizierter Duplikate Positive-False-Error Anzahl Anzahl aller identizierter Duplikate ∗ 100% Precision 100% − False-Positive-Error S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 21 / 29 Duplikatbehandlung mit IntelliClean Messgröÿen Wie wird der Erfolg gemessen? Anzahl korrekt identizierter Duplikate ∗ 100% Recall Anzahl tatsächlich existierender Duplikate falsch identizierter Duplikate Positive-False-Error Anzahl Anzahl aller identizierter Duplikate ∗ 100% Precision 100% − False-Positive-Error S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 21 / 29 Duplikatbehandlung mit IntelliClean Messgröÿen Wie wird der Erfolg gemessen? Anzahl korrekt identizierter Duplikate ∗ 100% Recall Anzahl tatsächlich existierender Duplikate falsch identizierter Duplikate Positive-False-Error Anzahl Anzahl aller identizierter Duplikate ∗ 100% Precision 100% − False-Positive-Error S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 21 / 29 Duplikatbehandlung mit IntelliClean Messgröÿen Wie wird der Erfolg gemessen? Beispiel (1) Anzahl korrekt identizierter Duplikate ∗ 100% Recall Anzahl tatsächlich existierender Duplikate Anzahl identizierter Duplikate Positive-False-Error Anzahlfalsch aller identizierter Duplikate ∗ 100% Precision 100% − False-Positive-Error Gegeben sei DB mit Tupeln {A1 , A2 , A3 , A4 , B1 , B2 , C1 }, (gleiche Buchstaben + unterschiedl. Index = Duplikate) Algorithmus α hat Tupelmenge {A1 , A4 , C1 } und {B1 , B2 } als Duplikate identiziert Der Recall: 46 = 66.67% Der Positive-False-Error: 15 = 20% Precision: von 100% − 20% = 80%. Beispiel S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 22 / 29 Duplikatbehandlung mit IntelliClean Messgröÿen Wie wird der Erfolg gemessen? Beispiel (1) Anzahl korrekt identizierter Duplikate ∗ 100% Recall Anzahl tatsächlich existierender Duplikate Anzahl identizierter Duplikate Positive-False-Error Anzahlfalsch aller identizierter Duplikate ∗ 100% Precision 100% − False-Positive-Error Gegeben sei DB mit Tupeln {A1 , A2 , A3 , A4 , B1 , B2 , C1 }, (gleiche Buchstaben + unterschiedl. Index = Duplikate) Algorithmus α hat Tupelmenge {A1 , A4 , C1 } und {B1 , B2 } als Duplikate identiziert Der Recall: 64 = 66.67% Der Positive-False-Error: 15 = 20% Precision: von 100% − 20% = 80%. Beispiel S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 22 / 29 Duplikatbehandlung mit IntelliClean Messgröÿen Wie wird der Erfolg gemessen? Beispiel (2) Anzahl korrekt identizierter Duplikate ∗ 100% Recall Anzahl tatsächlich existierender Duplikate falsch identizierter Duplikate Positive-False-Error Anzahl Anzahl aller identizierter Duplikate ∗ 100% Precision 100% − False-Positive-Error Gegeben sei DB mit Tupeln {A1 , ...A100 , B1 }, (gleiche Buchstaben + unterschiedl. Index = Duplikate) Algorithmus α hat Tupelmenge {A1 , ...A50 , B1 } als Duplikate identiziert 50 Der Recall: 100 = 50% 1 Der Positive-False-Error: 50 = 2% Precision: von 100% − 2% = 98%. Beispiel S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 23 / 29 Duplikatbehandlung mit IntelliClean Messgröÿen Wie wird der Erfolg gemessen? Beispiel (2) Anzahl korrekt identizierter Duplikate ∗ 100% Recall Anzahl tatsächlich existierender Duplikate falsch identizierter Duplikate Positive-False-Error Anzahl Anzahl aller identizierter Duplikate ∗ 100% Precision 100% − False-Positive-Error Gegeben sei DB mit Tupeln {A1 , ...A100 , B1 }, (gleiche Buchstaben + unterschiedl. Index = Duplikate) Algorithmus α hat Tupelmenge {A1 , ...A50 , B1 } als Duplikate identiziert 50 Der Recall: 100 = 50% 1 Der Positive-False-Error: 50 = 2% Precision: von 100% − 2% = 98%. Beispiel S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 23 / 29 Duplikatbehandlung mit IntelliClean Durchführungsphasen Wie arbeitet IntelliClean? Phase 1: Pre-Processing Phase 2: Processing Phase 3: Post-Processing S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 24 / 29 Duplikatbehandlung mit IntelliClean Durchführungsphasen Phase 1: Pre-Processing Standardisierung vereinheitlicht Daten aus unterschiedlichen Quellen Abkürzungen, Zeitangaben und Genauigkeiten werden vereinheitlicht Domänen-spezisches Wissen von Vorteil Rechtschreibkorrektur mit Lockup-Tables S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 25 / 29 Duplikatbehandlung mit IntelliClean Durchführungsphasen Phase 2: Processing IntelliClean enthält javabasiertes Expertensystem 'JESS' arbeitet mit deklarativen Regeln von Fachleuten erstellt Regel: Prämisse -> Konklusion verschiedene Regelarten Duplikat-Identikation wenn alle Teilvoraussetzungen die Prämisse wahr machen, sind die beteiligten Tupel Duplikate Vereinigung sind zwei Tupel Duplikate, gibt diese Regelart die Vereinigungsform an Aktualisierung Duplikaterkennungsübergreifende Bearbeitung aller Tupel mit bestimmten Eigenschaften Benachichtigung Probleme, für die keine autom. Behandlung vorbereitet wurde S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 26 / 29 Duplikatbehandlung mit IntelliClean Durchführungsphasen Phase 2: Processing IntelliClean enthält javabasiertes Expertensystem 'JESS' arbeitet mit deklarativen Regeln von Fachleuten erstellt Regel: Prämisse -> Konklusion verschiedene Regelarten Duplikat-Identikation wenn alle Teilvoraussetzungen die Prämisse wahr machen, sind die beteiligten Tupel Duplikate Vereinigung sind zwei Tupel Duplikate, gibt diese Regelart die Vereinigungsform an Aktualisierung Duplikaterkennungsübergreifende Bearbeitung aller Tupel mit bestimmten Eigenschaften Benachichtigung Probleme, für die keine autom. Behandlung vorbereitet wurde S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 26 / 29 Duplikatbehandlung mit IntelliClean Durchführungsphasen Phase 2: Processing IntelliClean enthält javabasiertes Expertensystem 'JESS' arbeitet mit deklarativen Regeln von Fachleuten erstellt Regel: Prämisse -> Konklusion verschiedene Regelarten Duplikat-Identikation wenn alle Teilvoraussetzungen die Prämisse wahr machen, sind die beteiligten Tupel Duplikate Vereinigung sind zwei Tupel Duplikate, gibt diese Regelart die Vereinigungsform an Aktualisierung Duplikaterkennungsübergreifende Bearbeitung aller Tupel mit bestimmten Eigenschaften Benachichtigung Probleme, für die keine autom. Behandlung vorbereitet wurde S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 26 / 29 Duplikatbehandlung mit IntelliClean Durchführungsphasen Phase 2: Processing IntelliClean enthält javabasiertes Expertensystem 'JESS' arbeitet mit deklarativen Regeln von Fachleuten erstellt Regel: Prämisse -> Konklusion verschiedene Regelarten Duplikat-Identikation wenn alle Teilvoraussetzungen die Prämisse wahr machen, sind die beteiligten Tupel Duplikate Vereinigung sind zwei Tupel Duplikate, gibt diese Regelart die Vereinigungsform an Aktualisierung Duplikaterkennungsübergreifende Bearbeitung aller Tupel mit bestimmten Eigenschaften Benachichtigung Probleme, für die keine autom. Behandlung vorbereitet wurde S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 26 / 29 Duplikatbehandlung mit IntelliClean Durchführungsphasen Phase 2: Processing IntelliClean enthält javabasiertes Expertensystem 'JESS' arbeitet mit deklarativen Regeln von Fachleuten erstellt Regel: Prämisse -> Konklusion verschiedene Regelarten Duplikat-Identikation wenn alle Teilvoraussetzungen die Prämisse wahr machen, sind die beteiligten Tupel Duplikate Vereinigung sind zwei Tupel Duplikate, gibt diese Regelart die Vereinigungsform an Aktualisierung Duplikaterkennungsübergreifende Bearbeitung aller Tupel mit bestimmten Eigenschaften Benachichtigung Probleme, für die keine autom. Behandlung vorbereitet wurde S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 26 / 29 Duplikatbehandlung mit IntelliClean Durchführungsphasen Phase 3: Post-Processing Nutzerinteraktion nötig Sichten der Log-Dateien manuelle Duplikat-Behandlung wenn nicht ausreichend präzise Regeln deert werden konnten/sollten Anpassung der Regelbestände Zurückziehen nicht gewollter Änderungen S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 27 / 29 Zusammenfassung & Ausblick Datenqualität - ein alter Hut? Zusammenfassung Ursachen und Auswirkungen mangelnder Datenqualität Probleme sind klassizierbar Daten und ihre Qualität sind mehrdimensional Programme zur Unterstützung (Anforderungen, Klassikation) Beispiel IntelliClean (Messgröÿen und Ablaufphasen) Ausblick weites Feld (hochgradig 'nicht-domänen-spezisch') wachsende Datenbestände Integrationswunsch wird zunehmen Anforderungen (auch an Informatiker) werden steigen S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 28 / 29 Zusammenfassung & Ausblick Datenqualität - ein alter Hut? Zusammenfassung Ursachen und Auswirkungen mangelnder Datenqualität Probleme sind klassizierbar Daten und ihre Qualität sind mehrdimensional Programme zur Unterstützung (Anforderungen, Klassikation) Beispiel IntelliClean (Messgröÿen und Ablaufphasen) Ausblick weites Feld (hochgradig 'nicht-domänen-spezisch') wachsende Datenbestände Integrationswunsch wird zunehmen Anforderungen (auch an Informatiker) werden steigen S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 28 / 29 Zusammenfassung & Ausblick Datenqualität - ein alter Hut? Zusammenfassung Ursachen und Auswirkungen mangelnder Datenqualität Probleme sind klassizierbar Daten und ihre Qualität sind mehrdimensional Programme zur Unterstützung (Anforderungen, Klassikation) Beispiel IntelliClean (Messgröÿen und Ablaufphasen) Ausblick weites Feld (hochgradig 'nicht-domänen-spezisch') wachsende Datenbestände Integrationswunsch wird zunehmen Anforderungen (auch an Informatiker) werden steigen S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 28 / 29 Zusammenfassung & Ausblick Vielen Dank für Ihre Aufmerksamkeit! Fragen? S. Schneemann (HTWK Leipzig) Datenqualität - Ein Überblick 23.01.2008 29 / 29