Einführung: Data Warehouses - Abteilung Datenbanken Leipzig
Transcription
Einführung: Data Warehouses - Abteilung Datenbanken Leipzig
1. Data Warehouses - Einführung Definition Data Warehouse Einsatzbeispiele OLTP vs. OLAP , Grobarchitektur Virtuelle vs. p physische y Datenintegration g Mehrdimensionale Datensicht Star-Schema, Data -Anfragen Mining SS08, © Prof. Dr. E. Rahm y y y 1-1 Data Warehouses Ausgangsproblem – viele Unternehmen haben Unmengen g an Daten, ohne daraus ausreichend Informationen und Wissen für kritische Entscheidungsaufgaben ableiten zu können Data Warehouse (Def.): für Analysezwecke optimierte zentrale Datenbank, diee Daten d ate aus mehreren, e e e , i.a. .a. heterogenen ete oge e Quellen Que e zusammenführt usa e ü t und u d verdichtet (Integration und Transformation) OLAP Online Analytical Processing D i i S Decision Support-Anfragen tA f / Data Mining , OLTP Online Transaction Processing operationale DB Data Warehouse operationale DB operationale DB initiales Laden und periodisches Auffrischen des Warehouse SS08, © Prof. Dr. E. Rahm 1-2 y y y Szenario: Getränkemarkt Quelle: Sattler/Saake S Saufland Umsatz, Umsatz Sortiment Werbung , Anfragen: – – – – Wie viele Flaschen Cola wurden letzten Monat verkauft? Wie hat sich der Verkauf von Rotwein im letzten Jahr entwickelt? Wer sind unsere Top-Kunden? p Von welchem Lieferanten beziehen wir die meisten Kisten? SS08, © Prof. Dr. E. Rahm y y y 1-3 Szenario (2) Quelle: Sattler/Saake Saufland Saufland Saufland , Anfragen Verkaufen wir in Ilmenau mehr Bier als in Erfurt? – Wie viel Cola wurde im Sommer in ganz Thüringen verkauft? – Mehr als Wasser? – SS08, © Prof. Dr. E. Rahm 1-4 y y y Einsatzbeispiele Warenhauskette – – – – – – , – – Verkaufszahlen und Lagerbestände aller Warenhäuser mehrdimensionale Analysen: Verkaufszahlen nach Produkten, Regionen, Warenhäusern Ermittlung von Kassenschlagern und Ladenhütern Analyse des Kaufverhaltens von Kunden (Warenkorbanalyse) Erfolgskontrolle von Marketing-Aktivitäten Minimierung von Beständen O ti i Optimierung der d Produktpalette P d kt l tt Optimierung der Preisgestaltung • • • Versicherungsunternehmen Bewertung von Filialen, Vertriebsbereichen, Schadensverlauf, ... – automatische Risikoanalyse – schnellere Entscheidung über Kreditkarten Kreditkarten, Lebensversicherung; Krankenversicherung ... – Banken, Versandhäuser, Restaurant-Ketten wissenschaftliche Einsatzfälle (z.B. (z B SS08, © Prof. Dr. E. Rahm Bioinformatik) • • • y y y 1-5 DW-Eigenschaften nach Inmon A Data Warehouse is a subject-oriented, integrated, non-volatile, and time variant collection of data in support of managements decisions (W H (W. H. Inmon Inmon, Building the Data Warehouse, Warehouse 1996) , Themenorientiert (subject oriented): (subject-oriented): operationale p DB Data Warehouse – Zweck des Systems ist nicht Erfüllung einer dedizierten Aufgabe (z.B. P Personaldatenverwaltung), ld l ) sondern d Unterstützung übergreifender Auswertungsmöglichkeiten aus verschiedenen Perspektiven – alle Daten - unternehmensweit - über ein Subjekt (Kunden, Produkte, Regionen ...) und nicht „versteckt“ „versteckt in verschiedenen Anwendungen SS08, © Prof. Dr. E. Rahm 1-6 y y y DW-Eigenschaften nach Inmon (2) Integrierte Datenbasis (integrated): Daten aus mehreren verschiedenen Datenquellen Operational DB Data Warehouse DB DB DB DB , A - m,f B - male, female C - x,y D - 1,0 m, f inconsistent consistent SS08, © Prof. Dr. E. Rahm y y y 1-7 DW-Eigenschaften nach Inmon (3) Nicht-flüchtige Datenbasis (non-volatile): – – Daten im DW werden i.a. nicht mehr geändert stabile persistente Datenbasis stabile, Select Change , Delete Data Warehouse operationale DB Load Insert Access regelmäßige Änderungen von Sätzen SS08, © Prof. Dr. E. Rahm 1-8 y y y DW-Eigenschaften nach Inmon (4) Historische Daten (time-variant): – – Vergleich der Daten über Zeit möglich (Zeitreihenanalyse) Speicherung über längeren Zeitraum T Time V Variancy operationale DB Data Warehouse , aktuelle Datenwerte: Schnappschuß-Daten – Zeitbezug optional – Zeithorizont: 60-90 Tage – Daten änderbar – Zeitbezug aller Objekte – Zeithorizont: 2-10 Jahre – keine Änderung nach Schnappschuß-Erstellung SS08, © Prof. Dr. E. Rahm y y y 1-9 Operationale Datenbanken vs. Data Warehouses (OLTP vs. vs OLAP) Operationale Datenbanken /OLTP , Entstehung jeweils für eine Applikation oder aus einer bestimmten Perspektive heraus Bedeutung Tagesgeschäft Nutzer Sachbearbeiter, Online-Nutzer Datenzugriff Änderungen/Aktualität #Datenquellen Datenmerkmale Optimierungsziele SS08, © Prof. Dr. E. Rahm Data Warehouses/OLAP sehr häufiger Zugriff; kleine Datenmengen pro Operation; Lesen, Schreiben, Modifizieren, Löschen sehr häufig / stets aktuell meist eine nicht abgeleitet, zeitaktuell, autonom, dynamisch hoher Durchsatz, sehr kurze Antwortzeiten (ms .. s), hohe Verfügbarkeit 1-10 y y y Warum separates Data Warehouse? Unterschiedliche Nutzung und Datenstrukturierung Performance – – – , – OLTP optimiert für kurze Transaktionen und bekannte Lastprofile komplexe OLAP-Anfragen würden gleichzeitige OLTP-Transaktionen des operationalen Betriebs drastisch verschlechtern spezieller physischer und logischer Datenbankentwurf für multidimensionale Sichten/Anfragen notwendig Transaktionseigenschaften (ACID) nicht wichtig Funktionalität – – historische Daten Konsolidierung (Integration (Integration, Bereinigung und Aggregation) von Daten aus heterogenen Datenquellen Sicherheit Nachteile N h il der d separaten Lösung Lö – – – – Datenredundanz Daten nicht vollständig aktuell hoher Administrationsaufwand hohe Kosten SS08, © Prof. Dr. E. Rahm y y y 1-11 Grobarchitektur einer DW-Umgebung Führungs Informationssysteme Business Intelligence Entscheidungsunterstützungssysteme Berichts - und Abfragesysteme Designer Workbench Repository Data Marts Cubes Data Warehouse , Administator Workbench Metadaten Zentrale Datenbasis D t E t kti Daten-Extraktion / -Transformation T f ti / -Laden L d DB2 ORACLE Files WWW ... operative ti Datenquellen Interne Daten Datenflüsse SS08, © Prof. Dr. E. Rahm Externe Daten Metadatenf lüsse 1-12 y y y DW-Prozesse Data Warehousing umfaßt mehrere Teilprozesse – – – – Entwurf ((“design g it”), ) Aufbau (“build it”, „populate“), Nutzung (“use it”, „analyze“) sowie Betrieb und Administration („maintain it“ / „administer“) Nutzung Aufbau Entwurf Betrieb , Metadaten DW ist meist kein monolithisches System – meist Nutzung von Tools / Komponenten unterschiedlicher Hersteller sowie eigenprogrammierten Anteilen zentrale Bedeutung der Metadaten, jedoch oft unzureichend unterstützt SS08, © Prof. Dr. E. Rahm y y y 1-13 Datenintegration: physisch vs. virtuell Physische (Vor-) Integration Virtuelle Integration (Data Warehousing) (Mediator/Wrapper-Architekturen, förderierte DBS) Client 1 Front-End Tools Client k Data Marts , Metadaten Mediator / FDBS Data Warehouse Metadaten Import (ETL) Operationale Syseme SS08, © Prof. Dr. E. Rahm 1-14 Wrapper 1 Wrapper m W Wrapper n Source 1 (DBS 1) Source m (DBS j) Source n y y y Datenintegration: physisch vs. virtuell (2) Physisch (Data Warehouse) Vorab (DW (DW-Schema) Schema) Integrationszeitpunkt: Metadaten Integrationszeitpunkt: D t Daten Aktualität der Daten Virtuell Vorab (globale Sicht) vorab Dynamisch (zur A f Anfragezeit) it) , Autonomie der Datenquellen Erreichbare Datenqualität Analysezeitbedarf für große ß Datenmengen D t Hardwareaufwand Skalierbarkeit auf viele Datenquellen SS08, © Prof. Dr. E. Rahm y y y 1-15 Mehrdimensionale Datensicht Ost Nord 10 Region Süd y 25 West y , Kennzahlen (Fakten Measures) (Fakten, 56 y 4 1Q 2Q 3Q Elektronik Fahrzeuge Branche Lebensmittel Software 4Q Dimensionen Zeit Kennzahlen: numerische Werte als Grundlage für Aggregationen/Berechnungen (z.B. Absatzzahlen, Umsatz, etc.) Dimensionen: Di i bbeschreibende h ib d Ei Eigenschaften h f Operationen: – – Aggregierung der Kennzahlen über eine oder mehrere Dimension(en) Slicing and Dicing: Bereichseinschränkungen auf Dimensionen SS08, © Prof. Dr. E. Rahm 1-16 y y y Hierarchische Dimensionierung Region Branche Zeit Bundesland Produktgruppe Jahr Ort Produkt Quartal , Monat Woche Tag Operationen zum Wechsel der Dimensionsebenen – – Drill Down Drill-Down Roll-Up SS08, © Prof. Dr. E. Rahm 1-17 y y y OLAP (Online Analytical Processing) interaktive multidimensionale Analyse auf konsolidierten Unternehmensdaten Merkmale / Anforderungen – multidimensionale, konzeptionelle Sicht auf die Daten – unbegrenzte g Anzahl an Dimensionen und Aggregationsebenen gg g – unbeschränkte dimensionsübergreifende Operationen – intuitive, interaktive Datenmanipulation und Visualisierung , – transparenter (integrierter) Zugang zu heterogenen Datenbeständen mit logischer Gesamtsicht – Skalierbarkeit auf große Datenmengen – stabile, volumenunabhängige Antwortzeiten – Mehrbenutzerunterstützung – Client/Server-Architektur SS08, © Prof. Dr. E. Rahm 1-18 y y y Multidimensional vs. relational Ost Bestellnr Region Branche 1406 Ost Fahrzeuge Zeit Menge 2Q 5 4123 West Elektronik 1Q 58 7829 Süd Fahrzeuge 2Q 30 y 5327 Ost Lebensmittel 4Q 3000 Elektronik Fahrzeuge y Branche L b Lebensmittel itt l Software 9306 Nord Software 1Q 25 2574 Ost Elektronik 4Q 2 N d Nord Region 10 Süd y 25 West 56 , 4 2Q 1Q Zeit Annahme: fast alle Kombinationen kommen vor relationale Darstellung (ROLAP): – – 4Q multidimensionale l idi i l Darstellung D ll (MOLAP): (MOLAP) Kreuzprodukt K d k aller ll Wertebereiche W b i h mit aggregiertem Wert pro Kombination – 3Q Relation: Untermenge des Kreuzproduktes aller Wertebereiche nur vorkommende Wertekombinationen werden gespeichert (Tupel) Hybrides OLAP (HOLAP): ROLAP + MOLAP SS08, © Prof. Dr. E. Rahm y y y 1-19 Star-Schema zentrale Faktentabelle sowie 1 Tabelle pro Dimension Kunde Zeit KundenNr KundenName Geschlecht Alter Datum Tag g Monat Quartal Jahr , Produkt Verkauf KundenNr ProduktNr Datum Fname Anzahl Umsatz ProduktNr ProduktName Produktgruppe Branche Hersteller Farbe Preis SS08, © Prof. Dr. E. Rahm Filiale Fname Ort Land Region 1-20 y y y Anfragen Beispielanfrage: Welche Auto-Hersteller wurden von weiblichen Kunden in Sachsen im 1. Quartal 2008 favorisiert? select p.Hersteller, sum (v.Anzahl) from Verkauf v,, Filialen f,, Produkt p, Zeit z,, Kunden k where z.Jahr = 2008 and z.Quartal = 1 and k.Geschlecht = ’W’ and p.Produkttyp = ’Auto’ and f.Land = ’Sachsen’ and , v.Datum = z.Datum and v.ProduktNr = p.ProduktNr and v.Filiale = f. FName and v.KundenNr = k.KundenNr group by p.Hersteller; Star-Join – – – sternförmiger Join der (relevanten) Dimensionstabellen mit der Faktentabelle Einschränkung g der Dimensionen Verdichtung der Kennzahlen durch Gruppierung und Aggregation SS08, © Prof. Dr. E. Rahm 1-21 y y y Analysewerkzeuge (Ad Hoc-) Query-Tools Reporting Reporting-Werkzeuge Werkzeuge, Berichte mit flexiblen Formatierungsmöglichkeiten OLAP-Tools – – interaktive mehrdimensionale Analyse und Navigation (Drill Down, Roll Up, ...) Gruppierungen, statistische Berechnungen, ... Data Mining-Tools , Darstellung – – – Tabellen, T b ll insbesondere i b d Pivot-Tabellen Pi t T b ll (Kreuztabellen) (K t b ll ) Analyse durch Vertauschen von Zeilen und Spalten, Veränderung von Tabellendimensionen Graphiken sowie Text und Multimedia-Elemente N t Nutzung über üb Web-Browser, W bB Speadsheet-Integration S dh tI t ti SS08, © Prof. Dr. E. Rahm 1-22 y y y Beispiel: OLAP-Ausgabe (Excel) , SS08, © Prof. Dr. E. Rahm y y y 1-23 Knowledge Discovery Selektion Vorverarbeitung/ V b it / Transformation Rohdaten o date D t Mi Data Mining i Daten , Interpretation Daten Muster SS08, © Prof. Dr. E. Rahm 1-24 Wissen y y y Data Mining: Techniken Data Mining: Einsatz statistischer und wissensbasierter Methoden auf Basis von Data Warehouses – – , Clusteranalyse – – Objekte Obj kt werden d aufgrund f d von Äh Ähnlichkeiten li hk it iin Kl Klassen eingeteilt i t ilt (Segmentierung) (S ti ) Bsp.: ähnliche Kunden, ähnliche Website-Nutzer ... Assoziationsregeln – Auffinden von Korrelationen, Mustern und Trends in Daten “Knowledge Discovery”: setzt im Gegensatz zu OLAP (“knowledge verification”) kein formales Modell voraus Warenkorbanalyse (z.B. Kunde kauft A und B => Kunde kauft C) Klassifikation – – – Klassifikation von Objekten Erstellung von Klassifikationsregeln / Vorhersage von Attributwerten (z.B. “guter Kunde” wenn Alter > 25 und ... ) mögliche g Realisierung: g Entscheidungsbaum g SS08, © Prof. Dr. E. Rahm 1-25 y y y Beispiel Warenkorbanalyse , SS08, © Prof. Dr. E. Rahm 1-26 y y y Enterprise Information Portale einheitlicher unternehmensweiter Zugang zu strukturierten und unstrukturierten Daten Enterprise Information Portal Data Access Shared Metadata , Management Query / Report ETL Data Access OLAP Data Mining Document Word Processing Management Modeling Data Mart Text Mining Data Sources WWW Data Warehouse Documents ocu e s Multimedia Web Operational Intranet/Internet Environment Unstructured Data Data Warehouse Environment Structured Data SS08, © Prof. Dr. E. Rahm 1-27 y y y Data Warehouse Hype & Realität , “turning turning data intoknowledge intoknowledge” “360° view of customer” “aa single version of the truth truth” “getting you closer to the customer” “B “Better decision d i i making” ki ” Fragen – Wie werden welche Kundendaten genutzt? – Wie erfolgt die Sicherung der Datenqualität? SS08, © Prof. Dr. E. Rahm 1-28 y y y GeWare: Expression Data Warehouse* Verwaltung und Analyse großer Mengen von Genexpressionsdaten Integration weiterer Informationen zu Genen, Genen Patienten, Patienten etc. etc Data Sources CEL Files & Expression/ CGH Matrices (CSV) Data Warehouse Staging g g Area Core Data Warehouse Expression/Mutation Data , Daily Import from Study Management System Pre-processing Results Manual User Input Mapping pp g DB Experimental & Clinical Annotation Data Public Data Sources • GO • Ensembl • NetAffx Web Interface Multidimensional Data Model including • Gene Expression Data • Clone Copy Numbers • Experimental & clinical Annotations • Public Data Data Im-/Export Database API Stored Procedure • Data pre pre-processing processing • Data analysis (canned queries, statistics, visualization) • Administration Data Mart Local Copies SRS Expression / CGH Matrix Gene Annotations *E. Rahm, T. Kirsten, J. Lange: The GeWare data warehouse platform for the analysis of molecular-biological and clinical data. Journal of Integrative Bioinformatics, 4(1):47, 2007. SS08, © Prof. Dr. E. Rahm 1-29 y y y Zusammenfassung Data Warehousing: DB-Anfrageverarbeitung und Analysen auf integriertem Datenbestand für Decision Support (OLAP) riesige Datenvolumina Hauptschwierigkeit: Integration heterogener Datenbestände sowie Bereinigung von Primärdaten , Physische Datenintegration ermöglicht aufwändige Datenbereinigung und effiziente Analyse auf großen Datenmengen Mehrdimensionale Datenmodellierung und -organisation Breites Spektrum p an Auswertungsg und Analysemöglichkeiten y g Data Mining: selbständiges Aufspüren relevanter Muster in Daten Data Warehouse ist weit mehr als Datenbank SS08, © Prof. Dr. E. Rahm 1-30 y y y