Einführung: Data Warehouses - Abteilung Datenbanken Leipzig

Transcription

Einführung: Data Warehouses - Abteilung Datenbanken Leipzig
1. Data Warehouses - Einführung
„ Definition Data
Warehouse
„ Einsatzbeispiele
„ OLTP
vs. OLAP
„, Grobarchitektur
„ Virtuelle
vs. p
physische
y
Datenintegration
g
„ Mehrdimensionale Datensicht
„ Star-Schema,
„ Data
-Anfragen
Mining
SS08, © Prof. Dr. E. Rahm
y
y
y
1-1
Data Warehouses
„
Ausgangsproblem
–
„
viele Unternehmen haben Unmengen
g an Daten, ohne daraus ausreichend Informationen und
Wissen für kritische Entscheidungsaufgaben ableiten zu können
Data Warehouse (Def.): für Analysezwecke optimierte zentrale Datenbank,
diee Daten
d
ate aus mehreren,
e e e , i.a.
.a. heterogenen
ete oge e Quellen
Que e zusammenführt
usa
e ü t und
u d
verdichtet (Integration und Transformation)
OLAP
Online Analytical Processing
D i i S
Decision
Support-Anfragen
tA f
/
Data Mining
,
OLTP
Online Transaction
Processing
operationale
DB
Data
Warehouse
operationale
DB
operationale
DB
initiales Laden und periodisches
Auffrischen des Warehouse
SS08, © Prof. Dr. E. Rahm
1-2
y
y
y
Szenario: Getränkemarkt
Quelle:
Sattler/Saake
S Saufland
Umsatz,
Umsatz
Sortiment
Werbung
,
„
Anfragen:
–
–
–
–
Wie viele Flaschen Cola wurden letzten Monat verkauft?
Wie hat sich der Verkauf von Rotwein im letzten Jahr entwickelt?
Wer sind unsere Top-Kunden?
p
Von welchem Lieferanten beziehen wir die meisten Kisten?
SS08, © Prof. Dr. E. Rahm
y
y
y
1-3
Szenario (2)
Quelle:
Sattler/Saake
Saufland
Saufland
Saufland
,
„ Anfragen
Verkaufen wir in Ilmenau mehr Bier als in Erfurt?
– Wie viel Cola wurde im Sommer in ganz Thüringen verkauft?
– Mehr als Wasser?
–
SS08, © Prof. Dr. E. Rahm
1-4
y
y
y
Einsatzbeispiele
„ Warenhauskette
–
–
–
–
–
–
,
–
–
Verkaufszahlen und Lagerbestände aller Warenhäuser
mehrdimensionale Analysen: Verkaufszahlen nach Produkten, Regionen, Warenhäusern
Ermittlung von Kassenschlagern und Ladenhütern
Analyse des Kaufverhaltens von Kunden (Warenkorbanalyse)
Erfolgskontrolle von Marketing-Aktivitäten
Minimierung von Beständen
O ti i
Optimierung
der
d Produktpalette
P d kt l tt
Optimierung der Preisgestaltung • • •
„ Versicherungsunternehmen
Bewertung von Filialen, Vertriebsbereichen, Schadensverlauf, ...
– automatische Risikoanalyse
– schnellere Entscheidung über Kreditkarten
Kreditkarten, Lebensversicherung; Krankenversicherung ...
–
„ Banken, Versandhäuser, Restaurant-Ketten
„ wissenschaftliche Einsatzfälle (z.B.
(z B
SS08, © Prof. Dr. E. Rahm
Bioinformatik) • • •
y
y
y
1-5
DW-Eigenschaften nach Inmon
A Data Warehouse is a subject-oriented, integrated, non-volatile, and
time variant collection of data in support of managements decisions
(W H
(W.
H. Inmon
Inmon, Building the Data Warehouse,
Warehouse 1996)
„
,
Themenorientiert
(subject oriented):
(subject-oriented):
operationale
p
DB
Data Warehouse
– Zweck des Systems ist nicht Erfüllung einer
dedizierten Aufgabe (z.B.
P
Personaldatenverwaltung),
ld
l
) sondern
d
Unterstützung übergreifender
Auswertungsmöglichkeiten aus
verschiedenen Perspektiven
– alle Daten - unternehmensweit - über ein
Subjekt (Kunden, Produkte, Regionen ...)
und nicht „versteckt“
„versteckt in verschiedenen
Anwendungen
SS08, © Prof. Dr. E. Rahm
1-6
y
y
y
DW-Eigenschaften nach Inmon (2)
„
Integrierte Datenbasis (integrated): Daten aus mehreren verschiedenen
Datenquellen
Operational DB
Data Warehouse
DB
DB
DB
DB
,
A - m,f
B - male, female
C - x,y
D - 1,0
m, f
inconsistent
consistent
SS08, © Prof. Dr. E. Rahm
y
y
y
1-7
DW-Eigenschaften nach Inmon (3)
„
Nicht-flüchtige Datenbasis (non-volatile):
–
–
Daten im DW werden i.a. nicht mehr geändert
stabile persistente Datenbasis
stabile,
Select
Change
,
Delete
Data Warehouse
operationale
DB
Load
Insert
Access
regelmäßige Änderungen von Sätzen
SS08, © Prof. Dr. E. Rahm
1-8
y
y
y
DW-Eigenschaften nach Inmon (4)
„
Historische Daten (time-variant):
–
–
Vergleich der Daten über Zeit möglich (Zeitreihenanalyse)
Speicherung über längeren Zeitraum
T
Time
V
Variancy
operationale
DB
Data Warehouse
,
aktuelle Datenwerte:
Schnappschuß-Daten
– Zeitbezug optional
– Zeithorizont: 60-90 Tage
– Daten änderbar
– Zeitbezug aller Objekte
– Zeithorizont: 2-10 Jahre
– keine Änderung nach
Schnappschuß-Erstellung
SS08, © Prof. Dr. E. Rahm
y
y
y
1-9
Operationale Datenbanken vs. Data Warehouses
(OLTP vs.
vs OLAP)
Operationale Datenbanken /OLTP
,
Entstehung
jeweils für eine Applikation oder aus einer
bestimmten Perspektive heraus
Bedeutung
Tagesgeschäft
Nutzer
Sachbearbeiter, Online-Nutzer
Datenzugriff
Änderungen/Aktualität
#Datenquellen
Datenmerkmale
Optimierungsziele
SS08, © Prof. Dr. E. Rahm
Data Warehouses/OLAP
sehr häufiger Zugriff;
kleine Datenmengen pro Operation;
Lesen, Schreiben, Modifizieren, Löschen
sehr häufig /
stets aktuell
meist eine
nicht abgeleitet,
zeitaktuell,
autonom,
dynamisch
hoher Durchsatz,
sehr kurze Antwortzeiten (ms .. s),
hohe Verfügbarkeit
1-10
y
y
y
Warum separates Data Warehouse?
„
Unterschiedliche Nutzung und Datenstrukturierung
„ Performance
–
–
–
,
„
–
OLTP optimiert für kurze Transaktionen und bekannte Lastprofile
komplexe OLAP-Anfragen würden gleichzeitige OLTP-Transaktionen des operationalen Betriebs
drastisch verschlechtern
spezieller physischer und logischer Datenbankentwurf für multidimensionale Sichten/Anfragen
notwendig
Transaktionseigenschaften (ACID) nicht wichtig
Funktionalität
–
–
historische Daten
Konsolidierung (Integration
(Integration, Bereinigung und Aggregation) von Daten aus heterogenen
Datenquellen
„
Sicherheit
„ Nachteile
N h il der
d separaten Lösung
Lö
–
–
–
–
Datenredundanz
Daten nicht vollständig aktuell
hoher Administrationsaufwand
hohe Kosten
SS08, © Prof. Dr. E. Rahm
y
y
y
1-11
Grobarchitektur einer DW-Umgebung
Führungs Informationssysteme
Business Intelligence
Entscheidungsunterstützungssysteme
Berichts - und Abfragesysteme
Designer
Workbench
Repository
Data Marts
Cubes
Data
Warehouse
,
Administator
Workbench
Metadaten
Zentrale Datenbasis
D t E t kti
Daten-Extraktion
/ -Transformation
T
f
ti / -Laden
L d
DB2
ORACLE
Files
WWW
...
operative
ti
Datenquellen
Interne Daten
Datenflüsse
SS08, © Prof. Dr. E. Rahm
Externe Daten
Metadatenf lüsse
1-12
y
y
y
DW-Prozesse
„
Data Warehousing umfaßt mehrere Teilprozesse
–
–
–
–
Entwurf ((“design
g it”),
)
Aufbau (“build it”, „populate“),
Nutzung (“use it”, „analyze“) sowie
Betrieb und Administration („maintain it“ / „administer“)
Nutzung
Aufbau
Entwurf
Betrieb
,
Metadaten
„
DW ist meist kein monolithisches System
–
„
meist Nutzung von Tools / Komponenten unterschiedlicher Hersteller sowie eigenprogrammierten
Anteilen
zentrale Bedeutung der Metadaten, jedoch oft unzureichend unterstützt
SS08, © Prof. Dr. E. Rahm
y
y
y
1-13
Datenintegration: physisch vs. virtuell
Physische (Vor-) Integration
Virtuelle Integration
(Data Warehousing)
(Mediator/Wrapper-Architekturen,
förderierte DBS)
Client 1
Front-End Tools
Client k
Data Marts
,
Metadaten
Mediator / FDBS
Data Warehouse
Metadaten
Import (ETL)
Operationale
Syseme
SS08, © Prof. Dr. E. Rahm
1-14
Wrapper 1
Wrapper m
W
Wrapper
n
Source 1
(DBS 1)
Source m
(DBS j)
Source n
y
y
y
Datenintegration: physisch vs. virtuell (2)
Physisch
(Data Warehouse)
Vorab (DW
(DW-Schema)
Schema)
Integrationszeitpunkt:
Metadaten
Integrationszeitpunkt:
D t
Daten
Aktualität der Daten
Virtuell
Vorab (globale Sicht)
vorab
Dynamisch (zur
A f
Anfragezeit)
it)
,
Autonomie der
Datenquellen
Erreichbare
Datenqualität
Analysezeitbedarf für
große
ß Datenmengen
D t
Hardwareaufwand
Skalierbarkeit auf viele
Datenquellen
SS08, © Prof. Dr. E. Rahm
y
y
y
1-15
Mehrdimensionale Datensicht
Ost
Nord
10
Region
Süd
y
25
West
y
,
Kennzahlen
(Fakten Measures)
(Fakten,
56
y
4
1Q
2Q
3Q
Elektronik
Fahrzeuge
Branche
Lebensmittel
Software
4Q
Dimensionen
Zeit
„
Kennzahlen: numerische Werte als Grundlage für
Aggregationen/Berechnungen (z.B. Absatzzahlen, Umsatz, etc.)
„ Dimensionen:
Di
i
bbeschreibende
h ib d Ei
Eigenschaften
h f
„ Operationen:
–
–
Aggregierung der Kennzahlen über eine oder mehrere Dimension(en)
Slicing and Dicing: Bereichseinschränkungen auf Dimensionen
SS08, © Prof. Dr. E. Rahm
1-16
y
y
y
Hierarchische Dimensionierung
Region
Branche
Zeit
Bundesland
Produktgruppe
Jahr
Ort
Produkt
Quartal
,
Monat
Woche
Tag
„
Operationen zum Wechsel der Dimensionsebenen
–
–
Drill Down
Drill-Down
Roll-Up
SS08, © Prof. Dr. E. Rahm
1-17
y
y
y
OLAP (Online Analytical Processing)
„
interaktive multidimensionale Analyse auf konsolidierten Unternehmensdaten
„ Merkmale / Anforderungen
– multidimensionale, konzeptionelle Sicht auf die Daten
– unbegrenzte
g
Anzahl an Dimensionen und Aggregationsebenen
gg g
– unbeschränkte dimensionsübergreifende Operationen
– intuitive, interaktive Datenmanipulation und Visualisierung
,
– transparenter (integrierter) Zugang zu heterogenen Datenbeständen mit
logischer Gesamtsicht
– Skalierbarkeit auf große Datenmengen
– stabile, volumenunabhängige Antwortzeiten
– Mehrbenutzerunterstützung
– Client/Server-Architektur
SS08, © Prof. Dr. E. Rahm
1-18
y
y
y
Multidimensional vs. relational
Ost
Bestellnr Region Branche
1406
Ost
Fahrzeuge
Zeit Menge
2Q 5
4123
West
Elektronik
1Q
58
7829
Süd
Fahrzeuge
2Q
30
y
5327
Ost
Lebensmittel 4Q
3000
Elektronik
Fahrzeuge
y
Branche
L b
Lebensmittel
itt l
Software
9306
Nord
Software
1Q
25
2574
Ost
Elektronik
4Q
2
N d
Nord
Region
10
Süd
y
25
West
56
,
4
2Q
1Q
„
Zeit
Annahme: fast alle Kombinationen kommen vor
relationale Darstellung (ROLAP):
–
–
„
4Q
multidimensionale
l idi
i l Darstellung
D
ll
(MOLAP):
(MOLAP) Kreuzprodukt
K
d k aller
ll Wertebereiche
W
b i h
mit aggregiertem Wert pro Kombination
–
„
3Q
Relation: Untermenge des Kreuzproduktes aller Wertebereiche
nur vorkommende Wertekombinationen werden gespeichert (Tupel)
Hybrides OLAP (HOLAP): ROLAP + MOLAP
SS08, © Prof. Dr. E. Rahm
y
y
y
1-19
Star-Schema
„
zentrale Faktentabelle sowie 1 Tabelle pro Dimension
Kunde
Zeit
KundenNr
KundenName
Geschlecht
Alter
Datum
Tag
g
Monat
Quartal
Jahr
,
Produkt
Verkauf
KundenNr
ProduktNr
Datum
Fname
Anzahl
Umsatz
ProduktNr
ProduktName
Produktgruppe
Branche
Hersteller
Farbe
Preis
SS08, © Prof. Dr. E. Rahm
Filiale
Fname
Ort
Land
Region
1-20
y
y
y
Anfragen
Beispielanfrage: Welche Auto-Hersteller wurden von weiblichen Kunden in Sachsen im 1.
Quartal 2008 favorisiert?
select p.Hersteller, sum (v.Anzahl)
from Verkauf v,, Filialen f,, Produkt p, Zeit z,, Kunden k
where z.Jahr = 2008 and z.Quartal = 1 and k.Geschlecht = ’W’ and
p.Produkttyp = ’Auto’ and f.Land = ’Sachsen’ and
,
v.Datum = z.Datum and v.ProduktNr = p.ProduktNr and
v.Filiale = f. FName and v.KundenNr = k.KundenNr
group by p.Hersteller;
„
Star-Join
–
–
–
sternförmiger Join der (relevanten) Dimensionstabellen mit der Faktentabelle
Einschränkung
g der Dimensionen
Verdichtung der Kennzahlen durch Gruppierung und Aggregation
SS08, © Prof. Dr. E. Rahm
1-21
y
y
y
Analysewerkzeuge
„
(Ad Hoc-) Query-Tools
„ Reporting
Reporting-Werkzeuge
Werkzeuge, Berichte mit flexiblen Formatierungsmöglichkeiten
„ OLAP-Tools
–
–
„
interaktive mehrdimensionale Analyse und Navigation (Drill Down, Roll Up, ...)
Gruppierungen, statistische Berechnungen, ...
Data Mining-Tools
,
„
Darstellung
–
–
–
„
Tabellen,
T
b ll insbesondere
i b
d Pivot-Tabellen
Pi t T b ll (Kreuztabellen)
(K
t b ll )
Analyse durch Vertauschen von Zeilen und Spalten, Veränderung von Tabellendimensionen
Graphiken sowie Text und Multimedia-Elemente
N t
Nutzung
über
üb Web-Browser,
W bB
Speadsheet-Integration
S dh tI t
ti
SS08, © Prof. Dr. E. Rahm
1-22
y
y
y
Beispiel: OLAP-Ausgabe (Excel)
,
SS08, © Prof. Dr. E. Rahm
y
y
y
1-23
Knowledge Discovery
Selektion
Vorverarbeitung/
V
b it
/
Transformation
Rohdaten
o date
D t Mi
Data
Mining
i
Daten
,
Interpretation
Daten
Muster
SS08, © Prof. Dr. E. Rahm
1-24
Wissen
y
y
y
Data Mining: Techniken
„
Data Mining: Einsatz statistischer und wissensbasierter Methoden auf Basis
von Data Warehouses
–
–
„
,
Clusteranalyse
–
–
„
Objekte
Obj
kt werden
d aufgrund
f
d von Äh
Ähnlichkeiten
li hk it iin Kl
Klassen eingeteilt
i t ilt (Segmentierung)
(S
ti
)
Bsp.: ähnliche Kunden, ähnliche Website-Nutzer ...
Assoziationsregeln
–
„
Auffinden von Korrelationen, Mustern und Trends in Daten
“Knowledge Discovery”: setzt im Gegensatz zu OLAP (“knowledge verification”) kein formales
Modell voraus
Warenkorbanalyse (z.B. Kunde kauft A und B => Kunde kauft C)
Klassifikation
–
–
–
Klassifikation von Objekten
Erstellung von Klassifikationsregeln / Vorhersage von Attributwerten
(z.B. “guter Kunde” wenn Alter > 25 und ... )
mögliche
g
Realisierung:
g Entscheidungsbaum
g
SS08, © Prof. Dr. E. Rahm
1-25
y
y
y
Beispiel Warenkorbanalyse
,
SS08, © Prof. Dr. E. Rahm
1-26
y
y
y
Enterprise Information Portale
„
einheitlicher unternehmensweiter Zugang zu strukturierten und
unstrukturierten Daten
Enterprise Information Portal
Data Access
Shared
Metadata
, Management
Query /
Report
ETL
Data Access
OLAP
Data
Mining
Document
Word
Processing Management
Modeling
Data Mart
Text
Mining
Data Sources
WWW
Data Warehouse
Documents
ocu e s
Multimedia
Web
Operational
Intranet/Internet Environment
Unstructured Data
Data Warehouse Environment
Structured Data
SS08, © Prof. Dr. E. Rahm
1-27
y
y
y
Data Warehouse Hype & Realität
„
„
„
„
,
„
“turning
turning data intoknowledge
intoknowledge”
“360° view of customer”
“aa single version of the truth
truth”
“getting you closer to the customer”
“B
“Better
decision
d i i making”
ki ”
„ Fragen
– Wie
werden welche Kundendaten genutzt?
– Wie erfolgt die Sicherung der Datenqualität?
SS08, © Prof. Dr. E. Rahm
1-28
y
y
y
GeWare: Expression Data Warehouse*
„
Verwaltung und Analyse großer Mengen von Genexpressionsdaten
„ Integration weiterer Informationen zu Genen,
Genen Patienten,
Patienten etc.
etc
Data Sources
CEL Files & Expression/
CGH Matrices (CSV)
Data Warehouse
Staging
g g
Area
Core
Data Warehouse
Expression/Mutation Data
,
Daily Import from Study
Management System
Pre-processing
Results
Manual
User Input
Mapping
pp g
DB
Experimental & Clinical
Annotation Data
Public Data Sources
• GO
• Ensembl
• NetAffx
Web Interface
Multidimensional
Data Model including
• Gene Expression Data
• Clone Copy Numbers
• Experimental & clinical
Annotations
• Public Data
Data Im-/Export
Database API
Stored Procedure
• Data pre
pre-processing
processing
• Data analysis (canned
queries, statistics, visualization)
• Administration
Data Mart
Local
Copies
SRS
Expression /
CGH Matrix
Gene Annotations
*E. Rahm, T. Kirsten, J. Lange: The GeWare data warehouse platform for the analysis of molecular-biological and clinical data.
Journal of Integrative Bioinformatics, 4(1):47, 2007.
SS08, © Prof. Dr. E. Rahm
1-29
y
y
y
Zusammenfassung
„ Data
Warehousing: DB-Anfrageverarbeitung und Analysen auf
integriertem Datenbestand für Decision Support (OLAP)
„ riesige Datenvolumina
„ Hauptschwierigkeit: Integration heterogener Datenbestände sowie
Bereinigung von Primärdaten
„, Physische Datenintegration ermöglicht aufwändige
Datenbereinigung und effiziente Analyse auf großen
Datenmengen
„ Mehrdimensionale Datenmodellierung und -organisation
„ Breites Spektrum
p
an Auswertungsg und Analysemöglichkeiten
y
g
„ Data Mining: selbständiges Aufspüren relevanter Muster in Daten
„ Data Warehouse ist weit mehr als Datenbank
SS08, © Prof. Dr. E. Rahm
1-30
y
y
y