Data Mining Analytische Informationssysteme

Transcription

Analytische Informationssysteme
Fritz Laux
Reutlingen
University
Data Warehouse (DW)
Online Analytical Processing (OLAP)
Data Mining
März 2011
© F. Laux
„Seit mehr als 30 Jahren wird versucht, den betrieblichen Fach- und Führungskräften angemessene
DV-Werkzeuge zu bieten“, die ihnen bei ihren Planungs- und Entscheidungsaufgaben adäquate
Hilfe geben können. 1)
Zahlreiche Systeme wurden entwickelt, doch selten erfüllten sie die in sie gesetzten Erwartungen.
Das lag in den 70-er Jahren teilweise an der geringen Rechenleistung und der mangelnden
Erfahrung der Entwickler, aber auch an den überzogenen Erwartungen an die damals so genannten
Management Information Systems (MIS). Mit dem Aufkommen graphischer Benutzeroberflächen
wurde ein neuer Versuch unternommen. Unter den Begriffen Executive Information System (EIS)
und Decision Support System (DSS). kamen neue Systeme auf den Markt. Obwohl damit
leistungsfähige Werkzeuge zur Verfügung standen, fehlte es oftmals an DV-mündigen Nutzern,
welche die teilweise starren Systeme nutzbringend einsetzen konnten. In den letzten Jahren ist es
gelungen, Technik und betriebliche Anforderungen so zu strukturieren, dass die erforderliche
Flexibilität erreicht werden kann.
Die dem technischen Wandel und der unternehmerischen Mode unterliegenden Systeme wurden
und werden – abgesehen von stark divergierendem Leistungs- und Funktionsumfang – unter einer
Vielzahl von Namen angeboten. Als Abgrenzung zu den operativen, transaktionsorientierten
System haben sie jedoch eines gemeinsam: sie dienen der Unterstützung dispositiver und
analytische Tätigkeiten. Daher verwenden wir die Sammelbegriff Analytisches Informationssystem
(AIS) bzw. Führungsinformationssystem (FIS)2) für alle Ausprägungen der MIS, DSS, EUS, EIS,
DW 3), OLAP und Data Mining Systeme.
1) P.
2)
Chamoni, P. Gluchowski (Hrsg.), Analytische Informationssysteme, 1999 Springer
vgl. Vorlesung Prof. A. Roth, Führungsinformationssysteme
3) zur
Definition der Abkürzungen siehe Vorlesung Prof. A. Roth, Führungsinformationssysteme
(c) März 2011, F. Laux, Wirtschaftsinformatik
1
Inhalt
Fritz Laux
Reutlingen
University
1.
Einführung
2.
Grundlagen
3.
Der BI-Prozess
4.
Architekturen
5.
Datenmodelle
6.
Data Mining
1 Einfü
hrung
2 Grundlagen
3 Der BI-Prozess
4 Arch
itektur
en
5 Datenmodel
le
6 Data Mining
2 /58
März 2011
© F. Laux
Entsprechend der Ausrichtung der Veranstaltung wird in der Einführung das Thema aus DVtechnischer Sicht motiviert. Dazu werden die Unterschiede zu operativen Systemen aufgezeigt
und die Herausforderungen an „Analytische Informationssysteme“ identifiziert. Die
betriebswirtschaftlichen Aspekte werden in der begleitenden Veranstaltung
Führungsinformationssysteme2) behandelt.
Zu den Grundlagen gehören neben der mathematischen Fundierung des Informationsmodells die
Definition der Begriffswelt, um die Elemente, Funktionen, Präsentationsmöglichkeiten und
Arbeitstechniken analytischer Informationssysteme (AIS) zu präzisieren.
Viele Details bei der Vorbereitung analytischer Auswertungen sind nicht automatisierbar. Ein
klares, systematisches Vorgehen ist die Voraussetzung für die erfolgreiche Arbeit mit
analytischen Informationssystemen. Die Etappen des AIS-Prozesses: Auswahl der Datenquellen,
Datenbereinigung, Data Warehouse Modellierung, Auswertungen und Präsentation werden
zunächst vorgestellt und in den folgenden Kapiteln dieser Vorlesung vertieft.
Die physische Aufteilung der Komponenten im Intranet, ihre Funktionalität und Performance
wird durch die Architektur eines AIS bestimmt
Das bei den operativen Datenbanksystemen dominierende relationale Datenmodell erweist sich
als nicht optimal, deshalb wird nach neuen Modellen und Metaphern gesucht. Die dafür
angeboten Datenmodelle werden kritisch untersucht.
Nicht offensichtliche Zusammenhänge zwischen den Daten können durch Algorithmen des Data
Minings entdeckt werden. Dazu werden Hilfsmittel der Statistik, des maschinellen Lernens oder
der Künstlichen Intelligenz eingesetzt. Je nach Verfahren arbeiten diese mit oder ohne
Benutzerinteraktion.
2) Vorlesung
Prof. A. Roth, Führungsinformationssysteme
2
1.1 Begriffliche Einordnung
Fritz Laux
Reutlingen
University
ª Aspekte
) Technologische Sicht
) Betriebliche Sicht
FIS
MMaa
rrkkts
ts ic
ichh
tt
OLAP
OLAP
Data
DataWarehouse
Warehouse
Transaktionssysteme
Transaktionssysteme
AIS
3 /58
März 2011
© F. Laux
t
chht
Sici
eS
hhe
ilcic
bbl
ireie
etrt
BBe
Data
Data
Mining
Mining
SIS
EEI
) Marktsicht
DDSSSS
tivivee
ratm
OOppeera
e
e
t
SSyyssteme
DV-technische
DV-technischeSicht
Sicht
ª We're drowning in information and starving for
knowledge. (Rutherford D. Rogers, Yale, 1985)
Die Begriffsbildungen im Bereich analytischer Informationssysteme lassen sich unter
verschiedenen Blickwinkeln einordnen. Die betriebswirtschaftliche Sicht (innerbetriebliche,
Markt- und Organisationssicht) erfolgt in der Veranstaltung Führungsinformationssysteme 2). In
dieser Vorlesung analytische Informationssysteme werden wir uns auf die DV-technische Sicht
konzentrieren.
Die Transaktionssysteme sind die operativen Systeme eines Unternehmens. Sie zeichnen sich
durch eine transaktionsgesteuerte (Alles-oder-Nichts-Prinzip) und satzorientierte Verarbeitung
aus. Diese Systeme werden wir als gegeben und bekannt1) voraussetzen.
Definitionen:
Eine Datenbasis, die neben operativen, betrieblichen Daten auch historische und aggregierte
Werte sowie externe Daten umfasst, bezeichnen wir als
Data Warehouse (DW)3).
Ein DV-System, das multidimensionale Sichten auf die Daten eines DW bereitstellt und
analytische Auswertungen ermöglicht, heißt Online Analytical Processing (OLAP).
Unter Data Mining (ein besserer und umfassenderer Begriff wäre Wissensentdeckung in
Datenbanken (Knowledge Discovery in Databases)) versteht man sowohl die automatische
Mustererkennung als auch die benutzergesteuerte (navigierende) Entdeckung von Information.
Die Informationssuche beim Data Mining basiert nicht auf Modellannahmen oder einer
Hypothese, d.h. sie erfolgt ohne präzise Fragestellung unter Verwendung nichttrivialer
Algorithmen und Methoden.
1)
vgl. Vorlesung F. Laux, Datenbanken
A. Roth, Führungsinformationssysteme
2) Vorlesung
3)Inmon gibt ebenfalls eine technische Definition: „A data warehouse is a subject-oriented, integrated,
time-varying, non-volatile collection of data in support of the management´s decision-making process.”
Siehe in Lehner, Wolfgang (2003) Datenbanktechnologie für Data-Warehouse-Systeme – Konzepte und
Methoden, 1. Aufl., Heidelberg (dpunkt) , S. 9:
3
1.2 Ausgangslage
Fritz Laux
Reutlingen
University
ª große operative Datenbestände
ungünstige Strukturierung für Analysen
ª Auswertung nur nach expliziter Information
Ö Select Kunde, Betrag from Auftrag
where Region ….
Order by …
ª tabellarische oder Listendarstellung
RDBS
Ku
K u nde
K u nde 1
.... nde 2
3
.
ª eindimensionale graphische Präsentation
4 /58
März 2011
© F. Laux
Zur Einführung wollen wir zunächst die Ausgangslage analysieren.
Die Hauptdatenquelle für betriebliche Informationssysteme bilden die operativen
Datenbestände des Unternehmens. Warum können diese nicht zu einem AIS
erweitert werden?
Dafür gibt es mehrere Gründe:
1. Die Speicherungsform ist für aggregierte Daten ungeeignet und die Datenbestände
enthalten keine historische Daten. Sie sind ausschließlich vorgangs- bzw.
transaktionsorientiert. Geschäftsspezifische Kennzahlen (z.B. Gewinnmarge,
Ladenhüter, Cash Flow, Absatzprognose, etc) sind nicht enthalten.
Für AIS sind neue Datenmodelle notwendig.
2. Es kann nur nach expliziter (in den Datenbanken gespeicherter) Information gesucht
werden. Versteckte Zusammenhänge können daher nicht entdeckt werden.
Komplexe Berechnungen für Kennzahlen sind nicht möglich, da sie zu einem
unzulässigen Leistungsabfall der operativen Funktionen führen würden.
Komplexe Analysen erfordern von den operative Systemen getrennte, auf
Auswertungen spezialisierte Systeme.
3. Komplexe betriebswirtschaftliche Abhängigkeiten können mit operativen
Werkzeugen nicht geeignet visualisiert werden. Die Darstellung ist meist
tabellarisch und damit wenig einprägsam. Durch die lineare Darstellung sind
Abhängigkeiten von mehr als einer Einflussgröße kaum erkennbar. Dieser Mangel
wird auch durch bunte Linien-, Balken- oder Kuchengraphiken wegen ihrer
Eindimensionalität nicht wesentlich verbessert.
Notwendig wären mehrdimensionale Darstellungen, die interaktiv gestaltet werden
können.
4
1.3 Multifunktionale Abhängigkeiten
Fritz Laux
Reutlingen
University
ª viele Einflussgrößen (Dimensionen)
Ö Zeit, Verkäufer, Kunde, Modell, Vertragstyp, Region, ...
ª unabhängige Dimensionen
Ö Produkt – Zeit, Kunde – Verkäufer, Produkt –> Verkäufer ?
ª Aggregate
Ö Produkt – Komponente – Einzelteil (exogen)
Ö Jahr – Monate – Wochen – Tage (exogen)
ª Klassifikation
Ö Warengruppe – Marke – Produkt (exogen)
Ö Profitcenter – Produkt (exogen)
ª Gruppierungen
5 /58
Ö ABC-Analyse, Warenkorbanalyse (endogen)
März 2011
© F. Laux
Für planerische und analytische Aufgaben ist die gleichzeitige Untersuchung mehreren
Einflussgrößen notwendig. So kann z.B. bei einer Absatzanalyse nicht nur nach
Produkten differenziert werden, sondern es sind auch regionale und temporale
Gesichtspunkte wichtig. In industriellen Projekten kann die Zahl der Dimensionen leicht
in der Größenordnung von 50 liegen. Das CRM-Warehouse der Fa. Breuninger enthält
ca. 200 Dimensionen.1)
Diese Einflussgrößen (Dimensionen) sind i.a. unabhängig voneinander. Beispielweise
gibt es unabhängig von der Jahreszeit und unabhängig von der Region Pkws zu kaufen.
Im Gegensatz hierzu kann bei bestimmten Unternehmen von einem Produkt auf den
bzw. die möglichen Verkäufer geschlossen werden (funktionale resp. mehrwertige
Abhängigkeit der Dimensionen).
Nicht alle Dimensionen weisen die gleiche Struktur auf. Produkte können verschieden
klassifiziert und in Hierarchien geordnet werden. Im Unterschied zur Gruppierung ist
hier wesentlich, dass die Hierarchie bzw. die Klassifikation vorbestimmt ist. Dies drückt
sich dadurch aus, dass z.B. die Komponenten eines Fahrzeugs durch die Stückliste im
voraus festliegen (exogen), unabhängig davon, ob ein solches Fahrzeug bereits existiert.
Im Gegensatz hierzu werden Gruppierungen einer Grundmenge anhand der Ähnlichkeit
ihrer Objekte oder durch ihre Beziehungen untereinander (endogen) vorgenommen. Zur
dynamischen Gruppierung zählt demnach auch die ABC-Analyse.
ÜA1: Versuchen Sie eine ABC-Analyse in SQL zu formulieren.
Verschiedene Formen der Dimensionshierarchien und daraus resultierende Probleme
zeigt die folgende Folie.
1)
Quelle: Computer Zeitung, Oktober 2003
5
1.4 Hierarchische Dimensionen
Fritz Laux
Reutlingen
University
ª (nicht) balancierte
Hierarchien
ª Parallele Hierarchien
Kfz
ª Heterarchien
Pkw
Nutzfz
T 250D
Benziner
A 160
Mittelkl.
C 220
Diesel
D 180
Oberkl.
E 280
S 450
6 /58
März 2011
© F. Laux
Hierarchisch strukturierte Dimensionen zeigen in der Praxis äußerst komplexe
Ausprägungen. Die Zweige einer Hierarchie können verschiedene Länge aufweisen
(d.h. nicht balanciert sein), Knoten können zu verschiedenen Generalisierungen der
gleichen Hierarchie (Heterarchie) oder zu verschiedenen, parallelen Hierarchien
gehören. Daraus folgt eine Potenzierung der Fakten (Messwerte) für jede
Dimensionsvariante und eine zunehmende Komplexität der Navigation. Die Struktur der
Dimensionen bestimmt die Navigations- und Aggregationsmöglichkeiten.
Navigationswege können mehrdeutig und von unterschiedlicher Tiefe sein
(Orientierungsproblem!). Dies bedeutet für ein Informationssystem, dass eine
Dimension unter verschiedenen Aspekten betrachtet werden kann und verschiedene
Dimensionen i.a. auch unterschiedliche Generalisierungen und Zusammenfassungen
gestatten. Moderne Datenmodelle für analytische Informationssysteme müssen durch
geeignete Metadaten diese Semantik berücksichtigen.
ÜA2: Erstellen Sie die Klassen ‚Hierarchie‘ und ‚Knoten‘ mit den zugehörigen
Methoden (Algorithmen) für das Durchlaufen (Traversieren) der Hierarchie nach
Tiefen- und Breitensuche.
6
1.5 Analyseverfahren
Fritz Laux
Reutlingen
University
ª Berechnete Werte (Analyse, Prognose)
Ö Zeitreihenanalyse, Absatzprognose
?
ª Zusammenhänge erkennen (Korrelation)
Ö Regressionsrechnungen
Ö Diskriminanzanalyse
ª Mustererkennung (KI-Verfahren)
Ö Clusteranalyse
Ö Neuronale Netze
7 /58
März 2011
© F. Laux
Produkt
Region
Zeit
Die Kennzahlen, welche ein AIS liefert, werden durch Datenanalysen gewonnen.
Charakteristisch für diese Analysen sind die Berechnung neuer Werte aus bereits
vorhandenen. Dies kann so trivial wie eine Summen- oder Mittelwertbildung sein, aber
auch komplexe Berechnungen sind möglich:
Beispielsweise können mit Hilfe einer Zeitreihenanalyse Regelmäßigkeiten im
zeitlichen Verhalten erkannt werden. Daraus können mit Hilfe einer Extrapolation die
zukünftigen Daten vorhergesagt werden. So zeigen sich beim Verkauf von z.B.
Badebekleidung offenbar saisonale Einflüsse, die eine Prognose bezüglich des zu
erwartenden Absatzes erlauben.
Mit Hilfe der Regressionsrechnung lassen sich statistische Zusammenhänge ermitteln.
Dabei ist jedoch wichtig zu wissen, dass diese Abhängigkeiten rein statistisch sind und
auch ohne kausalen Zusammenhang existieren können (Scheinkorrelation). Eine andere
mögliche „statistische Gefahr“ ist, dass bei großer Datenbasis seltene Ereignisse auch
wirklich eintreten, ohne dass diese jedoch eine inhaltliche Aussagekraft besitzen. Zum
Beispiel: Aus der Tatsache, dass fast jede Woche ein Millionengewinn in der Lotterie
erzielt wird, darf nicht geschlossen werden, dass mir selbst auch dieses Glück innerhalb
meiner Lebensspanne zuteil wird.
Diskriminanz- und Clusteranalyse finden Gemeinsamkeiten bzw. erklären Unterschiede
in Datenmengen. Die dazu verwendeten Konzepte basieren auf statistischen Methoden,
Entscheidungsbäumen oder auch Künstlichen Neuronalen Netzen, wobei die letzteren
erst „trainiert“ werden müssen (überwachtes lernen), um brauchbare Ergebnisse zu
erhalten.
7
2 Grundlagen
Fritz Laux
Reutlingen
University
ª Daten
Ö Dimension := unabhängige Variable (Einflussgröße)
Ö Fakt := abhängige Größe, zu untersuchender Wert
Ö Dimensionen und Fakten besitzen einen Datentyp
ª Funktionen
Ö Fakten = f(Dimensionen)
ª Navigation
Ö F1 +f(Δ) = f(D1 + Δ)
Fakt
f(Δ)
ª Präsentation
F1
Ö Graphik
}
Δ
D1
Dimension
8 /58
März 2011
© F. Laux
In Kapitel 2 werden die grundlegenden Konzepte analytischer Informationssysteme
behandelt.
Zunächst definieren wir die verwendeten Begriffe, dann werden darauf aufbauend die
Zusammenhänge untereinander untersucht. Trotz umfangreicher Datenmengen und
Abhängigkeiten ist das Prinzip einfach. Es handelt sich um funktionale Abhängigkeiten,
wobei die Funktion leider nicht im voraus bekannt ist, sondern erst durch aufwändige
Analysen ermittelt werden muss.
Bei den Auswertungen ist es vielfach notwendig, in den Datenbeständen interaktiv zu
navigieren und die (Zwischen)ergebnisse optisch aussagekräftig zu präsentieren, um das
weitere Vorgehen festlegen zu können. Auf die prinzipielle Grenzen der
Vorstellungskraft wird bei den Präsentationsmöglichkeiten hingewiesen.
8
2.1 Daten
Fritz Laux
Reutlingen
University
ª Dimension (Variable)
) unabhängige Variablen
) Hierarchisch oder intervallartig Strukturiert
Ö Bestimmt die Navigation
Ö Erzeugt abgeleitete bzw. berechnete Werte
) Dimensionsattribute
ª Fakten (Werte)
) verschiedeneDatentypen
Ö Taxonomie der Typen
Ö Analysen erfordern meistens quantitative Werte
) Skalierung
ª Beziehungen (Links)
) Navigierbare Verbindung
9 /58
) Intra-, extra-dimensonal, inhaltsorientiert
März 2011
© F. Laux
Definition: Unter einer Dimension versteht man eine unabhängige Variable, welche die zu untersuchenden
Werte (Fakten) beeinflusst. Eine Dimension kann in sich strukturiert sein. Hierarchische und Intervallstrukturen
unterstützen so genannte Verdichtungen, die als Generalisierung, Intervallbildung oder Gruppierung realisiert
werden. Diese bestimmen die Navigationsmöglichkeiten. So kann man sich bei einer hierarchischen Dimension
von einer Position ausgehend zum übergeordneten (parent), zum untergeordneten (child) oder zum nächsten
gleichrangigen Begriff (sibling) bewegen.
Den Wert einer Aggregatdimension erhält man aus den Werten seiner Komponenten. Aus den Summenwerten
der zugehörigen Fakten ergeben sich die Umsätze (Wert) des Aggregats (z.B. eines Monats (Zeitintervall =
spezielles Aggregat). Achtung: Nicht alle numerischen Fakten lassen sich sinnvoll addieren! Dies hängt vom
Datentyp des Faktums ab (siehe 2.1a Taxonomie der Fakten). Eine Dimension kann mit Attributen versehen
sein, welche die Dimensionsobjekte näher beschreiben. Betrachten wir als Beispiel die Dimension
Verkaufsstelle, so können wir diese mit den Attributen Adresse, Fläche, Mitarbeiter etc. versehen. Diese
Attribute ermöglichen ihrerseits eine weitere Strukturierung der Dimension.
Definition: Eine zu untersuchende Größe (Aspekt einer Situation) heißt Fakt. Fakten werden als Funktionswerte
von Einflussgrößen (Dimensionen) aufgefasst und dementsprechend ist ihre Abhängigkeit von den Dimensionen
von Bedeutung. Die Fakten sind meistens Unternehmensdaten (interne Fakten), die aus operativen Daten oder
Planzahlen entstammen. Eine weitere Datenquelle sind die volkswirtschaftliche Zahlen (externe Fakten), welche
private und öffentliche Organisationen zusammentragen und publizieren. Der Datentyp eines Faktums ist nicht
nur auf numerische Werte beschränkt, sondern kann auch von nominalem Typ sein. (siehe 2.1a Taxonomie der
Fakten). In diesen Fällen muss eine Transformation der Fakten auf numerische Werte vorgenommen werden,
um bestimmte Analysen (z.B. statistische Kenngrößen) vornehmen zu können.
Definition:
Ein Link bezeichnet eine navigierbare (ansteuerbare) Verbindung zwischen zwei Elementen (Dimension, Fakt,
Attribut, Datentyp, ...). Die Verbindung kann innerhalb einer Dimension (strukturell), zwischen Dimensionen
(dimensionsorientiert), zwischen Fakten (inhaltsorientiert) und in gemischter Kombination auftreten.
ÜA3: Finden Sie Beispiele für numerische Fakten, die sich nicht sinnvoll addieren lassen.
9
2.1a Taxonomie der Fakten
Fritz Laux
Reutlingen
University
10 /58
März 2011
© F. Laux
Fakten können durch unterschiedliche Datentypen dargestellt werden. Entsprechend der
gewählten Taxonomie (Struktur der Begriffe eines Fachgebietes) können wir zwischen
quantitativen und kategorialen Fakten unterscheiden.
Auf den Werten der quantitativer Fakten können Rechenoperationen durchgeführt werden.
Wenn die Werte uneingeschränkt addiert oder subtrahiert werden können (d.h. dabei sinnvolle
Werte liefern), handelt es sich um additive Fakten. Diese Eigenschaft ist für die Aggregatbildung
notwendig. Beispiele additiver Fakten sind z.B. Umsatz, Einkommen, Erlöse und verkaufte
Stückzahl. Gilt die Addierbarkeit nicht für jede Dimension, so handelt es sich um eine SemiAdditivität. Beispiele dafür sind der Lagerbestand bezüglich der Dimension Artikel und die
Anzahl Mitarbeiter über der Zeit. Es ist unbedingt notwendig, dass die Semantik eindeutig klar
ist, sonst kann es zu unsinnigen Rechenoperationen kommen (z.B. z.B. dürfen die Mitarbeiter
nicht über der Zeit, wohl aber über die Abteilungen summiert werden). Temporale Größen, wie
das Datum, die Zeit oder ein Zeitintervall sind spezielle Formen semi-additiver Daten.
Kategoriale Fakten (z.B. Noten, Sprachkenntnisse, Gehaltsklasse, etc) sind nicht additiv, d.h.
die Werte dürfen – auch wenn sie numerisch sind – nicht addiert werden (z.B. Noten). Wenn die
Werte vergleichbar sind (z.B. Kundenbewertung, Rangordnung, Prozentwerte), spricht man
von ordinalen Werten. Für diese Werte existiert eine Ordnungsrelation (z.B. ´<´ oder ´>´).
Beispielsweise ist die Note 1 besser als die Note 2. Wenn zusätzlich ein Distanzbegriff definiert
ist, darf auch ein Mittelwert gebildet werden. Mit nominalen Werten (z.B. Geschlecht,
Ausbildung, Personalnummer) darf keine mathematische Operation durchgeführt werden.
ÜA4: Finden Sie Beispiele für additive, semi-additive und nicht additive Fakten.
ÜA5: Entwerfen Sie auf Grund der oben stehenden Taxonomie eine Klassenhierarchie in UMLNotation für Faktenklassen. Hinweis: Smalltalk Klassenhierarchie „Magnitude“
10
2.2 Multidimensionale Funktionen
Fritz Laux
Reutlingen
University
ªOLAP Abbildung: Dimensionen Di -> Fakten Bi
ªallgemeine, mehrdimensionale Abbildung
X Di
f: (x1,x2, ..., xn)
-> X Bi
-> (y1,y2, ..., ym)
(x1,x2, ..., xn)
(y1,y2, ..., ym)
ªn-dimensionale Abb. mit eindimensionalem
Bildraum (Kennzahl)
(x1,x2, ..., xn)
X Di
f: (x1,x2, ..., xn)
->
->
B
y
ªeindimensionale Abb. in m-dimensionalen
Bildraum (Tabelle, Slicing)
11 /58
März 2011
© F. Laux
f:
D
x
->
->
(y1,y2, ..., ym)
X Bi
(y1,y2, ..., ym)
Beim OLAP geht es um die Analyse bzw. die funktionalen Abhängigkeiten der Fakten in
Bezug auf die Dimensionen. Diese Aufgabe kann durch eine multidimensionale Funktion
beschrieben werden.
Unter einer Funktion (Abbildung) versteht man die eindeutige Zuordnung eines Wertes
(Fakt) aus einer Wertemenge (XBi Bildbereich) für jedes Element (Vektor aus Variablen
[Dimensionen]) eines Definitionsbereiches (XDi).
Aufgabe der AIS ist es, die funktionalen Abhängigkeiten zwischen Einflussgrößen
(Dimensionen) und diskreten Messergebnissen (Fakten) zu ermitteln.
Die dabei gewonnene Funktion stellt das mathematische Modell für die
betriebswirtschaftlichen Zusammenhänge dar. Auf dieser Basis sind Analysen und
Prognosen möglich. Im allgemeinen Fall handelt es sich um eine multidimensionale
Abbildung. Mehrere Variablen x1, x2, ...,xn (Dimensionsvektor) bestimmen mehrere Fakten
y1, y2, ...,ym (Bildvektor).
Zur Verbesserung der Übersichtlichkeit kann der Bildvektor in seine Vektorelemente
zerlegt werden. Wir erhalten dann m n-dimensionale Abbildungen mit eindimensionalem
Bildraum. Dieser Kunstgriff erleichtert es, den Zusammenhang zwischen den Dimensionen
und einem Fakt zu erkennen. Für die gleichzeitige Analyse mehrerer Fakten (z.B.
Clusteranalyse) ist diese Darstellung ungeeignet. Häufig werden alle Dimensionen bis auf
eine fixiert um die Auswirkung einer Dimension auf die Fakten zu studieren. Eine solche
Abbildung lässt sich als Tabelle oder Kurvenschar einer Variablen darstellen.
(y1,y2, ..., ym)
y1
y2
⇔
x1
yn
x1
11
2.3 Präsentation
Fritz Laux
Reutlingen
University
ª Liste
ª Graphik
ª Pivottabelle
• die menschliche Vorstellungskraft
ist auf 3 räumliche Dimensionen begrenzt
12 /58
März 2011
© F. Laux
Um die Zusammenhänge zwischen Dimensionen und Fakten zu veranschaulichen,
benötigen AIS eine Visualisierungskomponente.
Die einfachste und meist auch unübersichtlichste Präsentationsform ist eine Liste mit
den alphanumerisch dargestellten Werten. Dies entspricht einer eindimensionalen
Abbildung in einen m-dimensionalen Raum (Tabelle). Dabei wird die unabhängige
Variable vertikal (fortlaufend) dargestellt. Die Faktenwerte erscheinen in den Spalten.
Eine Pivottabelle stellt eine 2-dimensionale Funktion in einen eindimensionalen Raum
dar. Die Dimensionen verlaufen horizontal und vertikal, das Faktum wird als
alphanumerischer Wert in die Kreuzungspunkte der Matrix eingetragen.
Graphiken können in einer Ebene 3 räumliche Dimensionen darstellen und durch
weitere Gestaltungsmittel (Farbe, Piktogramme, etc.) weitere Dimensionen oder Fakten
visualisieren. Die Vorstellungskraft wird dabei umso mehr strapaziert, je mehr
Dimensionen gleichzeitig dargestellt werden. Darüber hinaus können die
Abhängigkeiten auf verschiedenen Hierarchieebenen (z.B. Aggregationen) untersucht
werden. Dazu muss der Benutzer in den Dimensionen navigieren (siehe nächste Seite).
Durch Fixieren von Dimensionen bzw. Ausblenden von Fakten, wird die
Verständlichkeit verbessert, aber gleichzeitig der Zusammenhang verschleiert.
ÜA6: Stellen Sie folgende zweidimensionale Funktion als Liste dar:
(Umsatz_Produkt_A, SUM(alle_Varianten_des_Produkts_A) =
f(Kunde, Zeitraum_JJJJMM).
Verwenden Sie als Basis die Tabelle Umsatzfakten (Produkt, Datum,
Variante, Kunde, Preis). Erstellen Sie ein SQL-Skript, welches die
geforderte Liste erzeugt.
12
2.4 Navigation
Fritz Laux
Reutlingen
University
ª hierarchisch
Kfz
Pkw
C220
ª dimensions-übergreifend
Nutzfz
A180
Prod.
A 180
C 220
E 280
ª deklarativ
13 /58
1998 1999 2000
Ö Select * from cube where
year = 1999 and
product = ´A 180´;
März 2011
© F. Laux
Für die interaktive Analyse mehrdimensionaler Daten ist eine geeignete Navigation
(zielgerichtete Bewegung innerhalb der Daten) notwendig. Die Bewegung erfolgt in
natürlicher Weise innerhalb einer Dimension entlang von Dimensionshierarchien (roll
up, drill down). Von einer Dimension kann in eine andere gewechselt werden, um die
Fakten bezüglich dieser zu studieren. Durch Austauschen (pivotieren) von Dimensionen
kann der „Blickwinkel“ geändert und dadurch die Übersichtlichkeit von
Zusammenhängen verbessert werden. Durch diese Art der Ansteuerung innerhalb der
Fakten können unerwartete Zusammenhänge und Ergebnisse entdeckt werden. Wird
mindestens eine Dimension festgehalten (fixiert), so spricht man von Slicing. Dadurch
wird die Anzahl der darzustellenden Dimensionen und die Komplexität der Analyse
reduziert.
z
x
Slice bei dem
Dim. z fixiert ist
y
Soll eine Vermutung (Hypothese) bestätigt (verifiziert) oder widerlegt (falsifiziert)
werden, ist eine deklarative Auswertung vorzuziehen.
Durch die deklarative Steuerung können gewünschte oder vermutete Zusammenhänge
und Faktenausschnitte direkt (d.h. ohne interaktive Navigation) ermittelt werden.
ÜA7: Starten Sie die Analysis-Services für den MS SQL-Server. Ermitteln Sie,
wie viele Dimensionen es im Cube ‚Sales‘ des ‚Foodmart‘ Beispiels gibt?
Wie viele Hierarchieebenen hat die Dimension ‚Store‘? Welche
Elementattribute besitzt Store? Formulieren Sie eine einfache Abfrage mit
zwei Dimensionen (Store, Product).
13
3 Der Business Intelligence Prozess
Fritz Laux
Reutlingen
University
Data
Warehouse
Data
Sources
Analysis
Cubes,
Data Marts
xls
OLAP
DBS
stats
Data
Mining
ETL
WWW
WWW
Product
Build up
14 /58
März 2011
© F. Laux
Design (Goal
oriented)
Time
Region
In diesem Kapitel wird der Weg von den operativen Datenbeständen über das Data Warehouse bis zu den
Auswertungen und Präsentationen vorgestellt. Jede Phase ist sorgfältig zu planen und durchzuführen, damit
man am Ende wertvolle Ergebnisse erhält. Jede Phase dieses Prozesses ist entscheidend für die Qualität der
Ergebnisse, denn wenn auch nur ein Prozessschritt fehlerhaft durchgeführt wurde, ist das Ergebnis
fragwürdig. Bei ungeeigneter oder falscher Wahl der Ausgangsdaten ist eine bestimmte Analyse wegen
fehlender Daten überhaupt nicht möglich (z.B. ohne Absatzzahlen ist eine Absatzprognose durch
Zeitreihenanalyse unmöglich. Daher müssen schon bei der Datenbeschaffung der Datenbedarf der
möglichen Auswertungen berücksichtigt werden.
Auf den folgenden Seiten werden die einzelnen Schritte zur Wissensentdeckung behandelt, wichtige
Aufgaben für die Prozessschritte identifiziert und exemplarisch einzelne Situationen vorgestellt.
Glossary of terms:
Data Source := The origin of raw data
ETL (Extraction, Transformation, Loading) := The process of selecting, adapting and integrating data
from Data Sources into a Data Warehouse
Data Warehouse := Is a subject-oriented, integrated, time-variant, nonvolatile collection of data in support
of management’s decision-making process (Inmon, 1996)
Data Mart := A subset of a Data Warehouse, designated to specific analysis
Cube, Hypercube := Metaphor for data with multivariate dependencies, i.e. a function of multiple
parameters.
OLAP (Online Analytical Processing) := The interactive analysis of data from a Cube.
Data Mining := The mostly automatic and hypothesis-free analysis of large data collections that discovers
business relevant information not previously known (narrow definition).
Any kind of algorithm that finds new information from a data collection (broad definition).
14
3.1 Datenquellen
Fritz Laux
Reutlingen
University
ª Statische Quellen
) Zeit
) Geografie
≈ Dimensionen
ª operative Systeme
) Stammdaten
) Bewegungsdaten
ª Plandaten
) Zielwerte (für Umsatz, Gewinn, etc)
≈ Fakten
ª externe Daten
) Volkswirtschaftl. Zahlen + Prognosen
) Statist. Bundesamt
15 /58
März 2011
© F. Laux
Neben den statischen Informationen wie Zeit und Geografie sind vor allem die
Stammdaten eines Unternehmens Kandidaten für die Dimensionen eines DW. Die
Bewegungsdaten der operativen Systeme sind die Hauptdatenquelle für die Fakten.
Planzahlen und externe Daten ergänzen und rücken die operativen Zahlen ins richtige
Verhältnis zueinander.
Die Qualität (Korrektheit) der Daten ist für die nachfolgenden Auswertungen
entscheidend, denn auch hier gilt der Ausspruch: „Garbage in, garbage out!“*)
*)
Dieser Ausspruch ist nicht als mathematische Implikation zu verstehen, sondern er soll aussagen, dass
man kein gutes Ergebnis erwarten kann, wenn die Daten nicht die erforderliche Qualität und notwendige
Aussagekraft besitzen.
Mathematisch gesehen können aus einer falschen Voraussetzung beliebige Schlüsse gezogen werden, die
mathematisch „wahr“ sind.
15
3.2 Transformation
Fritz Laux
Reutlingen
University
ªSelektieren
welche Daten werden benötigt?
ªBereinigen
wo sind die Nutzdaten?
ªUmrechnen
haben die Fakten die gleiche Einheit,
Codierung und Granularität?
ªHarmonisieren
gibt es Syn- und Homonyme?
ªAnpassen
sind Gruppierung und Klassifikation
konsistent?
16 /58
März 2011
© F. Laux
ªKorrigieren
sind die Daten korrekt?
ªErgänzen
sind die Daten vollständig?
Analytische Informationssysteme leben von der Aktualität der Daten. In regelmäßigen
Abständen sind Extraktions-, Transformations- und Ladeprozesse (ETL) durchzuführen:
Dazu gehören
die Selektion und Extraktion der Daten (z.B. Auswahl der Systeme und Datenfelder,
Einrichtung einer Zugriffserlaubnis)
die Bereinigung der Daten von syntaktischen Mängeln (z.B. Elimination von
Sonder- und Steuerzeichen für z.B. Stornobuchungen, Satzendemarken, etc)
die Umrechnung in vergleichbare Größeneinheiten (z.B. alle Preise in €, die Energie
nur in kWh, alle Gewichte in kg, alle Längenangaben in m und alle Flüssigkeiten in Liter),
eine einheitliche Codierung (w = weiblich, m = männlich, ø = unbekannt, n = ohne
Geschlecht), und die gleiche Granularität (pro Artikel, pro Kunde, pro Tag).
das Harmonisieren der betriebswirtschaftlichen Notation [Synonyme, Homonyme]
(z.B. verschiedene Attributnamen für die gleiche Semantik (Artikelnummer,
Materialnummer, Teilenummer; Auftrag, Kundenauftrag, interner Auftrag)
die Anpassung von Gruppierungen und Klassifikationen (z.B. Zeitintervalle (Tag,
Woche, Monat, Jahr), Artikelklassifikation, Berechnung von Aggregatwerten)
die Korrektur fehlerhafter Daten (z.B. Plausibilitätskontrolle um Ausreißerwerte zu
erkennen und zu korrigieren, aus redundanten bzw. ähnlichen Daten berechnen)
das Ergänzen fehlender Werte (z.B. durch Defaultwerte (Standardwert), Fehlmarken
(unbekannter Wert), geschätzter Wert, Planzahl, etc.)
16
3.3 Data Warehouse
Fritz Laux
Reutlingen
University
ªModell auswählen
welches Modell wird unterstützt?
ªArchitektur erstellen
wie strukturieren wir das DW?
ªSpeichertechniken
optimieren
ªDaten laden
bzw. aktualisieren
wie verbessern wir die Geschwindigkeit
und verringern den Speicherbedarf?
wie aktuell müssen die Daten sein?
welche Zeit steht zur Verfügung?
17 /58
März 2011
© F. Laux
Die Wahl einer geeigneten Struktur für das Data Warehouse (DW) bestimmt seine
Flexibilität hinsichtlich der Auswertemöglichkeiten.
Zunächst ist ein Modell auszuwählen, das auch vom eingesetzten Datenbanksystem
unterstützt wird. Die Dimensionen und ihre Attribute sind festzulegen. Die zur
Verfügung stehenden Fakten sind für diese Variablen (Dimensionen) hinsichtlich
ihrer Auflösung (Granularität) zu wählen.
Nach der konzeptionellen Modellierung ist die Speichertechnik festzulegen und zu
optimieren. Dazu gehört die Speicherorganisation für dünn besetzt Datenbestände
(sparsity management). Logische Datenlücken entstehen durch bestimmte
Datenkonstellationen, wenn z.B. eine gewisse Produktgruppe nur an bestimmte
Kundengruppen abgesetzt wird. Enthält eine oder mehrere Dimensionen
Wiederholgruppen, so lassen sich die Daten leicht zusammenfassen und nur einmal
speichern. Je nach Präferenz (Speicher- bzw. Zugriffsoptimierung) kommen
Direktadressierung, Hashing, Indizierung, Datenkompression, Bitmap- und
Separationstechniken oder orthogonale Listen in Frage. *)
Der Lade- bzw. Aktualisierungsvorgang stellt für große Datenmengen eine starke
Belastung der Systemressourcen dar. Daher wird dieser Vorgang außerhalb der
normalen Arbeitszeiten (z.B. am Wochenende) durchgeführt, um den operativen
Betrieb möglichst wenig zu stören.
*)
G. Wiederhold: Datenbanken, Band 1: Dateisysteme, Oldenbourg V. 1980
17
3.4 Laden großer Datenmengen
Fritz Laux
Reutlingen
University
Präselektion
1. Selektieren,.
lesen,
bereinigen
2. Aufspalten,
umrechnen
3. Klassifizieren,
plausibilisieren,
harmonisieren
4. Schreiben
Quelle
DW
Log
Satzabweisung
Satzabweisung
18 /58
Quelle: U. Knuplesch, Forum WI 2000
März 2011
© F. Laux
Das Laden des Data Warehouse (DW) erfolgt in 4 Schritten:
1. Selektieren, lesen, bereinigen und formatieren
2. Aufspalten in Datenbereiche (Tabellen, Marts) und umrechnen der Daten
3. Klassifizieren, harmonisieren, plausibilisieren (korrigieren und ergänzen)
4. Schreiben der Dimensionen und dann der Fakten.
Bei großen Datenmengen ist der Ladevorgang in n parallele Datenströme aufzuteilen.
Die Daten müssen eine Reihe von Filter passieren, mit denen Konsistenzprüfungen
durchgeführt werden. Die Daten, welche die Konsistenzbedingungen nicht erfüllen,
werden zur manuellen Nachbehandlung abgewiesen. Durch eine geeignete
Verteilung singulärer Tabellen (Replizierung) kann die Performance verbessert
werden.
Die Präselektion aller Daten aus dem DW, die einen Bezug zu den neuen Ladedaten
haben, beschleunigt die Aktualisierungsoperationen..
Beim eigentlichen Ladevorgang ist auf die gleichmäßige Ausnutzung aller Ressourcen
des Rechners (CPUs, Diskprozesse, Partitionierung der Speicher, ...) zu achten, um
den Durchsatz zu optimieren. Dabei können unabhängige Teilschritte gleichzeitig
ausgeführt werden.
Schnelle Zugriffsmethoden zum Lesen und Schreiben von Daten (Load Append,
blockweises Einlesen, sequential Insert, ...)1) verkürzen die Ladezeiten.
1)
http://www-inf.fh-reutlingen.de/forumwi2000/docs/DWH_Knuplesch.PPT,
http://www.oracle.com/technology/oramag/oracle/04-mar/o24tech_data.html
18
3.5 Interaktive Auswertungen (OLAP)
Fritz Laux
Reutlingen
University
ª Datenstrukturierung
) OLAP Hyperkubus
ª Navigation
) Ein-/Ausblenden von
Dimensionen (slice)
) Pivotieren
von Dimensionen
) Teilkubus bilden (dice)
) Aggregation (roll-up)/
Detaillierung (drill down)
ª Statistische Funktionen
) Zeitreihen
) Korrelationen
19 /58
März 2011
© F. Laux
ª Identifikation von „Hot Spots“
) Detailsichten
Für die interaktive Analyse der Daten ist ein Online Analytical System (OLAP) notwendig.
OLAP Server basieren auf dem Kubenstrukturmodell. Die Strukturierung entscheidet über die
Auswertemöglichkeiten. Daher ist es i.a. notwendig, mehr als einen Kubus zu definieren, um alle
gewünschten Auswertungen durchführen zu können. In Abhängigkeit von der Datenmenge erfolgt die
Speicherung als
• ROLAP (relationale Struktur mit virtuellen „Würfeln“, die dynamisch durch eine Abfrage
erstellt werden).
• MOLAP (multidimensionale Zellstruktur [Matrix], welche die Fakten aufnehmen;
die Dimensionen sind hierarchisch strukturiert) oder
• HOLAP (die ursprünglichen Daten werden in Tabellen, die Aggregationen jedoch in
einem multidimensionalen Format gespeichert).
Auf die Funktionalität hat die Speichertechnik keinen Einfluss, lediglich die Leistung (Performance) wird
damit bestimmt:
Die ROLAP-Technik ist nicht sehr performant, sie eignet sich vor allem für große Datenbanken oder
Legacy-Daten, die nur selten abgefragt werden.
Durch MOLAP kann die beste Abfrageleistung erzielt werden, da dieses Speicherformat spezifisch für
multidimensionale Datenabfragen konzipiert wurde. Die MOLAP-Speicherung eignet sich wegen des
hohen Arbeitsspeicherbedarfs für Datenmengen (Datasets) von kleiner und mittlerer Größe.
HOLAP stellt die Konnektivität mit großen Datasets in relationalen Tabellen zur Verfügung und nutzt
gleichzeitig die schnellere Leistung der multidimensionalen Speicherung von aggregierten Dimensionen.
Der Ressourcenbedarf ist beachtlich.
Die Navigation innerhalb eines multidimensionalen Kubus erfolgt entlang der Dimensionen und ihrer
Struktur. Aggregation in einer Dimension wird als Hierarchie realisiert. Die Navigationsmöglichkeiten
entsprechen denen von Kap. 2.4 (Folie 13). Durch die Fixierung von Dimensionen reduzieren sich die
funktionalen Abhängigkeiten und erleichtern damit die Darstellung. Die Visualisierung beim OLAP
erfolgt überwiegend durch Matrizen oder 3D-Diagramme (siehe Beispiel auf der nächsten Seite). Extrema
(„Hot Spots“) können farblich hervorgehoben werden.
19
3.5a Beispiel (Excel 2000)
Fritz Laux
Reutlingen
University
20 /58
März 2011
© F. Laux
Das obige Beispiel stellt ein dreidimensionales Balkendiagrammen für die Umsätze
(unit sales) mit Kunden in Abhängigkeit von der Ausbildung, dem Geschlecht und dem
jährlichen Einkommen dar. Man beachte, dass das Einkommen falsch (nach
Zeichenketten) sortiert wurde und nicht nach dem Einkommensintervall. Dies ist eine
Folge mangelhafter Semantik der Dimension Jahreseinkommen (Yearly Income).
So erstellen Sie in Excel eine Pivot-Tabelle für einen OLAP-Kubus:
Menü: Daten/PivotTable- und PivotChart-Bericht…,
Assistent:
1) *externe DatenQuelle *PivotTabelle,
2) Daten importieren, Datenquelle auswählen,
Register: OLAP Cubes, neue Datenquelle (ok),
Name: Sales,
OLAP-Anbieter: MS OLE DB Provider for OLAP Services,
Verbinden * Analysis Server: <rechnername> oder LOCALHOST,
multidimensionale DB auswählen: Foodmart,
Fertigstellen, OLAP-Cube wählen: Sales, ok
Datenquelle: Sales selektieren, OK, weiter
3) In bestehendes Arbeitsblatt einfügen und fertig stellen
20
3.6 Wissensentdeckung (Data Mining)
Fritz Laux
Reutlingen
University
ª automatische oder interaktive Wissensentdeckung
ª Methodenauswahl entscheidend für mögliche Erkenntnisse
ª Bei interaktiven Verfahren ist die Visualisierung von großer
Bedeutung für den Ablauf und mögliche Ergebnisse
ª Probleme
) Auswahl des geeigneten Verfahrens
) Zielfunktion (Abbruchkriterium) kann schwierig zu wählen sein
) Bei interaktiven Verfahren beeinflusst die Visualisierung das
Ergebnis
) Überanpassung reduziert die Prognosestärke
) Scheinkorrelationen
) Ergebnisse oft nicht mehr nachvollziehbar
21 /58
März 2011
© F. Laux
Unter Wissensentdeckung aus Datenbanken (Knowledge Discovery in Databases,
KDD) versteht man das Aufspüren von bedeutsamen Erkenntnissen aus einem
Datenbestand.
Die Verfahren des Data Mining zielen also darauf ab, nicht offensichtliche (verborgene)
Zusammenhänge und Abweichungen in großen Datenbeständen zu entdecken.
Entscheidend hierfür ist die Wahl der richtigen Methode. Dies kann eine Methoden der
Statistik (Regression, Prognosen), der KI (Entscheidungsbaum, Deduktion), der
künstlichen Neuronalen Netze (Kohonen), der Musteranalyse (Clusterbildung) oder ein
genetischer Algorithmus sein.
Je nach Typ laufen die Verfahren automatisch oder interaktiv ab, oder sie müssen erst
„trainiert“ werden.
Auch wenn Data Mining Verfahren häufig ohne Hypothesen (a priori Vermutung)
auskommen, begrenzt doch das gewählte Verfahren die möglichen Ergebnisse,
zumindest jedoch die Geschwindigkeit (Performance) der Analyse. Häufig ist es
schwierig, ein brauchbares Abbruchkriterium für die Berechnungen zu finden oder
durch Überanpassung bei der Lernphase entstehen später bei der Analyse zu viele
Klassen.
21
3.6a Beispiel (Entscheidungsbaum)
Fritz Laux
Reutlingen
University
22 /58
März 2011
© F. Laux
Der Entscheidungsbaum zeigt eine Gesundheitsstudie von 360 Personen bei denen
ausgehend vom Blutdruck (niedrig (low) normal und hoch (high) und der
Klassifikationseigenschaften Alter (Age), Trinkgewohnheiten (DrinkPattern), Rauchen
(Smoking) und Fisch_in_der_vergangenen_Woche (FishLastWeek), ein Szenario von 7
Klassen gefunden wurde, um das Blutdruckrisiko von Personen zu beurteilen.
22
3.6b Beispiel (Neuronales Netz)
Fritz Laux
Reutlingen
University
23 /58
März 2011
© F. Laux
Erklärungen: Siehe Clementine Demo-CD von SPSS
23
3.7 Präsentation
Fritz Laux
Reutlingen
University
ª Visualisierung der Ergebnisse
) Fakten können z.B. durch Zahlen, Graphen, Farben,
Piktogramme u.a. opt. Hilfsmittel dargestellt werden
) Liefert Anregung für weitergehende Fragestellungen
ª Ziel: Ergebnisse begreifbar machen
) Nicht unbedingt schön aussehen
ª Problematik:
) Optische Täuschungen
) in der Ebene sind nur 2 Dimension darstellbar
) im Raum sind maximal 3 Dimensionen darstellbar
) höhere Dimensionen sind durch den Menschen räumlich nicht
vorstellbar, können aber durch Überlagerung von Dimensionen
und portionsweise (Slices) visualisiert werden
24 /58
März 2011
© F. Laux
Die Präsentation der Analyseergebnisse erfolgt visuell.
Die Visualisierung der Ergebnisse soll diese leichter begreifbar machen und anschaulich
darstellen. Die geeignete Visualisierung kann auch Anregungen für weitere
Fragestellungen und Untersuchungen geben. Dabei sind eine Reihe von Punkten zu
beachten:
• Optische Täuschung kann den Eindruck verfälschen
• Graphische Darstellungen sind kompakter und übersichtlicher als Zahlenreihen
• bei komplexen Abhängigkeiten droht ein Überladen der Darstellung
• Bei der räumlichen Darstellung ist die menschliche Auffassungsgabe auf drei
Dimensionen beschränkt.
Das bedeutet, dass maximal 3 Dimensionen räumlich darstellbar sind, wobei die Fakten
bereits anderweitig (durch Zahlen, Farben, etc.) ausgedrückt werden müssen. Aus
diesem Grund ist eine Reduktion (Slicing) der Dimensionen oder eine Überlagerung
notwendig.
24
3.7a Beispiel 1 (graph. Visualisierung)
ª Balkendiagramm von 2 Fakten über
einer Dimension
Fritz Laux
Reutlingen
University
ª Konfidenzintervall 95%
Fakt als
Quadrat
dargestellt
Konfidenzintervall als
Intervall
dargestellt
25 /58
ª Frage: gibt es einen
Zusammenhang (Korrelation)
zwischen Schulbildung und Anzahl
Kinder?
Regressionsgerade
März 2011
© F. Laux
Bei den gezeigten Beispielen handelt es sich um typische eindimensionale
Darstellungen für statistische Auswertungen.
Die Darstellung von Konfidenzintervall und Ausgangsdaten neben der
Regressionsgeraden erleichtern und objektivieren die Beurteilung der Ergebnisse. So ist
z.B. im Beispiel die Anzahl der Kinder über der Schulbildung zu erkennen, dass trotz
der eindeutig negativen Regression (längere Schulbildung, weniger Kinder) bei allen
Personengruppen die ganze Bandbreite von 0 bis 8 Kinder vorkommt.
25
3.7b Beispiel 2 (opt. Täuschung)
Fritz Laux
Reutlingen
University
ª Durch Unterdrückung
des Nullpunktes
ª Durch logarithmische
Darstellung
ª Durch flächenhafte
Darstellung
ª Durch optische
Hervorhebung
350
Umsatz
130
120
110
100
26 /58
1998
1999
März 2011
© F. Laux
Bevölkerung
300
800
250
400
200
200
150
100
100
50
50
1960
1980
2000
2020
Derartige optische Täuschungen werden z.B. im Marketing (gerne) zur Beschönigung
von Firmenergebnissen oder bei Werbematerial eingesetzt.
Bei der Darstellung der Umsatzzahlen eines Automobilbauers durch Piktogramme wird
der Eindruck erweckt, dass sich der Absatz vervierfacht hat, denn das Auto-Piktogramm
von 1999 nimmt die vierfache Fläche gegenüber dem von 1998 ein. Zusätzlich verstärkt
wird dieser Eindruck durch die Unterdrückung des Umsatz-Nullpunktes.
Im Diagramm daneben wird das Bevölkerungswachstum prognostiziert. In der roten
Darstellung wird eine logarithmische Skala verwendet, so dass der Eindruck entsteht,
dass sich das Wachstum verlangsamt. Einen realistischen Eindruck (exponentielles
Wachstum) vermittelt hingegen die gepunktete Linie (schwarze Skala auf der rechten
Seite).
26
3.7c Beispiel 3 (> 3 Dimensionen)
Fritz Laux
Reutlingen
University
vorrätige
Dimensionen
Dargestellte
Dimensionen
Dargestellte
Fakten
27 /58
März 2011
© F. Laux
In diesem Beispiel der MS Analysis Services wird eine Pivotdarstellung mit
überlagerten Dimensionen (z.B. vertikal die Dimensionen Gender, Country und Marital
Status) verwendet. Dadurch können gleichzeitig mehr als 2 Dimensionen dargestellt
werden. Aggregat- und Einzelwerte einer Dimension werden nebeneinander gestellt.
Eine Schwäche dieser Darstellung ist, dass zueinander gehörende Daten nicht immer
nebeneinander dargestellt werden können. Zum Beispiel sind in unserem Bild die
Umsätze (unit sales) von weiblichen (Gender = F) verheirateten (Marital Status = M)
Personen bezüglich der Länder (z.B. USA) nicht nebeneinander zu finden, da die
Dimension Marital Status auf der dritten Hierarchiestufe dargestellt ist. Wird die
Länderdimension (Country) auf die dritte Ebene gebracht, gestaltet sich die Darstellung
nach Ländern kompakt, jedoch wird jetzt der Familienstatus (Marital Status)
auseinander gerissen.
27
3.7d Beispiel 3 (> 3 Dimensionen)
Fritz Laux
Reutlingen
University
Dimensionen
Fakten
(Kennzahlen)
Jede Linie
repräsentiert ein
Faktum
28 /58
März 2011
© F. Laux
Bei dieser Darstellung befinden sich die Dimensionen vertikal in normierter Form (alle
Dimensionen sind gleich lang) angeordnet. Jede Verbindungslinie steht für ein Faktum.
Geübte Analytiker sollen aus den Verbindungsmustern Zusammenhänge erkennen
können. Beispielsweise zeigen Häufungspunkte in den Dimensionen an, dass ein
bestimmter Dimensionswert oft vorkommt. Für eine Dimension Produkte bedeutet das,
dass ein bestimmtes Produkt häufig gekauft wird.
Das Beispiel zeigt eine Warenkorbanalyse, bei der jeder Warenkorb durch eine Linie
dargestellt wird. Linienkonvergenzen zeigen Produkte an, die häufig zusammen
verkauft werden (Bier&Pampers-Beispiel).
28
3.7e Beispiel (ABC-Analyse)
Fritz Laux
Reutlingen
University
29 /58
März 2011
© F. Laux
Dies ist die Darstellung einer klassischen ABC-Analyse mit wählbaren Grenzwerten.
Bei der Wahl der Grenzen rastet der kumulative Prozentwert genau zwischen zwei
Unternehmen ein, so dass keine Mehrdeutigkeit entstehen kann.
Die ABC-Analyse ist ein typisches Beispiel für eine Gruppierung, da die Zugehörigkeit
eines Unternehmens zu einer bestimmten Gruppe nicht durch seinen eigen Umsatzwert
allein bestimmt wird, sondern von den anderen Unternehmen in der Analysemenge
(endogen) beeinflusst wird.
Im Gegensatz hierzu wäre eine Klassifikation nach Umsatzgröße (Anzahl Mitarbeiter,
Umsatz) eine exogen definierte Einteilung, die nur durch das Unternehmen selbst
bestimmt wird.
29
4 Architekturen
Fritz Laux
Reutlingen
University
ª 3-Ebenen-Modell
ª Komponenten
ª Data Warehouse Architekturen
30 /58
März 2011
© F. Laux
In Kap. 4 befassen wir uns mit dem physikalischen Aufbau der Software eines
analytischen Informationssystems.
Als Referenzarchitektur besprechen wir das 3-Ebenen-Modell nach Schinzer und
Bange5). Es gliedert ein AIS in Datenhaltung, Strukturierung (Modellierung) und
(interaktive) Analyse.
Anhand dieses Modells lassen sich die einzelnen physischen Software-Komponenten
eines analytischen Informationssystem einordnen.
Auf der Speicher bzw. Datenhaltungsebene werden verschiedene Data Warehouse
Architekturen vorgestellt.
5)
H. Schinzer, C. Bange, Werkzeuge zum Aufbau analytischer Informationssysteme
in P. Chamoni, P. Gluchowski (Hrsg.), Analytische Informationssysteme
30
4.1 Das 3-Ebenen-Modell
Fritz Laux
Reutlingen
University
Analyse
Business Intelligence
Gerichtete und ungerichtet Analyse
Navigation u. Visualisierung strategieorientiert
Theorie
Beobacht.
Prognose
OLAP-Modell
Informationsmodellierung (Metadaten)
Multidimensionale Sichten (Hypercube)
Data Warehouse
Datenspeicherung
Selektion
31 /58
März 2011
© F. Laux
Quelle: Schinzer, Bange; Werkzeuge zum Aufbau analytischer Informationssysteme
Das 3-Ebenen-Modell von Schinzer und Bange lehnt sich an das ANSI/SPARC Modell4)
6)
für Datenbanken an. Es stellt ein Referenzmodell für AIS dar, welches zwischen
interner, konzeptioneller und externer Ebene unterscheidet. Eine Ebene benutzt nur die
Funktionen ihrer unmittelbar untergeordneten Schicht und liefert Dienste an ihre
übergeordnete Schicht. Das Modell erhebt – wie das ANSI/SPARC Modell – keinen
Anspruch auf eine effiziente Implementierung. Es dient nur zur Veranschaulichung von
grundlegenden Konzepten und Funktionen eines AIS.
Auf der Ebene der Business Intelligence wird strategisches Wissen erworben, das den
Unternehmenserfolg sichern und verbessern soll. Dies ist die „externe Ebene“ eines
analytischen Informationssystems. Die Interaktion erfolgt mit Hilfe von menügeführten
Benutzerschnittstellen, welche die Beobachtungswerte, Analysen und Prognosen dem
Benutzer leicht fassbar darstellen. Die Werkzeuge liefern auch Unterstützung für die
Visualisierung der Modellbildung.
Der Bereich des Online Analytical Processing (OLAP) strukturiert die Daten
angemessen und ergänzt diese um Metainformationen. In dieser Ebene wird eine
geeignete Modellbildung („konzeptionelle Ebene“) vorgenommen. Dimensionen
werden strukturiert, Fakten berechnet und multidimensionale Sichten für die Business
Intelligence Ebene bereitgestellt.
Die „interne Ebene“ ist für die Datenbeschaffung, Bereinigung und Bereitstellung
historischer Daten zuständig. Teilbereiche des Datenbestandes sind selektierbar und
werden an die OLAP-Schicht weitergereicht.
4)
6)
C. J. Date : An Intro. to Database Systems, Vols 1, Addison-W. 1995
F. Laux, Vorlesung „Datenbanken und Informationssysteme“
31
4.2 Komponenten
Fritz Laux
Reutlingen
University
Navigation
Data Marts
Präsentation
OLAP
Server
Externe
Daten
Zentrales Data Warehouse
Operative
Informationssysteme
32 /58
März 2011
© F. Laux
VSAM
RDB
Data
Mining
IMS
Quelle: Chamoni, Gluchowski (Hrsg.), Analytische Informationssysteme
Die Bestandteile eines analytischen Informationssystems und ihre Informationsquellen
lassen sich in einer physischen Referenzarchitektur idealtypisch anordnen.
Zentrale Komponente ist das Data Warehouse, welches von den operativen,
transaktionsorientierten Informationssystemen und externen Datenquellen gespeist wird.
Der OLAP Server bildet das Data Warehouse oder Teile davon (Data Marts) in
mehrdimensionalen Strukturen ab. Diese orientieren sich meistens an der HyperkubenMetapher. Das OLAP-Modell ist bezüglich seinen Dimensionen navigierbar.
Die OLAP-Komponente enthält das mehrdimensionale Informationsmodell und
interaktive Werkzeuge zur Analyse. Data Mining Verfahren als besonders komplexe
und raffinierte Werkzeuge werden meistens als separate Komponente betrachtet.
Die Benutzerschnittstelle als Navigations- und Präsentationskomponente kommuniziert
mit allen Komponenten direkt, außer dem Data Warehouse. In einigen Systemen ist
sogar der Durchgriff bis auf einzelnen Datensätze der operativen Systeme möglich.
Allerdings sind weder an den operativen Daten noch im Data Warehouse (DW)
Modifikationen möglich. Das DW wird zu bestimmten Zeiten aus den operativen und
externen Datenquellen mit Updates versorgt.
32
4.3a Virtuelles DW
Fritz Laux
Reutlingen
University
z.B. MS
UDM
OLAP
Middleware (z.B. CORBA, EJB)
z.B. MS
XMLA
(XML for
Analysis)
Externe
RDB
IMS
Daten
Betriebliche Daten
33 /58
März 2011
© F. Laux
Wir untersuchen nun drei mögliche Architekturen der Datenhaltung und
Datenverteilung
Bei einem virtuellen DW ist der direkte Zugriff auf operative und externe Daten
möglich. Der Zugriff erfolgt nur lesend mit Hilfe einer Middleware (z.B. CORBA, EJB,
ADO.NET, etc.) über das Firmennetz oder das Internet. Das DW als Datenspeicher
existiert nicht real, es stellt lediglich eine geeignete Sicht auf die Daten her (virtuelles
DW). Der Vorteil liegt hauptsächlich in der ständigen Aktualität der Daten. Der
Benutzer erstellt mit Hilfe seiner OLAP-Werkzeuge Abfragen, welche die Middleware
zerlegt und dann an die heterogenen Datenquellen geschickt werden. Die Ergebnisdaten
werden dann in der OLAP-Komponente analysiert. Das virtuelle DW ist gewissermaßen
in der OLAP-Komponente oder der Middleware integriert.
Die MS Analysis Services 2005 stellen
mit dem Unified Dimensional Model
(UDM) ein Beispiel für ein virtuelles
Data Warehouse dar. Durch UDM eine
Brücke zwischen dem Benutzer und
den Datenquellen in einer einheitlichen
und für den Benutzer verständlichen
Form hergestellt. Die Anfragen können
über Excel oder SQL Client Tools an
das UDM formuliert werden.
(Quelle: SQL Server 2005Onlinedokumentation, Unified
Dimensional Model (SSAS))
33
4.3b Zentrales DW
Fritz Laux
Reutlingen
University
OLAP
Datenimport
Externe
RDB
IMS
Daten
Betriebliche Daten
34 /58
März 2011
© F. Laux
In der Literatur wird mit dem Begriff Data Warehouse in der Regel eine zentrale
Datenbasis verstanden. Das zentrale DW wird mit Hilfe eines Datenimports regelmäßig
von den Datenquellen versorgt. Diese Lösung integriert neben der Datenhaltung und der
Ladefunktion auch die Datenbereinigung, Abfrage- und Auswertekomponenten. Daraus
ergibt sich, dass Auswertungen und die Verwaltung der Metadaten (Schema) nicht wie
im Fall des virtuellen DW auf dem Front-End-Rechner stattfinden muss.
34
4.3c Data Marts
Fritz Laux
Reutlingen
University
Data
Mining
OLAP
Datenimport
Externe
Daten
RDB
IMS
Betriebliche Daten
35 /58
März 2011
© F. Laux
Data Marts sind abteilungsspezifische, „kleine“ DWs. Ihre Struktur ist dem jeweiligen
Verwendungszweck angepasst. Dadurch und durch die redundante Datenbestände ist
diese Lösung performanter und fehlertoleranter als ein zentrales DW. Besonders bei
geographisch verteilten Unternehmen ist diese Form der Datenhaltung von Vorteil.
Die Auswirkungen auf die Performance des Intranets ist bei vielen Updates nicht zu
vernachlässigen. Auswertungen über verschiedene Data Marts sind nur bei gleichem
Aktualitätsstand möglich.
35
4.4 Architektur der SQL Server 2005 Analysis Services
Fritz Laux
Reutlingen
University
36 /58
März 2011
© F. Laux
Quelle: SQL Server 2005Onlinedokumentation
„Clientarchitektur (SSAS)“
Zum Abschluss des Kapitels soll eine konkrete Architektur eines OLAP Systems vorgestellt
werden.
Microsoft stellt auf Basis des MS SQL Servers mit den Analysis Services ein System zur
Analyse von multidimensionalen Strukturen (Online Analytical Processing) und Data MiningFunktionalität bereit. Das Blockbild zeigt eine zentrale Data Warehouse Architektur mit ClientAnwendungen, die über die Middleware-Komponenten OLE (Object Linking and Embedding)
oder ADO (ActiveX Data Objects) durch ein XML basiertes Protokoll (XMLA = XML for
Analysis) über TCP/IP mit dem Analysis Server kommunizieren. Alternativ können
Anwendungen - anstatt TCP/IP zu nutzen - auch über die Internet Information Servers (IIS) auf
Basis von HTTP kommunizieren. Laut MS wird damit eine „Thin Client“ Architektur unterstützt
wobei dies nicht soweit geht, um Analysen direkt im Web-Browser anzuzeigen. Es wird
allerdings darauf hingewiesen, dass die komplette Analyse auf dem Server stattfindet.
Über die Komponenten der SQL Server Analysis Services (grünes Rechteck) gibt dieses Bild
keine Auskunft. Die MS Online Dokumentation listet jedoch folgende Funktionen auf:
•Analysieren von Anweisungen, die von Client empfangen werden.
•Verwalten von Metadaten und Serverressourcen
•Verarbeiten von Transaktionen und Berechnungen
•Speichern von Dimensions- und Zellendaten
•Erstellen von Aggregationen
•Planen von Abfragen
•Zwischenspeichern von Objekten
Damit sind die wesentlichen Funktionen der Komponenten der Referenzarchitektur von Folie 4.1
abgedeckt.
Als Datenquellen können über den Integration Service [früher Data Transformation Service
(DTS) genannt] die verschiedensten relationalen Datenbanken, Excel-Dateien, Webseiten und
ASCII-Dateien verwendet werden.
36
5 Datenmodelle
Fritz Laux
Reutlingen
University
ªrelationales Modell ungeeignet
) keine Pivottabelle
) keine dynamische Gruppierung
) keine hierarchischen
Schlüssel (Dimensionen)
) trotzdem relationale
Varianten (Star, Galaxie, ..)
DW weit verbreitet
Key
Attrib1
Attrib2
A180
30 0 €
Blau
C220
400 €
Rot
E260
500 €
Rot
ªmultidimensionale Modelle
) Hyperkubus
) Objektorientiert
) Dimensional Fact
x
z
37 /58
März 2011
© F. Laux
y
Bei operativen Systemen dominiert das relationale Modell. Es wäre daher äußerst
günstig, wenn das selbe Modell auch für AIS brauchbar wäre. Die Beispiele von Kap. 1
zeigen, dass damit keine geeignete Strukturierung mehrerer Dimensionen möglich ist.
Strukturierte Schlüssel sind nicht erlaubt. Das „platt gedrückte“ (normalisierte)
relationale Modell stellt keine brauchbare Metapher für die Visualisierung unabhängiger
Dimensionen dar.
Trotz dieser geringen Eignung werden relationale Systeme mit stark redundanten Daten
eingesetzt. Weit verbreitet sind relationale Varianten, wie Star-, Galaxie- und
Snowflake-Schemata.
Die Gründe für den Einsatz dieser relationalen Varianten sind die bekannte und
ausgereifte Technologie, welche erwarten lässt, dass damit auch große Datenmengen
(mehrere 100 GB bis zig Terabytes) effizient bewältigt werden können.
Für eine adäquate Behandlung der Anforderungen analytischer Informationssysteme
sind multidimensionale Modelle notwendig. Häufig werden diese mental mit einer
Kubenmetapher assoziiert. Es werden aber auch objektorientierte Modelle mit einer
reichhaltigeren Semantik diskutiert.
37
5.1 Star -, Galaxy und Snowflake Schemata
Fritz Laux
Reutlingen
University
ª Star :
eine Faktentabelle,
mehrere Dimensionstabellen
ª Galaxy:
mehrere Faktentabellen,
mehrere Dimensionstabellen
ª Snowflake:
Dimensionstabellen normalisiert,
Faktentabellen aggregiert
ª Alle 3 Schemata sind verkappte relationale Modelle
38 /58
März 2011
© F. Laux
Die o.g. Schemata basieren auf dem relationalen Modell. Sie unterscheiden sich nur in der
Anordnung der Relationen.
Das einfachste ist das Star-Schema: Es besteht aus einer zentralen Faktentabelle, in der alle
Fakten gehalten werden und einer Anzahl von Dimensionstabellen. Diese bilden die
Basistabellen für die Fremdschlüssel der Faktentabelle. Die Dimensionstabellen enthalten
Attribute, welche die Dimensionen strukturieren. Allerdings sind die Dimensionstabellen aus
Performancegründen nicht normalisiert.
Häufig stehen nicht alle Fakten in den gleichen Dimensionen und Aggregationsstufen zur
Verfügung. Daher müssen im Star-Schema viele NULL-Marken (unbekannte Werte) eingefügt
werden, welche bei Abfragen stören. Eine nahe liegende Trennung in Faktentabellen mit gleicher
Dimensionierung behebt das Problem und führt zum Galaxy-Schema. Eine Variante hiervon ist
das Fact Constellation Schema, welches diese Technik der Faktentrennung auch auf die
Aggregat-Fakten anwendet.
Das Snowflake-Schema verbindet die Trennung der Fakten bezüglich ihrer Dimension und
Aggregationsstufe mit der Normalisierung der Dimensionstabellen. Im Grunde genommen
nähert man sich damit in der Struktur einem normalisierten („schulmäßigen“) relationalen
Schema. Der wesentliche Nachteil dieses Schemas ist die im Vergleich zum Star-Schema hohe
Komplexität, welche Abfragen schwer formulierbar und fehlerträchtig werden lässt. Ein weiterer
Nachteil ist die große Anzahl von Verbundoperationen (JOIN) bei einer Abfrage, die zu lasten
der Geschwindigkeit gehen.
ÜA8: Welche Probleme können NULL-Marken (NULL-Values) verursachen?
38
5.1a Starschema
Fritz Laux
Reutlingen
University
39 /58
März 2011
© F. Laux
Das Beispiel zeigt ein klassisches Star-Schema mit einer Faktentabelle (OrderView) und
den Schlüsselattributen (Dimensionen) OrderID, CustomerID und ProductID.
Beispiel:
Für eine Auswertung der Umsätze gruppiert nach Land und Produktkategorie innerhalb
des Bestellzeitraumes 1997 ist die folgende Verbundabfrage erforderlich:
SELECT SUM(summe), Country, CategoryID
FROM OrderView INNER JOIN
Customers ON
OrderView.CustomerId = Customers.CustomerID INNER JOIN
Products ON
OrderView.ProductId = Products.ProductID
WHERE OrderDate >= '01.01.1997' AND
OrderDate <= '31.12.1997‘
GROUP BY Country, CategoryID
ÜA9: Mit welcher Query erhalten Sie obige Auswertung bezogen auf den
Lieferzeitraum 1997?
ÜA10: Welche Unternehmen haben 1997 Bestellungen getätigt, bei denen die
Lieferadresse in einem anderen Land lag als die Firmenadresse. Gesucht sind:
CustomerID, CompanyName, OrderID, Bestellwert, Frachtkosten/Bestellung
39
5.1b Galaxie
Fritz Laux
Reutlingen
University
40 /58
März 2011
© F. Laux
Das Beispiel zeigt ein Galaxie-Schema mit drei Faktentabellen (Bestellungen,
Absatzplan, Planzahlen). Die Ident-Schlüssel (Dimensionen) der Faktentabellen sind
jeweils unterschiedlich, daher werden auch die Fakten in unterschiedlichen Tabellen
gehalten. Eine Dimensionstabelle kann für mehrere Faktentabellen benutzt werden (in
unserem Beispiel sind dies die Dimension „Produkt“ für die Fakten „Bestellungen“ und
„Absatzplan“.
Für die Ermittlung der Abweichungen der Verkaufszahlen (Istzahl) von den Planzahlen
(Sollzahl) bezüglich der Produkte innerhalb des Jahres 1997 ist folgende
Verbundabfrage erforderlich:
SELECT ProduktNr, Zeitraum.zeitraum, SUM(menge) AS Istzahl,
MAX(Anzahl) AS Sollzahl, SUM(menge) - MAX(anzahl) AS Abweichung
FROM Bestellungen, Absatzplan, Zeitraum
WHERE Bestellungen.ProduktNr = Absatzplan.Produkt AND
Absatzplan.zeitraum = Zeitraum.zeitraum AND
Zeitraum.zeitraum LIKE '1997%' AND Datum >= von AND Datum <= bis
GROUP BY ProduktNr, Zeitraum.zeitraum
ORDER BY ProduktNr, Zeitraum.zeitraum
ÜA11: Erstellen Sie eine Zeitreihe auf Monatsbasis für die Umsätze und Mengen der
umsatzstärksten Kunden.
ÜA12: Plausibilisieren Sie die Plangrößen Anzahl und Umsatz mit Hilfe der
Produktpreise. Wie erklären Sie sich Abweichungen der Vorgabewerte von den
errechneten Größen? Wie müsste das Modell verbessert werden, um Ihre Vermutung
überprüfen zu können?
40
5.1c Snowflake
Fritz Laux
Reutlingen
University
41 /58
März 2011
© F. Laux
Das Snowflake-Schema ist charakterisiert durch normalisierte Dimensionen (auf der Folie
sind dies Orders, Products) eine oder mehrere Faktentabellen (OrderView). Die MS Analysis
Services erlauben, die Struktur der Dimensionen durch (Sub-) Dimensionen zu unterstützen,
die nicht mehr orthogonal (unabhängig) sein müssen (vgl. Kubenstrukturmodell). In der Folie
spielt „City“ eine solche Subdimension.
Das folgende Schema zeigt das vorherige Galaxie-Beispiel von Folie 5.1b mit strukturellen
Erweiterungen der Dimensionen zu einem Snowflake-Schema. (vgl. auch S.40,ÜA12)
41
5.2 Kubenstrukturmodell
Fritz Laux
Reutlingen
University
ª Dimensionen entsprechen den Koordinaten
ª Strukturierte Dimensionen
ª Fakten stehen an den Kreuzungspunkten der Koordinaten
Kfz
Nutzfz
Produkt
Pkw
E240
Region
Fakt:
Umsatz =
f(Produkt, Region, Zeit)
C220
Zeit
42 /58
März 2011
© F. Laux
Das Kubenstrukturmodell definiert eine multidimensionale Funktion, deren
unabhängigen Variablen (Dimensionen) die Koordinaten bilden. Der Kubus mit seinen
3 räumlichen Koordinaten dient als Metapher für die voneinander unabhängigen
Dimensionen. Ein Fakt wird durch ein Dimensions-Tupel (im Beispiel (Produkt,
Region, Zeit) ) bestimmt. Mathematisch ist dieses Modell nicht auf 3 Dimensionen
beschränkt, sondern kann Räume beliebiger Dimension aufspannen. Allerdings entzieht
sich der Hyperkubus bei mehr als 3 Dimensionen der menschlichen Vorstellung. Die
Reduktion von Dimensionen lässt sich sehr schön durch Schnitte durch den Hyperkubus
(Slicing) veranschaulichen. Mathematisch entspricht dies der Fixierung einer Dimension
auf einen bestimmten Wert (Parameter).
Weist eine Dimension eine Struktur auf, so ist dies im Modell nicht adäquat abzubilden.
Aushilfsweise finden sich dann Aggregatwerte gemischt mit nicht aggregierten Werten
(z.B. Woche1, Woche2, Woche3, Woche4, Januar, Woche5, ..., 1.Quartal, ...). Der
semantische Unterschied zwischen Fakt und Dimension wird ebenfalls nicht deutlich
(z.B. Umsätze könnten auch als Dimension auftreten). Diese Mängel führten zur
Entwicklung des Dimensional Fact Model (vgl. 5.3).
Auf Grund häufig auftretender Datenlücken ist dieses Modell nur konzeptionell
verwendbar, für die physische Speicherung ist es wegen der geringen Speicherbelegung
(sparse data) weniger geeignet.
42
5.3 Dimensional Fact Model
Fritz Laux
Reutlingen
University
ª Semantische Unterscheidung zw. Fakt und Dimension
ª Multidimensionales Modell
ª Strukturierte Dimensionen
ª Attribute
ª Berechnete Werte
Fakt
Berechn.Wert
Dimension
Jahr
Dim.Attribut
Faktattrib.
Verkäufe
Durchschnitt
Menge
Bestand
Erlöse
Monat
Woche
Gewicht
Typ
Produkt Prod.gruppe
43 /58
März 2011
© F. Laux
Das Dimensional Fact Model ist ein Ansatz zur graphischen konzeptionellen
Modellierung von OLAP-Strukturen. Im Gegensatz zum Kubenstrukturmodell
unterscheidet es semantisch zwischen Fakten und Dimensionen. Dimensionen können
strukturiert sein und Attribute besitzen. Es können auch parallele Hierarchien dargestellt
werden. Der Dimensionsbezug für berechnete Werte kann explizit dargestellt werden.
Manche Fakten lassen sich nicht sinnvoll entlang aller Dimensionen addieren. Daher
wird zwischen additiven, semi-additiven und nicht additiven Fakten unterschieden (vgl.
Kap. 2.1a)
Auch bei berechneten Werten kann es durchaus sinnvoll sein, diese im Data Warehouse
abzuspeichern. Beispiel: Die Funktion, welche aus der Menge der Komponentenwerte
einen Aggregatwert produziert kann durchaus nichttrivial sein (z.B. ein Prognosewert),
so dass es sinnvoll sein kann, diesen Wert nicht jedes mal neu zu berechnen, sondern
ihn abzuspeichern.
43
5.4 objektorientiertes Modell
Fritz Laux
Reutlingen
University
ª „Intelligente“ Dimensionen und Fakten:
) Sie sind mit Metawissen ausgestattet
ª Beispiel:
Ö Zeit-Dimension ist aggregierbar
Ö Kosten sind mit Gewinnen vergleichbar,
aber nicht mit der Anzahl Aufträge
ª Vernetzte Struktur gestattet sinnvolle Navigation
Hierarchie
level
child
Produkt
44 /58
#Auftr.
preis
Zeitraum
start
ende
Monat
tage
März 2011
© F. Laux
Das objektorientierte Modell bietet intelligente Objekte für jede Dimension, so dass ihre
Struktur, Aggregatbildung, Gruppierungen etc klar definiert sind. Auch die Fakten
haben über ihre Klassendefinition genau festgelegte Eigenschaften und
Manipulationsmöglichkeiten. Z.B. kann der Preis eines Produkts und die Stückzahl zwar
nicht addiert (123,45 € + 12345 Stück = nicht erlaubt) aber multipliziert werden (123,45
€ * 12345 Stück = Umsatz in €). Das Metawissen der Klassen sichert immer eine
semantisch korrekte Manipulation der Fakten auch bei verschiedener Skalierung (z.B.
100 T€ + 400 €) und eine sinnvolle Navigation in den Dimensionen. Beispielsweise
können Kosten und Gewinn miteinander verglichen werden, auch wenn unterschiedliche
Währungen und Einheiten verwendet werden. Die Klasse Währung wird eine korrekte
Bearbeitung sicherstellen (z.B. 100 € + 100 SF + 100 $). Auch bei den Dimensionen
werden nur sinnvolle Strukturen erlaubt. Z.B. macht Intervallbildung bei Zeiträumen
Sinn aber nicht bei Produkten.
Das Metawissen kann Interaktions- und Präsentationskomponenten zur Verfügung
gestellt werden, damit wird eine bessere Benutzerunterstützung möglich.
ÜA13: Definieren Sie eine Zeithierarchie bestehend aus den Klassen „Zeitraum, Jahr,
Monat, Woche, Tag“ und verwenden Sie dazu die Klasse „Datum (Date)“.
Implementieren Sie dazu die Methoden: start(zr):Date, ende(zr):Date, tage(zr):int,
ueberlappen(zr1, zr2), umfasst(zr1, zr2); wobei zr, zr1, zr2 Parameter vom Typ
Zeitraum sind.
44
6 Data Mining
Fritz Laux
Reutlingen
University
ª Ist der Prozess der automatischen (oder interaktiven)
Gewinnung von bisher unbekanntem Wissen ohne
vorherige Hypothese oder Modellannahme
ª Typologie
) Explorative Verfahren
) Induktive Verfahren
) Prognostische Verfahren
ª Verwendet Methoden der
Statistik (induktive)
KI (Assoziationsregeln)
Klassifikation
Clusterings
Maschinellen Lernens (Neuronale Netze, genetische A.)
45 /58
März 2011
© F. Laux
Die Verfahren des Data Mining1) - umfassender und besser bezeichnet als „Wissensentdeckung in
Datenbanken“ (Knowledge Discovery in Databases (KDD)) - zielen darauf ab, nicht offensichtliche
(verborgene) Zusammenhänge oder Abweichungen in großen Datenbeständen zu entdecken. Bei
„seltenen Ereignissen“ ist allerdings Vorsicht geboten. Wenn wir z.B. die 3500 Studenten der FH
Reutlingen die Augenzahl eines Würfels drei mal vorhersagen lassen und dabei feststellen, dass drei
Studenten alle 3 Versuche richtig vorhersagen konnten, dürfen wir bei diesen Studenten nicht auf
übersinnliche Wahrnehmung schließen, denn bei zufälligem Raten würden wir dasselbe statistische
Ergebnis erwarten.2)
Data Mining im engeren Sinne kommt ohne Hypothese (Vermutung) aus. Im Gegensatz hierzu wird in
der Statistik eine stochastische Verteilung angenommen und diese dann mit einer bestimmten
Wahrscheinlichkeit bestätigt (verifiziert) oder verworfen (falsifiziert). Algorithmen, welche die
vorhandenen Daten untersuchen (analysieren) und dabei etwas entdecken werden als explorative
Verfahren bezeichnet. Induktive Verfahren ziehen aus Schlüsse (z.B. Regeln) aus den Daten und
prognostische Verfahren machen Aussagen über die Zukunft. Entscheidend für den Erfolg eines Data
Mining Verfahrens ist die Wahl der richtigen Methode. Dies kann eine Methode der Statistik (Regression,
Prognosen), der KI (Entscheidungsbaum, Deduktion), der künstlichen Neuronalen Netze, der
Musteranalyse (Clusterbildung) oder ein genetischer Algorithmus sein. Je nach Typ laufen die Verfahren
automatisch oder interaktiv ab, oder sie müssen erst „trainiert“ werden.
1)
Der Begriff „Data Mining“ ist eigentlich irreführend: Wir suchen nicht nach Daten, sondern in Daten nach
besonders seltenen (wertvollen) Informationen. Man sagt ja auch „nach Gold schürfen“ bzw. suchen und nicht „nach
Sand oder Steinen suchen“
2)
J. D. Ullman, Data Mining, www.cs.stanford.edu/ Der Begriff „Data Mining“ stammt ursprünglich aus der Statistik
und bezeichnet wie auch „Data Fishing", "Data Dredging“ oder „Data Snooping“ eine Überinterpretation oder
unzulässige Schlussfolgerungen.
45
6a Vorgehen beim Data Mining
Fritz Laux
Reutlingen
University
ª Data Mining Aufgabe festlegen
) Auswahl eines Verfahrens
) Genauigkeit der Aussagen durch Zielfunktion wählen
ª Modellparameter mit Trainingsmenge ermitteln oder
schätzen
) Regelmenge erstellen bzw.
) Parameter für Algorithmus berechnen
ª Evaluation des Modells mit einer Testmenge
) Überprüfung durch Testmenge ≠ Trainingsmenge
) Genauigkeit und Glaubwürdigkeit ermitteln
) Überanpassung vermeiden
ª Anwendung auf den zu untersuchenden Datenbestand
46 /58
März 2011
© F. Laux
) Analyse
) Vorhersage (Prognose)
Gemäß des in Kap 3 vorgestellten Prozesses für „Analytische Informationssysteme
(AIS)“ gehört das Data Mining zur Auswerte- bzw. Analysephase. Wenn wir davon
ausgehen, dass die Daten bereits in auswertbarer Form bereitstehen, sind beim Data
Mining vier Schritte durchzuführen:
Zunächst muss man sich über den Datenbestand und die beabsichtigte Analyse soweit
klar sein, dass ein adäquates Verfahren bzw. Modell ausgewählt werden kann. Wir
unterscheiden 3 Arten: explorative Analysen, die im Nachhinein (ex post) durchgeführt
werden, induktive (schließende) und prognostische (vorhersagende) Verfahren.
Beispielsweise erfordert eine Gruppierung (Clustering) der Kunden bezüglich ihres
Kaufverhalten andere Algorithmen als die Vorhersage von Risiken bei einer
Kreditvergabe. Im ersten Fall handelt es sich um eine reine explorative Datenanalyse
während im zweiten Fall eine Vorhersage zu machen ist. In beiden Fällen ist
festzulegen, ob und wann die gewünschte Genauigkeit bzw. Konfidenz des Ergebnisses
erreicht ist. Dies ist die Aufgabe der Zielfunktion.
Wenn das Modell und die dazugehörige Zielfunktion festliegen, können die Parameter
des Modells gewählt oder bei lernenden Verfahren durch exemplarische Daten
(Trainingsmenge) ermittelt werden.
Als nächstes wird das Modell und seine Parameter durch eine bekannte Testmenge auf
seine Genauigkeit und Glaubwürdigkeit überprüft. Die Testmenge darf natürlich nicht
mit der Trainingsmenge identisch sein. Bei Vorhersagemodellen (prognostische
Analyse) ist eine Überanpassung zu vermeiden, da sonst neue Daten nicht beurteilt
werden können.
Danach kann das Verfahren auf den gesamten Datenbestand angewandt werden.
46
6.1 Entscheidungsbaum Klassifikation
Fritz Laux
Reutlingen
University
ªZiel: Zuordnung von Objekten in vordefinierte Klassen auf Grund
ihrer Attributwerte
ªVorgehen:
1. Aufbau des Entscheidungsbaums (Klassifikationsmodells)
mit Hilfe von Trainingsdaten
2. Generierung von
Klassifikationswissen
(z.B. Genauigkeit)
mit Testdaten
3. Klassifikation
unbekannter
Objekte
Autotyp
= LKW
≠ LKW
Risiko = niedrig
> 60
Risiko = niedrig
Alter
≤ 60
Risiko = hoch
47 /58
März 2011
© F. Laux
Bei der Klassifikation handelt es sich um eine von außen vorbestimmte (exogene) Einteilung der
Objekte. Dies kann durch die Auswertung einer oder mehrerer Eigenschaften geschehen, wie im
oben stehenden Beispiel einer Autoklassifikation. Die Einteilung muss nicht binär erfolgen
(Autotyp = LKW oder Autotyp ≠ LKW). Wenn eine Eigenschaft als Kriterium für viele Klassen
dient (z.B. Einkommen ∈ {< 10k, 10k..20k, 20k..30k, 30k..50k, > 50k}, erhält man lediglich eine
flachere Hierarchie der Einteilung.
Bei der Klassifikation eines Objektes werden von der Spitze (Wurzel) her die Kriterien jedes
Knotens überprüft und dementsprechend weiter verzweigt. Wenn man bei einem Blattknoten
angekommen ist, hat man die Klasse für das Objekt gefunden. Fehlende Werte stellen ein
offensichtliches Problem dar, denn es ist nicht klar, welche Verzweigung zu wählen ist. Mögliche
Lösungen sind die Berücksichtigung von Fehlwerten durch einen Pfad „unbekannt“ oder es wird
ein Standardwert angenommen.
Das Klassifikationsmodell kann in Form von Implikationsregeln (Wenn Alter > 60, dann Risiko
niedrig) formuliert werden. Sie ist für kategoriale und numerische Kriterien geeignet.
Entscheidend für eine Klassifikation ist die Aufteilungsstrategie (Splitstrategie). Es muss sowohl
der Typ des Splits definiert als auch eine möglichst gute Qualität damit erreicht werden. Gesucht
sind Splits, die eine möglichst klare Klasseneinteilung (Partition) der Daten erzeugt. Eine gute
Klasseneinteilung maximiert den Informationsgewinn (Entropie) in einer Menge. Dies bedeutet,
dass man Eigenschaften suchen muss, deren Werte möglichst gleichmäßig im Datenbestand
vorkommen aber auch im Hinblick auf die Zielsetzung relevant sind.
Beispiel: Wenn wir für eine Risikoeinstufung bei einer Kfz-Versicherung das Alter als Kriterium
hinzufügen wollen, dann wäre eine Einteilung in Altersklassen < 28, 28..38, 38 … 48, 48..58, >58
Jahre durchaus etwa gleich verteilt, allerdings wäre dies Einteilung vermutlich wenig hilfreich bei
einer Risikoeinstufung, da zu vermuten ist, dass das Risiko im Bereich 28..58 Jahre wenig variiert.
Daher wäre eine Einteilung <28,28..58, >58 Jahre günstiger.
47
6.2 Regressionsbaum
ªZiel: Vorhersage einer numerischen Größe auf Grund von
Fritz Laux
Reutlingen
University
Attributwerten und einer Regressionsgeraden
ªVorgehen:
Autotyp
1. Aufbau eines
Entscheidungsbaums
mit Hilfe von Trainingsdaten
= LKW
≠ LKW
Preis = 20k€ + 2k€*zGGew
2. Ersetzen von
Zweigen durch
einfache Regressionsformeln
3. Generierung von
Vorhersagewerten und
Justieren der
Regressionsparameter
März 2011
© F. Laux
< III
Preis = 10k€ +
3k€*VKl
> VI
Preis = 3ok€ +
6k€*VKl
[IV..VI]
4. Tests,
Vorhersage wie bei
6.1 Entscheidungsbaum
48 /58
Versicherungsklasse
Preis = 20k€ + 4k€*VKl + 10€*HP
Ein weiteres Problem stellt die Größe eines Klassifikationsbaumes und die damit
verbundene geringe Differenzierung der Klassen dar. Häufig repräsentieren sogar zwei
oder mehr Blattknoten die gleiche Klasse bezüglich der Aufgabenstellung. Wenn in einem
Teil des Baumes (Zweig) keine relevanten Unterschiede mehr auftreten, kann dieser zu
einer Klasse zusammengefasst werden. Diesen Vorgang bezeichnet man als „abschneiden“
(pruning) eines Zweiges.
Wenn die Vorhersagewerte numerisch sind, kann anstatt eines konstanten Wertes pro
Klasse eine Verkürzung des Baumes dadurch erzielt werden indem man einzelne Zweige
durch eine (lineare) Funktion ersetzt, welche die Werte der abgeschnittenen Klassen
approximiert.
Beispiel:
Versicherungsklasse
> VI
< III
Herst.
Herst.
VW
kW
BMW
kW
< 60
Preis
20k€
Herst.
kW
> 120
Preis
25k€
Der Preis ermittelt sich in Abhängigkeit der
Versicherungsklasse, des Herstellers und der
Leistung (kW).
Die Teilbäume ab dem Knoten „Hersteller“
können durch geeignete lineare Funktionen zur
Berechnung des Preises ersetzt werden. Diese
Prognosefunktionen (in der Statistik
Regression genannt) ersetzen somit eine Anzahl
fester Preise durch eine lineare Funktion (siehe
Folie).
Preis
30k€
48
6.3 Bayes Klassifikation 1/2
Fritz Laux
Reutlingen
University
Hypothesen hi
(Trainingsdaten)
Objekt o
w(h1|o) = 0,6
Klasse c1
w(h2|o) = 0,3
Klasse c2
w(h3|o) = 0,1
ª Seien hi∈H Hypothesen (Trainingsdaten) und cj ∈C
mögliche Klassifikationen. Die Zuordnung eines Objektes
o zu der Klasse mit der größten Wahrscheinlichkeit heißt
„optimaler Bayes-Klassifikator“ :
argmax ∑w(c j | hi ) × w(hi | o)
c j ∈C
hi ∈H
49 /58
März 2011
© F. Laux
Diese Klassifikation beruht auf der Erkenntnis, dass eine Einteilung von Objekten auf
Grund ihrer Trainingsdaten (Hypothesen) nur mit einer gewissen Wahrscheinlichkeit
zutrifft. Dazu wird die „bedingte Wahrscheinlichkeit“ verwendet, wie sie vom
englischen Mathematiker Thomas Bayes (1702-1761) eingeführt wurde. In unserem
obigen Beispiel sind 3 Hypothesen gegeben: h1 weist jedem Objekt die Klasse c1 zu
während h2 und h3 die Klasse c2 zuordnen. Die Wahrscheinlichkeit, dass hi für das
Objekt o zutrifft, bezeichnen wir als „bedingte“ Wahrscheinlichkeit w(hi|o) oder als
seine a-posteriori Wahrscheinlichkeit. Entsprechend ist w(cj|hi) die Wahrscheinlichkeit
für die Zuordnung in Klasse cj unter der Bedingung, dass Hypothese hi gilt. In unserem
einfachen Beispiel ist w(c1|h1) = 1, w(c2|h1) = 0, w(c1|h2) = w(c1|h3) = 0 und w(c2|h2) =
w(c2|h3) = 1. Daraus errechnet sich der optimale Bayes-Klassifikator für die Klasse
c1: w(c1|h1)*w(h1|o) + w(c1|h2)*w(h2|o) + w(c1|h3)*w(h3|o) = 1*0.6 + 0*0.3 + 0*0.1 = 0.6
c2: w(c2|h1)*w(h1|o) + w(c2|h2)*w(h2|o) + w(c2|h3)*w(h3|o) = 0*0.6 + 1*0.3 + 1*0.1 = 0.4
Der „optimalen Bayes-Klassifikator“ wählt die Hypothese h aus, welche einem Objekt o
die wahrscheinlichste Klasse zuordnet. Dabei ist die Wahl in dem Sinne „optimal“, dass
kein anders Verfahren bei gleichem a-priori Wissen ein Besseres Ergebnis liefert.
Die Wahrscheinlichkeit, dass die Hypothese hi zutrifft (ohne weitere Kenntnis der
Objekte), bezeichnen wir als a-priori Wahrscheinlichkeit w(hi).
49
6.3 Bayes Klassifikation 2/2
Fritz Laux
Reutlingen
University
ª Seien h und E zwei Ereignisse eines Ergebnisraums Ω
ª Bedingte Wahrscheinlichkeit:
w(h|E) = w(h∩E)/w(E)
ª Wenn h und E unabhängig sind, gilt für die bedingte
Wahrscheinlichkeit:
w(h|E) = w(E|h)*w(h)/w(E) (Satz von Bayes)
ª Annahme:
genau eine Hypothese sei gültig und die Wahrscheinlichkeiten
seien unabhängig, dann gilt für ein Objekt o =(o1, o2, …, od) der
„naive Bayes-Klassifikator“ :
d
argmaxw(cj ) ×∏w(oi | c j )
50 /58
c j ∈C
i=1
März 2011
© F. Laux
Einen wichtigen Spezialfall der „optimalen“ Bayes Klassifikation erhalten wir, wenn
nur eine Hypothese hi gültig ist. In diesem Fall können wir o.B.d.A. annehmen, dass
w(cj|h1) = w(cj) und w(cj|hi) = 0 ist für alle i>1. Dadurch entfällt die Summe im
Klassifikator und die Formel vereinfacht sich zu argmaxcj ∈ C w(cj|o) (C = Menge der
möglichen Klassifikationen).
Wenn wir jetzt die Unabhängigkeit der Wahrscheinlichkeiten w(cj) und w(o) annehmen,
dann erhalten wir durch die Formel von Bayes den Ausdruck:
argmax cj ∈ C w(o|cj)*w(cj).
Besitzen die Objekte d unabhängige Attribute oi, so gilt w(o|cj) = Πi=1..d w(oi|cj) und wir
erhalten die oben stehende Formel als „naive“ Bayes Klassifikation. Wobei hier das
Attribut „naiv“ dadurch berechtigt ist, weil die Annahme unabhängiger
Wahrscheinlichkeiten nur selten zutrifft. Trotzdem lassen sich damit häufig gute
Ergebnisse erzielen.
50
niveul4
äz2/U
M
.L
F
©
k
e
G
1
fu
a
3
c
a5
tT
ro
B
6
K
R 8L
n,saktiom
ux012yge ilengT
fIm
la
rM
B
n
e
h
c
u
K
6.4K soziatA nsregl
s
h
c
,u
fe
a
n
6.4 Assoziationsregeln
Fritz Laux
Reutlingen
University
Transaktionsmenge T
t
Gekaufte Items
1
Brot, Kaffee, Milch,
Kuchen
2
Kaffee, Milch, Kuchen
3
Brot, Butter, Kaffee,
Milch
4
Milch, Kuchen
5
Brot, Kuchen
6
Brot
51 /58
März 2012
© F. Laux
Wir verallgemeinern das Beispiel auf der Folie zu folgenden formalen Definitionen:
Sei I := {i1, i2, .. im} eine Menge von Elementen (Items). Eine
Teilmenge X von I (X ⊆ Ι) heißt Itemset.
Seien X, Y zwei disjunkte Teilmengen von I (X, Y ⊆ Ι, X ∩ Y = ∅).
Eine Assoziationsregel ist eine Implikation der Form:
X ⇒Y.
Für eine Teilmenge X von I (X ⊆ Ι) ist der Support von X in T definiert als
|{t∈T| X ⊆ t}| / |T|. Dies bedeutet: der Support ist die relative Häufigkeit der Itemsets,
die X enthalten.
Der Support einer Assoziationsregel X ⇒Y ist der Support von X∪Y. Der Support einer
Assoziationsregel gibt also an, wie hoch der Anteil der Itemsets ist, welche die Regel
befolgen.
Die Konfidenz einer Assoziationsregel (Genauigkeit, Accuracy) X ⇒Y ist der Anteil
der Transaktionen t, die Y enthalten bezogen auf alle Transaktionen, die X enthalten.
Mit anderen Worten es ist die bedingte Wahrscheinlichkeit w(Y|X), dass Y⊆ t unter der
Bedingung, dass X ⊆ t gilt.
Die Abdeckung (engl. Coverage) einer Regel X ⇒Y ist der Anteil der Transaktionen t,
die X ∪ Y enthalten bezogen auf alle Transaktionen, die Y enthalten. Es gibt also an,
welchen Anteil von Y die Regel erfasst.
Regel: XÆ Y erfüllt
X
Y
Y erfüllt
51
6.5 Clustering Grundlagen
Fritz Laux
Reutlingen
University
ª Clustering (Gruppierung) :=
Einteilung einer Menge von Objekten in Gruppen so, dass
) Objekte im gleichen Cluster möglichst „ähnlich“ sind
) Objekte aus verschiedenen Clustern möglichst „unähnlich“ sind
ª Typisierung
) Partitionierendes Clustering (ein Objekt o1 gehört zu genau einem
Cluster)
) Hierarchisches Clustering (geschachtelte Cluster)
ª Distanzfunktion d:
) d(o1, o2) ≥ 0; d(o1, o2) = 0 ⇔ o1 = o2; d(o1, o2) = d(o2, o1)
ª Ähnlichkeit von o1 und o2 wird über die Distanz definiert
) Je kleiner die Distanz, desto ähnlicher die Objekte
ª Zielfunktion
52 /58
März 2011
© F. Laux
) Kompaktheit der Cluster maximieren
) Kompaktheit eines Clusters C :=
|C| / Sumoi∈C (d(oi,c), wobei c = Zentroid (Mittelwert) von C
Unter Clustering versteht man die Einteilung einer Menge von Objekten in Gruppen in
Abhängigkeit ihrer Ähnlichkeit zueinander (endogenes Kriterium). Die Zuordnung zu
einem Cluster unterliegt keinem festen Kriterium für das Objekt, sondern hängt von den
Beziehungen zu den restlichen Objekten der Menge ab. Daher kann es passieren, dass
ein Objekt seine Zugehörigkeit zu einem Cluster wechselt, wenn neue Objekte in die
Menge aufgenommen werden. Dies ist ein Kriterium zur Unterscheidung der
Gruppierung von der Klassenbildung.
Zur Definition der Ähnlichkeit benötigen wir ein quantifizierbares Kriterium. Eine
„Distanzfunktion“ kann als Maß für Ähnlichkeit dienen. Auf Grund der Definition
haben gleiche Objekte die Distanz 0, sie sind also einander maximal ähnlich. Wenn die
Distanz sogar eine Metrik ist, gilt die Dreiecksungleichung:
d(a,b) <= d(a,c) + d(c,b).
Damit lässt sich die Ähnlichkeit von Objekten durch bekannte Objekte abschätzen.
Beim Clustering werden Gruppen möglichst ähnlicher Objekte gebildet. Die
Abgrenzung zu anderen Gruppen wird über ein Kompaktheitskriterium vorgenommen,
das möglichst unabhängig von der Kardinalität des Clusters sein sollte.
52
f1
6.6 K-Mean basiertes Clustering (1/2)
Fritz Laux
Reutlingen
University
ª
Algorithmus:
1. Wähle k Clusterzentren
(Zentroide)
2. Ordne jedes Objekt
seinem nächsten
Zentrum zu
Beispiel
1
3. Neuberechnung der
Zentroide
5
a
k=2
6
3
2
b
7
4
Initiale Zentroide c und d
53 /58
März 2011
© F. Laux
Dieses sehr einfache Verfahren arbeitet in vielen Situationen erstaunlich gut.
Es werden willkürlich k Clusterzentren (z.B. k Objekte) ausgewählt. Die Anzahl k der
Zentroide wird durch den Benutzer vorgegeben. Alle Objekte werden seinem jeweils
nächsten Zentroid zugeordnet. Im Beispiel ist k = 2 und als Clusterzentren wurden
anfänglich die Objekte c und d gewählt. Objekte 3 und 5 sind Objekt c am nächsten,
bilden also das 1. Cluster. Objekte 6, 4 und 7 sind dem Zentroid d benachbart. Die
Clusterzentren werden neu berechnet. Im Beispiel ergeben sich a und b als Zentroide.
Dieses Verfahren wird solange wiederholt, bis sich die Zentren nicht mehr ändern (siehe
nächste Seite).
Der Erfolg des Verfahrens hängt von der Anzahl der vorgegebenen Cluster und den
initialen Clusterzentren ab. Ist die Wahl der Startcluster ungünstig, so können keine
sinnvollen Cluster gefunden werden. Wenn die Anzahl k der Cluster nicht passend ist,
kann offenbar kein „gutes“ Ergebnis erwartet werden, da die Clusteranzahl vom
Verfahren nicht optimiert wird, sondern nur das Clusterzentrum.
Beispiel: Wenn die 4 Objekte durch die initialen
Zentroide a und b nach der k-means Methode
gruppiert werden sollen, kann der Algorithmus kein
gutes Clustering finden, weil die Ausgangssituation
ungünstig ist.
1
a
2
3
b
4
ÜA: Welche Cluster werden gebildet?
Wenn bei dem selben Beispiel 3 Cluster vorgegeben werden, kann natürlich nicht die
bessere Lösung mit 2 Clustern herauskommen.
53
Folie 53
f1
Animation für K-Mean
Hans Muster; 09.11.2006
f2
6.6 K-Mean basiertes Clustering (2/2)
Fritz Laux
Reutlingen
University
ª
Algorithmus:
1. Wähle k Clusterzentren
(Zentroide)
2. Ordne jedes Objekt
seinem nächsten
Zentrum zu
Beispiel
1
3. Neuberechnung der
Zentroide
ª
Wiederhole Schritt 2-3
solange, bis sich
Zentroide nicht mehr
ändern.
5
a
a*
3
k=2
6
2
b
b*
7
4
Initiale Zentroide c und d
54 /58
März 2011
© F. Laux
In der Fortführung des Beispiels wird Objekt 6 von Cluster b nach Cluster a verschoben,
da es diesem näher liegt. Die Neuberechnung der Zentroide ergibt neue Clusterzentren
a* und b*. Wir haben jetzt Cluster a* mit den Objekte 1, 3, 5 und 6. Cluster b* wird
gebildet durch Objekte 2, 4 und 7.
Bei der nächsten Wiederholung der Zuordnung der Objekte zu ihrem nächsten
Clusterzentrum ergibt sich keine neue Situation, so dass die Clusterzentren sich sich
nicht mehr ändern und der Algorithmus terminiert.
Problematisch sind nicht kugelförmige Cluster oder Cluster mit stark variierender Größe
oder Dichte. Diese Probleme können mit Dichte-basierenden Algorithmen (siehe
folgende Seite) vermieden werden.
54
Folie 54
f2
Animation für K-Mean
Hans Muster; 09.11.2006
äz/U
M
.L
F
u©
stdchabc
g
onf
friv
e
D
lg
A
1e63542ª
R 8L
K
P
ene
lin
x01yw
4kfüd
-s=
avc
K
S
E
sD
o
Ö
tm
ä
W
rB
a
jR
b
O
)
ch
d
g
u
z ee
ln
tjrd
o
,6.7 n
0
>
|{xm
ä
E
v1
fg
b
M
s.C
u
kp
(„-ich
(e
i+
,R
o
P
chtebasD
M
}ß
l.-kx)<
z1
jm
tO
rK
b
d
sch
u
a
i d
“g
m
e
n
t|)rksio
luw
iertsC
0
M
≥
P
x,a
zK
j-ch
b
> a
inm
e
n
griw
.sO
jh
b
tko
fü
crg
d
lu
C
ste s
lte
rh
6.7 Dichte basiertes Clustering
Fritz Laux
Reutlingen
University
ª Definitionen
) Kernobjekt
Ö Sei e > 0 und MinPts >0
Ö Ein Objekt o heißt Kernobjekt, wenn der
Kernbereich mindestens MinPts Objekte
enthält |{x | d(o,x) < e}| ≥ MinPts
) Dichte-Erreichbarkeit
Ö on ist von o1 dichte-erreichbar, wenn eine
Objektfolge o1, .., on existiert, mit oi ist
Kernobjekt und oi+1 liegt im Kernbereich.
ª Algorithmus
55 /58
März 2011
© F. Laux
) Wähle e und MinPts
) Bilde Cluster indem zu jedem Kernobjekt alle
dichte-erreichbaren Objekte hinzugefügt
werden.
) Randpunkte sind dichte-erreichbar
) Objekte die keine Kernobjekte sind und nicht
dichte-erreichbar sind, werden keinem Cluster
zugeordnet („Rauschen“)
e
3
1
6
2
e
4
5
c und d sind
Kernobjekte für
MinPts = 4
f ist dichteerreichbar von c,
aber c ist nicht
dichte-erreichbar
von f
g ist nicht dichteerreichbar von c
Das Dichte basierte Clustering nutzt die Distanzfunktion, um alle Objekte in der Nähe
rekursiv zu einer Gruppe zusammen zu fassen. Damit ist garantiert, dass alle Objekte,
die Dichte-erreichbar sind, sich in einer Gruppe befinden. Objekte bei denen sich kein
weiteres Objekt in ihrer Umgebung befindet, werden zum „Rauschen“ gezählt und
gehören zu keinem Cluster. Ein Kernobjekt ist charakterisiert durch die Anzahl (MinPts)
Objekte, welche sich mindestens in der Umgebung mit einen Maximalabstand e
befinden müssen. Das bedeutet, dass sich in einer Umgebung mit Radius e mindestens
MinPts Objekte befinden. Auf diese Weise wird eine Mindestdichte festgelegt.
Randpunkte erfüllen nicht die Kernobjekteigenschaft, aber sie sind von einem
Kernobjekt aus erreichbar und bilden somit den „Rand“ eines Clusters.
Dieses Verfahren ist gut geeignet für unregelmäßig geformte Cluster die alle eine
ähnliche Dichte besitzen. Sie sind ungeeignet für hierarchische Cluster und Cluster mit
stark unterschiedlicher Dichte. Bei hierarchischen Mengen von Objekten hilft das
hierarchische Clustering weiter.
55
nveutR 1)8L
ärz/U
M
.L
F
(4,59876©
=
d
c
in
0123dS
lg
A
ª
ne
aux0syeo
k
-l(n
D
u
m
h
.B
r2
ig
ä
W
ts)
e
f ld
n
iC
e
ta
)z6.8g
,2
c1
D
g
sro
u
m
h
hn
e
lta
iw
m
x=
erachis:H
∈
D
sd
zC
r1
ch
S
g
u
B
i
j lb
lutck n
(xrhesC
C
,y∈
1
ch
zw
u
sa
2
d
in
tT
e
lnD
)e
griy e
a
O
d
b
zig
(C
m
u
ä
stjn
lb m
k/C
K
)u
m
a
g
ro
d
ste
a td
rzl)p
u
(W
n
d
rn
e
i
6.8 Hierarchisches Clustering
Fritz Laux
Reutlingen
University
ª Single-Link Distanz zweier Cluster
) D-sl(C1, C2) := minx∈C1,y∈C2 d(x,y)
ª Algorithmus
) 1. Berechne die Distanz zwischen allen Objekt/Clusterpaaren
) 2. Bilde einen Cluster aus den beiden Objekten/Clustern mit der
geringster Distanz
) Wiederhole Schritt 1 und 2 bis ein einziger Knoten (Wurzel)
entstanden ist
) Wähle manuell geeignete Teilbäume (Cluster) aus dem
entstandenen Baum
Dendrogramm
d
3
2
8 9
7
56 /58
März 2011
© F. Laux
3
2
d(7,3)
1
6
5
d(4,5)
=1
4
1
0
c d e f g h i j k
Das hierarchische Clustering basiert auf dem Vergleich der Distanz aller Objekte
miteinander und einzelner Objekte mit (möglichen) Gruppen. Die endgültige Wahl der
Cluster erfolgt manuell mit Hilfe eines Dendrogramms.
Ein Dendrogramm zeigt die Abstände der Objekte und ihrer Zusammenfassungen in
Form einer binären Hierarchie, wobei die Knoten Cluster und die Blätter Objekten
entsprechen. Die Höhe (der Level) eines Knotens entspricht der Distanz seiner
Kindelemente. Bei der Erstellung dieser Hierarchie beginnt man bei den Blättern
(Objekten) und fasst jeweils die Objekte mit den kleinsten Distanzen zusammen. Diese
bilden dann den zugehörigen übergeordneten Knoten. Dieses Verfahren wird solange
fortgesetzt, bis nur ein Cluster (der Wurzelknoten) übrig bleibt.
56
6.9 Neuronale Netze
Fritz Laux
Reutlingen
University
Krebsrisiko
y1 ={ 0 wenn a< d
1 wenn a≥ d
Ausgabeschicht
y1
Zwischenschicht
N
N: a = Σi wixi
x1∈{0,1}
Eingabeschicht
männlich/ Alter Größe Gewicht Raucher
weiblich
Alkoholaufnahme
57 /58
März 2011
© F. Laux
Künstliche Neuronale Netze stellen ein Paradigma für ein
Informationsverarbeitungsmodell dar, das dem menschlichen Gehirn nachempfunden
ist.
Es besteht aus einer Menge von Verarbeitungseinheiten/Knoten (im Bild als Kugeln
dargestellt), die über Leitungen miteinander verbunden sind. Die Knoten entsprechen
Nervenzellen (Neuronen), und die Leitungen den Synapsen bzw. den Axonen über die
Signale weitergeleitet werden.
Ein Knoten erzeugt bei einer bestimmten Stärke und Anzahl von Eingangssignalen ein
Ausgangssignal. Es bildet gewissermaßen eine gewichtete Summe, die weitergeleitet
wird, wenn ihr Wert a ausreichend groß ist (a >= Schwellwert d). Die Gewichte und die
Schwellwerte lassen sich für alle Knoten durch Trainingsdaten (Eingangwerte) so
einstellen, dass der Ausgang das gewünschte (ein sinnvolles) Ergebnis liefert.
57
6.10 Genetische Algorithmen
Fritz Laux
Reutlingen
University
ª Potentielle Lösung ~
Gensequenz
ª Suchmechanismus ~
Reproduktion
Lösung 1
.ABCE..
F=3
Lösung 2
...CD...
Mutation
Erzeugt durch
.ABXE..
Ö Kombination ausgewählter Individuen
(Vererbung)
F=2
Ö Zufällige Veränderung
(Mutation)
ª Zielfunktion für Lösungen ~
Fitness einer Chromosomenstruktur
X
Eltern
Vererbung
.ABCDE.
Kind
F=4
Bessere
Lösung
) Die Fitness F bestimmt die Reproduktionsrate
ª Beurteilung
58 /58
März 2011
© F. Laux
) Algorithmus nicht sehr effizient, aber besser als zufällige
Suche
) Algorithmus kann mehrer optimale Lösung finden
Wie bei den künstlichen neuronalen Netzen sind die genetischen Algorithmen der Natur
nachgebildet. Diese Algorithmen implementieren ein allgemeines Suchverfahren,
welches auf dem Prinzip der biologischen Evolution basiert. Diese Verfahren sind
prinzipiell auf jedes Problem anwendbar, das sich geeignet modellieren lässt. Dabei
entspricht eine mögliche (durchaus nicht optimale) Lösung den Genen eines
Individuums. Jedes Gen steht für eine Eigenschaft der Lösung. Eine
Bewertungsfunktion (Fitnessfunktion) definiert, welche Lösung besser geeignet ist. Die
besseren Lösungen (Individuen) erhalten Überlebensvorteile, z.B. höhere
Fortpflanzungsrate, längere Lebensdauer etc. Dadurch setzen sich bessere Lösungen
durch und der Algorithmus ist damit besser geeignet, eine optimale Lösung zu finden,
als eine zufällige Suche nach einer Lösung.
Im Unterschied zu anderen Suchverfahren (z.B. Gradientenmethode, Matrixverfahren)
wird hier ein absolutes Maximum bezüglich der Fitnessfunktion erreicht.
58

Data Mining Analytische Informationssysteme

Transcription

Similar documents

- Lehrstuhl für Tierschutz, Verhaltenskunde, Tierhygiene

Kelkheimer Zeitung - Taunus Nachrichten

k-Anonymität von GPS-Spuren mit Hilfe von DBSCAN

Online-Appendix

Das Konzept der Weltgesellschaft - Forum Internationale Wissenschaft

Österreichische Zeitschrift für Vermessungswesen, Heft 3/1972

1 Recommender

Ausgabe Nr. 2/2016 – Schule –

Vita revised latest APA style - Michigan State University Department

Körperkapital und Partnersuche in Clubs und Diskotheken1

Techno-ökonomische Analyse zum kommunalen Einsatz von

Administratorhandbuch

Diplomarbeit: Ein neues Empfehlungssystem mit FDSM

Einführung in die Cluster-Analyse mit SAS

Migrationspfade für OWB-Projekte

Aufnahme in den AIM

Einführung: Data Warehouses - Abteilung Datenbanken Leipzig

Die SAP Datenbank (Jürgen Primsch)

Das Scatter/Gather- Verfahren - an der Universität Duisburg

Einführung: Data Warehouses - Abteilung Datenbanken Leipzig