Wissensdatenbanken - Web Science and Knowledge Management

Transcription

Wissensdatenbanken - Web Science and Knowledge Management
CIM Seminar
Wissensdatenbanken
Dr. Steffen Staab
mailto:[email protected]
Universität Karlsruhe (TH)
Institut AIFB
FG Wissensmanagement
http://www.aifb.uni-karlsruhe.de/WBS
http://www.ontoprise.de
© S. Staab, A. Maedche, 2001
Alexander Mädche
mailto:[email protected]
Forschungszentrum Informatik FZI
Wissensmanagement WIM,
Karlsruhe
http://www.fzi.de/wim
Agenda
1. Architektur einer Wissensdatenbank
– Dimensionen einer Wissensdatenbank
– Komponenten einer Wissensdatenbank
– Kernprozesse einer Wissensdatenbank
2. Aufbau und Instandhaltung einer Wissensdatenbank
–
–
–
–
–
© S. Staab, A. Maedche, 2001
Ziele einer Wissensdatenbank
Methodologie / Prozess der Einführung einer Wissensdatenbank
Wiederverwendung existierender Wissensquellen
Aufbau von Begriffsstrukturen (Terminologien, Thesauri, etc.)
Technische Grundlagen
Folie 2
Agenda
3. Anwendung von Wissensdatenbanken und Einbettung in Prozesse
–
–
–
–
Generierung von Wissen
Strukturieren von Wissen
Wiederfinden von Wissen
Nutzen von Wissen
4. Business Intelligence
–
–
–
–
Der Business Intelligence Prozeß
OLAP – Explorative Wissens- und Ideengenerierung
Wissensvisualisierung
Data Mining / Knowledge Discovery
Die vier Abschnitte werden mit verschiedenen IT Techniken
(Information Retrieval, Fallbasiertes Schließen, Begriffliche
Wissensmanagementsysteme) illustriert.
© S. Staab, A. Maedche, 2001
Folie 3
1. Architektur einer Wissensdatenbank
© S. Staab, A. Maedche, 2001
Folie 4
1. Architektur einer Wissensdatenbank
Inhalt
– Dimensionen einer Wissensdatenbank
– Komponenten einer Wissensdatenbank
– Kernprozesse einer Wissensdatenbank
© S. Staab, A. Maedche, 2001
Folie 5
Datenbank versus Wissensdatenbank
Datenbank
•
Wissensdatenbank
(typischerweise) strukturiert
•
Viele unstrukturierte und
semi-strukturierte Daten
•
Schema anfragbar, aber
separat von den Daten
•
„Schema“ ist selbst Teil der
Daten
Gemeinsamkeiten
• Typische WDBs bauen auf konventionellen DBs auf
• Viele ähnliche Probleme (Konsistenz, Duplikate, Warehousing,....)
© S. Staab, A. Maedche, 2001
Folie 6
Dimensionen des Wissensmanagement
explizites
Wissen
Bedeutung
Daten
Kontext
WDBS
Kultur
Prozesse
implizites
Wissen
© S. Staab, A. Maedche, 2001
Folie 7
WM & Wissensdatenbanken
• Wissensdatenbanksysteme (WDBS) stellen
Mechanismen zur Speicherung von
–
Daten (1. Quadrant) und
–
Kontexten (2. Quadrant)
bereit. Sowohl Daten als auch Kontexte können auf
unterschiedlichen Granularitätsniveaus auftreten
• Auf Wissensdatenbanksysteme greifen zu
© S. Staab, A. Maedche, 2001
–
Wissensintensive Geschäftsprozesse
–
Business Intelligence Applikationen
–
...
Folie 8
Dimensionen einer Wissensdatenbank
• Wissensdatenbanken verwenden ein weites
Spektrum von Technologien der Informationstechnik
• Die verwendeten Technologien und die investierte
Man-Power reflektieren die Qualität der Inhalte einer
Wissensdatenbank
• Beim Aufbau einer Wissensdatenbank ist generell ein
Trade-Off zu machen zwischen
Investierter
Man-Power
© S. Staab, A. Maedche, 2001
vs.
Qualität der
Inhalte
Folie 9
Spektrum Wissensdatenbanken
Semi-strukturierte
Datenbanken
Feine
Granularität
Relationale
Datenbanken
Wissensbasen
strukturiert
Data
Warehouse
Grobe
Granularität
Dokumentenmanagementsystem
dokumentebene
Information Retrieval
System
© S. Staab, A. Maedche, 2001
Folie 10
Schemata in Wissensdatenbanken
• Zusätzlich zur Granularität der Daten spielt das
definierte Schema (oder auch der Kontext) der
Wissensdatenbank eine wesentliche Rolle
• Unterschiedliche Typen von Schemata:
Syntax
• Document Type Definitions
Semantik
• ER-Modelle
• Thesauri
• Begriffsnetze /
Semantische Netze
• Ontologien
© S. Staab, A. Maedche, 2001
Folie 11
Dimensionen
‘‘W-DB-Technik“
Inhalt
DWh
keine
Rel. DB
© S. Staab, A. Maedche, 2001
[Ontobroker]
viel
HR TopicBroker
Dok.man.
system
IR System
Proper
‘‘Modellierung“
Dokument
Folie 12
Szenario I: HR TopicBroker
• Unterstützung für HR Management 7 wichtige Themen
• Lokation aktueller und neuer Schlagworte
und Themen
• Intranet/WWW-basierter Yellow Page
Mechanismus auf begrifflicher Ebene
• Aufbau einer intranetbasierten Wissensbasis
© S. Staab, A. Maedche, 2001
Folie 13
Szenario II: Proper
• Basisdaten:
• Profilinformation aus relationaler Datenbank
(Mitarbeiter und Bewerber) und semantische
Annotation von Projektberichten
• Ontologie mit
• Begriffe, Relationen zwischen Begriffen und
Regeln, z.B.:
“If a programmer worked for a project, in which a specific
programming language has been used, than this programmer
has at least some experience with the programming language.”
© S. Staab, A. Maedche, 2001
Folie 14
1. Architektur einer Wissensdatenbank
Inhalt
– Dimensionen einer Wissensdatenbank
– Komponenten einer Wissensdatenbank
– Kernprozesse einer Wissensdatenbank
© S. Staab, A. Maedche, 2001
Folie 15
Komponenten einer Wissensdatenbank
• Grobe Zerlegung in Analogie zu klassischen
Datenbanken:
– WDBS = WDB + WDMS
• Ein Wissensdatenbanksystem setzt sich aus der
Wissensdatenbank und dem Wissensdatenbankmanagement zusammen.
© S. Staab, A. Maedche, 2001
Folie 16
Komponenten: Grobaufbau eines Datenbanksystems
• Analogie zu Datenbanksystemen:
© S. Staab, A. Maedche, 2001
Folie 17
Komponenten: Grobaufbau eines Data
Warehouse
Klienten
DWh - Kern
Legacy Data
© S. Staab, A. Maedche, 2001
Folie 18
Komponenten: Grobaufbau eines WDB
Architektur
Klienten
Entwicklung / Anwendung
WDBMS
Anfragebearbeitung
Verwaltung
Konnektoren/
Migratoren
WDBS
Repository
1
Legacy Data
© S. Staab, A. Maedche, 2001
L1
Repository
2
WDB
L2
Folie 19
Komponenten: Grobaufbau eines WDBS
WDBMS
Verwaltung
Anfragebearbeitung
Konnektoren/
Migratoren
Repository
1
=>
WDB
Repository
2
Keine Trennung von Schema & Daten!
© S. Staab, A. Maedche, 2001
Folie 20
1. Architektur einer Wissensdatenbank
Inhalt
– Dimensionen einer Wissensdatenbank
– Komponenten einer Wissensdatenbank
– Kernprozesse einer Wissensdatenbank
© S. Staab, A. Maedche, 2001
Folie 21
Bausteine des Wissensmanagements
Wissensziele
Feedback
Wissensidentifikation
Wissensbewertung
Wissensziele: Bestimme Ziele für WM Aktivitäten
Wissensidentifikation: Übersicht über internes
und externes Wissen
Wissenserwerb: Schulungen, „Einkauf“, F&E
Wissensstrukturierung: Strukturierung und
WissensIntegration von Wissen
bewahrung
Wissensverteilung: Verteilung/Kommunikation
von Wissen im Unternehmen
Wissensnutzung: produktive (Aus-)Nutzung von
Wissen (Patente, nachfolgende Maßnahmen)
Wissensnutzung Wissensbewahrung: Speichern und Bewahren
von relevantem Wissen und Erfahrungen
WissensWissensbewertung: Controlling des
(ver)teilung
Wissensmanagementprozesses
Knowledge Management
Wissenserwerb
Wissensstrukturierung
Angelehnt an [Probst et al. 1999]
© S. Staab, A. Maedche, 2001
Folie 22
Wissensprozesse & Wissensmetaprozesse
Arbeiten mit der WDB
Knowledge
Process
Knowledge Meta
Process
Konzeption, Realisierung und Wartung der WDB
© S. Staab, A. Maedche, 2001
Folie 23
Kernprozessschritte beim Aufbau einer
Wissensdatenbank
• Modellierung
• Installation der Wissens-DB Kernkomponenten
• Integration Legacy Daten
• Initiales Starten der WissensDB
• Maintenance
=> Abschnitt 2
© S. Staab, A. Maedche, 2001
Folie 24
Kernprozessschritte beim Betreiben einer WDB
•
Wissen erzeugen
•
Erfassen
•
Organisieren
•
Finden
•
Nutzen
=> Abschnitt 3 und Abschnitt 4
© S. Staab, A. Maedche, 2001
Folie 25
2. Aufbau und Instandhaltung einer
Wissensdatenbank
© S. Staab, A. Maedche, 2001
Folie 26
Inhalte
– Ziele einer Wissensdatenbank
– Methodologie / Prozeß der Einführung einer
Wissensdatenbank
– Wiederverwendung existierender
Wissensquellen
– Aufbau von Begriffsstrukturen
(Terminologien, Thesauri, etc.)
© S. Staab, A. Maedche, 2001
Folie 27
Richtlinien für Management und Methodik
•Identifikation: Wissensbedarf,
Möglichkeiten, Engstellen,
• Kontextorientierte
Anforderungen an WDBMS
Einsatzgebiete
•Zielgeleitete Konstruktion und
Validierung von semantischen
• Zielorientierung innerhalb
Organisation
Modellen (Ontologien...)
• Wissensbereitstellung und
• Benutzerzentrierte Einführung von
WDBMS und Werkzeugen
•Wartung und CPI (Continuous
Process Improvement)
© S. Staab, A. Maedche, 2001
–abfrage statt
Informationoverload
• WDBMS bleibt erfolgreich
im Einsatz
Folie 28
Kontextmodellierung durch Machbarkeitsstudie
Quelle für WM
Machbarkeitsstudie
Prozesse
Identifikation von Problemen und
günstigen Gelegenheiten und
Lösungsmöglichkeiten innerhalb
einer übergeordneten
organisatorischen Perspektive.
Entscheidung über
wirtschaftliche, soziologische und
technische Projektdurchführbarkeit –
Auswahl der vielversprechendsten Zielgebiete und –
lösungen (Quick Win!)
© S. Staab, A. Maedche, 2001
Personen
Betroffene
Personen
Wissensrepoirtoire
Entscheidung
für Anwendung
Prozesse
Kerngebiet der
Ontologieentwicklung
Folie 29
CommonKADS – Roadmap für die Einführung
eines WDBMS
OM-1
Checklist:
TM-2
TM-1
worksheet
Auswahl von
Checklist:
Probleme,
Werkzeugen
knowledge item
[wenn Aufgaben
Lösungen,
analysis
analyse
realisierbar]
Kontext
OM-3
Checklist:
TM-2
OM-5
Fokus
für
TM-2
worksheet
ProzessChecklist:
OM-2
Checklist: Entwicklung
beschreiknowledge item
Checklist: Ver- bung InteAnalyse
von
analysis
Beurteile
Wissensgriere
Ontologie
MachBeschrei- feinern
objekte
bung
OM-4
barkeit
Organisat.
Checklist:
TM-2
(Entscheid
Fokus
worksheet
GUI
ungsdok.)
AM-1
Wissensknowledge item
Checklist:
reportoire [wenn
analysis
Modell
(assets) unmöglich]
der
Stop
Akteure
En
ts
ch
ei
du
ng
sd
ok
um
en
t
Fertige Kontextanalyse
© S. Staab, A. Maedche, 2001
Folie 30
Konzeption klassischer Informationssysteme
Entwurf
Implementierung
© S. Staab, A. Maedche, 2001
Folie 31
Konzeption von WM-Systemen
WM
Szenario
Entwurf
Implementierung
Ex. Daten
Kontext-Modellierung
Formale Repräsentation des
Kontextes
Initialisierung der Wissensdatenbank
mit Kontext & Ex. Daten
Anbindung der Wissensdatenbank
an WM Szenario
Anwendung
© S. Staab, A. Maedche, 2001
Folie 32
Ontologieentwicklung für eine WDB
Ontologie
Kickoff
•Anforderungsspezifikation
(ORS)
•Analysiere
Quellen
•Baue Lexikon /
Glossar
© S. Staab, A. Maedche, 2001
Verfeinerung
•Erhebung von
Begriffen mit
Experten
•Begriffsbildung
und formalisierung
•Konkretisiere
Relationen und
Regeln
Evaluation
•Revidiere und
erweitere
nach
Feedback
•Analysiere
Benutzung
•Analysiere
Kompetenzfragen
Wartung
•Verwalte
organisatorischen
Wartungsprozess
Folie 33
Ontologie
Kickoff
© S. Staab, A. Maedche, 2001
Folie 34
Ontologie
Kickoff
© S. Staab, A. Maedche, 2001
Folie 35
Top-Down vs. Bottom-Up
• Das Schema für die Wissensdatenbank kann topdown oder bottom-up erstellt werden:
•
•
Top-down: von der Anwendung & Experten
Bottom-up: von den existierenden Daten und
Systemen
• In realen Anwendungen hat sich eine gemischte
Strategie als erfolgreich erwiesen.
© S. Staab, A. Maedche, 2001
Folie 36
Ontologieentwicklung für eine WDB
Ontologie
Kickoff
Verfeinerung
•Anforderungs- •Erhebung von
spezifikation
Begriffen mit
(ORS)
Experten
•Analysiere
•Begriffsbildung
Quellen
und formalisierung
•Entwickle
grundlegende •Konkretisiere
Taxonomie
Relationen und
Regeln
© S. Staab, A. Maedche, 2001
Evaluation
•Revidiere und
erweitere
nach
Feedback
•Analysiere
Benutzung
•Analysiere
Kompetenzfragen
Wartung
•Verwalte
organisatorischen
Wartungsprozess
Folie 37
Formalisiere Ontologie - OntoEdit
© S. Staab, A. Maedche, 2001
Folie 38
Ontologieentwicklung für eine WDB
Ontologie
Kickoff
Verfeinerung
•Anforderungs- •Erhebung von
spezifikation
Begriffen mit
(ORS)
Experten
•Analysiere
•Begriffsbildung
Quellen
und formalisierung
•Entwickle
grundlegende •Konkretisiere
Taxonomie
Relationen und
Regeln
© S. Staab, A. Maedche, 2001
Evaluation
•Revidiere und
erweitere
nach
Feedback
•Analysiere
Benutzung
•Analysiere
Kompetenzfragen
Wartung
•Verwalte
organisatorischen
Wartungsprozess
Folie 39
Vom Wissensbaustein zur Technikauswahl
Wissensbausteine
Ziele
Informations/Daten
-management
Intelligente Techniken
für WDBM
Eingabe
Information Retrieval &
Wissensidentifikation
Pflege
Erwerb
Strukturierung
Verarbeitung
Extraktion
Visualisierung
Nutzung
Integration
Fallbasiertes Schließen
Bewahrung
Suche
Ontologiebasiertes WM
(Ver-)Teilung
Nutzung
Business Intelligence
Bewertung
Welcher Inhalt?
© S. Staab, A. Maedche, 2001
Welcher Kontext?
Folie 40
Entwickle möglichst frühzeitig Prototyp!!
Traue niemandem außer den Nutzern Deines
Systems!!
© S. Staab, A. Maedche, 2001
Folie 41
Ontologieentwicklung für eine WDB
Ontologie
Kickoff
Verfeinerung
•Anforderungs- •Erhebung von
spezifikation
Begriffen mit
(ORS)
Experten
•Analysiere
•Begriffsbildung
Quellen
und formalisierung
•Entwickle
grundlegende •Konkretisiere
Taxonomie
Relationen und
Regeln
© S. Staab, A. Maedche, 2001
Evaluation
•Revidiere und
erweitere
nach
Feedback
•Analysiere
Benutzung
•Analysiere
Kompetenzfragen
Wartung
•Verwalte
organisatorischen
Wartungsprozess
Folie 42
Beispiel: Customer Care – Siemens Automation
and Drive
http://www4.ad.siemens.de/support/index.asp (nach Lenz
1998)
Wartung der Ontologie:
• Ca. ein halber Manntag pro Monat
• Kundenvorschläge werden berücksichtigt
• Gestellte Fragen werden berücksichtigt
Z.B. Kunde fragt „Wieso klemmt der Schekel?“
System: „Bitte beschreiben Sie das Wort Schekel.“
-> Feedback an Wissensmanager
© S. Staab, A. Maedche, 2001
Folie 43
Das Bootstrapping - Problem
L1
WDBS
© S. Staab, A. Maedche, 2001
Folie 44
Füllen einer Wissensdatenbank
• Der Aufbau einer Wissensdatenbank geschieht
typischerweise nicht „from scratch“.
=> Einbeziehung von Legacy Systemen!
• Die Konzeption einer Wissensdatenbank wird durch
Anwendungsgebiete ‘‘getriggert‘‘.
• Wissensdatenbanken wachsen idealerweise durch
ihre Anwendung (siehe TopicBroker)
© S. Staab, A. Maedche, 2001
Folie 45
Initialisierung der Wissens-DB
• Im schlechtesten Fall kann auf keine existierende
Daten zurückgegriffen werden
• Typischerweise existieren relevante Daten (z.B.
Profilinformationen bei Proper Anwendung)
• Im einfachsten Fall startet die Wissensdatenbank mit
einem Dokumentenindex (vgl. Topicbroker)
• Wichtig: Eine Initialisierung der Wissens-DB
erhöht die Gesamtqualität und schafft Anreize zur
Erweiterung
© S. Staab, A. Maedche, 2001
Folie 46
Lessons Learned
1.
Vermittle dem Benutzer die Bedeutung von
Wissensstrukturierung (Ontologie, Thesaurus,...)!
2.
Zeige den Nutzen konkret an einem (eventuell rein
graphischen) Prototypen auf!
3.
Modelliere genau – aber gebe dem Benutzer auch ungenaue
Sichten in die Hand!
4.
Plane einen Instandhaltungsprozess unter Beteiligung eines
„Wissensmanagers“!
5.
Plane die „Befüllung“, die die WDB interessant macht!
6.
Suche nach dem Quick Win!
© S. Staab, A. Maedche, 2001
Folie 47
3. Anwendung von Wissensdatenbanken
und Einbettung in Prozesse
© S. Staab, A. Maedche, 2001
Folie 48
Inhalte
– Generierung von Wissen
– Strukturieren von Wissen
– Wiederfinden von Wissen
– Nutzen von Wissen
© S. Staab, A. Maedche, 2001
Folie 49
Wissensprozess
Benutze
Fact A Kreiere
Importiere /
Fact B Linke
Fact E
Finde
Fact D
Fact C
Erfasse
Organisiere
© S. Staab, A. Maedche, 2001
Folie 50
Abfragen von Wissen
?
?
?
?
?
?
• Kontext über die Ontologie
• Generalisiere / verfeinere via Ontologie
• Matching von Abfragen mit Begriffen aus
der Ontologie
• Vordefinierte Abfragen an die WDB
© S. Staab, A. Maedche, 2001
Folie 51
Beispiel: Vordefinierte Abfragen
© S. Staab, A. Maedche, 2001
Folie 52
Ontologie als Landkarte
•
•
•
•
© S. Staab, A. Maedche, 2001
Navigation via Ontologie
Individuelle Sichten auf Wissen
Dynamische Sichten auf Wissen
Vordefinierte Abfragen
Folie 53
Beispiel: Orientierung durch die Ontologie
© S. Staab, A. Maedche, 2001
Folie 54
Beispiel: Dynamische Sichten auf Wissen
© S. Staab, A. Maedche, 2001
Folie 55
Community zum Teilen von Wissen
• Organisatorische Maßnahmen
• Die Entwicklungsmethodik erfaßt
die Bedürfnisse der Benutzer und
berücksichtigt sie bei der
Erstellung der Anwendung
• Eingebettet in tägliche
Arbeitsumgebung
© S. Staab, A. Maedche, 2001
Folie 56
Einbettung in Arbeitsumgebung –
Beispielarchitektur
Annotated Document
Templates
MS ppt MS
Word
Adobe Lotus
Frame- Notes
maker
© S. Staab, A. Maedche, 2001
Work Document
XML
Structure
partially
filled
ONTOLOGY
re
ko
rb
ot
nO
Smart Task Control
Views
Archive
of Annotated
Documents
MS ppt MS
Word
Adobe Lotus
Frame- Notes
maker
Crawler
Facts in
Database
Inference
Engine
Folie 57
Einbettung in Arbeitsumgebung –
Praktisches Beispiel
Großer Mehrwert
durch einfache
Dinge:
Gemeinsame
Adressverwaltung
!!!!!
© S. Staab, A. Maedche, 2001
Folie 58
Case Study I: HR TopicBroker
• Unterstützung zur HR Strategieentwicklung 7 Challenges
• Lokation aktueller und neuer Schlagworte
und Themen
• Intranet/WWW-basierter Yellow Page
Mechanismus auf begrifflicher Ebene
• Aufbau einer intranetbasierten Wissensbasis
© S. Staab, A. Maedche, 2001
Folie 59
HR TopicBroker – Verwendete Techniken
• Ontologie mit Begriffe und Relationen zwischen
Begriffen; Zusätzlich Auflösung von Synonymen
• Information Retrieval + Ontologie-fokussiertes
Crawling
• “Gemischte” Techniken für Wissensdatenbank:
•
Begriffs-Dokumentindex
• Wissensbasis für manuelle Einträge
© S. Staab, A. Maedche, 2001
Folie 60
HR TopicBroker Ontologie
© S. Staab, A. Maedche, 2001
Folie 61
HR TopicBroker – Architektur
Web
HR
Topic
Broker
GUI
Ontologie
OntologieFokussierter
Crawler
ZOPE WebApplication Server
Lexikon
Ontologie-gestützte
Indexierung der
Dokumente und
Gewichtung mit
Relevanzmaß
© S. Staab, A. Maedche, 2001
Links relevanter
Dokumente und
WissensdatenbankAnbindung
Dok.index
Repository
Folie 62
Running Example: HR TopicBroker
© S. Staab, A. Maedche, 2001
Folie 63
Running Example: HR TopicBroker
© S. Staab, A. Maedche, 2001
Folie 64
Running Example: HR TopicBroker
© S. Staab, A. Maedche, 2001
Folie 65
Case Study II: Proper
• Ontologie mit
• Begriffe, Relationen zwischen Begriffen und
Regeln, z.B.:
“If a programmer worked for a project, in which a specific
programming language has been used, than this programmer
has at least some experience with the programming language.”
• Basisdaten:
• Profilinformation aus relationaler Datenbanken
und semantische Annotation von
Projektberichten
© S. Staab, A. Maedche, 2001
Folie 66
Case Study II: Ontologie
•
Screenshot of OntoEdit
• …
© S. Staab, A. Maedche, 2001
Folie 67
Case Study II: Architecture
Matching
Browser
Internet:
Applicant sends application.
Profile
DB
Intranet:
Employee
gives
annotated
Employee
gives
annotated
entries
(project
reports
entries
(project
reports
..) ..)
Employee provides profile.
Employee searches for
experts.
HR Manager wants to fill
vacant positions.
Web
Server
Templates &
Documents
Browser
© S. Staab, A. Maedche, 2001
Inference
Engine
Ontology
Annotation
& Crawling
Folie 68
Case Study II: Screenshot
© S. Staab, A. Maedche, 2001
Folie 69
4. Business Intelligence
© S. Staab, A. Maedche, 2001
Folie 70
Inhalte
– Der Business Intelligence Prozeß
– OLAP – Explorative Wissens- und
Ideengenerierung
– Wissensvisualisierung
– Data Mining / Knowledge Discovery
© S. Staab, A. Maedche, 2001
Folie 71
Business Intelligence Prozeß
• Der BI Prozeß setzt sich aus mehreren Schritten
zusammen:
• Business & Data Understanding
• Data Preparation
• Modeling
• Evaluation
• Deployment
• Der BI Prozeß ist interaktiv und iterativ
• Anwendung von BI benötigt Kenntnisse im Bereich
Datenanalyse, Datenbanken und der
Anwendungsdomäne
© S. Staab, A. Maedche, 2001
Folie 72
Business Intelligence Prozeß
© S. Staab, A. Maedche, 2001
Folie 73
Architektur
© S. Staab, A. Maedche, 2001
Folie 74
Data Mining von Datenakquisition zur Anwendung
© S. Staab, A. Maedche, 2001
Folie 75
BI – Erkenntnisse haben ihren Preis
© S. Staab, A. Maedche, 2001
Folie 76
Inhalte
– Der Business Intelligence Prozeß
– OLAP – Explorative Wissens- und
Ideengenerierung
– Wissensvisualisierung
– Data Mining / Knowledge Discovery
© S. Staab, A. Maedche, 2001
Folie 77
Einführung in OLAP
Wie gesehen, gibt es große Unterschiede zwischen
operativen Systemen und dem DWh
Entsprechend gibt es fundamentale Unterschiede auch
zwischen den jeweiligen Zugriffsarten auf diese
Datenquellen:
• OLAP = On-Line Analytical Processing benutzt DWh
• OLTP = On-Line Transaction Processing benutzt
operative Systeme
© S. Staab, A. Maedche, 2001
Folie 78
Einführung in OLAP
• den schnellen, interaktiven Zugriff auf Unternehmensdaten
• unter „beliebigen“ unternehmensrelevanten Blickwinkeln
(Dimensionen)
• auf verschiedenen Aggregationsstufen
• mit verschiedenen Techniken der Visualisierung
• Hauptmerkmal ist die multi-dimensionale Sichtweise
auf Daten mit flexiblen interaktiven Aggregationsbzw. Verfeinerungsfunktionen entlang einer oder
mehrerer Dimensionen.
© S. Staab, A. Maedche, 2001
Folie 79
Multi-Dimensionalität
• Mehrdimensionale Sichtweise auf Daten ist
sehr natürlich: Sichtweise der Analysten auf
Unternehmen ist mehrdimensional.
Þ Konzeptuelles Datenmodell sollte mehrdimensional sein, damit Analysten leicht
und intuitiv Zugang finden.
© S. Staab, A. Maedche, 2001
Folie 80
Beispiel: Multi-Dimensionalität
• Verkaufszahlen können nach unterschiedlichen
Kriterien / Dimensionen aggregiert und analysiert
werden:
•
Produkt: Produkt, Produktkategorie,Industriezweig
nach
• nach
• nach
Region: Filiale, Stadt, Bundesland
Zeit: Tag, Woche, Monat, Jahr
• nach verschiedenen Dimensionen des
Käufers:
Geschlecht, Einkommen
beliebigen
Kombinationen von Dimensionen
Alter,
und nach
, z.B.nach
Produktkategorie, Stadt
© S. Staab, A. Maedche, 2001
und
Monat
Folie 81
Dimensionen
Dimensionen
Kontext der Kennzahlen.
Jede Kennzahl hängt von einer Menge von
Diese bilden den
•
Beispiel:
ab.
Verkaufszahlen (Kennzahl) hängen von den
Dimensionen Produkt, Region und Zeit ab.
Die
• Die Dimensionen sind
orthogonal (unabhängig).
Hyper-Würfel (hyber cube).
• Sie definieren einen sog.
Orangensaft
Orangenlimo
Apfelsaft
Mineralwasser
sonstige
Cola
Milch
© S. Staab, A. Maedche, 2001
RhSach
BaHesseinl sen
B
en and -An
1 2 3 4 5 6 7 ayeden-W
rn ü -Pfahalt
rte lz
mb
.
tk
ud
or
P
ion
g
e
R
Zeit
Folie 82
OLAP Funktionalität
• Bei der Analyse können beliebige Aggregationsstufen
visualisiert werden: Drill-Down bzw. Roll-Up-Operationen
• Bedingungen an Dimensionen, Attribute und Attributelemente reduzierenDimensionalität der visualisierten
Daten: Slice & Dice - Operationen
• Analyse wird durch Vielzahl von Visualisierungstechniken unterstützt. Bedingungen werden interaktiv
gewählt (Buttons, Menüs, drag & drop).
© S. Staab, A. Maedche, 2001
Folie 83
OLAP Funktionalität: Drill-Down / Roll-Up
• Entlang der Attribut-Hierarchien werden die Daten
verdichtet bzw. wieder detailliert und sind so auf
verschiedenen Aggregationsstufen für Analysen
zugreifbar.
drill - down
Hier: Gleichzeitige
Detaillierung aller Dimensionen
Orangensaft
Orangenlimo
Apfelsaft
Mineralwasser
sonstige
Cola
Milch
RhSach
BaHesseinl sen
B
en and -An
1 2 3 4 5 6 7 ayeden-W
rn ü -Pfahalt
rte lz
mb
.
Coca-Cola
Pepsi-Cola
Afri-Cola
Kinder-Cola
...
FüMün
PaAugsrth chen
N s b
.71 .72 7.3 .74 7.5 .76 7.7 ürn sau urg
be
rg
roll - up
© S. Staab, A. Maedche, 2001
Folie 84
OLAP Funktionalität: Slice & Dice
• Bei dieser Operation wird die Dimensionalität
der visualisierten Daten reduziert.
• Zu einer Teilmenge der Dimensionen werden
Bedingungen formuliert.
• Alle Daten in der resultierenden Tabelle genügen
diesen Bedingungen.
• Slice & Dice entspricht dem Herausschneiden einer
Scheibe (slice) aus dem Hyper-Würfel. Nur diese
Scheibe wird weiterhin visualisiert.
© S. Staab, A. Maedche, 2001
Folie 85
Beispiel I:
Lokation bestimmter atomarer und aggregierter
Werte im Hyper-Würfel:
a)
Orangensaft
Orangenlimo
Apfelsaft
Mineralwasser
sonstige
Cola
Milch
S
Rh ach
H e s
Ba ess inla en-A
Ba de en nd- nh
1 2 3 4 5 6 7 yer n-W Pfal alt
n ür
tem z
b.
=> Verkaufszahlen für Orangensaft in Bayern im Mai
© S. Staab, A. Maedche, 2001
Folie 86
Inhalte
– Der Business Intelligence Prozeß
– OLAP – Explorative Wissens- und
Ideengenerierung
– Wissensvisualisierung
– Data Mining / Knowledge Discovery
© S. Staab, A. Maedche, 2001
Folie 87
Visualisierung
• Visualisierung im Kontext Wissensdatenbanken kann
verwendet werden für:
• Explizite Präsentation von Wissensstrukturen zur
Anfrage („Ostensive Browsing“)
• Explorative Datenanalyse
• Bestätigende Analyse (ausgehend von einer
Hypothese)
© S. Staab, A. Maedche, 2001
Folie 88
Visualisierung
– Visualisierung kann interaktiv durchgeführt werden:
Kombination menschlicher Wahrnehmungsfähigkeiten
mit hoher Leistungsfähigkeit heutiger Rechner
– Visualisierungstechniken können in verschiedene
Klassen eingeteilt werden:
•
•
•
•
•
© S. Staab, A. Maedche, 2001
Pixel-orientierte Techniken
Geometrische Techniken
Icon-basierte Techniken
hierarchische Techniken
Graph-basierte Techniken
Folie 89
Pixel-orientierte Techniken
Attributwert eines n-stelligen Datentupels wird als
ein farbiges Pixel repräsentiert
•
jeder
• die
m Werte eines Datentupels werden auf m separate
Windows verteilt
• in jedem Window werden die Attributwerte eines Datentupels
an
derselben Stelle angezeigt
© S. Staab, A. Maedche, 2001
Folie 90
Beispiel: Pixel-orientierte Techniken
© S. Staab, A. Maedche, 2001
Folie 91
Geometrische Techniken
Projektion multidimensionaler Datenbestände auf 2dimensionale Darstellungen: es existiert eine Vielzahl von
Techniken (z.B. Hauptkomponentenanalyse,
Faktoranalyse), hier parallele Koordinatentechnik
Idee:
– für n-dimensionale Datentupel werden n
äquidistante Achsen verwendet (1 Achse pro
Attribut)
– jede Achse wird entsprechend dem Wertebereich
des zugehörigen Attributs skaliert
– Datentupel wird als Polygon visualisiert
(Schnittpunkt mit Achse i repräsentiert Attributwert a )
i
© S. Staab, A. Maedche, 2001
Folie 92
Geometrische Techniken
Abbildung 5: Parallele Koordinatentechnik (Keim/Kriegel 1996)
© S. Staab, A. Maedche, 2001
Folie 93
Visualizing Hierachies: 2D Hyperbolic Viewer
Todo!
“Focus & Context”
• Smooth Navigation
•
[J. Lamping 1996]
© S. Staab, A. Maedche, 2001
Folie 94
Visualizing Hierachies: 3D Hyperbolic View
Enables bigger graphs a 2D Viewer
•Suitable for Tree Structure
•
© S. Staab, A. Maedche, 2001
Folie 95
Document Visualization
Visual Support for Navigation and Browsing in a Set of Document
• Topic distribution in a large document space:
•
content abstraction and
spatialization of the document
© S. Staab, A. Maedche, 2001
Folie 96
Document Visualization
Visual Support for Navigation and Browsing in a Set of Document
As close as possible to
a real world-book
© S. Staab, A. Maedche, 2001
Folie 97
Visualisierung von Association Rules
© S. Staab, A. Maedche, 2001
Folie 98
Visualisierung von Clusteringergebnissen
© S. Staab, A. Maedche, 2001
Folie 99
Inhalte
– Der Business Intelligence Prozeß
– OLAP – Explorative Wissens- und
Ideengenerierung
– Wissensvisualisierung
– Data Mining / Knowledge Discovery
© S. Staab, A. Maedche, 2001
Folie 100
Data Mining im Buzzword-Netz
© S. Staab, A. Maedche, 2001
Folie 101
Data Mining ist interdisziplinär
© S. Staab, A. Maedche, 2001
Folie 102
Data Mining Techniken
Generell unterscheidet man zwischen:
• Überwachten Verfahren:
• Entscheidungsbäume
• Neuronale Netze
• ...
• Unüberwachten Verfahren:
• Clustering
• Assoziationsregeln
• ...
© S. Staab, A. Maedche, 2001
Folie 103
Example: Mining mit SAP BW
© S. Staab, A. Maedche, 2001
Folie 104
Werkzeuge für Data Mining
© S. Staab, A. Maedche, 2001
Folie 105
Case Study: CRM – Deutsche Telekom
• Ausgangsbasis: Panel über ca. 5000 HH
• Data Mart ‘‘Panel Analyse System‘‘ (PAS)
enthält:
• Kommunikationsdaten
• Befragungsdaten
© S. Staab, A. Maedche, 2001
Folie 106
Sternschema
Kundensegment
Haushalt (PK)
Arbeitsstätte (GK)
Tarifzone
Ort
Regional
Deutschland
...
Tagart
Mo - Fr
Sa, So, Fe
Zeit
Stunde (0 .. 23)
Tag
Monat
Jahr
© S. Staab, A. Maedche, 2001
Kommunikationsdaten
Teilnehmer_ID
Kundensegment
Tarifzone
Tagart
Zeit
...
Kennzahlen
(Verb.minuten)
Befragung
Haushalte
Teilnehmer_ID
Beruf_Code
Haushaltsgröße
...
Befragung
Arbeitsstätten
Teilnehmer_ID
Branche_Code
Anzahl Mitarbeiter
...
star schema of PAS
Beruf_Code
Beruf
Branche_Code
Branche
Branche
Wirtschaftszweig
(fein gegliedert)
Wirtschaftszweig
(fein gegliedert)
Wirtschaftszweig
(grob gegliedert)
Folie 107
Kommunikationsdaten
customerID
1
1
2
2
•
distance
Ort
Ort
Regional
Regional
type of day
Mo-Fr
Mo-Fr
Mo-Fr
Mo-Fr
date/time
19.11.98/9:55
20.11.98/10:10
19.11.98/21:00
20.11.98/17:00
comm. minutes
20 min
18 min
120 min
2 min
Verwendung der Kommunikationsdaten zur Generierung
eines Profils
• Auf Basis der Profile folgt die Definition von
Kundensegmenten
• Kundensegmente werden mittels sozio-demographischer
Merkmale aus dem Panel beschrieben
© S. Staab, A. Maedche, 2001
Folie 108
Kommunikationsprofil
Ort
Fern
Regio
weekday
communication
feature
weekend
• hour window: 0-6
•distance: Ort
•type of day: weekday
Zeitfenster
© S. Staab, A. Maedche, 2001
Folie 109
Kundensegmentierung via Clustering
Durchschnittliches Profil
© S. Staab, A. Maedche, 2001
Profil in einem Kundencluster
Folie 110
Beschreibung von Segmenten
•
Verwendung der sozio-demographischen Daten aus
dem Panel
Größe des Haushaltes
• Beruf
• Anzahl Kinder
• Alter
• ...
•
•
Verwendung einer Entscheidungsbaumtechnik führt zu:
WENN HH > 4 und Beruf = „Beamter“
DANN Cluster_Nr = 1
© S. Staab, A. Maedche, 2001
Folie 111
Literatur
Andreas Abecker, Ansgar Bernardi, Heiko Maus, Michael
Sintek, and Claudia Wenzel: Information Supply for
Business Processes - Coupling Workflow with
Document Analysis and Information Retrieval.
Knowledge-Based Systems 13(5):271-284, Special
Issue on AI in Knowledge Management, Elsevier,
2000.
Matthias Jarke, Roland Klemke, Achim Nick. Broker's
Lounge - an Environment for Multi-Dimensional
User-Adaptive Knowledge Management, in: HICSS-
34: 34th Hawaii International Conference on System
Siences, 3.-6. January 2001, Maui, Hawaii.
Mario Lenz. Managing the Knowledge Contained in
Technical Documents. In Ulrich Reimer (ed.).
PAKM 98 - Practical Aspects of Knowledge
Management. Proceedings of the Second
International Conference. Basel, Switzerland,
October 29-30, 1998.
Alexander Mädche, Steffen Staab: Ontology Learning for
the Semantic Web. IEEE Intelligent Systems, 16(2),
March/April 2001 (Special issue on Semantic Web).
Alexander Mädche, Steffen Staab, Nenad Stojanovic, Rudi
Studer, York Sure. SEmantic portAL - The SEAL
approach. In D. Fensel, J. Hendler, H. Lieberman, W.
Wahlster (eds.) Creating the Semantic Web. MIT
Press, Cambridge, MA, 2001 (In Druck).
© S. Staab, A. Maedche, 2001
Gilbert Probst, Steffen Raub, Kai Romhardt. Wissen
managen. Wie Unternehmen ihre wertvollste Ressource
optimal nutzen. Th. Gabler Verlag, 1999.
Guus Schreiber, Robert de Hoog, Hans Akkermans, Anjo
Anjewierden, Nigel Shadbolt, Walter Van de Velde.
Knowledge Engineering and Management. The MIT
Press, 2000.
Steffen Staab, Alexander Mädche: Knowledge Portals Ontologies at Work. AI Magazine, 21(2), Summer
2001.
Steffen Staab, Hans-Peter Schnurr, Rudi Studer, York
Sure. Knowledge Processes and Ontologies. IEEE
Intelligent Systems, 16(1), January/February 2001
(Special issue on Knowledge Management).
.
Folie 112