Ground Truth – Ohne Datenqualität kein Machine Learning

Transcription

Ground Truth – Ohne Datenqualität kein Machine Learning
Ground Truth – ohne Datenqualität kein
Machine Learning. Erfolgsfaktoren für
Predictive Analytics, BI und Data Mining
Prof. Dr.-Ing. Peter Lehmann – Hochschule der Medien Stuttgart
GLIEDERUNG
›
›
›
›
›
›
›
Etwas
Etwas
Etwas
Etwas
Etwas
Etwas
Etwas
über
über
über
über
über
über
über
Machine Learning
Vorgehensweisen
wie man’s falsch macht
wie man’s richtig macht
ein spannendes Projekt
den Ground Truth
Data Science
Prof. Dr.-Ing.
Peter Lehmann
Hochschule der Medien
Studiengang Wirtschaftsinformatik und Digitale Medien
Studiengang Data Science and Business Analytics
Nobelstrasse 10
70569 Stuttgart
08.06.2016
Ground Truth – ohne Datenqualität kein Machine Learning
2
PREDICTION IST TEIL VON MACHINE LEARNING
›
Traditionelles Reporting
› Ziel ist präzise vorgegeben, z.B.
› Ich möchte wissen,
wieviel …. pro … sortiert nach …
› Datenmodelle und deren Attribute
sind bekannt
›
Machine Learning (ML)
› Ziel ist wage vorgegeben, z.B.
› Ich möchte wissen,
was den Kauf eines Projektes
ausmacht.
› Ich möchte wissen,
welche Kundensegmente es gibt.
› Datenmodelle und deren Attribute sind “vermutlich” bekannt
›  ML gibt dann Antworten auf Fragen, die ich noch gar nicht
gestellt habe
08.06.2016
Ground Truth – ohne Datenqualität kein Machine Learning
3
WICHTIGE TYPEN VON MACHINE LEARNING
(BEISPIELE)
Cluster bilden
Klassifizierung
Recommender Systeme
?
Regression
08.06.2016
Ground Truth – ohne Datenqualität kein Machine Learning
4
LERNEN MIT BEISPIELEN
›
Disziplin in Informatik Künstliche Intelligenz
› Supervised learning
› Ein Lernalgorithmus versucht, eine Abbildung zu finden, die jedem
Eingabewert den vermuteten Ausgabewert zuordnet.
› Der Ausgabewert ist bekannt.
› Herausforderung Ground Truth: Qualität der Trainingsmenge und
Testmenge
›
Nach diesem Training
sollte das System in
der Lage sein,
zu einer unbekannten
Eingabe eine korrekte
Ausgabe zu liefern
08.06.2016
Ground Truth – ohne Datenqualität kein Machine Learning
5
VORGEHENSMODELLE SIND ITERATIV!
›
Knowledge Discovery
and Data Mining (1996)
www.kde.org
08.06.2016
›
Cross Industry Standard
Process for Data Mining
(2000)
www.crisp-data.com
Ground Truth – ohne Datenqualität kein Machine Learning
6
WIR MACHEN EINFACH MAL… OHNE GROUND TRUTH
›
Beispiel:
› Fahrradhersteller, analysiert seinen
Online-Shop
› Wir wollen wissen: welches Profil haben
Kunden, die Mountain Bikes kaufen?
›
50.000 Datensätze, los geht‘s…
› Kundenstammdaten +
Transaktionsdaten +
Sozio-demografische Daten
über PLZ
08.06.2016
Ground Truth – ohne Datenqualität kein Machine Learning
7
WIR MACHEN EINFACH MAL… OHNE GROUND TRUTH
Besonders viele
Kunden kommen aus
11111
Wir haben keine Kunden in
Ostdeutschland, dafür
viele in CH und Österreich!
Besonders interessant sind
Kunden, die weder männlich noch weiblich sind
15% unserer Kunden wohnen
in Afghanistan
8% unserer Kunden, die unsere App nutzen, und
aus Stuttgart kommen, fahren am
Wochenende in Japan Fahrrad
08.06.2016
Ground Truth – ohne Datenqualität kein Machine Learning
8
LESSONS LEARNED
›
›
›
›
Mining Model macht nur 10% aus!
Auswahl der Attribute ist wichtig!
Aber: Datenqualität ist entscheidend!!!
Algorithmen lernen schnell, auch Mist!
› “Microsoft deletes 'teen girl' Artificial Intelligence after it
became a Hitler-loving sex robot within 24 hours” – Daily
Telegraph 24.3.2016
http://www.telegraph.co.uk/technology/2016/03/24/
microsofts-teen-girl-ai-turns-into-a-hitler-loving-sex-robot-wit/
›
Top-Datenqualität für das
Anlernen der Software
erforderlich  Bedeutung des
Ground Truth Prozesses erkennen!
08.06.2016
Ground Truth – ohne Datenqualität kein Machine Learning
9
PROBLEM IN DEN DATEN
›
›
›
›
›
›
›
›
›
›
PLZ passen nicht zum Ort
Ort passt nicht zur PLZ
Nullwerte
Ausreiser
Dubletten
Falsche Schreibweisen
Mehrere Sprachen
Falsche Bezeichner
Semantische Probleme
….
08.06.2016
Ground Truth – ohne Datenqualität kein Machine Learning
10
© UNISERV GmbH, Pforzheim
08.06.2016
GROUND TRUTH –
SOLIDES FUNDAMENT FÜR ENTSCHEIDUNGEN
Predictive Analytics
Business Intelligence
Marketing Campaign
5
Golden Profile
1
Customer Master Data
‚bidirektional‘ - ETL
2
Interaction Data
3
Transaction Data
4
Transformation Source ID
to Golden Record ID
5
Golden Profile
360°
VIEW
2
3
Golden Record
4
Smart
Customer
MDM
4
1
CRM
Service
Web Shop
ERP
n-Systeme
08.06.2016
Ground Truth – ohne Datenqualität kein Machine Learning
11
GEMEINSAMES FORSCHUNGSPROJEKT MIT UNISERV
LEAD GENERATION
Prediction
Train 70%
SozioDemografische
Daten
Microsoft
Azure ML
Ground Truth for ML
Test 30%
Kaufwahrscheinlichkeit %
ERP
CRM
CRM
Close the loop
08.06.2016
Ground Truth – ohne Datenqualität kein Machine Learning
12
UNISERV UNTERSTÜTZT DEN NEUEN BERUFSBEGLEITENDEN
MASTER “DATA SCIENCE AND BUSINESS ANALYTICS”
›
Warum der 70%-Online
Weiterbildungsstudiengang?
›
›
›
›
›
›
Unterstützung durch
›
›
›
›
›
›
Jobs, Jobs, Jobs
(Roche, Daimler, …)
Industrie 4.0, Internet of Things
Hängen uns ab: USA, Asien
Big Data und Open Data überall
Cloud-Computing ist wichtiger
Treiber
Sponsoring
Bilaterale Projekte
Lehrauftrag
Site visits
In Vorbereitung Chief Digital
Officer - Inner Circle
Ground Truth
›
Bestandteil des Studiengangs
08.06.2016
Ground Truth – ohne Datenqualität kein Machine Learning
13
FAZIT
›
›
›
›
ML liefert wichtige Erkenntnisse über neue
Geschäftsmodelle, Kunden und Produkte
ML mit supervised learning bringt die besten Ergebnisse
Datenqualität ist entscheidend für supervised learning
Ground Truth ist ein wichtiger Datentransformationsprozess
› “Etwas falsch ist auch irgendwie richtig”
› 80% richtig reicht uns
›
Ohne Ground Truth kein erfolgreiches Machine Learning
› … und keine erfolgreiche Customer Journey
›
Datenintegration muss extrem schnell und agil gehen
› Hier hilft Golden Profile und Golden Record
08.06.2016
Ground Truth – ohne Datenqualität kein Machine Learning
14
KONTAKT
›
STUDIENGANG DATA SCIENCE
AND BUSINESS ANALYTICS
›
MEHR ZUM PROJEKT
GROUND TRUTH
Prof. Dr.-Ing.
Peter Lehmann
Hochschule der Medien
Nobelstrasse 10
70569 Stuttgart
Holger Stelz
Uniserv GmbH
Rastatter Straße 13
75179 Pforzheim
www.hdm-stuttgart.de/ds
www.uniserv.com
[email protected]
[email protected]
Projektleiter Ground Truth (HdM)
Gastdozent
Betreuung Wissenschaftl. Arbeiten
08.06.2016
Ground Truth – ohne Datenqualität kein Machine Learning
15