Pentaho bringt bei ProSiebenSat.1 Digital Big Data und relationale

Transcription

Pentaho bringt bei ProSiebenSat.1 Digital Big Data und relationale
CASE STUDY
Pentaho bringt bei ProSiebenSat.1 Digital
Big Data und relationale Daten zusammen
CASE STUDY
Hybride Datenarchitektur kombiniert klassisches Data Warehouse und Hadoop
Kunde
Die ProSiebenSat.1 Digital GmbH ist als MultimediaUnternehmen der ProSiebenSat.1 Group, eines der
führenden Medienhäuser in Europa, für neue digitale
Medienangebote zuständig. Das Unternehmen betreibt unter anderem mit der ProSiebenSat.1 Networld
(u.a. SAT1.DE, ProSieben.de, MyVideo.de, lokalisten.de)
eines der führenden Online-Netzwerke in Deutschland.
Mit 20 verschiedenen Marken bildet ProSiebenSat.1
Digital zudem das größte deutsche Netzwerk mobiler
Internetseiten. Daneben betreibt das Unternehmen
die Teletextseiten der verschiedenen Sender der Gruppe, die beiden Online-Gaming-Portale SevenGames.de
und SAT1Spiele.de, sowie weitere Browser-Spiele-Portale. Innovationen wie Hybrid Broadcast Broadband
Television (HbbTV), das Fernsehen und Internet auf
dem TV-Gerät verbindet, wurden von ProSiebenSat.1
Digital vorangetrieben.
Herausforderungen
ProSiebenSat.1 Digital suchte eine zentrale Data Warehouse (DWH) Lösung, die die Basis für eine integrierte Betrachtung, Berichterstellung und Analyse von
Vermarktungs- und Trackingdaten der verschiedenen
Unternehmensbereiche und Abteilungen bilden sollte.
Die Datenhaltung der ProSiebenSat.1 Digital war rasant mit den verschiedenen Abteilungen und deren
Produkten gewachsen. Die Abteilungen betreuten ihre
eigenen Quellsysteme und erstellten auf deren Basis
Analysen und Berichte. Diese dezentrale Datenhaltung
brachte verschiedene Probleme mit sich. So war es
zum Beispiel nur mit hohem manuellen und zeitlichen
Aufwand möglich, Daten aus den vielen unterschiedlichen Daten-Silos für gesamtheitliche Berichte und
FAKTEN
› Branche: Medien
›Unternehmenssitz: Unterföhring bei München
›Internetseite: www.prosiebensat1digital.de
›Produkte: Pentaho Data Integration, Hadoop
und PostgreSQL
Analysen zusammenzufassen.
Daher entschied sich ProSiebenSat.1 Digital, eine
zentrale DWH-Lösung zu suchen, die verschiedene
Kriterien erfüllen musste. Eines der wichtigsten
Kriterien war der Umgang mit dem stetig wachsenden
Datenvolumen generiert aus dem Online-Geschäft
des Unternehmens, das u.a. Webtracking-Daten und
Adserver-Daten umfasst. Wichtig war hier, dass die Lösung zukunftssicher ist, d.h. auch noch in der Lage ist,
die Datenwelt der Zukunft abzudecken. Damit zusammenhängend sollte die Lösung in der Lage sein, die
vielen sehr unterschiedlichen Datenformate zu verarbeiten. Das Preis-Leistungsverhältnis war daneben ein
weiterer zentraler Aspekt.
Die Inovex GmbH, ein inhabergeführtes IT-Projekthaus
© 2013, Pentaho. All Rights Reserved. pentaho.com. Worldwide +1 (866) 660-7555
"Das hybride Konzept aus klassischer Datenbank und Hadoop macht unsere Datenhaltung zukunftssicher. Pentaho Data Integration stellt dabei sicher, dass beide Welten
reibungslos zusammenarbeiten und die Daten schnell und einfach den Nutzern zur
Verfügung gestellt werden.“
- Jürgen Popp, Direktor Business Intelligence
ProSiebenSat.1 Digital GmbH
mit Erfahrung im Bereich Big Data und Pentaho-Partner, erkannte schnell, dass ein klassisches DWH hier
rasch an seine Grenzen gelangen würde und schlug,
über den eigentlichen Ausschreibungsumfang hinausgehend, ein hybrides Konzept aus klassischer Datenbank und innovativen Big-Data-Technologien vor, bei
dem sowohl die Integration der Daten in die verschiedenen Systeme, als auch die Verknüpfung der Daten
und die Bereitstellung für das Reporting-Frontend von
Pentaho Data Integration (PDI) übernommen wird.
Das Konzept überzeugte ProSiebenSat.1 Digital und
Inovex wurde mit der Realisierung der hybriden Datenarchitektur beauftragt.
ON TIME CASES
Um das komplexe hybride System zu verwirklichen, arbeitete Inovex nach der Scrum-Methodik. Dabei wurde
das Projekt mit einem Proof-of-Concept gestartet
und dann in mehreren kurzen Sprints jeweils weitere
Module fertiggestellt. Damit konnte das System inkrementell wachsen und durch kontinuierliches Feedback
so umgesetzt werden, wie es den Bedürfnissen von
ProSiebenSat.1 Digital entsprach. Diese Vorgehensweise ermöglichte eine effiziente und schnelle Implementierung des Projekts in nur 3 Monaten
Lösung
Inovex realisierte eine hybride Datenarchitektur mit einem relationalen DWH auf Basis von PostgreSQL, sowie einem vorgelagerten Storage- und Compute-Cluster
auf Basis von Apache Hadoop. Begonnen hat man mit
einem Cluster aus acht Hadoop-Knoten, in denen vor
allem die historischen Daten gespeichert und verarbeitet werden. Um die Installation und Konfiguration des
Hadoop-Clusters zu vereinfachen, wurden Cloudera
CDH Images eingesetzt.
Die Datenübertragung zwischen DWH und HadoopCluster sowie die Datenakquise in das Hadoop-Cluster
wird mit Pentaho Data Integration (PDI) durchgeführt.
PDI bietet eine native Hadoop-Integration und ermöglicht den BI-Anwendern dank grafischer Benutzeroberfläche, die komplizierten MapReduce-Jobs, mit denen
die Daten im Hadoop-Cluster verarbeitet werden, auch
ohne Java- oder Script-Programmierkenntnisse durchzuführen
Ergebnisse
Die Die hybride Datenarchitektur mit PDI als Datenintegrations-Tool, das das Zusammenspiel von Big Data
und relationalen Daten sicherstellt, ist seit März 2013
produktiv bei ProSiebenSat.1 Digital im Einsatz und
wird kontinuierlich weiter ausgebaut.
Die hybride Architektur hat folgende Vorteile:
>Die Nutzung des klassischen DWH für die aktuellen
Daten stellt für den BI-Nutzer eine vertraute Umgebung dar, die aufgrund der vorhandenen SQL-Kenntnisse einfach zu nutzen ist.
>Die Nutzung von Hadoop für die historischen Daten
© 2013, Pentaho. All Rights Reserved. pentaho.com. Worldwide +1 (866) 660-7555
macht die Datenhaltung zukunftssicher, da diese einfach und kostengünstig durch Hinzufügen weiterer
Knoten zu skalieren ist.
>Dass die Daten über die Knoten des Hadoop-Clusters
verteilt redundant gespeichert werden, stellt darüber
hinaus die Ausfallssicherheit des Systems sicher.
>Durch den zentralen Ansatz wird die Datenqualität sichergestellt und das zeitaufwendige, manuelle Zusammenführen der ehemals dezentralen
Daten durch einen schnellen und einfachen Zugriff
abgelöst. Dadurch ist es möglich, jederzeit einen
zentralen Blick auf die Geschäftsdaten zu erhalten
und schnell auf Entwicklungen zu reagieren.
Der Einsatz von PDI ermöglicht:
>Integration: Die reibungslose Zusammenarbeit von
relationaler und Big Data Welt.
>Einfach zu nutzende ETL-Umgebung für Big Data: PDI
löst das Problem, dass zum Ausführen der MapReduce-Jobs, mit denen die Daten im Hadoop-Cluster
verarbeitet werden, eigentlich Java- oder Scriptkenntnisse benötigt werden. PDI stellt eine einfache
grafische ETL-Umgebung zur Verfügung, die selbst
bei der Nutzung von neuen Big Data-Technologien
auch ohne Spezialkenntnisse zu bedienen ist.

>Data Blending: Auch Data Blending, d.h. die Kombination von Daten aus dem DWH mit den historischen Daten aus Hadoop zur weiteren Bereitstellung
für das Reporting-Frontend, ist mit PDI schnell und
einfach durchzuführen.
>Leistungsstarke Bereitstellung der Daten: Die aus
mehreren Threads bestehende Integrations-Engine
von PDI ermöglicht eine schnelle Ausführung und
Bereitstellung der Daten aus dem Hadoop-Cluster.
Zusammenfassung
Die ProSiebenSat.1 Digital GmbH nutzt Pentaho Data
Integration (PDI) zur Integration von Big Data und relationalen Daten. Die Inovex GmbH, ein Pentaho Partner,
hat für das Unternehmen eine hybride Datenarchitektur mit einem relationalen Data Warehouse (DWH) auf
der Basis von PostgreSQL, sowie einem vorgelagerten
Storage- und Compute-Cluster auf Basis von Apache
Hadoop realisiert. Die Datenübertragung zwischen
DWH und Hadoop-Cluster sowie die Datenakquise in
das Hadoop-Cluster wird mit PDI durchgeführt, dass
eine native Hadoop-Integration bietet. PDI ermöglicht
den BI-Anwendern dank grafischer Benutzeroberfläche, die komplizierten MapReduce-Jobs, mit denen
die Daten im Hadoop-Cluster verarbeitet werden,
auch ohne Java- oder Script-Programmierkenntnisse
durchzuführen. Auch Data Blending, d.h. die Kombination von Daten aus dem DWH mit den Daten aus
Hadoop zur weiteren Bereitstellung für das ReportingFrontend, ist mit PDI schnell und einfach durchzuführen. Das hybride Konzept macht die Datenhaltung bei
ProSiebenSat.1 Digital zukunftssicher, wobei PDI dafür
sorgt, dass beide Welten reibungslos zusammenarbeiten und die Daten schnell und einfach den Nutzern
zur Verfügung gestellt werden.
To learn more about Pentaho software and services, contact Pentaho:
pentaho.com/contact
+1 (866) 660-7555 (worldwide)
Be social
with Pentaho:
© 2013, Pentaho. All Rights Reserved. pentaho.com. Worldwide +1 (866) 660-7555