Pentaho bringt bei ProSiebenSat.1 Digital Big Data und relationale

Transcription

Pentaho bringt bei ProSiebenSat.1 Digital Big Data und relationale
CASE STUDY
Pentaho bringt bei ProSiebenSat.1 Digital
Big Data und relationale Daten zusammen
Hybride Datenarchitektur kombiniert klassisches Data Warehouse und Hadoop
Kunde
Die ProSiebenSat.1 Digital GmbH ist als MultimediaUnternehmen der ProSiebenSat.1 Group, eines der führenden Medienhäuser in Europa, für neue digitale Medienangebote zuständig. Das Unternehmen betreibt unter anderem
mit der ProSiebenSat.1 Networld (u.a. SAT1.DE, ProSieben.
de, MyVideo.de, lokalisten.de) eines der führenden OnlineNetzwerke in Deutschland. Mit 20 verschiedenen Marken
bildet ProSiebenSat.1 Digital zudem das größte deutsche
Netzwerk mobiler Internetseiten. Daneben betreibt das
Unternehmen die Teletextseiten der verschiedenen Sender
der Gruppe, die beiden Online-Gaming-Portale SevenGames.de und SAT1Spiele.de, sowie weitere Browser-SpielePortale. Innovationen wie Hybrid Broadcast Broadband
Television (HbbTV), das Fernsehen und Internet auf dem
FAK TEN
• Branche: Medien
• Unternehmenssitz: Unterföhring bei München
• Internetseite: www.prosiebensat1digital.de
• Produkte: Pentaho Data Integration,
Hadoop und PostgreSQL
TV-Gerät verbindet, wurden von ProSiebenSat.1 Digital
vorangetrieben.
Herausforderungen
Daher entschied sich ProSiebenSat.1 Digital, eine zentrale
ProSiebenSat.1 Digital suchte eine zentrale Data Warehouse
musste. Eines der wichtigsten Kriterien war der Umgang mit
(DWH) Lösung, die die Basis für eine integrierte Betrach-
dem stetig wachsenden Datenvolumen generiert aus dem
tung, Berichterstellung und Analyse von Vermarktungs- und
Online-Geschäft des Unternehmens, das u.a. Webtracking-
Trackingdaten der verschiedenen Unternehmensbereiche
Daten und Adserver-Daten umfasst. Wichtig war hier, dass
und Abteilungen bilden sollte. Die Datenhaltung der
die Lösung zukunftssicher ist, d.h. auch noch in der Lage ist,
ProSiebenSat.1 Digital war rasant mit den verschiedenen
die Datenwelt der Zukunft abzudecken. Damit zusammen-
Abteilungen und deren Produkten gewachsen. Die Abteilun-
hängend sollte die Lösung in der Lage sein, die vielen sehr
gen betreuten ihre eigenen Quellsysteme und erstellten
unterschiedlichen Datenformate zu verarbeiten. Das Preis-
auf deren Basis Analysen und Berichte. Diese dezentrale
Leistungsverhältnis war daneben ein weiterer zentraler
Datenhaltung brachte verschiedene Probleme mit sich. So
Aspekt.
war es zum Beispiel nur mit hohem manuellen und zeitlichen Aufwand möglich, Daten aus den vielen unterschiedlichen Daten-Silos für gesamtheitliche Berichte und Analysen
zusammenzufassen.
DWH-Lösung zu suchen, die verschiedene Kriterien erfüllen
Die Inovex GmbH, ein inhabergeführtes IT-Projekthaus
mit Erfahrung im Bereich Big Data und Pentaho-Partner,
erkannte schnell, dass ein klassisches DWH hier rasch
an seine Grenzen gelangen würde und schlug, über den
eigentlichen Ausschreibungsumfang hinausgehend, ein
Das hybride Konzept aus klassischer Datenbank und Hadoop macht
unsere Datenhaltung zukunftssicher. Pentaho Data Integration stellt
dabei sicher, dass beide Welten reibungslos zusammenarbeiten und die
Daten schnell und einfach den Nutzern zur Verfügung gestellt werden.
– JÜRGEN POPP
Direktor Business Intelligence, ProSiebenSat.1 Digital GmbH
hybrides Konzept aus klassischer Datenbank und innovativen Big-Data-Technologien vor, bei dem sowohl die
Integration der Daten in die verschiedenen Systeme, als
auch die Verknüpfung der Daten und die Bereitstellung für
das Reporting-Frontend von Pentaho Data Integration (PDI)
übernommen wird.
Das Konzept überzeugte ProSiebenSat.1 Digital und Inovex
wurde mit der Realisierung der hybriden Datenarchitektur
beauftragt.
Um das komplexe hybride System zu verwirklichen, arbeitete Inovex nach der Scrum-Methodik. Dabei wurde das
Projekt mit einem Proof-of-Concept gestartet und dann
in mehreren kurzen Sprints jeweils weitere Module fertiggestellt. Damit konnte das System inkrementell wachsen und durch kontinuierliches Feedback so umgesetzt
werden, wie es den Bedürfnissen von ProSiebenSat.1 Digital
entsprach. Diese Vorgehensweise ermöglichte eine effiziente und schnelle Implementierung des Projekts in nur 3
Monaten
Lösung
Inovex realisierte eine hybride Datenarchitektur mit einem
relationalen DWH auf Basis von PostgreSQL, sowie einem
vorgelagerten Storage- und Compute-Cluster auf Basis von
Apache Hadoop. Begonnen hat man mit einem Cluster aus
acht Hadoop-Knoten, in denen vor allem die historischen
Pentaho Data Integration (PDI) durchgeführt. PDI bietet
Daten gespeichert und verarbeitet werden. Um die Instal-
eine native Hadoop-Integration und ermöglicht den BI-
lation und Konfiguration des Hadoop-Clusters zu verein-
Anwendern dank grafischer Benutzeroberfläche, die
fachen, wurden Cloudera CDH Images eingesetzt.
komplizierten MapReduce-Jobs, mit denen die Daten im
Die Datenübertragung zwischen DWH und Hadoop-Cluster
sowie die Datenakquise in das Hadoop-Cluster wird mit
Hadoop-Cluster verarbeitet werden, auch ohne Java- oder
Script-Programmierkenntnisse durchzuführen
Ergebnisse
• Data Blending: Auch Data Blending, d.h. die Kombination
von Daten aus dem DWH mit den historischen Daten aus
Die Die hybride Datenarchitektur mit PDI als Dateninte-
Hadoop zur weiteren Bereitstellung für das Reporting-
grations-Tool, das das Zusammenspiel von Big Data und
Frontend, ist mit PDI schnell und einfach durchzuführen.
relationalen Daten sicherstellt, ist seit März 2013 produktiv
bei ProSiebenSat.1 Digital im Einsatz und wird kontinuierlich
weiter ausgebaut.
Die hybride Architektur hat folgende Vorteile:
• Leistungsstarke Bereitstellung der Daten: Die aus mehreren Threads bestehende Integrations-Engine von PDI
ermöglicht eine schnelle Ausführung und Bereitstellung
der Daten aus dem Hadoop-Cluster.
• Die Nutzung des klassischen DWH für die aktuellen Daten
stellt für den BI-Nutzer eine vertraute Umgebung dar, die
aufgrund der vorhandenen SQL-Kenntnisse einfach zu
nutzen ist.
• Die Nutzung von Hadoop für die historischen Daten
macht die Datenhaltung zukunftssicher, da diese einfach
und kostengünstig durch Hinzufügen weiterer Knoten zu
skalieren ist.
• Dass die Daten über die Knoten des Hadoop-Clusters verteilt redundant gespeichert werden, stellt darüber hinaus
die Ausfallssicherheit des Systems sicher.
• Durch den zentralen Ansatz wird die Datenqualität sichergestellt und das zeitaufwendige, manuelle Zusammenführen der ehemals dezentralen Daten durch einen schnellen
und einfachen Zugriff abgelöst. Dadurch ist es möglich,
jederzeit einen zentralen Blick auf die Geschäftsdaten zu
erhalten und schnell auf Entwicklungen zu reagieren.
Der Einsatz von PDI ermöglicht:
• Integration: Die reibungslose Zusammenarbeit von relationaler und Big Data Welt.
Zusammenfassung
Die ProSiebenSat.1 Digital GmbH nutzt Pentaho Data
Integration (PDI) zur Integration von Big Data und relationalen Daten. Die Inovex GmbH, ein Pentaho Partner, hat
für das Unternehmen eine hybride Datenarchitektur mit
einem relationalen Data Warehouse (DWH) auf der Basis
von PostgreSQL, sowie einem vorgelagerten Storage- und
Compute-Cluster auf Basis von Apache Hadoop realisiert.
Die Datenübertragung zwischen DWH und Hadoop-Cluster
sowie die Datenakquise in das Hadoop-Cluster wird mit PDI
durchgeführt, dass eine native Hadoop-Integration bietet.
PDI ermöglicht den BI-Anwendern dank grafischer Benutzeroberfläche, die komplizierten MapReduce-Jobs, mit
denen die Daten im Hadoop-Cluster verarbeitet werden,
auch ohne Java- oder Script-Programmierkenntnisse
durchzuführen. Auch Data Blending, d.h. die Kombination
von Daten aus dem DWH mit den Daten aus Hadoop zur
weiteren Bereitstellung für das Reporting-Frontend, ist
mit PDI schnell und einfach durchzuführen. Das hybride
Konzept macht die Datenhaltung bei ProSiebenSat.1 Digital
zukunftssicher, wobei PDI dafür sorgt, dass beide Welten
reibungslos zusammenarbeiten und die Daten schnell und
einfach den Nutzern zur Verfügung gestellt werden.
• Einfach zu nutzende ETL-Umgebung für Big Data: PDI
löst das Problem, dass zum Ausführen der MapReduceJobs, mit denen die Daten im Hadoop-Cluster verarbeitet
werden, eigentlich Java- oder Scriptkenntnisse benötigt
werden. PDI stellt eine einfache grafische ETL-Umgebung
zur Verfügung, die selbst bei der Nutzung von neuen
Big Data-Technologien auch ohne Spezialkenntnisse zu
bedienen ist.
Be social
with Pentaho:
Copyright ©2016 Pentaho Corporation. All rights reserved. Worldwide +1 (866) 660 7555.
016-023
pentaho.com/de | +1 (866) 660-7555