Pentaho bringt bei ProSiebenSat.1 Digital Big Data und relationale
Transcription
Pentaho bringt bei ProSiebenSat.1 Digital Big Data und relationale
CASE STUDY Pentaho bringt bei ProSiebenSat.1 Digital Big Data und relationale Daten zusammen CASE STUDY Hybride Datenarchitektur kombiniert klassisches Data Warehouse und Hadoop Kunde Die ProSiebenSat.1 Digital GmbH ist als MultimediaUnternehmen der ProSiebenSat.1 Group, eines der führenden Medienhäuser in Europa, für neue digitale Medienangebote zuständig. Das Unternehmen betreibt unter anderem mit der ProSiebenSat.1 Networld (u.a. SAT1.DE, ProSieben.de, MyVideo.de, lokalisten.de) eines der führenden Online-Netzwerke in Deutschland. Mit 20 verschiedenen Marken bildet ProSiebenSat.1 Digital zudem das größte deutsche Netzwerk mobiler Internetseiten. Daneben betreibt das Unternehmen die Teletextseiten der verschiedenen Sender der Gruppe, die beiden Online-Gaming-Portale SevenGames.de und SAT1Spiele.de, sowie weitere Browser-Spiele-Portale. Innovationen wie Hybrid Broadcast Broadband Television (HbbTV), das Fernsehen und Internet auf dem TV-Gerät verbindet, wurden von ProSiebenSat.1 Digital vorangetrieben. Herausforderungen ProSiebenSat.1 Digital suchte eine zentrale Data Warehouse (DWH) Lösung, die die Basis für eine integrierte Betrachtung, Berichterstellung und Analyse von Vermarktungs- und Trackingdaten der verschiedenen Unternehmensbereiche und Abteilungen bilden sollte. Die Datenhaltung der ProSiebenSat.1 Digital war rasant mit den verschiedenen Abteilungen und deren Produkten gewachsen. Die Abteilungen betreuten ihre eigenen Quellsysteme und erstellten auf deren Basis Analysen und Berichte. Diese dezentrale Datenhaltung brachte verschiedene Probleme mit sich. So war es zum Beispiel nur mit hohem manuellen und zeitlichen Aufwand möglich, Daten aus den vielen unterschiedlichen Daten-Silos für gesamtheitliche Berichte und FAKTEN › Branche: Medien ›Unternehmenssitz: Unterföhring bei München ›Internetseite: www.prosiebensat1digital.de ›Produkte: Pentaho Data Integration, Hadoop und PostgreSQL Analysen zusammenzufassen. Daher entschied sich ProSiebenSat.1 Digital, eine zentrale DWH-Lösung zu suchen, die verschiedene Kriterien erfüllen musste. Eines der wichtigsten Kriterien war der Umgang mit dem stetig wachsenden Datenvolumen generiert aus dem Online-Geschäft des Unternehmens, das u.a. Webtracking-Daten und Adserver-Daten umfasst. Wichtig war hier, dass die Lösung zukunftssicher ist, d.h. auch noch in der Lage ist, die Datenwelt der Zukunft abzudecken. Damit zusammenhängend sollte die Lösung in der Lage sein, die vielen sehr unterschiedlichen Datenformate zu verarbeiten. Das Preis-Leistungsverhältnis war daneben ein weiterer zentraler Aspekt. Die Inovex GmbH, ein inhabergeführtes IT-Projekthaus © 2013, Pentaho. All Rights Reserved. pentaho.com. Worldwide +1 (866) 660-7555 "Das hybride Konzept aus klassischer Datenbank und Hadoop macht unsere Datenhaltung zukunftssicher. Pentaho Data Integration stellt dabei sicher, dass beide Welten reibungslos zusammenarbeiten und die Daten schnell und einfach den Nutzern zur Verfügung gestellt werden.“ - Jürgen Popp, Direktor Business Intelligence ProSiebenSat.1 Digital GmbH mit Erfahrung im Bereich Big Data und Pentaho-Partner, erkannte schnell, dass ein klassisches DWH hier rasch an seine Grenzen gelangen würde und schlug, über den eigentlichen Ausschreibungsumfang hinausgehend, ein hybrides Konzept aus klassischer Datenbank und innovativen Big-Data-Technologien vor, bei dem sowohl die Integration der Daten in die verschiedenen Systeme, als auch die Verknüpfung der Daten und die Bereitstellung für das Reporting-Frontend von Pentaho Data Integration (PDI) übernommen wird. Das Konzept überzeugte ProSiebenSat.1 Digital und Inovex wurde mit der Realisierung der hybriden Datenarchitektur beauftragt. ON TIME CASES Um das komplexe hybride System zu verwirklichen, arbeitete Inovex nach der Scrum-Methodik. Dabei wurde das Projekt mit einem Proof-of-Concept gestartet und dann in mehreren kurzen Sprints jeweils weitere Module fertiggestellt. Damit konnte das System inkrementell wachsen und durch kontinuierliches Feedback so umgesetzt werden, wie es den Bedürfnissen von ProSiebenSat.1 Digital entsprach. Diese Vorgehensweise ermöglichte eine effiziente und schnelle Implementierung des Projekts in nur 3 Monaten Lösung Inovex realisierte eine hybride Datenarchitektur mit einem relationalen DWH auf Basis von PostgreSQL, sowie einem vorgelagerten Storage- und Compute-Cluster auf Basis von Apache Hadoop. Begonnen hat man mit einem Cluster aus acht Hadoop-Knoten, in denen vor allem die historischen Daten gespeichert und verarbeitet werden. Um die Installation und Konfiguration des Hadoop-Clusters zu vereinfachen, wurden Cloudera CDH Images eingesetzt. Die Datenübertragung zwischen DWH und HadoopCluster sowie die Datenakquise in das Hadoop-Cluster wird mit Pentaho Data Integration (PDI) durchgeführt. PDI bietet eine native Hadoop-Integration und ermöglicht den BI-Anwendern dank grafischer Benutzeroberfläche, die komplizierten MapReduce-Jobs, mit denen die Daten im Hadoop-Cluster verarbeitet werden, auch ohne Java- oder Script-Programmierkenntnisse durchzuführen Ergebnisse Die Die hybride Datenarchitektur mit PDI als Datenintegrations-Tool, das das Zusammenspiel von Big Data und relationalen Daten sicherstellt, ist seit März 2013 produktiv bei ProSiebenSat.1 Digital im Einsatz und wird kontinuierlich weiter ausgebaut. Die hybride Architektur hat folgende Vorteile: >Die Nutzung des klassischen DWH für die aktuellen Daten stellt für den BI-Nutzer eine vertraute Umgebung dar, die aufgrund der vorhandenen SQL-Kenntnisse einfach zu nutzen ist. >Die Nutzung von Hadoop für die historischen Daten © 2013, Pentaho. All Rights Reserved. pentaho.com. Worldwide +1 (866) 660-7555 macht die Datenhaltung zukunftssicher, da diese einfach und kostengünstig durch Hinzufügen weiterer Knoten zu skalieren ist. >Dass die Daten über die Knoten des Hadoop-Clusters verteilt redundant gespeichert werden, stellt darüber hinaus die Ausfallssicherheit des Systems sicher. >Durch den zentralen Ansatz wird die Datenqualität sichergestellt und das zeitaufwendige, manuelle Zusammenführen der ehemals dezentralen Daten durch einen schnellen und einfachen Zugriff abgelöst. Dadurch ist es möglich, jederzeit einen zentralen Blick auf die Geschäftsdaten zu erhalten und schnell auf Entwicklungen zu reagieren. Der Einsatz von PDI ermöglicht: >Integration: Die reibungslose Zusammenarbeit von relationaler und Big Data Welt. >Einfach zu nutzende ETL-Umgebung für Big Data: PDI löst das Problem, dass zum Ausführen der MapReduce-Jobs, mit denen die Daten im Hadoop-Cluster verarbeitet werden, eigentlich Java- oder Scriptkenntnisse benötigt werden. PDI stellt eine einfache grafische ETL-Umgebung zur Verfügung, die selbst bei der Nutzung von neuen Big Data-Technologien auch ohne Spezialkenntnisse zu bedienen ist.  >Data Blending: Auch Data Blending, d.h. die Kombination von Daten aus dem DWH mit den historischen Daten aus Hadoop zur weiteren Bereitstellung für das Reporting-Frontend, ist mit PDI schnell und einfach durchzuführen. >Leistungsstarke Bereitstellung der Daten: Die aus mehreren Threads bestehende Integrations-Engine von PDI ermöglicht eine schnelle Ausführung und Bereitstellung der Daten aus dem Hadoop-Cluster. Zusammenfassung Die ProSiebenSat.1 Digital GmbH nutzt Pentaho Data Integration (PDI) zur Integration von Big Data und relationalen Daten. Die Inovex GmbH, ein Pentaho Partner, hat für das Unternehmen eine hybride Datenarchitektur mit einem relationalen Data Warehouse (DWH) auf der Basis von PostgreSQL, sowie einem vorgelagerten Storage- und Compute-Cluster auf Basis von Apache Hadoop realisiert. Die Datenübertragung zwischen DWH und Hadoop-Cluster sowie die Datenakquise in das Hadoop-Cluster wird mit PDI durchgeführt, dass eine native Hadoop-Integration bietet. PDI ermöglicht den BI-Anwendern dank grafischer Benutzeroberfläche, die komplizierten MapReduce-Jobs, mit denen die Daten im Hadoop-Cluster verarbeitet werden, auch ohne Java- oder Script-Programmierkenntnisse durchzuführen. Auch Data Blending, d.h. die Kombination von Daten aus dem DWH mit den Daten aus Hadoop zur weiteren Bereitstellung für das ReportingFrontend, ist mit PDI schnell und einfach durchzuführen. Das hybride Konzept macht die Datenhaltung bei ProSiebenSat.1 Digital zukunftssicher, wobei PDI dafür sorgt, dass beide Welten reibungslos zusammenarbeiten und die Daten schnell und einfach den Nutzern zur Verfügung gestellt werden. To learn more about Pentaho software and services, contact Pentaho: pentaho.com/contact +1 (866) 660-7555 (worldwide) Be social with Pentaho: © 2013, Pentaho. All Rights Reserved. pentaho.com. Worldwide +1 (866) 660-7555