Page as PDF - Max-Planck

Transcription

Page as PDF - Max-Planck
Jahrbuch 2015/2016 | Dohmen, Renate; Lederer, Hermann; Rampp, Markus; Ritz, Raphael |
Hochleistungsrechnen und Unterstützung datenintensiver W issenschaften
Hochleistungsrechnen und Unterstützung datenintensiver
Wissenschaften
High-performance computing and support of data-intensive
sciences
Dohmen, Renate; Lederer, Hermann; Rampp, Markus; Ritz, Raphael
Max Planck Computing and Data Facility (MPCDF), Garching
Korrespondierender Autor
E-Mail: [email protected]
Zusammenfassung
Die
MPCDF optimiert komplexe
Astrophysik,
Plasmaphysik
Anw endungscodes
und
anderen
aus
Materialw issenschaften, Lebensw issenschaften,
Disziplinen
für
den
Einsatz
auf
massiv-parallelen
Hochleistungsrechnern und bietet Unterstützung beim Datenmanagement für alle Phasen des Lebenszyklus
von Forschungsdaten sow ie für die Visualisierung und Exploration von Simulationsdaten. Die MPCDF ist
maßgeblich an Projekten auf MPG-, nationaler und europäischer Ebene beteiligt.
Summary
The MPCDF supports optimization of complex applications from material sciences, life sciences, astrophysics,
plasma physics, and other disciplines for massively parallel high-performance computers and offers data
management services and infrastructure for all phases of the data life cycle. Moreover, the MPCDF provides
data visualization services for the exploration and quantitative analysis of simulation results. The MPCDF plays
a leading role in projects w ithin the MPG and at national and European level.
1 Hochleistungsrechnen
Der an der Max Planck Computing and Data Facility (MPCDF) im Einsatz befindliche MPG-Hochleistungsrechner
mit über 80.000 Rechenkernen und 700 Beschleunigerkarten (676 Kepler K20X-GPUs, 24 Intel-Xeon-PhiKarten) und einer aggregierten Peakleistung von 2,8 PetaFlop/s w ird intensiv von vielen Max-Planck-Instituten
genutzt. Zusätzlich w erden Linux-Cluster für zahlreiche Max-Planck-Institute aus ganz Deutschland betrieben.
In
enger
Zusammenarbeit
Anw endungen
optimiert,
von
portiert
MPCDF-Experten
und
und
Ergebnisse
Code-Entw icklern
grafisch
an
aufbereitet.
den
Dies
Instituten
erfolgte
w urden
auch
für
Rechenarchitekturen und Systeme, die nicht an der MPCDF, sondern an den Instituten oder anderen Zentren
w eltw eit im Einsatz sind.
1.1 Anwendungsoptimierung im Hochleistungsrechnerbereich
© 2016 Max-Planck-Gesellschaft
w w w .mpg.de
1/7
Jahrbuch 2015/2016 | Dohmen, Renate; Lederer, Hermann; Rampp, Markus; Ritz, Raphael |
Hochleistungsrechnen und Unterstützung datenintensiver W issenschaften
Im Bereich der Anw endungsoptimierung an der MPCDF w erden bereits parallele Codes, etw a aus der
Materialforschung, der Plasmaphysik oder der Astrophysik, bezüglich ihrer Skalierbarkeit optimiert und
algorithmisch für die Verw endung auf Supercomputern mit sehr hoher Prozessorzahl oder auf neuen
Prozessorarchitekturen, w ie etw a GPU oder Xeon Phi, vorbereitet. Existierende, sequenzielle Applikationen
w erden
parallelisiert,
Softw aretechnologien
durch
algorithmische
portiert. Darüber
Maßnahmen
hinaus
w erden
beschleunigt
und
W issenschaftler
auf
neue
Hard-
und
zum effizienten
Einsatz
von
Applikationen auf einem jew eils geeigneten Hochleistungsrechnersystem beraten und bei der Vor- und
Nachbereitung
von
umfangreichen
Produktionsrechnungen,
etw a
durch
systematische
Benchmarks
beziehungsw eise mit der Implementierung und Anw endung von Visualisierungskonzepten, aktiv unterstützt.
Im Laufe des Jahres w urden signifikante Beiträge unter anderem zu den folgenden Anw endungen geleistet:
Parallelisierung und Optimierung neu implementierter Methoden (GW, RPA) im DFT-Code FHI-aims aus dem
Fritz-Haber-Institut,
Erhöhung
der
parallelen
Skalierbarkeit
beziehungsw eise
Optimierung
der
Einzelprozessorleistung der allgemein-relativistischen (Magneto-)Hydrodynamik-Codes ECHO und NADA, beide
aus dem Max-Planck-Institut für Astrophysik, Parallelisierung und Optimierung des Navier-Stokes-Lösers
nsCouette
[1] aus
dem Max-Planck-Institut für Dynamik und Selbstorganisation, Mitentw icklung des
Programms SASHisto aus dem Max-Planck-Institut für Biophysik zur effizienten Ausw ertung von Daten aus
atomistischen
Molekulardynamik-Simulationen
Rechnerarchitekturen,
Entw icklung
und
und
Pflege
Optimierung
einer
für
heterogene
hochskalierenden
CPU-GPU-
und
-optimierten
Eigenw ertlöserbibliothek, ELPA [2], in einem Forschungsverbund, Parallelisierung und Optimierung des
dreidimensionalen MHD-Codes GOEMHD3 [3] zur Untersuchung von Eruptionen in der Sonnenkorona aus dem
Max-Planck-Institut
für
Sonnensystemforschung,
Entw icklung
eines
echtzeitfähigen
Tokamak-
Gleichgew ichtscodes, GPEC [4], für ASDEX-Upgrade aus dem Max-Planck-Institut für Plasmaphysik (IPP). Die
drei letztgenannten Projekte w erden nachfolgend ausführlicher dargestellt.
1.1.1 Parallelisierung des Magnetohydrodynamik-Codes GOEMHD3
Der am Max-Planck-Institut für Sonnensystemforschung entw ickelte, dreidimensionale MagnetohydrodynamikCode GOEMHD3 zur Untersuchung von Eruptionen in der Sonnenkorona w urde an der MPCDF parallelisiert und
optimiert.
Ausgehend
von
einem
im
Wesentlichen
seriellen
Fortran-Programm
w urde
ein
hybrides
Parallelisierungskonzept basierend auf den Standards MPI (Message Passing Interface) und OpenMP erarbeitet
und als klassische, MPI-basierte zw eidimensionale Zonenzerlegung mit Randaustausch und OpenMPParallelisierung innerhalb der MPI-Domänen implementiert. Skalierbare Datenein- und ‑ausgabe, sow ohl als
„Checkpoint/Restart“-Mechanismus
als
auch
zu
Analysezw ecken, w urde
mittels
der parallelen
HDF5-
Bibliotheken realisiert.
Zusammen mit w eiteren algorithmischen Optimierungen ermöglicht der neue Code nun, Simulationen in der
Größenordnung von bis zu etw a 1000 Gitterpunkten je Raumrichtung durchzuführen. Eine gemeinsame
Publikation [3] dokumentiert die numerischen Methoden und deren Implementierung und demonstriert neben
der Genauigkeit und Robustheit des Codes die hohe parallele Effizienz von GOEMHD3 auf bis zu 36.000
Prozessorkernen.
1.1.2 Entwicklung des echtzeitfähigen Tokamak-Gleichgewichtscodes GPEC
Basierend auf dem am IPP entw ickelten und bei ASDEX-Upgrade (AUG) für Offline-Analysen eingesetzten
© 2016 Max-Planck-Gesellschaft
w w w .mpg.de
2/7
Jahrbuch 2015/2016 | Dohmen, Renate; Lederer, Hermann; Rampp, Markus; Ritz, Raphael |
Hochleistungsrechnen und Unterstützung datenintensiver W issenschaften
Tokamak-Gleichgew ichtscode IDE (R. Fischer) zur numerischen Lösung der Grad-Shafranov-Gleichung w urde an
der MPCDF eine echtzeitfähige Variante, GPEC, entw ickelt [4, 5]. Die Echtzeitfähigkeit und Genauigkeit des
neuen Codes w urden vor Kurzem anhand von Offline-Prozessierungen von AUG-Daten demonstriert [5]. Mit
einer poloidalen Auflösung von 32 x 64 Zonen zur Diskretisierung der Grad-Shafranov-Gleichung und sieben
Basisfunktionen zur Anpassung der Messw erte an die Vorw ärtsmodellierung erreicht GPEC Laufzeiten von
deutlich unter einer Millisekunde (Steuerungszyklus von Tokamaks der Dimension von AUG), erlaubt dabei vier
Konvergenziterationen und berechnet alle relevanten Steuergrößen des AUG-Experiments. Die optimierte
Variante w ird für zeitnahe Offline-Analysen w ährend des AUG-Experimentbetriebs eingesetzt [6]. GPEC basiert
auf quelloffener Softw are und w ird auf Standard-Serverhardw are betrieben, um langfristige Portabilität sow ie
Konsistenz mit Vorgaben der europäischen Fusionsforschung (z. B. Softw arepolicies des ITER-Experiments) zu
gew ährleisten.
1.1.3 Hochskalierbare Eigenwertlöser-Bibliothek ELPA
Die ursprünglich im Verbundprojekt ELPA des Bundesministeriums für Bildung und Forschung (BMBF) von 2008
bis 2011 entw ickelten, hochskalierenden direkten Eigenlöser für symmetrische Matrizen w urden als frei
verfügbare Softw are w eiter gepflegt. Die ELPA-Bibliothek erfreut sich großer Nachfrage und w ird w eltw eit für
verschiedenste Simulationssoftw arepakete auf Supercomputern eingesetzt.
1.2 PRACE
Die MPCDF ist als Tier1-Partner gemeinsam mit dem Gauß Centre for Supercomputing (GCS) über das EUProjekt PRACE-4IP w eiter an PRACE, der Partnership for Advanced Computing in Europe, beteiligt.
Herausragende Simulationsprojekte aus ganz Europa w erden durch europäische HPC-Zentren gemeinsam
unterstützt. Auch an der Organisation und Durchführung der internationalen HPC Summer School in
Computational Sciences, die im Juni 2015 für 80 europäische, japanische, kanadische und US-amerikanische
Doktoranden und Postdocs in Toronto stattfand, w ar die MPCDF w ieder maßgeblich beteiligt.
1.3 Visualisierung wissenschaftlicher Daten
Die MPCDF betreibt für die Max-Planck-Gesellschaft eine zentrale Soft- und Hardw areinfrastruktur zur
interaktiven Visualisierung und quantitativen Analyse von Simulationsdatensätzen. Unabhängig vom Typ, der
Leistung und dem Standort seines Endgeräts (Arbeitsplatzrechner, Laptop etc.) kann ein W issenschaftler über
das Internet Simulationsdaten, die auf den Großrechnern der MPCDF generiert w urden, mithilfe der
leistungsfähigen Grafik-Hardw are an der MPCDF interaktiv analysieren. Die MPCDF unterstützt W issenschaftler
bei der Nutzung dieser Ressourcen und übernimmt konkrete Visualisierungsprojekte.
Als aktuelles Beispiel dafür sei die Visualisierung von Datensätzen aus umfangreichen, dreidimensionalen
Simulationen von Neutrino-getriebenen Supernova-Explosionen [7, 8] aus dem Max-Planck-Institut für
Astrophysik genannt. Der Simulationscode VERTEX w ird an der MPCDF mitentw ickelt und w ird fortlaufend für
höchste Skalierbarkeit und neue Rechnerarchitekturen optimiert [9, 10]. Die nachstehende Abbildung 1 zeigt
zu verschiedenen Zeiten w ährend der Simulation ausgew ählte Isoflächen der Entropie, auf denen jew eils die
radiale Komponente der Geschw indigkeit des stellaren Materials farbcodiert dargestellt ist. Die sich
ausdehnende Stoßw elle ist als hellblaue Schale, der Neutronenstern als helle Kugel im Zentrum erkennbar.
Neben diesen mit etablierten Techniken erzeugten Visualisierungen w urden im Rahmen des Projekts auch
© 2016 Max-Planck-Gesellschaft
w w w .mpg.de
3/7
Jahrbuch 2015/2016 | Dohmen, Renate; Lederer, Hermann; Rampp, Markus; Ritz, Raphael |
Hochleistungsrechnen und Unterstützung datenintensiver W issenschaften
„interaktive“ Graphiken erzeugt. Mithilfe des Web-Standards x3dom können (dreidimensionale) Datensätze
der interaktiven Exploration durch den Betrachter (z. B. Zoomen, Vergrößern, Drehen etc.) zugänglich gemacht
w erden.
Fachjournale
w ie
z.
B.
das
Astrophysical
Journal,
wo
oben
genannte
Simulationen
und
Visualisierungen publiziert w urden [7], fördern diese neue Art der Darstellung auf ihren W ebseiten.
A bb. 1: Isoflä che n de r Entropie m it fa rbcodie rte r ra dia le r
Kom pone nte de r Ge schwindigk e it de s ste lla re n Ma te ria ls zu
ve rschie de ne n Ze itpunk te n de r Supe rnova sim ula tion.
© Da te n: Ma x -P la nck -Institut für Astrophysik (MP A);
Visua lisie rung: Ele na Era stova , Ma rk us R a m pp (MP C DF),
Tobia s Me lson, Ha ns-Thom a s Ja nk a (MP A)
2 Unterstützung datenintensiver Wissenschaften
Einen zw eiten Schw erpunkt in der MPCDF stellt die Unterstützung für datenintensive W issenschaften dar.
Diese reicht von der Bereitstellung verschiedener Basisdienste w ie Backuplösungen oder Archivdiensten bis
hin zu maßgeschneiderten Lösungen für individuelle Projekte – sei es innerhalb der Max-Planck-Gesellschaft
oder in nationalen und internationalen Kollaborationen. Ziel ist dabei immer, die Position der Max-PlanckGesellschaft und ihrer Institute
Anstrengungen
unternommen,
im Bereich des
die
Umgangs
Netzw erkanbindungen
mit Daten zu stärken. Daneben w urden
derjenigen
Max-Planck-Institute,
die
die
Datendienste der MPCDF besonders intensiv nutzen (w ollen), zu verbessern. So w urden in Zusammenarbeit
mit dem Deutschen Forschungsnetz (DFN) hochperformante Leitungen unter anderem nach Greifsw ald (IPP),
Martinsried (Max-Planck-Institut für Biochemie und Max-Planck-Institut für Neurobiologie) und via Stuttgart
(Max-Planck-Institut für Festkörperphysik und Max-Planck-Institut für Intelligente Systeme) nach Frankfurt
(Max-Planck-Institut für Biophysik und Max-Planck-Institut für Hirnforschung) etabliert beziehungsw eise
vorbereitet, um zukünftig noch bessere Unterstützung ausw ärtiger Institute anbieten zu können.
2.1 Speichersysteme
Neben den seit vielen Jahren etablierten und intensiv genutzten Backup- und Archivdiensten w urde 2015
aufgrund der hohen Nachfrage insbesondere der im Jahr zuvor neu eingeführte Sync&Share-Dienst w eiter
ausgebaut. Dieser Dienst ermöglicht es, Dateien oder ganze Verzeichnisse über verschiedene Endgeräte
hinw eg synchron zu halten (sync) sow ie sie mit Kollegen teilen zu können (share), ohne sie per E-Mail oder
Ähnlichem gezielt versenden zu müssen. Darüber hinaus w urden speziell für das Max-Planck-Institut für
Biochemie in Martinsried sow ie für das IPP in Greifsw ald dedizierte Massenspeichersysteme in Garching
eingerichtet, die auf der Basis des High-Performance Storage Systems (HPSS) von IBM und vermittelt durch
das GPFS-HPSS-Interface (GHI) einen transparenten Zugriff vor Ort auf die bei der MPCDF liegenden Daten
erlauben.
© 2016 Max-Planck-Gesellschaft
w w w .mpg.de
4/7
Jahrbuch 2015/2016 | Dohmen, Renate; Lederer, Hermann; Rampp, Markus; Ritz, Raphael |
Hochleistungsrechnen und Unterstützung datenintensiver W issenschaften
2.2 Softwareentwicklung und Versionsverwaltung mit GitLab
Die Entw icklung und Pflege von Programmcodes spielt auch in der w issenschaftlichen Arbeit eine immer
größere Rolle. Daher hat die MPCDF ihre Unterstützung in diesem Bereich im Jahr 2015 durch die Einführung
eines neuen Dienstes erw eitert. Mit MPCDF GitLab steht nun allen Mitgliedern der Max-Planck-Gesellschaft und
ihren
Kollaborationspartnern
eine
Entw icklungsplattform
zur
Verfügung,
in
der
das
verteilte
Versionskontrollsystem Git mit w eiteren Entw icklungsw erkzeugen (W ikis, Issue Tracker, Continous-integrationServices) integriert auch über eine Weboberfläche angeboten w ird. Damit w ird erreicht, dass Mitglieder der
Max-Planck-Gesellschaft einen Dienst ähnlich GibHub zur Verfügung haben, ohne aber ihre Daten einem
externen Provider anvertrauen oder Gebühren für nicht-öffentliche Repositorien zahlen zu müssen.
2.3 Entwicklung und Betrieb einer Datenbank für die Materialwissenschaften: NoMaD
Stellvertretend für die individuelle Unterstützung
von Datenprojekten in der Max-Planck-Gesellschaft sei
dieses Jahr das Novel-Materials-Discovery-Projekt (NoMaD) angeführt. Ziel dieses vom Fritz-Haber-Institut der
MPG
geleiteten
Projekts
ist
es,
durch
das
Zusammenführen
vielfältigster
Daten
aus
den
Materialw issenschaften letztlich die Suche nach neuen Werkstoffen und bisher unbekannten Eigenschaften
von Materialien zu vereinfachen. Die MPCDF betreibt für dieses Projekt das NoMaD-Repository, in dem eine
Vielzahl von materialw issenschaftlichen Daten zusammengeführt und verfügbar gemacht w ird. Dies beinhaltet
den Betrieb der notw endigen IT-Infrastruktur (Rohdatenspeicher, Datenbank- und Webapplikation) ebenso
w ie die Weiterentw icklung des Systems. Konkret w urde im Laufe des Jahres 2015 die Webschnittstelle der
Datenbank von Mitarbeitern der MPCDF komplett neu entw ickelt. Damit konnten die Performanz, die
Skalierbarkeit und die Robustheit des Systems w esentlich gesteigert w erden. Auch neue Features, w ie die
Erteilung und Verw altung von Digital Object Identifiern (DOIs) für Datensätze des NoMaD-Repositorys, w urden
implementiert. Seit November 2015 ist die MPCDF auch in dem von der EU als Centre of Excellence geförderten
„NOMAD Laboratory“
als
Kooperationspartner beteiligt, w elches
vielfältige
Visualisierungsdienste
und
Analysemöglichkeiten für die im Repository gesammelten Daten entw ickeln w ird.
2.4 Internationale Datenprojekte
W ie schon in den Jahren zuvor beteiligte sich die MPCDF auch 2015 aktiv an mehreren internationalen
Datenprojekten mit dem Ziel, auch in Zukunft die Max-Planck-Gesellschaft und ihre Institute im Umgang mit
Forschungsdaten bestmöglich unterstützen zu können – Stichw orte: Open Access, Open Data, Open Science.
2.4.1 European data infrastructure (EUDAT)
Die EUDAT-Dateninfrastruktur gründet auf einem Netzw erk von Forschungsdatenrepositorien und nationalen
Rechenzentren, das in Zusammenarbeit mit renommierten Forschungseinrichtungen und unterstützt durch die
EU Datendienste entw ickelt und betreibt. Auch im Jahr 2015 koordinierte die MPCDF den Betrieb der
Infrastruktur und beteiligte sich an der (Weiter-)Entw icklung der angebotenen Dienste. Darüber hinaus w urde
zu Aufbau und Pflege von Kontakten und Interaktionen mit Vertretern fachw issenschaftlicher Communitys und
Forschungsinfrastrukturen beigetragen.
© 2016 Max-Planck-Gesellschaft
w w w .mpg.de
5/7
Jahrbuch 2015/2016 | Dohmen, Renate; Lederer, Hermann; Rampp, Markus; Ritz, Raphael |
Hochleistungsrechnen und Unterstützung datenintensiver W issenschaften
2.4.2 Research Data Alliance (RDA)
Die Research Data Alliance (RDA) – sow ie ihr europäischer Ableger RDA-Europe – haben zum Ziel, die sozialen
und technischen Brücken zu bauen, die ein offenes Teilen und Publizieren von Forschungsdaten auf globaler
Ebene und über alle Disziplinen hinw eg erst ermöglichen. Vertreter der MPCDF haben in unterschiedlicher
Funktion an dieser Initiative mitgew irkt: in thematisch fokussierten Arbeits- und Interessengruppen genauso
w ie in zentralen Einrichtungen (Technical Advisory Board; RDA Sekretariat). Darüber hinaus hat die MPCDF im
Jahr 2015 die Koordination des RDA-Europe-Projekts in seiner nun dritten Förderphase übernommen.
Literaturhinweise
[1] Shi, L.; Rampp, M.; Hof, B.; Avila, M.
A hybrid MPI-OpenMP parallel implementation for pseudospectral simulations with application to TaylorCouette flow
Computers & Fluids 106, 1-11 (2015) arXiv:1311.2481
[2] Marek, A.; Blum, V.; Johanni, R.; Havu, V.; Lang, B.; Auckenthaler, Th.; Heinecke, A.; Bungartz, H.-J.;
Lederer, H.
The ELPA Library – scalable parallel eigenvalue solutions for electronic structure theory and
computational science
Journal of Physics: Condensed Matter 26, 213201 (2014)
[3] Skála, J.; Baruffa, F.; Büchner, J.; Rampp, M.
The 3D MHD code GOEMHD3 for astrophysical plasmas with large Reynolds numbers. Code description,
verification, and computational performance.
Astronomy & Astrophysics 580, A48 (2015) arXiv:1411.1289
[4] Rampp, M.; Preuss, R.; Fischer, R. & ASDEX Upgrade Team
GPEC, a real-time capable tokamak equilibrium code
Fusion Science & Technology, accepted, (2016) arXiv:1511.04203
[5] Rampp, M.; Preuss, R.; Fischer, R.; Hallatschek, K.; Giannone, L.
A parallel Grad-Shafranov solver for real-time control of tokamak plasmas
Fusion Science & Technology 62, 409-418 (2012)
[6] Fischer, R.; Bock, A.; Dunne, M.; Fuchs, J. C.; Giannone, L.; Lackner, K.; McCarthy, P. J.; Poli, E.;
Preuss, R.; Rampp, M.; Schubert, M.; Stober, J.; Suttrop, W.; Tardini, G.; Weiland, M. & ASDEX Upgrade
Team
Coupling of the flux diffusion equation with the equilibrium reconstruction at ASDEX Upgrade
Fusion Science & Technology 69, 526-536 (2016)
[7] Melson, T.; Janka, H.-Th.; Marek, A.
Neutrino-driven supernova of a low-mass iron-core progenitor boosted by three-dimensional turbulent
convection
Astrophysical Journal 801, L24 (2015) arXiv:1501.01961
© 2016 Max-Planck-Gesellschaft
w w w .mpg.de
6/7
Jahrbuch 2015/2016 | Dohmen, Renate; Lederer, Hermann; Rampp, Markus; Ritz, Raphael |
Hochleistungsrechnen und Unterstützung datenintensiver W issenschaften
[8] Breuer, R.
Warum Supernovae explodieren
Bild der W issenschaft, Januar 2015.
[9] Marek, A.; Rampp, M.; Hanke, F.; Janka, H.-Th.
Towards petaflops capability of the VERTEX supernova code
Advances in Parallel Computing 25, 712-721 (2014) arXiv:1404.1719
[10] Dannert, T.; Marek, A.; Rampp, M.
Porting large HPC applications to GPU clusters: the Codes GENE and VERTEX
Advances in Parallel Computing 25, 305-314 (2014) arXiv:1310.1485
© 2016 Max-Planck-Gesellschaft
w w w .mpg.de
7/7