Die Geschichte und Gegenwart der Cray-Supercomputer

Transcription

Technische Universität Ilmenau
Fakultät für Informatik und Automatisierung
Fachgebiet Rechnerarchitekturen
Betreuer: Dr.-Ing. Bernd Däne
Hauptseminar
Sommersemester 2005
Zum Thema
Die Geschichte und Gegenwart der Cray-Supercomputer
Bearbeiter:
Markus Malicke
Termin:
07. Juli 2005
Inhaltsverzeichnis
INHALTSVERZEICHNIS………………………………………………………………… 2
1. Einleitung……………………………………………………………………………….. 3
2. Vorbetrachtungen..…………………………………………………………………….. 3
2.1. Supercomputer – Eine Definition………………………………………………... 3
2.2. Einsatzgebiete von Cray-Supercomputern……………………………................. 5
3. Die Geschichte der Cray-Supercomputer…………………………………………….. 6
3.1. Seymour Cray – Ein Mann mit einer Vision…………………………………….. 6
3.2. Die Cray-1……………………………………………………………………….. 7
3.3. Die Cray-2……………………………………………………………………….. 9
3.4. Die Cray-3……………………………………………………………………….. 12
3.5. Der Cray XD1 Supercomputer…………………………………………………... 14
4. Schlussbemerkungen…………………………………………………………………… 18
4.1. Zusammenfassung……………………………………………………………….. 18
4.2. Ausblick………………………………………………………………………….. 19
ABKÜRZUNGSVERZEICHNIS………………………………………………………….. 20
ABBILDUNGSVERZEICHNIS…………………………………………………………… 21
LITERATURVERZEICHNIS..…………………………………………………………… 22
Hauptseminar: Die Geschichte und Gegenwart der Cray-Supercomputer
-2-
1 Einleitung
Gegenstand und Ziel dieser Arbeit ist es, einen Einblick in den historischen Werdegang der
Supercomputer der Marke „Cray“ zu gewähren. Dieser reicht von der Entstehung der ersten
Systeme bis in die Gegenwart. Anhand von ausgewählten Beispielmaschinen werden
technische Details näher erläutert. Dadurch ist die Beschreibung des technischen und auch
wirtschaftlichen Entwicklungswegs möglich. Außerdem wird die gegenwärtige und
perspektivische Bedeutung von Cray-Supercomputern gezeigt.
2 Vorbetrachtungen
2.1 Supercomputer – Eine Definition
Wann spricht man von einem Supercomputer?
Zunächst eine weniger seriöse Definition:
„Ein Supercomputer ist jeder Computer, der IBM’s gegenwärtig schnellsten Computer
aussticht – macht es also für IBM unmöglich, einen Supercomputer herzustellen.“
[Wird einem Professor an der University of South Wales zugeschrieben (1990)]
Das erste Mal wurde der Begriff „Supercomputer“ 1920 in der Zeitschrift New York World
erwähnt. Darin bezog sich der Begriff auf große Tabulatoren (gewöhnliche Rechenmaschinen), die von der Firma IBM hergestellt wurden. Die Grundfunktion war das Zählen
und/oder Addieren mit Hilfe von Lochkarten. Der Tabulator wurde vom IBM-Gründer
Herman Hollerith (1860-1929) erfunden [2]. Abbildung 2.1/1 zeigt eine solche
Rechenmaschine.
Es gibt ein breites Spektrum an
Definitionen in Lexika. In einem
Satz gesagt: Supercomputer sind
die leistungsfähigste Form von
Computern. Dazu führt der
Brockhaus aus: „Supercomputer,
ein Höchstleistungsrechner mit
hoher Rechenleistung, Datenspeicherkapazität und Übertragungsgeschwindigkeit …“ [1].
Demnach bezeichnet man Hochleistungsrechner
als
Supercomputer, die zum Zeitpunkt
ihrer Einführung im obersten
überhaupt
realisierbaren
Hollerith Typ III Tabulator (1932) [2]
Leistungsbereich operieren. Im Abb. 2.1/1
Gegensatz zu konventionellen Rechnern haben Supercomputer gewöhnlich mehr als einen
-3-
Prozessor, die auf einen sehr großen Hauptspeicher zugreifen und meistens parallel arbeiten.
Höhere Performance wird mit MPP (Massively Parallel Processing) erreicht, wobei tausende
von Prozessoren miteinander vernetzt sind. Ebenso besitzen sie eine sehr schnelle Ein/Ausgabe-Fähigkeit. In Abbildung 2.1/2 werden einige interessante „Leistungen“ von
speziellen Supercomputern genannt.
Mittlerweile etablieren sich auch so genannte „Cluster“, bei denen (meist preiswerte)
Einzelrechner zu einem großen Rechner vernetzt werden [3].
Leistungen* von Supercomputern
¾ Sämtliche Berechnungen aller Computer weltweit von 1960 bis 1970 könnte der
Earth Simulator (Yokohama, Japan) in etwa 35 Minuten durchführen.
¾ Deep Blue 2 (Hochleistungsrechner von IBM) schlägt als erster Computer einen
Schachweltmeister in einem offiziellen Zweikampf.
¾ Yasumasa Kanada bestimmt die Kreiszahl π mit einem Hitachi SR8000 der Uni
Tokyo auf 1,24 Billionen Stellen genau.
* im weiteren Sinne
„Leistungen“ spezieller Großrechner [3]
Abb. 2.1/2
Die schnellsten Supercomputer werden halbjährlich in der Top-500-Liste aufgeführt. Das
Projekt wurde 1993 gestartet, um Trends im „High Performance Computing“ (HPC)
feststellen zu können. Als Bewertungsgrundlage dient der Linpack-Benchmark. Die 24. Top500-Liste wurde am 8. November 2004 während der „Supercomputer Conference“ (SC2004)
in Pittsburgh, PA herausgegeben. Auf Platz 1 befindet sich der BlueGene/L der Firma IBM
(siehe Abbildung 2.1/3). Ein aktuelles System der Firma Cray Inc. erscheint auf Platz 29. Die
Werte Rmax und Rpeak beziehen sich auf den Linpack-Benchmark und werden in GFlops
angegeben (1 Milliarde Fließkommazahloperationen pro Sekunde). Rmax steht für die
maximale, im Test erreichte Leistung, während Rpeak die theoretische Spitzenleistung angibt.
Das Jahr kennzeichnet den Installationszeitpunkt.
Rang
Standort
Land/Jahr
Computer / Prozessoren Computer Familie
Hersteller
Model
Zweck
Rmax
Rpeak
1
IBM/DOE
United States/2004
BlueGene/L beta-System
IBM BlueGene/L
BlueGene/L DD2 betaBlueGene/L
System (0.7 GHz PowerPC
440) / 32768
IBM
Forschung
70720
91750
2
NASA/Ames Research
Center/NAS
United States/2004
Columbia
SGI Altix
SGI Altix 1.5 GHz, Voltaire SGI Altix 1.5 GHz,
Infiniband / 10160
Infiniband
SGI
Forschung
51870
60960
3
The Earth Simulator
Center
Japan/2002
Earth-Simulator / 5120
NEC
Forschung
35860
40960
.
.
.
29
.
.
.
Oak Ridge National
Laboratory
United States/2004
Abb. 2.1/3
NEC Vector
SX6
.
.
.
Cray X1 / 504
Cray Inc.
.
.
.
Cray X1
Cray X1
.
.
.
Forschung
.
.
.
5895
6451
Auszug: 24. Top-500-Liste (11/2004) [4]
-4-
Die 25. Top-500-Liste wird auf der 20. „International Supercomputer Conference“ (ISC2005)
in Heidelberg, Deutschland vom 21. – 24. Juni 2005 veröffentlicht.
2.2 Einsatzgebiete von Cray-Supercomputern
Supercomputer der Firma Cray Inc. finden heute auf vielerlei Weise Anwendung in der
Industrie, in Wissenschaft und Forschung, in Regierungseinrichtungen, beim Militär, usw.
Dabei sind komplexe Problemstellungen mit vielen voneinander abhängigen Variablen
typische Beispiele für das Einsatzgebiet. Gerade für die Vorhersage natürlicher Ereignisse,
wie Hurrikans (Abbildung 2.2/1), Wetter und Klimaveränderungen, sind Supercomputer unverzichtbar. Die
Modellierung spielt eine Schlüsselrolle bei der Untersuchung
und Vorhersage. Supercomputer sind dabei notwendig, um
die physikalischen und chemischen Prozesse zu simulieren,
die den natürlichen Phänomenen zugrunde liegen. Sie unterstützen Wissenschaftler dabei, den globalen Kohlenstoffzyklus zu studieren, und zu ermitteln, ob man den CO2Gehalt verringern kann und dadurch die globale Erwärmung.
Man benötigt immer größere Rechenleistung und SpeicherHurrikan
Abb. 2.2/1
kapazität, um komplexere Systeme zu modellieren, und
Modelle schnell genug zu simulieren. Nur so kann das Wetter vorhergesagt werden, bevor es
eintritt. Das Oak Ridge National Laboratory, die Korea Meteorological Administration, das
Institutio Nacional de Meteorologia (INM) in Spanien u. a. benutzen Cray-Supercomputer für
die Modellierung und Vorhersage von Wetter und Klima.
Ein weiteres Einsatzgebiet von Cray-Systemen ist die pharmazeutische Industrie. Kunden
sind z.B. das Artic Regional Supercomputing Center, das Army High Performance Computing
Research Center, Bionumerik Pharmaceuticals und das South African National
Bioinformatics Institute. Ziel ist es, die Wirkung und Sicherheit lebensrettender Arzneimittel
schneller und gründlicher festzusetzen, bevor man Zeit und Geld in klinische Versuche
investiert. Das Entschlüsseln und Aufzeichnen des menschlichen Genoms war der Anfang
einer neuen Ära. Durch Vorstöße in der Labortechnologie, wie z.B. Massenspektrometrie,
erfährt man eine Überflutung mit Daten. Damit man dieses immense Datenvolumen effektiv
bearbeiten kann, müssen medizinisch-wissenschaftliche Anwendungen und die Computersysteme, auf denen sie laufen, miteinander Schritthalten. Deswegen wird ein höherer Level an
Leistung gefordert.
Die grundlegende und angewandte wissenschaftliche Forschung im Bereich Physik,
Fluiddynamik, Thermodynamik, Testen im Windkanal, Signalanalyse und Chemie fordert
immer mehr den Einsatz von Supercomputern. Die Helmut Schmidt Universität in Hamburg,
das NASA Ames Research Center in den USA und das Pacific Northwest National Laboratory
des U.S. Department of Energy sind drei von mehreren Einrichtungen, die für ihre
Untersuchungen Supercomputer der Firma Cray Inc. verwenden.
Produktentwickler auf der ganzen Welt stützen sich vermehrt auf den CAE-Entwurf, um die
Kosten für neue Produktentwicklungen zu reduzieren. Dieser rechnergestützte Entwurf macht
es möglich, komplexere Designaufgaben in kurzer Zeit zu lösen. Da die Modelle immer
größer und komplexer werden, müssen die Computer, auf denen die CAE-Werkzeuge laufen,
-5-
dem entsprechend mehr Leistung und Geschwindigkeit zur Verfügung stellen. Einrichtungen
und Firmen wie Boeing, Ford Motor Company und das Army High Performance Computing
Research Center (AHPCRC) verwenden Cray-Systeme [5].
1978 wurde die „Cray User Group“ (CUG) gegründet. Sie ist eine unabhängige, freiwillig
organisierte, internationale Vereinigung von Mitgliedsorganisationen, die Cray Inc.
Computersysteme besitzen oder benutzen – mit Nachdruck auf high-end-Leistung, technische
Berechnung und Visualisierung. Die CUG hat es sich zur Aufgabe gemacht, die Führung und
den Informationsaustausch zu sichern, um die Entwicklung und effektive Benutzung von
Hochleistungscomputersystemen zu gewährleisten, wobei Geschäftsfähigkeit und
Forschungsobjekte für CUG - Mitglieder geschaffen werden [9].
3 Die Geschichte der Cray-Supercomputer
3.1 Seymour Cray – Ein Mann mit einer Vision
Die Suche nach dem Anfang der Cray-Computersysteme führt auf den Namen „Seymour
Cray“. Er ist weitläufig als der „Vater des Supercomputers“ bekannt geworden. Seymour
Cray wurde am 28. September 1925 in Chippewa Falls (Wisconsin, USA) geboren. Als Kind
interessierte er sich für Chemie und Radios. Er absolvierte einen
Ingenieursstudiengang an der Universität von Minnesota. 1951 trat er
der „Engineering Research Associates“ bei, die Computer für die
NAVY entwickelte. Seymour Cray spielte eine Schlüsselrolle bei der
Erfindung der ersten Generation von Supercomputern, dem UNIVAC
1103. In den 60er Jahren war Seymour Cray der Mitbegründer der
„Control Data Corporation“ (CDC). Er war ständig auf der Suche
nach neuen Ideen. Die Computer sollten größer und noch schneller
werden. So beschloss Seymour, seinen eigenen Weg zu gehen, um
seine Visionen zu verwirklichen. 1972 gründete er seine eigene
Seymour Firma „Cray Research“. Der Geschäftshauptsitz samt Management
Abb. 3.1/1
Cray [6] war in Minneapolis (Minnesota), während die Fabrikation in seiner
Heimatstadt Chippewa Falls (Wisconsin) angesiedelt war. Damit war der Grundstein für die
Entwicklung der Cray-Supercomputer gelegt [7], [8].
Seymour Cray war ein Visionär, der sich weniger um die Kostenfrage kümmerte. Das war ein
Teil des Geheimnisses um seinen Erfolg. Er beschrieb seine Philosophie einmal wie folgt:
"In all of the machines that I've designed, cost has been very much a secondary
consideration. Figure out how to build it as fast as possible, completely disregarding the
cost of construction."
Aus einer Ansprache von Seymour Cray (1974) [6]
Im Folgenden möchte ich auf einige ausgewählte Beispielmaschinen eingehen, um die
historische und technologische Entwicklung der Cray-Systeme zu zeigen.
-6-
3.2 Die Cray-1
Die Cray-1 (siehe Abbildung 3.2/1) war der erste
Supercomputer der Firma Cray, dessen Architektur
vom Team um Seymour Cray entwickelt wurde.
Seymour Cray war dabei für die Technologie der
Vektor-Register zuständig. Die erste Cray-1 wurde
1976 am Los Alamos National Laboratory in Betrieb
genommen und kostete 8,86 Millionen Dollar. Diese
Maschine überholte die damals existierende
Technologie. Sie erreichte eine maximale Rechengeschwindigkeit von 133 MFlops (133 Millionen
Fließkommazahl-Operationen pro Sekunde), laut
Cray Inc. 100-160 MFlops [10]. Wenn man diese
Leistung auf konventionellem Weg erreichen will,
müsste man 3333 Sun4-Rechner miteinander
verbinden [6].
Abb. 3.2/1
Cray-1 [10]
Die Architektur der Cray-1 spiegelte Seymour Cray’s Fähigkeit wieder, technische Probleme
mit revolutionären Ideen zu überbrücken. Um die Rechengeschwindigkeit zu erhöhen, hatte
die Cray-1 eine Hufeisenform. Auf diese Weise lagen die Schaltkreise dichter beieinander.
Kein Kabel innerhalb des Systems war länger
als 4 Fuß (≈ 1,2 Meter). Das Hauptsächliche an
diesem System war der leistungsfähige Mikroprozessor. Er arbeitete mit einer – für damalige
Verhältnisse – enormen Frequenz von 80 MHz.
Cray-1 hatte einen 8 MB großen Hauptspeicher
(1 Million Speicherzellen á 64 Bit) und 64
Vektor-Register in der Wortbreite von 64 Bit.
Das Gesamtsystem verursachte eine immense
Wärmeentwicklung. Tatsächlich war es so, dass
Seymour Cray’s Entwickler diese Wärme
nutzten, um ihre Büros im Winter zu heizen.
Deswegen setzte man ein spezielles, neues
Kühlsystem der Cray-1 [10]
Abb. 3.2/2
Kühlsystem ein, dargestellt in Abbildung 3.2/2.
Man verwendete Freon als Kühlmittel. Ausgelöst durch die 1 Million Speicherzellen
verbrauchte Cray-1 einschließlich Stromversorgung 115 kW. Wenn man die Kühlung
dazurechnet, wird der Wert annähernd verdoppelt.
Da die Computer heute immer leistungsfähiger und kompakter werden, ist es schwer
vorstellbar, dass Supercomputer wie Cray-1 damals ganze Räume ausnutzten. Man brauchte
Platz für die große Haupteinheit, für die Stromversorgung daneben und für ein paar
Computer, mit deren Hilfe man das Ganze mit Daten füttern konnte. Die Cray-1A (eine erste
Variante) wog 5,5 Tonnen einschließlich des Freon Kühlsystems.
Die Cray-1 war ein Vektorrechner basierend auf SIMD-Architektur. Mit Hilfe dieser
Architektur erreicht man Parallelität mit wenig Chip-Fläche, da mehrere Rechenwerke
vorhanden sind. Der Datensatz wird aufgespalten, und alle Daten werden einem Befehl
unterzogen. Ein Vorteil ist die leichte Skalierbarkeit, d. h. das Erweitern der Hardware-
-7-
Struktur gestaltet sich einfacher. Bei Supercomputern ist der globale Takt ein Problem. Das
Steuerwerk fällt wesentlich größer aus als bei konventionellen Computern (mitunter
Schrankgröße). Trotzdem benötigt jedes Element den gleichen Takt. Durch lange Kabel
entstehen Taktverschiebungen. Bei Cray-1 wurde dieses Problem durch die Hufeisenform und
die dadurch wesentlich kürzeren Kabel kompensiert.
Einzigartig an Cray-1 war die Verwendung von 200.000 ECL-Schaltkreisen (Emittergekoppelte Logik) mit geringer Dichte und sehr hoher Schaltgeschwindigkeit. Es gab keine
Mikroprozessoren. Die individuellen Schaltkreise auf den Platinen erfüllten verschiedene
Funktionen (siehe Abbildung 3.2/3). ECL ist wie ein Differenzverstärker aufgebaut. Mehrere
Transistoren (Anzahl ist schaltungsabhängig) sind über den Emitteranschluss miteinander
verbunden und gemeinsam über eine Konstantstromquelle geführt. Unabhängig vom Zustand
der Logikschaltung ist die Gesamtstromaufnahme dadurch konstant, es ergeben sich
keine Stromspitzen beim Umschalten, wie es bei
anderen Logikfamilien häufig der Fall ist, und
die Zustände können sehr schnell gewechselt
werden. Die Verstärkung dieser Struktur ist
klein, auch im linearen Betrieb führen langsame
Eingangsflanken
zu
keinen
parasitären
Schwingungen. ECL-Schaltkreise arbeiten mit
negativer Spannungsversorgung (Abbildung
3.2/4: Vcc = −5,2V) und benutzen Logiklevel,
Logik-Recheneinheit der
Abb. 3.2/3
Cray-1 [10]
die mit anderen Logikfamilien inkompatibel
sind. Daraus folgt, dass sich die Interaktion von
ECL-Schaltkreisen mit anderen Designs schwierig gestaltet. Die Tatsache, dass die hohen und
niedrigen Logiklevels nah beieinander liegen, hat schmale Rauschgrenzen zur Folge, was
unter Umständen zu Problemen führen kann. Die ECL gehört zu den schnellsten, erhältlichen
Logikfamilien und weist Verzögerungszeiten kleiner als eine Nanosekunde auf. Da die
Transistoren ständig Strom ziehen, ist jedoch
Gnd
die Leistungsaufnahme bei kleinen Schaltzeiten groß, wodurch auch eine Menge
Wärme erzeugt wird. ECL wurde dort
eingesetzt, wo das Hauptaugenmerk auf
Leistung gelegt wurde. Mittlerweile haben
sich andere Logikfamilien wie TTL
(Transistor-Transistor-Logik) und CMOS
(complementary-metal-oxide-semiconductor)
weiterentwickelt und ECL in einigen
Anwendungen ersetzt [11].
Es dauerte mehrere Monate, um einen Cray-1Supercomputer aufzubauen. Hunderte von
Vcc
Leiterplatten und tausende von Kabeln
Beispiel ECL – OR/NORmussten korrekt eingesetzt werden. „Das war Abb. 3.2/4
Gatter
mit 4 Eingängen [21]
eine richtige handerzeugte Maschine“, sagte
Gwen Bell von The Computer Museum History Center [6]. „Man denkt bei diesen ganzen
Kabeln an eine Art Haufen, aber jedes einzelne hat eine präzise Länge.“ Das „National
Center for Atmospheric Research“ (NCAR) war im Juli 1977 der erste offizielle,
-8-
kommerzielle Kunde der Firma Cray. NCAR bezahlte 8.86 Millionen US-Dollar, davon eine
Million für den Speicher. Diese Cray-1 wurde erst 1989 außer Betrieb genommen. Mit
Preisen zwischen 5 Mio. und 8 Mio. Dollar wurden ungefähr 80 Cray-1 weltweit verkauft.
Das schöne daran war, dass man die Maschine in jeder Farbe bestellen konnte, die man haben
wollte – und die hält noch bis heute.
Cray war ein „wunderbarer Packer. Er lernte, wie man Dinge
mit sehr hohen Geschwindigkeiten dicht aneinander setzt,
schneller, als es irgendjemand anderes tun konnte.“
Gwen Bell
(The Computer Museum History Center) [6]
1978 wurde das erste Standardsoftwarepaket für die Cray-1 herausgegeben. Es bestand aus
einem Betriebssystem, dem Cray Operating System (COS), welches später durch eine Cray
spezifische Unix-Variante, das UniCOS abgelöst wurde, der Cray Assembler Language
(CAL) und Cray Fortran, einem Fortran Compiler, der als erster vollautomatisch vektorisieren
konnte.
Die Kombination von ECL und Hufeisenform gab der Cray-1 die damals sehr hohe Leistung
von 133 MFlops in einem relativ „kleinen“ Paket.
3.3 Die Cray-2
1982 wurde die Cray-1 durch die 500 MFflops schnelle Cray X-MP abgelöst, die die erste
Multiprozessormaschine der Firma Cray war. 1985 kam dann die sehr fortgeschrittene Cray-2
auf den Markt. Diese war schon in der Lage 1,9 GFlops (1 Milliarde FließkommazahlOperationen pro Sekunde) in der Spitze zu erreichen. Die Cray-2 war eine Klasse für sich. Sie
war auch ein Vektorrechner, besaß bis zu 4 Prozessoren mit je einem Taktzyklus von 4,1
Nanosekunden (entsprechend 243 MHz) und hatte einen Hauptspeicher angefangen bei 512
MB bis zu 4 GB. Diese Größe wurde von anderen Computersystemen für ein Jahrzehnt nicht
überboten. Die Cray-2 hatte wie die
Cray-1 eine Hufeisenform. Sie war
bereits etwas kleiner – einen Durchmesser von 1,35 Meter und eine Höhe
von 1,15 Meter. Sie benötigte einen
separaten Kühlturm. Dazu aber später
mehr. Abbildung 3.3/1 zeigt im
Vordergrund die Cray-2 und den
Kühlturm rechts daneben. Links im
Hintergrund steht eine Cray-1 [12].
Seymour Cray baute auf seinem
Erfolg mit der Cray-1 auf. Ab 1979
hatte er die ständigen Unterbrechungen seiner Arbeit durch das
Cray-2 mit Kühlturm [12]
Abb. 3.3/1
Management satt und beschloss, die
Managementstelle zu schließen und ein neues Labor zu gründen. Das Management verstand
-9-
seine Bedürfnisse und unterstütze ihn bei der Errichtung eines neuen Labors, genannt „Cray
Labs“, in Boulder (Colorado). Dort fungierte er als „unabhängiger Berater“. Seymour Cray
stellte ein Team zusammen, und arbeitete an einem komplett neuen Design.
Hier ein kleiner Rückblick. Cray unternahm früher drei Maßnahmen, um das Problem der
steigenden Geschwindigkeiten anzugehen. Mehr Funktionseinheiten gaben dem System
höhere Parallelität. Die Baugruppen mussten dichter gepackt werden, um die
Verzögerungszeiten zu minimieren. Nicht zuletzt konnte eine höhere Taktrate für das System
nur durch schnellere Komponenten gewährleistet werden. Durch die unglaubliche Dichte der
Komponenten wurde zwar die Taktrate erheblich erhöht. Aber gleichzeitig konnte sie zum
Absturz der Maschine führen. Ein einzelner defekter Transistor legt ein komplettes Modul
lahm. Dann werden mehrere dieser Module dicht auf eine Schaltkreisplatine gepackt. Durch
dieses System vergrößert sich die Wahrscheinlichkeit, dass jedes Modul einer
Schaltkreisplatine ausfällt. Dieses Problem konnte man umgehen, indem man „Integrierte
Schaltkreise“ (ICs) anstelle von individuellen Komponenten benutzte. Diese enthielten eine
Auswahl an Komponenten von den Modulen, die automatisch vorgefertigt wurden. War ein
IC defekt, konnte man ihn einfach durch einen neuen ersetzen.
Seymour Cray vertrat auch die Meinung, dass die Zeit der Silizium-Schaltkreise bald vorbei
sein würde. Die Cray-1 erreichte zwar einen Taktzyklus von 12,5 ns, aber mehr als eine
Verdopplung der Geschwindigkeit auf Siliziumbasis schien nicht so einfach machbar. Es gab
noch die Möglichkeit der galliumarsenid-basierenden (GaAs) Schaltkreise. Diese boten die
zehnfache Schaltgeschwindigkeit, verbrauchten weniger Strom und erzeugten auch weniger
Hitze. Aber diese Schaltkreise waren Ende der 70er und Anfang der 80er Jahre noch nicht
bereit für die Produktion, und so musste man für Cray-2 mit existierenden siliziumbasierenden Designs auskommen.
Ein anderes Designproblem war die Leistungskluft zwischen Prozessor und Hauptspeicher.
Ende der 60er Jahre, als Seymour Cray noch für Control Data Corporation arbeitete, liefen
beide noch mit einer Taktgeschwindigkeit. Damals gestaltete sich die Einspeisung des
Prozessors mit Daten schwierig. Cray löste das, indem er 10 kleinere Computer an das System
anschloss, die mit externen
Speichermedien (Disketten und
Kassetten) interagierten und Daten
in den Hauptspeicher einspeisten,
während der Prozessor beschäftigt
war. Diese Lösung war nun nicht
mehr zeitgemäß und bot keine
Vorteile. Der RAM war groß
genug, um ganze Datensätze
einzulesen, aber der Prozessor lief
mit einer höheren Taktrate, sodass
oft kostbare Zeit verloren ging, die
der Prozessor mit Warten auf
ankommende Daten vergeudete.
Cray-2 hatte 4 Prozessoren, was
das Problem noch vergrößerte. Um
Innerhalb der Cray-2 [12]
dieses Problem zu vermeiden, Abb. 3.3/2
beinhaltete das neue Design einen 128 Kilobyte großen Block des schnellsten Speichers, der
damals möglich war. Dieser Cache wurde mittels einer separaten „High-speed-Pipeline“ mit 4
- 10 -
so genannten „Hintergrundprozessoren“ verbunden und durch einen „Vordergrundprozessor“
mit Daten gefüttert. Der „Vordergrundprozessor“ war über eine Anzahl von Leitern
(Datenrate von mehreren Gigabit pro Sekunde) mit dem Hauptspeicher verbunden, und hatte
die Aufgabe, den Computer zu steuern. Er steuerte ebenfalls den Speichervorgang und sorgte
für eine effiziente Nutzung der Kanäle zum Hauptprozessor. Ebenso gab er Befehle an die
„Hintergrundprozessoren“ weiter. Heutige Computer verwenden ein ähnliches Prinzip, nur
bezieht sich der „Vordergrundprozessor“ dann auf die load/store unit (Lade/SpeicherEinheit).
Cray-2 Modelle basierten auf einem Konzept mit großen Schaltkreisplatinen, die voll mit IC’s
bestückt waren. Sie waren aber so dicht bepackt, dass es fast unmöglich war, sie
zusammenzulöten, und die Dichte war noch immer nicht groß genug, um die gesetzten
Anforderungen zu erfüllen. Mehrere Teams arbeiteten beinahe 2 Jahre am Design, bevor
selbst Seymour Cray aufgab, und beschloss, das Projekt zu beenden und jeden zu feuern, der
daran beteiligt war. Les Davis, Cray’s Hauptmitarbeiter, wollte es mit geringer Priorität
fortsetzen. 6 Monate später hatte man die Lösung gefunden. Anstelle einer großen
Schaltkreisplatine sollte jede „Karte“ aus einem 3D-Stapel mit 8 Schaltkreisplatinen bestehen,
Abb. 3.3/3
3D-Stapel mit Schaltkreisen und „pogo“-Pins [12]
die mit Pins (bekannt als „pogos“ oder „z-pins“) verbunden waren, die von der Oberfläche
abstanden. Abbildung 3.3/3 zeigt diese goldgefärbten Stäbe zwischen den Schaltkreisen. Ein
konventionelles Kühlsystem war nun bei dieser Dichte nicht mehr verwendbar, da zu wenig
Platz für die Luftzirkulation zwischen den ICs vorhanden war. Stattdessen wurde das System
in eine Kühlflüssigkeit namens „Fluorinert“ der Firma 3M eingetaucht. Es ist eine elektrisch
isolierende, zähe, bronze-akryl-farbene Flour-Carbon-Flüssigkeit, die hauptsächlich zur
Kühlung elektronischer Systeme verwendet wird. Wenn sich die Flüssigkeit erhitzt, steigt
diese im Computer nach oben auf. Von da aus wird sie in einen separaten Kühlturm
abgepumpt, dort abgekühlt und dem Computersystem wieder zugeführt. Auf diese Weise
wurde eine höhere Dichte erreicht als mit anderen Möglichkeiten.
Die Cray-2 wurde zur Bearbeitung gewaltiger Datensätze eingesetzt. Sie wurde in erster Linie
für die American Departments of Defense and Energy entwickelt. Die Benutzung tendierte
zur Nuklearwaffenforschung bzw. zur ozeanischen (Sonar) Entwicklung. Sie fand auch
Einzug in zivile Einrichtungen, so z.B. in das NASA Ames Research Center, und in
Universitäten [12].
- 11 -
3.4 Die Cray-3
Die Arbeit an der Cray-3 begann in den 1980er Jahren im neuen Labor „Cray Labs“ in
Colorado. Mit der Cray-2 kamen die neuen 3D-Stapel mit integrierten Schaltkreisen, die eine
höhere Dichte erlaubten. Es schien so, als könnte man das ganze noch verbessern. Seymour
Cray dachte noch weiter, denn – wie er meinte – würde das dichte Verpacken allein nicht
ausreichen. Man dachte ja, die Cray-2 würde die Grenze der Geschwindigkeit von
siliziumbasierenden Schaltkreisen erreichen, die bei 4,1 Nanosekunden lag, und es schien
unmöglich, mehr als das Doppelte an Geschwindigkeit herauszuholen. Damals war man noch
nicht so weit, galliumarsenid-basierende Schaltkreise in Supercomputer einzubauen, doch
Mitte der 80er Jahre änderte sich die Situation. Für Seymour Cray waren GaAs-Schaltkreise
die einzige Lösung, und er investierte in diese GigaBit-Logik. Das war ein riskanter Schritt,
denn wenn sich die Technologie nicht bewähren würde, wäre das gesamte Cray-3-Projekt
zum Scheitern verurteilt. Bei der Cray-2 hatte es nicht funktioniert. Außerdem befand sich
Cray Research mitten in der Entwicklung eines anderen Systems mit
Namen Cray Y-MP. So beschloss das Management, dass die Cray-3 mit
„geringer Priorität“ weiterentwickelt werden sollte. Das passierte Seymour
nicht zum ersten Mal. Wie in der Vergangenheit gründete er einfach 1989
seine eigene Firma, um das Projekt fortsetzen zu können. Das Ergebnis war
die Cray Computer Corporation, die zu einem großen Teil vom
Hauptkunden NCAR (National Center for Atmospheric Research)
unterstütz wurde.
Abb. 3.4/1
Cray-3 am NCAR Mesa Laboratory in Boulder [14]
Der Kern der Cray-3 bestand wie bei vorherigen Designs aus einer Anzahl Module.
Abbildung 3.4/2 zeigt ein solches Modul. Die Galliumarsenid-Chips wurden nicht „verpackt“,
sondern mittels Ultraschallbonden direkt auf eine 1 Zoll (≈2,5 cm) mal 1 Zoll große Platte
aufgetragen. Diese wurde umgedreht und auf eine zweite Platte mit den Anschlusskabeln
gelegt. Von dort aus verliefen die Kabel durch Löcher in die Chipträgerkarte und wurden dort
gebondet. Das Ergebnis war ein Sandwich – zwei dünne Platten und die Chips dazwischen. 16
dieser Submodule fanden Platz auf einem
Board. Das ganze viermal hintereinander
ergab ein Modul. Wie bei Cray-2 entstand ein
3D-Schaltkreis. Auf diese Weise erreichte
man eine Logikdichte von 100 Gattern pro
Kubikzoll. Die Metallstecker am oberen Rand
in Abbildung 3.4/2 dienten der Spannungsversorgung. Ein Modul war also quadratisch
und 4 Zoll (≈10 cm) breit [13].
32 solcher Module wurden gestapelt und in
ein Aluminiumgehäuse montiert, das als
„Brick“ (deutsch: „Ziegelstein“) bezeichnet
wurde. Die „Bricks“ wurden in eine
Kühlflüssigkeit (wie bei Cray-2 „Fluorinert“)
eingetaucht. Diese wurde zwischen den
Cray-3-Modul [13]
Modulen hindurchgepumpt. Mit einer großen Abb. 3.4/2
Anzahl twisted-pair-Kabel schloss man die Module an einen Prozessor an. In Abbildung 3.4/3
ist ein kompletter Prozessor-„Brick“ dargestellt. Die Module waren vertikal angeordnet. Ein
- 12 -
4-Prozessor-System verbrauchte ca. 88000 Watt und erzeugte eine Wärme, die sechs 600 m2Wohnungen beheizen konnte. Das ganze 4-Prozessor-System war ca. 50 cm hoch und etwas
mehr als 60 cm breit. Es befand sich am oberen Ende eines grauen Schrankes, der 1,20 Meter
hoch, 0,91 Meter breit und genauso lang war. Eine Ebene tiefer befand sich der Speicher,
danach das Energieversorgungssystem und ganz unten das Kühlsystem (siehe Abbildung
3.4/1). Alles in allem war die Cray-3 viel kleiner als die Cray-2.
Im Gegensatz zur Cray-2 stieg die Anzahl der maximal einsetzbaren Prozessoren von 4 auf
16. Die Taktzykluszeit wurde halbiert. Sie betrug nun 2,11 Nanosekunden; das entspricht 500
MHz. Daraus resultierte für jeden Prozessor eine Leistung von 0,948 GFlops – für das ganze
System also eine Leistung von 15,17 GFlops. Der Schlüssel dazu war der Highspeed-Zugriff
(Bandbreite von 8 GB pro Sekunde) auf den Hauptspeicher.
Die Entwicklung schleppte sich hin. Erst am 24. Mai 1993 wurde die erste und einzige fertige
Cray-3 an das NCAR Mesa Laboratory in Boulder ausgeliefert. Sie bekam den Namen
„Graywolf“ (zu Deutsch: „Grauer Wolf“). Das geht auf eine Tradition von NCAR zurück, alle
eigenen Computer nach Berggipfeln in den Colorado Rocky Mountains zu benennen. Das
Design sah zwar bis zu 16 Prozessoren vor, aber diese Variante besaß nur 4. Des Weiteren
hatte sie einen 6 GB großen Hauptspeicher. Während der Produktion bekam man mit, dass der
Programmiercode einen Bug enthielt. Einer der 4 Prozessoren arbeitete deswegen nicht
zuverlässig. Der Austausch einiger Komponenten war zwar vorgesehen, aber anscheinend
nicht durchgeführt. NCAR hatte die Maschine noch nicht bezahlt; somit war es mehr eine
Leihgabe der Cray Computer Corporation. Diese hatte 1995 um die 300 Millionen Dollar in
den Sand gesetzt. NCAR’s Supercomputer wurde offiziell zurückgebracht, doch es wurden
lediglich zwei Prozessoren entfernt, und die Maschine wurde für einige Zeit noch inoffiziell
weiterbenutzt. Das System wurde für atmosphärische und ozeanographische Berechnungen,
sowie für die Softwareentwicklung der CCC
verwendet.
Insgesamt wurden sieben Gehäuse für Cray-3Computer gebaut (die meisten für kleinere 2CPU-Maschinen), aber nur ein fertiges System
wurde jemals ausgeliefert. Drei von den
kleineren wurden für das Cray-4-Projekt
verwendet. Der Cray-4-Supercomputer war
letztlich ein Cray-3 mit 64 schnelleren
Prozessoren, die bei je 1 GHz liefen.
Der Misserfolg der Cray-3 schien nur zu einem
kleinen Teil an der Maschine selbst zu liegen.
Abb. 3.4/3 Cray-3-Module im „Brick“ [13]
Aber er sollte komplett mit dem wechselnden
politischen Klima zu tun haben. Die Cray-3 wurde während des Zusammenbruchs des
Warschauer Paktes entwickelt. Mit diesem Ereignis endete der „Kalte Krieg“. Das führte zu
einem massiven Rückgang der Nachfrage an „großen“ Supercomputern. Der Markt ist zwar
seither wieder gestiegen, aber nur für MPP-Systeme, und es scheint, dass die Zeit der
Einprozessorarchitekturen vorbei ist. Der ganze Galliumarsenid-Markt wurde damals
regelrecht heimgesucht. Man glaubt, wenn der Kalte Krieg nicht beendet worden wäre, würde
man heute viel mehr Computer vorfinden, die Galliumarsenid-Schaltkreise verwenden.
- 13 -
1993 bot Cray Research sein erstes MPP-System an – den Cray T3D-Supercomputer.
Gleichzeitig nahm man die Führung auf dem MPP-Markt anderen Anbietern wie Thinking
Machines und MasPar weg. Der Nachfolger Cray T3E ließ sich als MPP-Computer seit seiner
Einführung im Jahre 1995 weltweit am besten verkaufen. Im November 1998 verwendete ein
Team aus Wissenschaftlern des Oak Ridge National Laboratory, des National Energy
Research Scientific Computing Center (NERSC), des Pittsburgh Supercomputing Center und
der University of Bristol (UK) einen Cray T3E-1200E für eine Magnetismusanwendung.
Dieses System war das erste, das bei einer realen Anwendung eine Leistung von 1,02 TFlops
erreichte.
Cray Research und die Firma Silicon Graphics, Inc. (SGI) fusionierten im Februar 1996.
Tragischerweise kam Seymour Cray im September desselben Jahres im Alter von 71 Jahren
bei einem Autounfall ums Leben. Er hatte noch viele Ideen, der er leider nicht mehr
verwirklichen konnte. Vier Jahre später (2000) wurde die Firma in Cray, Inc. umbenannt [15].
3.5 Der Cray XD1 Supercomputer
Die XD1 ist einer der neueren Supercomputer der Firma Cray Inc. Dieses System wird seit
dem 4. Oktober 2004 zum Kauf angeboten und kostet je nach Variante zwischen 100.000 und
2 Millionen Dollar. Die XD1 basiert auf einem System, das OctigaBay aus Vancouver in
Kanada entwickelt hat. Nach der Übernahme durch Cray im Frühjahr 2004 firmieren die
Supercomputer-Spezialisten unter Cray Kanada.
Abb. 3.5/1
Cray XD1 Chassis [16]
Die XD1 ist ein Cluster-System, das heißt sie besteht aus mehreren Rechnern, die nach außen
wie einer erscheinen. Vorteile eines Clusters sind höhere Ausfallsicherheit und Skalierbarkeit.
Nachteilig ist der höhere Programmieraufwand, da der aktuelle Status auf allen Rechnern
realisiert werden muss. Auch bei der XD1 werden Standardkomponenten verwendet, wie
etwa der aktuelle 64-bit AMD-Opteron-Prozessor. Cray wertet diese aber durch einen eigenen
schnellen Interconnect, Management- und Rekonfigurations-Features sowie Beschleunigungsprozessoren für spezielle Applikationen auf. Für den Anwender steht ein auf HPC
zugeschnittenes Linux-Betriebssystem zur Verfügung, das als Plattform für die Anwendungen
- 14 -
dient. Die Hardware wurde von Cray so zugeschnitten, dass auch AMD-Dual-CoreProzessoren eingesetzt werden können. Dadurch ist, rein theoretisch, eine Verdopplung der
Rechenleistung möglich, wenn die Verteilung der Rechenlast auf die Kerne optimal ist.
Nun einige Angaben zum Umfang des Gesamtsystems. Bis zu 12 XD1-Systeme (12 Chassis)
lassen sich in einem Rack unterbringen (Abbildung 3.5/1). Ein Chassis ist 13,3 cm hoch, 58,4
cm breit und 91,4 cm tief, enthält 12 Opteron-CPUs, maximal 96 GB PC2700 (DDR333)
SDRAM oder maximal 48 GB PC3200 (DDR400) SDRAM (1-8 GB pro Socket) und bis zu 2
TB Plattenspeicher. Laut Cray erreicht ein System mit 12 AMD-Dual-Core-Prozessoren mit
je 2,2 GHz eine theoretische Spitzenleistung von 106 GFlops. Cray ist in der Lage, mehrere
Racks zu koppeln. Dadurch sind Rechnersysteme mit einer Spitzenleistung von über 2 TFlops
realisierbar [18]. Im Folgenden möchte ich auf einige Besonderheiten der Rechnerarchitektur
eingehen.
Die Fähigkeit eines Cluster-Systems, tausende von
Prozessoren mit Daten zu füttern, ist ein begrenzender
Faktor bezüglich der Leistung. Seit Ende der 80er Jahre
verwenden traditionelle HPC-Architekturen die teure SMP
shared-memory-Technologie oder I/O-Busse, um mehrere
Prozessoren miteinander zu verbinden. Diese Techniken
begrenzen aber die Skalierbarkeit und Leistung von
Multiprozessorsystemen.
Bei
der
I/O-ConnectedArchitektur fungiert der PCI-Bus als I/O-Bus (Siehe
Abbildung 3.5/2). Man verwendet Network Interface Cards
(NICs), die in PCI-Slots gesteckt werden. Übliche Cluster
verwenden das Gigabit Ethernet oder eventuell Infinband
I/O-Connected
als Standardverbindung. Diese Systeme sind zwar preislich Abb. 3.5/2
Architektur
[17]
günstig, aber die Verteilung von Daten auf einzelne
Prozessoren ist weniger effizient. Bei Cluster-Systemen, die die Memory-ConnectedArchitektur benutzen, findet die Interaktion von Prozessoren unterschiedlicher Cluster über
den Hauptspeicher statt (Abbildung 3.5/3) [17]. Per Symmetrischem Multiprocessing (SMP)
werden die laufenden Prozesse auf alle Prozessoren verteilt, während beim Asymmetrischen
Multiprocessing jedem CPU eine Aufgabe fest zugewiesen wird. Z.B. CPU 0:
Betriebssystemaufrufe und CPU 1: Benutzerprozesse. Die
Möglichkeit, dass jede CPU jeden Prozess ausführen
können muss, führt jedoch bei größeren Systemen dazu,
dass der Speicherbus zum Flaschenhals wird. Mit jeder
zusätzlichen CPU sinkt der relative Leistungs-Gewinn, da
die Speichersubsysteme die Daten nicht mehr schnell genug
liefern können, um alle vorhandenen CPUs auszulasten.
Diese Nachteile werden durch die von Cray entwickelte
Direct
Connected
Processor
(DCP)
Architektur
kompensiert. Dieses Interconnect führt zu einer schnelleren
Kommunikation der Prozessoren untereinander. Abbildung
3.5/4 zeigt schematisch diese Architektur. Das CrayRapidArray-Interconnect zeichnet sich durch eine hohe
MemoryBandbreite und geringe Latenzzeit aus (Siehe Abbildung
Connected
Abb. 3.5/3
3.5/5). Es nutzt zwölf eigene Kommunikationsprozessoren
Architektur [17]
und ein 96-GB/s-non-blocking-Switching-Fabric pro
Chassis. Damit stellt Cray eine theoretische Bandbreite von acht GB/s zwischen jedem der
- 15 -
Knoten aus zwei Opteron-Prozessoren in SMP-Topologie bereit. Davon stehen effektiv 5,8
GB/s pro Knoten zur Verfügung. Die MPI- (Message Passing Interface) Latenz liegt bei 1,6
Mikrosekunden. Zur Verbindung mehrerer Chassis verfügt jedes über 24 externe RapidArrayInterchassis-Links mit einer Bandbreite von insgesamt 48 GB/s. Die Hardware unterstützt
MPI (Message Passing Interface), „shmem“ (eine verbreitete, Cray-spezifische
Kommunikationsbibliothek) und Bibliotheken für globale Arrays. Für eine höhere
Geschwindigkeit kann die zugehörige Kommunikations-Software den Linux-Kernel
umgehen. Mit den Interconnects lassen sich beliebige Netzwerktopologien aufbauen wie etwa
Fat Tree, Torus, und Hypercube [16].
Abb. 3.5/4
Cray Direct Connected Processor (DCP) Architektur [17]
- 16 -
Abb. 3.5/5
Latenzzeit der Prozessorkommunikation bei Parallelrechnern [16]
Eine weitere Besonderheit des Cray XD1-Supercomputers sind die sechs optionalen
Prozessoren. Die Xilink-Virtex II Pro FPGAs beschleunigen spezielle Anwendungen und
arbeiten mit den Opteron-Prozessoren eng zusammen. Per Software kann man die
Schaltkreise in den FPGAs konfigurieren. Dadurch lässt sich dynamisch ein Koprozessor
generieren, der die benötigte Teilaufgabe in Hardware, also ohne das sequentielle Abarbeiten
von Programmcode, löst. Cray bietet eine
Programmbibliothek an, aus der der Anwender erprobte Lösungen aufrufen kann.
Die FPGAs lassen sich aber auch frei
programmieren. Die FPGAs haben direkten
Zugriff auf den Opteron-Hauptspeicher und
sind in das RapidArray eingebunden (Abbildung 3.5/6). Beispiele für das Entlasten
der Opterons sind spezielle Such- und
Sortierverfahren, die Signalverarbeitung
und die Verschlüsselung. Bei der GenomeSequenzierung in der Bioinformatik etwa
führt der Einsatz der FPGAs zu einer
Beschleunigung um mehr als den Faktor
Beschleunigung mit FPGA [19]
Abb. 3.5/6
100.
Mit Hilfe eines Active-Manager-Subsystems wird die Verfügbarkeit des XD1-Systems
sichergestellt und es lassen sich spezifische Konfigurationen regeln. Es stellt den aktuellen
Zustand des Systems fest, stellt ihn grafisch dar und führt damit eine zukunftsgerichtete
Fehlervorhersage durch. Etwa 200 kritische Größen wie Spannung, Temperatur oder
fehlererkennende Schaltkreise werden dazu regelmäßig überwacht. Auf diese Weise werden
kritische Hardware-Komponenten von Operationen suspendiert und aus der SMPKonfiguration ausgeblendet. Der Active Manager kann die XD1 in mehrere kleine,
unabhängige Supercomputer partitionieren oder auch die gesamte Rechenleistung einer
Anwendung zuweisen [16].
- 17 -
4 Schlussbemerkungen
4.1 Zusammenfassung
Alles begann mit dem Namen Seymour Cray. Er kann zu Recht als „Vater des
Supercomputers bezeichnet werden. Für ihn galten beim Entwickeln von Supercomputern 3
wichtige Prinzipien: mehr Funktionseinheiten (Parallelität), engere Anordnung der
Baugruppen und schnellere Komponenten. An der Entwicklung der ersten Supercomputer
Ende der 60er und Anfang der 70er Jahre war er maßgeblich beteiligt. Unter dem
Firmennamen „Cray Research“ wurde 1976 der Vektorrechner Cray-1 entwickelt und gebaut.
Dies war ein frühes Beispiel für den Begriff „Supercomputer“. Diese Maschine überholte die
damals existierende Technologie. Die innovative Hufeisenform ermöglichte ein engeres
Beieinanderliegen der Schaltkreise, die Signallaufzeiten wurden dadurch verringert und die
Rechenleistung erhöht. Damals füllten diese Apparate noch ganze Räume aus, und sie waren
halbe Heizkraftwerke. Doch der technische Fortschritt war nicht aufzuhalten. 1982 folgte die
Cray-2. Sie besaß bis zu 4 Prozessoren zu je 243 MHz und hatte einen Hauptspeicher
angefangen bei 512 Megabyte bis zu 4 Gigabyte. Diese Größe wurde von anderen
Computersystemen für ein Jahrzehnt nicht überboten. Für Seymour Cray gab es fast kein
Problem, das nicht irgendwie auch eine Lösung nach sich zog. Höhere Dichte erreichte man
z.B. durch 3D-Stapel mit mehreren Schaltkreisplatinen. Luftkühlung wurde durch eine
Kühlflüssigkeit namens „Fluorinert“ ersetzt. Bei der Entwicklung der Cray-3 in den 1980er
Jahren stieg man dann auf leistungsfähigere Galliumarsenid-Schaltkreise um. Beim Kern
dieses Supercomputers behielt man das Modul-Prinzip bei. Leider wurde von diesem System
nur ein einziges fertig gestellt.
An diesen 3 Systemen lässt sich die Leistungssteigerung von Supercomputern innerhalb von 3
Jahrzehnten sehr gut veranschaulichen. Währen die Cray-1 eine Spitzenleistung von 133
MFlops mit einem Prozessor erreichte, besaß die Cray-2 bereits 4 Prozessoren, und erreichte
schon 1,9 GFlops. Das Cray-3-System konnte auf bis zu 16 CPUs erweitert werden und hatte
dann eine Spitzenleitung von 15,17 GFlops. Die Gesamtgröße der Systeme schrumpfte auch
zusehends während dieser Zeit.
Das Beispiel der Cray XD1 zeigt, dass man heute zu so genannten Cluster-Systemen
übergegangen ist. Diese bestehen aus mehreren Rechnern, die nach außen wie einer
erscheinen. Vorteile eines Clusters sind höhere Ausfallsicherheit und Skalierbarkeit. Laut
Cray erreicht ein XD1-System mit 12 AMD-Dual-Core-Prozessoren mit je 2,2 GHz eine
theoretische Spitzenleistung von 106 GFlops.
Aus der gesamten Betrachtung ergibt sich, dass Seymour Cray mit seinen Systemen eine
Schlüsselrolle bei der Entwicklung von Supercomputern einnimmt.
- 18 -
4.2 Ausblick
Wie gezeigt wurde, finden Cray-Systeme heute ein breites Anwendungsspektrum – in der
Industrie, in Wissenschaft und Forschung, in Regierungseinrichtungen, beim Militär, usw.
Modellbeschreibungen in der Physik, in der Medizin, bei der Wettervorhersage und in
anderen Anwendungsgebieten werden immer komplexer. Dadurch steigt die Menge der zu
bewältigenden Daten. Für die Berechnung und Simulation werden Supercomputer auch in der
Zukunft unverzichtbar sein. Der Entwicklungsweg hat uns gezeigt, dass Hochleistungsrechner
immer schneller und auch kompakter geworden sind. Auf die Frage, wann heutige∗ GigaFlops
auf dem Desktop verfügbar sein werden, antwortete Professor Viktor K. Prasanna von der
University of Southern California:
„Es wird nicht sehr lange dauern. Wir haben bereits einen ‚single desk’
Prozessor im Bereich von einigen 100 GigaFlops, den RS6000. Wenn man
Workstations betrachtet, wird es in ein bis zwei Jahren der Fall sein. Wenn
man Home-PCs betrachtet, werden es eine Anzahl Jahre sein.“
[20]
Es ist also nur eine Frage der Zeit – vielleicht einige Jahrzehnte – bis unser Universalrechner
zu Hause an die Leistung heutiger Supercomputer anknüpfen kann und diese Performance
auch einigermaßen bezahlbar ist.
∗
Stand: Artikel erschien am 22. Januar 1998
- 19 -
ABKÜRZUNGSVERZEICHNIS
CAE
CAL
CDC
cm
CMOS
COS
CPU
CUG
DCP
DDR
ECL
FPGA
GaAs
GB
GFlops
GHz
HPC
IC
kW
MB
MHz
MFlops
MPI
MPP
NCAR
RAM
SDRAM
SIMD
SMP
TB
TFlops
TTL
Computer Aided Engineering
Cray Assembler Language
Control Data Corporation
Zentimeter
Complementary Metal Oxide Semiconductor
Cray Operating System
Central Processing Unit
Cray User Group
Direct Connected Processor
Double Data Rate
Emitter Coupled Logic
Field Programmable Gate Array
Galliumarsenid
Gigabyte
Giga Floatingpoint Operations per Second
Gigaherz
High-Performance Computing
Integrated Circuit
Kilowatt
Megabyte
Megaherz
Mega Floatingpoint Operations per Second
Message Passing Interface
Massively Parallel Processing
National Center for Atmospheric Research
Random Access Memory
Synchronous Dynamic Random Access Memory
Single Instruction Multiple Data
Symmetrisches Multiprocessing
Terabyte
Tera Floatingpoint Operations per Second
Transistor-Transistor-Logik
- 20 -
ABBILDUNGSVERZEICHNIS
Seite:
Abbildung 2.1/1
Abbildung 2.1/2
Abbildung 2.1/3
Abbildung 2.2/1
Abbildung 3.1/1
Abbildung 3.2/1
Abbildung 3.2/2
Abbildung 3.2/3
Abbildung 3.2/4
Abbildung 3.3/1
Abbildung 3.3/2
Abbildung 3.3/3
Abbildung 3.4/1
Abbildung 3.4/2
Abbildung 3.4/3
Abbildung 3.5/1
Abbildung 3.5/2
Abbildung 3.5/3
Abbildung 3.5/4
Abbildung 3.5/5
Abbildung 3.5/6
Hollerith Typ III Tabulator (1932)
„Leistungen“ spezieller Großrechner
Auszug: 24. Top-500-Liste (11/2004)
Hurrikan
Seymour Cray
Cray-1
Kühlsystem der Cray-1
Logik-Recheneinheit der Cray-1
Beispiel ECL – OR/NOR-Gatter mit 4 Eingängen
Cray-2 mit Kühlturm
Innerhalb der Cray-2
3D-Stapel mit Schaltkreisen und „pogo“-Pins
Cray-3 am NCAR Mesa Laboratory in Boulder
Cray-3-Modul
Cray-3-Module im „Brick“
Cray XD1 Chassis
I/O-Connected Architektur
Memory-Connected Architektur
Cray Direct Connected Processor (DCP) Architektur
Latenzzeit der Prozessorkommunikation bei Parallelrechnern
Beschleunigung mit FPGA
3
4
4
5
6
7
7
8
8
9
10
11
12
12
13
14
15
15
16
17
17
- 21 -
LITERATURVERZEICHNIS
[1]
Der Brockhaus in einem Band 1993
Wolfram Schwachulla und Dr. Karl Henning Wolf, 5. Auflage, Verlag F.A. Brockhaus
GmbH, Leipzig 1993
[2]
Die Computer-Geschichte der Columbia University, Prof. Herbert R. J. Grosch
Artikel: IBM Tabulators and Accounting Machines
http://www.columbia.edu/acis/history/tabulator.html, 9. Juni 2004
[3]
Lexikoneintrag zum Stichwort: Supercomputer
http://de.wikipedia.org/wiki/Supercomputer, 18. Juni 2005
[4]
24. Top-500 Liste vom 8. November 2004
http://www.top500.org/lists/plists.php?Y=2004&M=11, 2005
[5]
Homepage der Firma Cray, Inc.
Einsatzgebiete von Cray-Systemen
http://www.cray.com/solutions/index.html, 2005
[6]
Artikel vom 9. Oktober 2002 über Seymour Cray und Cray1
http://www.thocp.net/hardware/cray_1.htm, 2002
[7]
Erfinder und berühmte Erfindungen
Artikel von Mary Bellis – Biographien: Seymour Cray
http://inventors.about.com/library/inventors/blsupercomputer.htm, 2005
[8]
The Supermen: The Story of Seymour Cray and the Technical Wizards Behind the
Supercomputer
Charles J. Murray, Verlag Wiley, Januar 1997
ISBN – 0471048852
[9]
Homepage: Cray User Group – Aufgaben und Ziele
http://www.cug.org, 2005
[10]
Lexikoneintrag zum Stichwort: Cray-1
http://de.wikipedia.org/wiki/Cray-1, 3. Juni 2005
[11]
Lexikoneintrag zum Stichwort: ECL (Emittergekoppelte Logik)
http://en.wikipedia.org/wiki/ECL, 26. Juni 2005
[12]
http://en.wikipedia.org/wiki/Cray-2, 12. Juni 2005
[13]
http://en.wikipedia.org/wiki/Cray-3, 14. Juni 2005
- 22 -
[14]
Supercomputer Galerie: Cray-3 – Technische Details
http://www.scd.ucar.edu/computers/gallery/cray/cray3/graywolf.html, 2005
[15]
Homepage: Cray, Inc.
Chronologischer Überblick der Geschichte von Cray-Systemen
http://www.cray.com/about_cray/history.html, 2005
[16]
TecChannel – Artikel: Cray XD1: Kampf den Klustercomputern
http://www.tecchannel.de/server/hardware/402401/, 5. Oktober 2004
[17]
Cray XD1 – Direct Connected Processor (DCP) Architecture
http://www.cray.com/products/xd1/architecture.html, 2005
[18]
Datenblatt: Cray XD1 Supercomputer – Technical Data Release 1.3
[19]
Cray XD1 – Anwendungsbeschleunigung mit FPGA
http://www.cray.com/products/xd1/acceleration.html, 2005
[20]
Artikel vom 22. Januar 1998
Interview zum Thema: The Race For Speed
Frage: Wann werden heutige GigaFlops auf dem Desktop verfügbar sein?
http://www.rediff.com/computer/1998/jan/22hiper.htm, 1998
[21]
Erklärung mit Beispiel: Emittergekoppelte Logik (ECL)
Von Ken Bigelow
http://www.play-hookey.com/digital/electronics/ecl_gates.html, 2004
- 23 -

Die Geschichte und Gegenwart der Cray-Supercomputer

Transcription

Similar documents

Insight Microsoft Optimization Services S O F T W A R E E D I T I O N

das magazin - Der Deutsche Olympische Sportbund

Eidesstattliche Erklärung - Donau

clavinova

Leistungselektronik - Fraunhofer-Institut für Zuverlässigkeit und

Vollständigen Artikel als PDF herunterladen - All

DC-DC Konverter - Transkommunikation.ch