tec_storage2004.

Transcription

tec_storage2004.
01
2004
Jan./Feb./März 01/2004
www.tecChannel.de
NEU!
SONDERHEFT
Okt./Nov./Dez. 04/2003
KOMPENDIUM FÜR IT-PROFIS
€ 9,90
Österreich €10,90 Benelux €11,40 Schweiz SFR 19,80
Grundlagen • Entscheidungshilfen • Know-How
IT-PRAXIS
PC: Der richtige Kaufzeitpunkt kommt
Notebook: Centrino und die Alternativen
Server: Umstieg auf 64 Bit
WLAN: Der beste 54-Mbit-Standard
DSL-Router: Kaufberatung
MOBILE COMPUTING
» Technologie-Wechsel und die Folgen
» Aus für AGP, PCI und DDR
» Auslaufmodell PC-Card
» Akku-Laufzeit verlängern
SERVER & STORAGE
PENTIUM 4 PRESCOTT
» Storage-Umbruch: Serial Attached SCSI
» Itanium 2 im Detail, Opteron-Test
» Bis 5 GHz: Der nächste Intel-Standard
» SSE3, Features für Windows-Longhorn
4 195914 909900
CLIENT & WORKSTATION
01
ITECHNOLOGIE-RATGEBER 2004: Grundlagen, Entscheidungshilfen, Know-How
ITechnologieRatgeber 2004
[ U n e n t beh rli ch für I T - P ro fi s ]
tecCHANNEL.de/premium:
Das Online-Angebot
für IT-Profis!
Ihre Premium-Vorteile auf einen Blick:
tecCHANNELBuch-und
Heftarchiv
Im Archiv stehen Ihnen
alle Ausgaben von
tecCHANNEL-Compact und
tecCHANNEL-Magazin als
PDF zur Verfügung.
Artikel im
PDF-Format
Alle Artikel,
Testtabellen und
News etc. als lesefreundliche PDFDatei zum Download.
BEOHNE WER
CHUNG!
UNTERBRE
eBooks
Profitieren Sie jeden
Monat von einem
kostenlosen eBook!
(Derzeit komplette
Fachbücher aus dem
Programm des
Pearson-Verlages)
Vollversionen
Sichern Sie sich
monatlich eine
Vollversion gratis:
Software, ArchivCDs u.v.m.
Außerdem: +++Exklusives Security-Angebot +++Brockhaus Computerlexikon
+++Testdaten-Konfigurator+++
Weitere Features finden Sie unter www.tecChannel.de/premium.html
nenten
ct-Abonis
Für Compa
re von
sp
ug
rz
Vo
zum
o/Jahr
34,90 Eu,8r0 Euro)
(statt 59
Sichern Sie sich jetzt Ihre Vorteile
für nur 4,99 Euro* im Monat! *(im Jahresabo)
www.tecChannel.de/premium.html
Editorial
Editorial
Aufbruch zu neuen Technologien
IT-Entscheider stehen vor einer turbulenten Zukunft. Hielt man sich in der Vergangenheit mit Investitionen zurück, muss in den nächsten Jahren das IT-Equipment durch Up-to-Date-Technologien ersetzt werden. Im Server-, Desktop- und
Mobile-Bereich steht ein Generationswechsel bevor. Die Einführung von PCI Express, neuen CPUs wie Prescott und Pentium M „Centrino“, der DDR2-Speichertechnologie und Serial Attached SCSI verunsichert die IT-Branche. Welche Technologien sind zukunftssicher und schützen die Investitionen? Was ist beim Umstieg wichtig? Das sind Fragen, die dieses tecCHANNEL-Compact beantwortet.
Mit der Einführung von PCI Express stehen in diesem Jahr der etablierte AGPund PCI-Bus sowie die PC Card vor dem Aus. Neue Chipsätze und Grafikchips
mit dieser Technologie sind bereits für Anfang 2004 angekündigt. Zusätzlich stellt
Intel die Prescott-CPU mit neuer Sockelvariante vor. Die DDR2-Speichertechnologie löst im Laufe des Jahres den herkömmlichen DDR-Standard ab. Gleichzeitig ist mit der AMD-Opteron-Architektur der einfache Umstieg von 32-Bit- in das
64-Bit-Computing im Server-Bereich möglich. Wir erläutern die Technologiewechsel und die Folgen. Außerdem analysieren wir die Performance der OpteronCPU im Server-Einsatz und den Itanium 2.
Auch im Mobile-Bereich wird es in den kommenden Monaten einige Überraschungen geben. Denn Intel drängt mit neuen Pentium-M-Prozessoren in das Segment. Gleichzeitig kontert AMD mit Athlon-64-CPUs für Notebooks. Mit Transmetas Efficeon versucht ein weiterer Kontrahent Marktanteile für sich zu gewinnen. Welche Mobile-Plattform hat die größten Chancen?
In punkto Wireless-LAN herrscht große Verwirrung. Hier buhlen mit 802.11a und
802.11g zwei 54-Mbit-Standards um die Gunst der Käufer. Wir informieren Sie
über die Unterschiede und geben Ihnen Entscheidungshilfen. Zusätzlich beraten
wir Sie, welche Features ein DSL-Router haben muss, um im professionellen Einsatz zu bestehen. Ein weiteres Thema beschäftigt sich mit den Vor- und Nachteilen, Daten, Telefon und Fernsehen über eine Leitung zu übertragen.
Als praktische Ratgeber und kompetente Entscheidungshilfen dienen die persönlichen Einschätzungen und Meinungen der tecCHANNEL-Redakteure zu den jeweiligen Kapitelinhalten. Viel Spaß bei der Lektüre wünscht Ihnen
Bernhard Haluschak
Redakteur Hardware
Wir freuen uns über Kritik und Anregungen zur Compact-Ausgabe. Unter www.
tecChannel.de/compact0104.html können Sie an unserer Umfrage teilnehmen.
www.tecChannel.de
5
Impressum
Impressum
Chefredakteur: Michael Eckert, (verantwortlich, Anschrift der Redaktion)
Chef vom Dienst / Textchef: Kerstin Lohr
Grafik: stroemung, Michael Rupp, Oliver Eismann, Köln; h2design, München; Yvonne Reittinger, Wien
Redaktion tecCHANNEL:
Leopoldstraße 252b, 80807 München, Tel. 0 89/3 60 86-897, Fax: -878
Homepage: www.tecChannel.de, E-Mail: [email protected]
Autoren dieser Ausgabe: Bernhard Haluschak, Mike Hartmann, Malte Jeschke, Albert Lauchner, Jörg
Luther, Hermann Strass, Christian Vilsbeck, Christian Wiegand
Copyright: Das Urheberrecht für angenommene und veröffentlichte Manuskripte liegt bei der IDG Interactive GmbH. Eine Verwertung der urheberrechtlich geschützten Beiträge und Abbildungen, insbesondere durch Vervielfältigung und/oder Verbreitung, ist ohne vorherige schriftliche Zustimmung des Verlags
unzulässig und strafbar, soweit sich aus dem Urheberrechtsgesetz nichts anderes ergibt. Eine Einspeicherung und/oder Verarbeitung der auch in elektronischer Form vertriebenen Beiträge in Datensysteme ist
ohne Zustimmung des Verlags nicht zulässig.
Anzeigen:
Anzeigenleitung: Dirk Limburg, Tel.: 0 89/3 60 86-871
Leitung Anzeigendisposition: Rudolf Schuster, Tel. 0 89/3 60 86-135, Fax -328
Anzeigentechnik: Martin Mantel, Andreas Mallin
Digitale Anzeigenannahme: Thomas Wilms, leitend, Tel. 0 89/3 60 86-604, Fax -328
Vertrieb / Produktion:
Vertrieb: Josef Kreitmair (leitend), Katrin Elsler
Vertriebsmarketing: Peter Priewasser (leitend), Stefanie Kusseler
Vertrieb Handelsauflage: MZV Moderner Zeitschriften Vertrieb, Breslauer Straße 5, 85386 Eching,
Tel.: 0 89/3 19 06-0, Fax: -113, E-Mail: [email protected], Website: www.mzv.de
Produktionsleitung: Heinz Zimmermann
Druck: Schoder Druck, Gutenbergstraße 12, 86368 Gersthofen
Haftung: Eine Haftung für die Richtigkeit der Beiträge können Redaktion und Verlag trotz sorgfältiger Prüfung nicht übernehmen. Die Veröffentlichungen im tecCHANNEL-Compact erfolgen ohne Berücksichtigung eines eventuellen Patentschutzes. Auch werden Warennamen ohne Gewährleistung einer
freien Verwendung benutzt.
Verlag: IDG Interactive GmbH, Leopoldstraße 252b, 80807 München, Tel.: 0 89/3 60 86-0, Fax: -501
Geschäftsführer: York von Heimburg
Verlagsleitung: Frank Klinkenberg
Veröffentlichung gemäß § 8, Absatz 3 des Gesetzes über die Presse vom 8.10.1949: Alleiniger Gesellschafter der IDG Interactive GmbH ist die IDG Communications Verlag AG, München, eine 100-prozentige Tochter der IDG Inc., Boston, Mass., USA.
Vorstand: Keith Arnot, York von Heimburg, Pat Kenealy
Aufsichtsratsvorsitzender: Patrick McGovern
tecCHANNEL-Compact erscheint im Verlag der PC-WELT. Außerdem gehören zu unserer Verlagsgruppe folgende Zeitschriften:
Leser- und Abo-Service:
A.B.O Verlagsservice GmbH, Ickstattstraße 7, 80469 München, Tel: 0 89/20 95 91 32, Fax: 0 89/20 02 8100
6
www.tecChannel.de
Inhalt
Inhalt
Editorial
5
Impressum
6
1.
1.1
1.1.1
1.1.2
1.1.3
1.1.4
1.1.5
1.1.6
1.1.7
Desktop
Roadmap: Desktop-CPUs 2004
Athlon 64
Athlon 64 FX für Socket 939
Athlon XP für Socket 754
Pentium 4 „Prescott“
Prescott für Socket LGA775
Celeron mit Prescott-Core
Pentium-4-Chipsätze mit DDR2
12
12
12
13
14
15
16
16
17
1.2
1.2.1
1.2.2
1.2.3
Roadmap: Speicher
Status aktueller Speichertechnologien
Entwicklung aktueller Speichertechnologien
Fazit
19
19
20
22
1.3
1.3.1
1.3.2
1.3.3
1.3.4
Roadmap: Grafikchips
ATI: Grafikchips im Überblick
NVIDIA: Zukunftsperspektiven
S3 Graphics: Comeback-Versuch
XGI: Aufbruchpläne
23
23
24
25
26
1.4
1.4.1
1.4.2
1.4.3
1.4.4
1.4.5
PCI Express für Grafikkarten
Grafikschnittstellen im Wandel
AGP 8x und PCI Express im Vergleich
Die Spannungsversorgung
PCI-Express-Routing
Grafikkarten und Mainboards mit PCI Express
29
29
30
31
33
35
1.5
1.5.1
1.5.2
1.5.3
1.5.4
1.5.5
1.5.6
1.5.7
1.5.8
Intel Pentium 4 Prescott
Neue Cache-Größen und Sockel
Mikroarchitektur-Erweiterungen
SSE3-Befehlssatz-Erweiterungen
Thread-Synchronisation in Hardware
Designoptimierungen
90-nm-Prozess
Low-k-Kupferverdrahtung
Optimierte Gatterverteilung
38
38
39
41
42
44
45
47
48
1.6
1.6.1
1.6.2
1.6.3
Speichertechnologien
DDR2 auf der Überholspur
RDRAM auf dem Abstellgleis?
“Quad Band Memory”-Technologie
50
50
52
53
www.tecChannel.de
7
Inhalt
1.6.4
1.6.5
1.6.6
1.6.7
DDR3 – Speicher der Zukunft
FB-DIMM
XDR-DRAM
Speichertechnologien im Vergleich
55
56
57
59
1.7
Meinung
61
2.
2.1
2.1.1
2.1.2
2.2.3
2.2.4
2.2.5
Mobile
Roadmap: Mobile-CPUs 2004
Mobile Athlon 64
Pentium M „Dothan“
Sonoma – der neue Centrino-Chipsatz
Mobile Prescott
Transmeta Efficeon
62
62
62
64
65
65
66
2.2
2.2.1
2.2.2
2.2.3
2.2.4
2.2.5
2.2.6
2.2.7
2.2.8
2.2.9
2.2.10
Details zum mobilen Athlon 64
Details zum Core
PowerNow!-Technologie
Neun Ausführungseinheiten
Cache- und TLB-Tuning
Flush- und Sprung-Tuning
Gestreckte Pipeline
Speicher-Interface integriert
HyperTransport-Bus
Betriebsmodi des Athlon 64
Erweiterte Register
68
68
69
70
71
71
72
72
73
73
74
2.3
2.3.1
2.3.2
2.3.3
2.3.4
2.3.5
2.3.6
2.3.7
2.3.8
Intel Centrino
Details zum Core
MicroOPs Fusion
Strom sparen durch bessere Vorhersagen
Aggressives Clock-Gating
Enhanced SpeedStep
Pentium-M-Versionen
Pentium-M-Chipsätze
Centrino-Plattform Wireless
76
76
77
78
79
80
80
81
83
2.4
2.4.1
2.4.2
2.4.3
2.4.4
2.4.5
2.4.6
2.4.7
Transmeta Efficeon
Efficeon-Modelle
256-Bit-Hardware
Details zum Core
Pipeline-Workflow
Integrierte Northbridge
CMS zweiter Generation
LongRun Version 2
85
85
86
86
88
89
90
90
2.5
2.5.1
2.5.2
ExpressCard löst PC-Card ab
PC-Card-Evolution
ExpressCard-Technologie
92
92
93
8
www.tecChannel.de
Inhalt
2.5.3
2.5.4
ExpressCard-Karten und -Slot
ExpressCard-Schnittstelle
2.6
2.6.1
2.6.2
2.6.3
2.6.4
2.6.5
2.6.6
2.6.7
2.6.8
2.6.9
2.6.10
2.6.11
2.6.12
2.6.13
Akku-Technologien
Funktionsweise eines Akkumulators
Historie der Akku-Technologie
Blei-Säure-Akku
Nickel-Cadmium-Akku
Der Memory-Effekt
Nickel-Metallhydrid-Akku
Der Lazy-Battery-Effekt
Lithium-Ion-Akku
Lithium-Polymer-Akku
Zink-Luft-Akku
Kenndaten aktueller Akku-Technologien
Lagerung und Pflege von Akkus
Die Brennstoffzelle
97
97
99
100
102
103
104
105
106
107
108
110
111
112
2.7
2.7.1
2.7.2
2.7.3
2.7.4
2.7.5
2.7.6
2.7.7
Notebook-Laufzeit optimieren
Elektrische Leistungsverteilung in Notebooks
Extended Battery Life Workgroup (EBL WG)
Energieverbraucher Nr.1 – das Display
Strom sparen an der USB-Schnittstelle
Strom sparen mit Powermanagement
Strom sparen in der Praxis
Strom sparen mit WLAN und LAN
115
115
117
118
120
122
124
125
2.8
Meinung
127
3.
3.1
3.1.1
3.1.2
3.1.3
3.1.4
3.1.5
3.1.6
3.1.7
Server
Server- & Workstation-CPUs
Opteron „Athens, Troy & Venus“
Xeon DP „Nocona & Jayhawk“
Xeon MP „Potomac“
Xeon MP „Tulsa“
Itanium 2 „Fanwood & Madison 9M“
Itanium 2 „Montecito“
Itanium 2 „Tanglewood“
128
128
128
130
130
131
131
133
133
3.2
3.2.1
3.2.2
3.2.3
3.2.4
3.2.5
3.2.6
3.2.7
3.2.8
Itanium Grundlagen
Eckwerte
Stammbaum
Register-Features
Rotation mit dynamischen Registern
Floatingpoint-Register
Predication: Erst rechnen, dann entscheiden
Rechnen in epischer Breite
Drei Instruktionen pro Befehlswort
135
136
137
138
138
139
140
141
142
www.tecChannel.de
94
95
9
Inhalt
3.2.9
3.2.10
3.2.11
3.2.12
3.2.13
3.2.14
3.2.15
3.2.16
3.2.18
Tipps für die CPU
Vorausschauen...
...und Spekulieren
Kompatibilitäten
Der Itanium 2
Speicher und Caches
Details zur Pipeline: Frontend
Details zur Pipeline: Backend
Performance-Vergleich
143
144
145
146
147
148
149
150
153
3.3
3.3.1
3.3.2
3.3.3
3.3.4
3.3.5
3.3.6
3.3.7
Serial Attached SCSI
Serial Attached SCSI
SAS-Topologie
Serielle Verkabelung
Kompatibilität
SCSI-Roadmap
SAS – Status quo
Ausblick
155
155
156
157
158
159
160
160
3.4
3.4.1
3.4.2
3.4.3
3.4.4
3.4.5
3.4.6
3.4.7
3.4.8
3.4.9
AMD Opteron im Server-Einsatz
Newisys 2100
Die Konkurrenz
AMD Quartet
Innenleben und Bedienung
Die Testumgebung
AIM Suite VII
lmbench
unixbench
dbench
162
162
163
165
166
167
168
169
170
172
3.5
Meinung
175
4.
4.1
4.1.1
4.1.2
4.1.3
4.1.4
Netzwerk
Shootout: 802.11a vs. 802.11g
Frequenzfragen
Testkonfiguration
Testgeräte
Testergebnisse
176
176
176
178
179
181
4.2
4.2.1
4.2.2
4.2.3
4.2.4
4.2.5
4.2.6
Kaufberatung: DSL-Router
Basis-Features
WAN-Verbindungen
Dienste und Sicherheit
Erweiterte Router-Features
UPnP – Plug-and-Play übers Netzwerk
WLAN-Funktionen
183
184
184
185
186
187
187
4.3
4.3.1
Drei Dienste – eine Leitung
Benötigte Bandbreite
190
191
10
www.tecChannel.de
Inhalt
4.3.2
4.3.3
4.3.4
Technische Realisierung beim Kunden
Wer soll’s machen?
Ausblick
192
193
194
4.4
Meinung
195
5.
5.1
5.1.1
5.1.2
5.1.3
5.1.4
5.1.5
5.1.6
5.1.7
5.1.8
5.1.9
5.1.10
5.1.11
5.1.12
5.1.13
5.1.14
Technologien
Holographische Speichertechnik
Blaulicht-Laser
Blaue Variationen
Geschichte holographischer Speichertechnik
Holographische Speichertechnik
Variationen der Holographie
Holographische Medien
Anwendungen
Produkte und Projekte
Aprilis
IBM
InPhase
Optilink
Optostor
Optware
196
196
196
197
198
198
199
200
201
202
202
203
203
203
204
204
5.2
5.2.1
5.2.2
5.2.3
5.2.4
5.2.5
5.2.6
5.2.7
5.2.8
5.2.9
5.2.10
5.2.11
5.2.12
5.2.13
5.2.14
5.2.15
5.2.16
5.2.17
Zukünftige Speichertechnologien
Grundlegendes
Mechanische Verfahren
Speicherzellen in Atomgröße
20 Atome pro Bit
Millipede
Molekülspeicher
Biospeicher
Anleihen bei der Natur
FRAM/FeRAM
Flash-Nachfolger OUM
PFRAM/PMC
3D-Speicherung
Hyper-CD-ROM
Speichern auf Tesafilm
MRAM
BMR
Moleküle an Kreuzungen
206
206
207
207
207
208
209
210
211
211
212
213
213
214
214
215
216
216
Glossar
218
Index
222
tecCHANNEL-Leserumfrage – Mitmachen und gewinnen! 225
www.tecChannel.de
11
Desktop
1. Desktop
Mit Intels Prescott steht 2004 die nächste Prozessorgeneration für Desktop-PCs in
den Startlöchern. Dass dieser unter Pentium-4-Flagge segelt, suggeriert Plattformstabilität. Das stimmt jedoch nur bedingt und mittelfristig. Da nebst neuem
Sockel in diesem Jahr auch die Migrationen von AGP auf PCI-Express sowie von
DDR auf DDR2 anstehen, bleibt für die gesamte Desktop-Welt wenig beim Alten.
Da derlei Generationswechsel meist sukzessive vonstatten gehen, birgt dies das
Risiko unglücklicher Kombinationen mit begrenzter Zukunftssicherheit.
1.1 Roadmap: Desktop-CPUs 2004
Die Frage nach AMDs und Intels künftigen CPUs ist geklärt: tecCHANNEL hatte
Einblick in interne Hersteller-Roadmaps. Neben steigenden Taktfrequenzen und
Cache-Größen stehen neue Sockel und Chipsätze an.
Hersteller von Hardware müssen sich frühzeitig auf kommende Prozessoren einstellen. Schließlich kann die Entwicklung von Chipsätzen und Mainboards nicht
erst zum Launch der CPUs erfolgen. AMD und Intel versorgen die Industrie deshalb frühzeitig mit detaillierten Informationen über geplante Neuerscheinungen.
Diese Informationen wurden auch tecCHANNEL zugespielt – natürlich nicht von
AMD und Intel. Spekulationen über Taktfrequenzen und Features weichen damit
den Fakten. So wird es den Pentium-4-Nachfolger Prescott nicht nur mit höheren
Taktfrequenzen geben, 2004 steht auch ein neuer Sockel an. Intels nächste Chipsatzgeneration für den Pentium 4 wird diesen bereits unterstützen – ebenso wie
DDR2 (webcode: a1147) und PCI Express (webcode: p1003). Auch AMDs Athlon 64 FX wandert 2004 in einen neuen Steckplatz. Und den Athlon XP wird es
dann für den Socket 754 geben.
Wir weisen darauf hin, dass Informationen aus Roadmaps erfahrungsgemäß mit
Vorsicht zu genießen sind. Schon öfter haben CPU-Hersteller noch kurz vor dem
Launch an der Taktfrequenz gedreht oder den Start verschoben. Unsere Informationen aus verschiedenen Quellen bestätigen allerdings die Plausibilität dieser aktuellen Hersteller-Roadmaps.
1.1.1 Athlon 64
AMDs achte Prozessorgeneration (webcode: p1022) wurde am 23. September
2003 mit dem Athlon 64 3200+ (2,0 GHz) und dem Athlon 64 FX-51 (2,2 GHz)
vorgestellt. Zum Mainstream-Produkt Athlon 64 gesellt sich Anfang 2004 die Variante 3400+ hinzu. Der Socket-754-Prozessor arbeitet dann mit 2,2 GHz Taktfrequenz. Im zweiten Quartal 2004 steigert AMD die Model-Number auf 3700+ bei
12
www.tecChannel.de
Roadmap: Desktop-CPUs 2004
einer Taktfrequenz von vermutlich 2,4 GHz. Noch zum Jahreswechsel 2003/2004
bringt AMD den Athlon 64 „Newcastle“ auf den Markt. Die weiterhin im 0,13µm-Prozess gefertigte CPU erhält einen halbierten L2-Cache mit 512 KByte. Den
Schwerpunkt bei Newcastle legt AMD auf aggressive Preise. Von Newcastle soll
es in der ersten Jahreshälfte 2004 dann auch eine Socket-939-Variante geben. Die
Eckdaten: ebenfalls 512 KByte L2-Cache, aber ein Dual-Channel-Speicherbus.
AMD Athlon
64 FX
130 nm SOI
AMD Athlon
64
130 nm SOI
"Toledo"
90 nm SOI
"San Diego"
90 nm SOI
AMD Athlon 64
"Newcastle"
130 nm SOI
AMD Athlon
XP
130 nm
"Winchester"
90 nm SOI
"Palermo"
90 nm SOI
"Paris"
130 nm SOI
AMD Duron
180 nm
2H03
1H04
2H04
1H05
2H05
© tecCHANNEL
Offizielle Details: AMD gibt nur die Codenamen sowie die Fertigungstechnologie seiner künftigen CPUs bekannt (Quelle: AMD).
In der zweiten Jahreshälfte 2004 will AMD den Athlon 64 mit 90 nm Strukturbreite auf SOI-Basis fertigen. Damit verschiebt sich die ursprünglich für die erste Jahreshälfte 2004 geplante Umstellung des Fertigungsprozesses. Als Codenamen für
den ersten 90-nm-Athlon-64 hat AMD „Winchester“ gewählt. Welche Architekturänderungen Winchester erhält, ist noch nicht bekannt. Als wahrscheinlich gilt
aber ein integrierter Speicher-Controller für DDR2-SDRAM. Letzten Informationen zufolge soll der Athlon 64 im Jahr 2004 auf den Socket 939 migrieren.
1.1.2 Athlon 64 FX für Socket 939
Die Highend-Variante Athlon 64 FX-51 findet im zweiten Quartal 2004 mit dem
Modell FX-53 einen Nachfolger. Der Prozessor wird voraussichtlich in zwei Sockelvarianten Platz nehmen: im bekannten Socket 940 sowie im neu kreierten
Socket 939. Dieser Steckplatz soll bereits im ersten Quartal 2004 für FX-51-Modelle auf den Markt kommen. Der Socket 939 ist für günstiger zu produzierende
webcode: a1179
13
Desktop
4-Layer-Mainboards optimiert. Aktuelle Athlon-FX- und Opteron-Mainboards
mit dem Socket 940 brauchen aufwendigere und teurere 6-Layer-Mainboards.
Außerdem benötigen die Prozessoren für den Socket 939 keine Registered
DIMMs – ungepufferte DDR400-Module genügen. Den Athlon 64 FX soll es aber
bis Ende 2004 parallel weiter im Socket 940 geben.
In der zweiten Jahreshälfte 2004 will AMD die Fertigung des Athlon 64 FX auch
auf den 90-nm-Prozess umstellen. Der Socket-939-Prozessor mit dem Codenamen „San Diego“ setzt weiterhin auf einen 1 MByte großen L2-Cache. Die Taktfrequenz des Cores soll mindestens 2,6 GHz betragen. Voraussichtlich integriert
AMD in den Speicher-Controller auch die Unterstützung von DDR2-SDRAM –
wie beim Winchester. Der San Diego findet in der zweiten Jahreshälfte 2005 im
„Toledo“ seinen Nachfolger. Mehr Details als die Fertigung mit 90 nm Strukturbreite sind über den Toledo nicht bekannt. Am Socket 939 wird AMD festhalten.
1.1.3 Athlon XP für Socket 754
Den Athlon XP 3200+ für den Socket A lässt AMD im ersten Halbjahr 2004 weiter im Angebot – schnellere Varianten sind nicht mehr geplant. Ausschließlich für
Großkunden produziert AMD mit dem „Thorton“ noch eine spezielle Version des
Athlon XP. Thorton basiert auf dem Barton-Core, die Hälfte des 512 KByte großen L2-Cache ist aber deaktiviert. Er ist als günstige Variante 2200+ im Angebot.
Auch vom Duron gibt es für OEMs eine spezielle Variante mit bis zu 1,8 GHz
Taktfrequenz. Dieses Modell mit dem Codenamen „Applebred“ basiert im Prinzip
auf dem Thoroughbred-Core älterer Athlon-XP-CPUs. Thorton und Applebred
sind in AMDs offizieller Preisliste nicht zu finden.
Mitte 2004 stellt AMD den Athlon-XP-Nachfolger mit Codenamen „Paris“ vor.
Mit dem Athlon XP „Paris“ nimmt AMD Abschied vom Socket A. Der neue Prozessor ist für den Socket 754 der Athlon-64-CPUs ausgelegt. Der Core von „Paris“ basiert auch auf dem Athlon 64, aber mit zwei gravierenden Unterschieden:
Die L2-Cache-Größe wird von 1024 auf 256 KByte reduziert – dies entspricht der
ursprünglich (webcode: a936) für den Athlon 64 geplanten Cache-Dimensionierung. Zusätzlich beschneidet AMD den Athlon XP „Paris“ um den 64-Bit-Modus
(webcode: p1022). Mit der Degradierung zum reinen 32-Bit-Prozessor soll eine
klare Abgrenzung zum Athlon 64 erreicht werden. Die Fertigung von „Paris“ erfolgt im 0,13-µm-Prozess mit SOI-Technik. In der zweiten Jahreshälfte 2005 soll
beim Athlon XP dann der Übergang auf den 90-nm-Prozess erfolgen. Als Codenamen für den entsprechenden Athlon XP hat AMD „Palermo“ gewählt.
In der zweiten Jahreshälfte 2004 kann AMD für den Socket-754-Athlon-XP bereits auf eine breite Mainboard-Basis zurückgreifen. Der Übergang vom Socket A
fällt somit leicht. Die neuen Einsteiger-CPUs Athlon XP „Paris“ besitzen wie der
Athlon 64 einen integrierten Single-Channel-Speicher-Controller. Auch die Cool‚n‘-Quiet-Technologie zur dynamischen Anpassung von Taktfrequenz und CoreSpannung beherrschen die Paris-Prozessoren.
14
www.tecChannel.de
Roadmap: Desktop-CPUs 2004
1.1.4 Pentium 4 „Prescott“
Die Pentium-4-Serie mit Northwood-Core hätte mit 3,20 GHz Taktfrequenz ihren
Zenit eigentlich schon erreichen sollen. Schnellere Varianten standen nicht auf der
Roadmap. Doch die Verzögerung beim Prescott bringt nun einen Pentium 4 mit
3,40 GHz für Anfang 2004 auf den Plan. Auch bei der Highend-Version Pentium
4 Extreme Edition mit 2 MByte L3-Cache steigert Intel im gleichen Zeitraum die
Taktfrequenz von 3,20 auf 3,40 GHz.
Prescott
LGA775/FSB800
3,60/3,40/3,20/
3,00/2,80 GHz
Prescott
LGA775/FSB800
3,80/3,60/3,40/
3,20/3,00 GHz
Prescott
LGA775/FSB800
4,00/3,80/3,60/
3,40/3,20/
3,00 GHz
Prescott
FSB800
3,40/3,20/
3,00/2,80 GHz
Prescott
FSB800
3,60/3,40/3,20/
3,00/2,80 GHz
Prescott
FSB800
3,60/3,40/
3,20/3,00 GHz
Prescott
FSB800
3,60/3,40/
3,20/3,00 GHz
Pentium 4 HT
FSB800
3,40/3,20/3,00/
2,80/2,60 GHz
Pentium 4 HT
FSB800
3,40/3,20/
3,00/2,80 GHz
Pentium 4 HT
FSB800
3,00 GHz
Q1'04
Q2'04
Q3'04
Q4'04
© tecCHANNEL
Roadmap Pentium 4: Im Februar 2004 stellt Intel den Pentium-4-Nachfolger Prescott mit bis
zu 3,40 GHz Taktfrequenz vor. Die 4-GHz-Marke soll bis Ende 2004 erreicht werden.
Mit dem anstehenden Pentium-4-Nachfolger Prescott hat die Extreme Edition
nichts gemein. Laut tecCHANNEL vorliegenden Roadmaps debütiert Prescott im
Februar 2004. Der Name „Pentium 4“ wird dabei beibehalten. Prescott startet mit
den Taktfrequenzen 2,80, 3,00, 3,20 und 3,40 GHz. Der FSB arbeitet weiterhin
mit 800 MHz. Die architektonischen Highlights des Prescott sind die 13 neue Befehle umfassende SSE-Erweiterung, verdoppelte Cache-Größen sowie ein verbessertes Hyper-Threading. Zur Unterscheidung der Prescott-Varianten von den bisherigen Pentium-4-CPUs fügt Intel bei gleicher Taktzahlfrequenz ein „E“ an die
Taktzahl an. Neu in der aktuellen Intel-Roadmap ist auch ein Pentium 4 2,80A.
Die CPU basiert auf dem Prescott-Core, arbeitet aber mit einer FSB-Taktfrequenz
von 533 statt 800 MHz. Zusätzlich deaktiviert Intel beim Pentium 4 2,80A die Hyper-Threading-Technologie.
Ausführliche Details zur Architektur des Prescott-Prozessors finden Sie in diesem
Artikel (webcode: a1124) bei tecCHANNEL. Intel führt mit der neuen Pentium4-Generation zudem die 90-nm-Fertigungstechnologie ein.
webcode: a1179
15
Desktop
Die für hohe Taktfrequenzen ausgelegte Prescott-Architektur erlaubt Intel ein zügiges Anheben der Performance: Im zweiten Quartal 2004 soll ein 3,60-GHz-Modell auf den Markt kommen. Im dritten Quartal 2004 steigt die Taktfrequenz auf
3,80 GHz an. Die 4-GHz-Marke knackt Intel den Roadmaps zufolge noch im vierten Quartal 2004. Allen Prescott-Varianten bis 3,60 GHz ist der bekannte Socket
478 des aktuellen Pentium 4 gemeinsam.
1.1.5 Prescott für Socket LGA775
Zusammen mit der Taktfrequenzsteigerung des Prescott auf 3,60 GHz im zweiten
Quartal 2004 stellt Intel einen neuen Sockel vor. Mit Einführung des Sockels
LGA775 will Intel künftige Prescott-Versionen für höhere FSB-Taktfrequenzen
fit machen. Der Prescott mit 3,60 GHz wird der letzte Pentium 4 sein, den es
gleichzeitig noch für den Socket 478 gibt. Höher getaktete Varianten (ab 3,80
GHz) soll es ausschließlich für den LGA775-Steckplatz geben. Damit vollzieht
Intel das gleiche Verfahren, wie bereits beim Wechsel des Pentium 4 vom Socket
423 auf den Socket 478 im Jahr 2001.
Die Prozessoren für den LGA775-Sockel verwenden ein so genanntes Land Grid
Array. Auf der Unterseite der CPU befinden sich nur noch Kontaktflächen, Pins
entfallen. Der Prozessor hält höheren mechanischen Belastungen stand, und die
Antennenwirkung der Pins entfällt. Dies ist besonders im Hinblick auf höhere
FSB-Taktfrequenzen ein entscheidender Vorteil. Außerdem erlauben LGA-Gehäuse höhere Packungsdichten als auf Pins basierende.
Im ersten Quartal 2005 soll bereits der Prescott-Nachfolger Teja auf den Markt
kommen. Die insgesamt 775 Kontaktflächen des LGA775-Sockels benötigt der
Teja unter anderem für die Stromversorgung und zusätzliche I/O-Leitungen. Der
Teja-Prozessor verfügt voraussichtlich über einen 2 MByte großen L2-Cache.
1.1.6 Celeron mit Prescott-Core
Beim Celeron gibt es inklusive des ersten Quartals 2004 keine großen Überraschungen. Die aktuelle Taktfrequenz von 2,80 GHz bleibt im ersten Quartal 2004
unverändert. Intels Celeron-Prozessoren basieren auf dem Northwood-Core, können aber nur auf 128 KByte L2-Cache zurückgreifen. Die FSB-Taktfrequenz beträgt 400 MHz. Intels Hyper-Threading-Technologie (webcode: a840) bleibt den
Einsteiger-CPUs verwehrt.
Im zweiten Quartal 2004 stattet Intel den Celeron mit einem abgemagerten
Prescott-Core aus: Der L2-Cache wird wieder auf ein Viertel reduziert – von 1024
auf 256 KByte. Den FSB-Takt legt Intel beim Prescott-Celeron auf 533 MHz fest.
Die Hyper-Threading-Technologie integriert Intel beim Celeron weiterhin nicht.
Eine Gemeinsamkeit mit dem Pentium-4-Prescott ist der Fertigungsprozess in 90
nm sowie der Socket 478. Die Taktfrequenzen der ersten Celerons mit Prescott16
www.tecChannel.de
Roadmap: Desktop-CPUs 2004
Core betragen 2,66, 2,80 und 3,06 GHz. Den Sockel LGA775 bekommen die Celeron-Prozessoren im dritten Quartal 2004 spendiert. Dann erhöht Intel auch die
Taktfrequenz der Einsteiger-CPU auf 3,20 GHz.
1.1.7 Pentium-4-Chipsätze mit DDR2
Mit der Einführung des LGA775-Sockels im zweiten Quartal 2004 stellt Intel
auch eine neue Chipsatzgeneration vor. Sie trägt die Codenamen Alderwood und
Grantsdale und löst Intels Dual-Channel-DDR-Chipsätze (webcode: a1065)
875P und 865G/P/PE ab.
Die maximale FSB-Taktfrequenz des Alderwood/Grantsdale beträgt laut der uns
vorliegenden Roadmap zum Launch 800 MHz. Die Chipsätze erhalten wieder ein
Dual-Channel-DDR-Speicher-Interface. Neben der Unterstützung von DDR400SDRAM arbeitet Grantsdale erstmals mit DDR2-Speicher (webcode: a1147) bei
den Taktfrequenzen 400 und 533 MHz. Alderwood unterstützt ausschließlich
DDR2-SDRAM und verfügt wieder über einen „Turbo Mode“ wie der 875P. Die
Grantsdale-Familie wird es im dritten Quartal 2003 auch in einer Variante mit integrierter Grafik-Engine der dritten Generation geben.
Mit den Alderwood- und Grantsdale-Chipsätzen feiert die PCI-Express-Schnittstelle ihr Debüt. Die Grafikkarte nimmt dann nicht mehr in einem AGP-Slot, sondern in einem PCI-Express-x16-Connector Platz. Den klassischen I/O-Link zur
Verbindung von MCH und ICH ersetzt ebenfalls eine PCI-Express-Verbindung.
Für die Peripherie zeichnet beim Alderwood/Grantsdale dann der ICH6 verantwortlich. Neben PCI-Express-x1-Schnittstellen für Erweiterungskarten bietet er
vier Serial-ATA-Kanäle für Festplatten.
Ausführliche Details zur DDR2-Speichertechnologie können Sie in diesem Artikel (webcode: a1147) nachlesen. Grundlagen zu PCI Express (webcode: p1003)
finden Sie ebenfalls bei tecCHANNEL.
1.1.8 Fazit
Nach der überraschenden Vorstellung des Pentium 4 Extreme Edition (webcode:
a1244) konnte Intel seinen Performance-Thron nochmals knapp verteidigen. Allerdings hat AMD mit den Athlon-64-Prozessoren gewaltig aufgeholt. Jetzt heißt
es für AMD, möglichst schnell und in hohen Stückzahlen höher getaktete Versionen nachzulegen. Allerdings herrscht durch AMDs Sockelflut auch Verunsicherung: Für den Athlon 64 FX wird es bereits im ersten Quartal 2004 den neuen
Socket 939 geben. Und laut unseren letzten Informationen soll auch der Athlon 64
vom Socket 754 in den Socket 939 wandern.
Der mit 3,40 GHz Taktfrequenz startende Prescott hält diverse Architekturerweiterungen parat: doppelte Cache-Größen, verbessertes Hyper-Threading (webcode: p840), neue SSE-Befehle und schlauere Prefetch-Mechanismen. Dem
webcode: a1179
17
Desktop
FSB800 und Socket 478 bleibt der Prescott anfangs noch treu. Ab dem zweiten
Quartal 2004 steht mit LGA775 aber ein neuer Sockel ins Haus. Damit ebnet Intel
einer Anhebung der FSB-Taktfrequenz den Weg und ermöglicht höhere Ströme.
Außerdem bereitet sich der Hersteller mit dem LGA775-Sockel auf den bereits
2005 anstehenden Nachfolger des Prescott mit dem Code-Namen Teja vor.
Vor dem Teja drängen mit DDR2-SDRAM (webcode: a1147) und PCI Express
(webcode: a1003) noch zwei andere neue Technologien auf den Markt. Beide unterstützt Intel mit dem Alderwood- und Grantsdale-Chipsatz, die im zweiten
Quartal 2004 die 865/875-Serie ablösen sollen. Wer 2004 up to date sein will, darf
damit wieder einmal kräftig in komplett neue Hardware investieren.
Christian Vilsbeck
tecCHANNEL-Links zum Thema
Webcode
Compact
Roadmap: Desktop-CPUs 2004
a1179
S.12
Server- & Workstation-CPUs
a1118
S.128
Prescott im Detail
a1124
S.38
Desktop-Prozessoren im Detail
p1248
–
Alle Details zur AMD64-Architektur
p1022
–
Test: Athlon 64/FX vs. P4 Extreme Edition
a1244
–
Pentium 4 Hyper-Threading
Benchmarks
a1064
–
Hyper-Threading im Detail
p840
–
PCI Express im Detail
p1003
–
Speicher-Roadmap
a1147
S.19
Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de
ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren.
18
www.tecChannel.de
Roadmap: Speicher
1.2 Roadmap: Speicher
DDR-SDRAM gehört zum Standardarbeitsspeicher in den heutigen Rechnersystemen. Rasant vollzog sich die Entwicklung dieser neuen Speichertechnologie.
Mitte 2000 erschienen erste Chipsätze mit DDR200/266-SDRAM-Unterstützung.
Heute liefern Speicherhersteller bereits DDR400-Module und solche, die diese
Spezifikation weit übertreffen.
Aber ein Ende dieser Speichertechnologie ist bereits abzusehen, denn mit DDR2
befindet sich die nächste Generation kurz vor der Markteinführung – geplant ist
das erste Quartal 2004. Die Vorteile: DDR2-Speicher arbeitet bei gleicher Bandbreite mit der halben internen Core-Taktfrequenz und verringert signifikant den
Energieverbrauch gegenüber dem herkömmlichen DDR-Memory. Die erste offizielle Spezifikation JESD-79-2 für die künftige DDR2-Speichertechnologie hat
das JEDEC-Komitee (www.jedec.org) im September 2003 veröffentlicht.
Wie andere Firmen setzt auch der Chipsatzhersteller VIA auf die neue DDR2Speichergeneration. Aber noch vor deren Einführung möchte das taiwanische Unternehmen die Quad-Band-Memory-Technologie (QBM) an den Start bringen.
Durch einen technischen Trick verdoppelt sich die Bandbreite der Speichermodule, obwohl nur Standard-DDR266/333/400-Speicherchips verwendet werden.
Auch SiS beschreitet neue Wege bei der Erhöhung der Bandbreite des Speicherbusses. Der Chipsatzhersteller verwendet die von Intel lange Zeit bevorzugte
RDRAM-Technologie und entwickelt sie zusammen mit Rambus weiter. In den
zukünftigen Chipsätzen will SiS PC1200-Speichermodule und die Quad-Channel-Speicher-Interface-Technologie auf Basis von RDRAM einsetzen.
Die Entwicklung neuer Speichertechnologien geht über 2007 hinaus. Schon jetzt
sickern erste technische Eckdaten des JEDEC-Gremiums für DDR3, den DDR2Nachfolger, durch. Darüber hinaus stellen Intel und Rambus mit Fully-BufferedDIMM und XDR-RAM für 2005 neue Speichertechnologien in Aussicht.
1.2.1 Status aktueller Speichertechnologien
Als Nachfolger von DDR266-SDRAM hat sich DDR333-Speicher durchgesetzt,
der wiederum von DDR400-SDRAM abgelöst wurde. Chiphersteller wie Intel,
VIA, SiS und NVIDIA bieten entsprechende Chipsätze für diese Speichertechnologien an. Die Standards für DDR333-SDRAM verabschiedete das JEDEC-Gremium in den JESD-79-Spezifikationen im Mai 2002. Die Geburtswehen von
DDR400 begannen mit der CeBIT 2002, auf der die taiwanischen Hersteller VIA
und SiS Chipsätze für diesen Speichertyp zeigten. Erster Anbieter von DDR400SDRAM-Chips war Samsung. Doch für diese frühen Speichermodule existierten
keine offiziellen Spezifikationen seitens der JEDEC, so dass jeder Speicherhersteller seine eigenen technischen Standards für DDR400-Speicher festlegte. Kompatibilitätsprobleme waren nicht auszuschließen.
webcode: a1147
19
Desktop
DDR2
DDR
DDR2-533+
DDR2-533
DDR2-400
D
DDR333
DDR400
DDR266
DDR200
RDRAM
PC800
PC1066
PC1200
SDRAM PC133
2002
2003
2004
2005
© tecCHANNEL
Intel Memory Technology Roadmap: Der DDR400-Speicher hat sich etabliert. Mit den ersten
DDR2-Speichermodulen ist ab Anfang 2004 zu rechnen.
Nachdem sich Intel im September 2002 noch klar gegen DDR400-Speicher ausgesprochen hat, vollzog das Unternehmen im Frühjahr 2003 eine Kehrtwende:
Die Chipsätze Canterwood und Springdale bieten Dual-Channel-DDR400-Support. Intel präsentierte sogar eigene DDR400-Spezifikationen, die Kompatibilität
und ein sicheres Funktionieren des Speichers gewährleisten sollen.
Die Intel-Spezifikation Revision 0.996 war beispielsweise auf den 12. März 2003
datiert. Seit Ende März 2003 liegt die finale DDR400-Spezifikation des JEDECGremiums vor. Zu den wesentlichen Neuerungen von DDR400- gegenüber
DDR333-Speicher zählen ein strafferes Signal-Timing, veränderte Betriebsspannungsparameter und eine verbesserte Signalqualität auf den Leitungen. Als Nachfolger von DDR sollen Anfang 2004 DDR2-400 und DDR2-533 an den Start gehen.
Bei RDRAM löste PC1200-Speicher erfolgreich den PC1066- und den PC800Speicher ab. Die einzigen Chipsätze, die diese Speichertechnologien nutzen, sind
der 850E von Intel und der R658 sowie der R659 von SiS. Intel plant jedoch keine
weiteren Chipsätze mit RDRAM-Support, so dass SiS künftig als einziger Chiphersteller RDRAM im Desktop-, Server- und Workstation-Bereich unterstützt.
1.2.2 Entwicklung aktueller Speichertechnologien
Die DDR266-, DDR333- und DDR400-Speichertechnologien haben sich auf dem
Markt etabliert. Jeder Chipsatzhersteller bietet mittlerweile ein vielfältiges Portfolio an Produkten an, die diese Speichertypen unterstützen. Die Preise differieren
20
www.tecChannel.de
Roadmap: Speicher
zum Beispiel für 512-MByte-Module um einstellige Euro-Beträge für das billigere DDR266. Noch sind die aktuellen Marktanteile von DDR266 und DDR333
ausbalanciert, sie werden sich aber im Laufe des Jahres 2004 deutlich zu Gunsten
des schnelleren DDR333-Speichers entwickeln. DDR400-SDRAM ist seit Anfang 2003 ebenfalls stetiges Wachstum beschert.
DDR200 spielt lediglich noch eine untergeordnete Rolle. Es findet Verwendung in
einigen Server-Chipsätzen wie in der Grand-Champion-Familie von Broadcom.
PC133-Memory verlor im Laufe des Jahres 2003 gänzlich an Marktbedeutung.
© tecCHANNEL
Marktentwicklung der Speichertechnologien: Der DDR333-Speicher beherrscht bereits den
Markt. Erst ab Mitte 2004 hat DDR2 eine Marktbedeutung. (Quelle: Intel)
Da Intel laut der aktuellen Roadmap keine weiteren Chipsätze mit RDRAM-Unterstützung entwickelt, schwindet die Marktpräsenz dieser Speichertechnologie
zunehmend. Zwar hat der taiwanische Hersteller SiS den R658-Chipsatz mit
PC1066-RDRAM-Support für den Pentium 4 herausgebracht, ob sich das auf den
Absatz von entsprechenden Modulen entscheidend auswirkt, bleibt abzuwarten.
Auch der im November 2003 vorgestellte Nachfolgerchipsatz SiS R659 mit
Quad-Channel-RDRAM-Controller für PC1200-Module soll den angeschlagenen
RDRAM-Markt weiter ankurbeln.
Die DDR2-Speichertechnologie für Rechnersysteme befindet sich noch in der
Evaluierungsphase. Erste Chipsätze mit DDR2-Support soll es ab Anfang 2004
zum Beispiel von SiS (SiS656) und VIA (Apollo PT890) und Mitte 2004 von Intel
(Grantsdale) geben. Die DDR2-Technologie soll dann rasch den DDR-SDRAMSpeicher ablösen und vom Markt verdrängen.
webcode: a1147
21
Desktop
1.2.3 Fazit
Noch steht DDR333-Speicher in der Gunst der Käufer. Doch bereits seit Mitte
2003 drängt DDR400 in ausreichenden Stückzahlen auf den hart umkämpften
Speichermarkt. DDR400 verfügt zusammen mit einem Dual-Channel Memory
Controller über genügend Speicherbandbreite, um auch CPUs mit einem FSB von
800 MHz ohne Engpässe mit Daten zu versorgen.
Auf Drängen von Intel wurden im März 2003 die JEDEC-Spezifikationen für
DDR400 zügig verabschiedet; mittlerweile hat es sich im Markt etabliert. Mit
DDR2 entwickeln die Speicherhersteller die Nachfolgetechnologie von DDRSDRAM. Die finalen Spezifikationen wurden im September 2003 veröffentlicht,
und erste Muster befinden sich bereits in der Validierungsphase.
Um die Zeit bis zur Einführung von DDR2-Speicher zu überbrücken, will VIA auf
die Quad-Band-Memory-Technologie setzen. Diese sollte bereits im vorgestellten
Pentium-4-Chipsatz VIA PT880 zum Einsatz kommen. Branchenkenner munkeln, dass VIA mit QBM-Speicher Probleme hat und deshalb die Chancen für
QBM gering sind, noch rechtzeitig vor der Einführung von DDR2 Anfang 2004
auf den Markt zu kommen.
Obwohl sich Intel als der Hauptbefürworter der Rambus-Technologie davon verabschiedet hat, halten immer noch Chipsatz- und Speicherhersteller an RDRAM
fest. So hat SiS im November 2003 den ersten Chipsatz mit integriertem QuadChannel Memory Controller auf PC1200-RDRAM-Basis vorgestellt. Zusätzlich
entwickelt das Unternehmen Rambus in Anlehnung an die RDRAM-Technologie
eine neue Speichergeneration, genannt XDR-RDRAM.
Bernhard Haluschak
tecCHANNEL-Links zum Thema
Webcode
Compact
Roadmap: Speicher
a1147
S.19
Speichertechnologien
a1147
S.50
Test: RIMM 4200
a985
–
Test: PC1066-RDRAM
a925
–
Test: DDR400-SDRAM
a898
–
Rambus im Detail
a202
–
Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de
ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren.
22
www.tecChannel.de
Roadmap: Grafikchips
1.3 Roadmap: Grafikchips
Auf dem Grafikchipmarkt buhlen ATI und NVIDIA um die Vormachtstellung. Sie
bieten ein Portfolio an Produkten für jedes Preissegment an. Zusätzlich drängt die
Konkurrenz wie S3 und XGI mit neuen Grafikchips auf den Markt.
Für ihr Angebot haben die Grafikchiphersteller den Markt in drei Zielgruppen unterteilt: Der Highend-User oder Enthusiast erhält den schnellsten Grafikchip mit
den aktuellen „State-of-the-Art-Features“ zu einem hohen Preis. Im Massenmarktbereich (Mainstream) bekommt der Kunde ein Produkt zum besten PreisLeistungs-Verhältnis. Dagegen muss der Käufer im Einsteiger- oder Value-Segment in punkto Performance und aktueller Technologie Abstriche hinnehmen –
dafür ist der Preis in dieser Sparte niedrig.
Um sich für ein bestimmtes Produkt zu entscheiden, sind detaillierte Kenntnisse
aktueller und zukünftiger Produkte der verschiedenen Hersteller notwendig. Denn
bereits ab Anfang 2004 steht mit PCI Express ein Schnittstellenwechsel an. Zusätzlich soll im Laufe des Jahres mit DDR3 eine neue Speichertechnologie für
Grafikkarten eingeführt werden. Wir geben auf den folgenden Seiten einen Überblick über das Produktangebot der namhaften Grafikchiphersteller. Darüber hinaus stellen wir die zukünftigen Grafikchips der einzelnen Grafikchipschmieden
vor. Trotz spärlicher Informationen seitens der Hersteller sickern dennoch erste
technische Spezifikationen der Kandidaten durch.
1.3.1 ATI: Grafikchips im Überblick
Der Grafikchiphersteller ATI bietet mit der RADEON 9800XT (R360) und der
RADEON 9800 (R350) zwei Chipfamilien im High-Performance-Bereich an.
Wie bei NVIDIA unterscheiden sich die ATI-Chips beim Chip- und Speichertakt
voneinander. Die interne Architektur bleibt unverändert. Sie besteht aus einer
8x1-Pipeline-Technologie und einer 256 Bit breiten Speicherschnittstelle. Zu den
Vorgängern zählen die Highend-Chipvarianten des RADEON 9700 (R300).
Für den Preis-Leistungs-bewussten Kunden hält ATI mit dem RADEON 9800SE
(R350), dem RADEON 9600XT (RV360) und dem RADEON 9600 (RV350) drei
Grafikchipversionen parat. Alle verfügen über eine 4x1-Pipeline-Architektur und
einen 128 Bit breiten Speicherbus. Zusätzlich variiert je nach Chipmodell die Frequenz für den Core und den eingesetzten Speicher. An Marktbedeutung verlieren
die Chipvarianten des RADEON 9500 (R300).
Im Einsteigersegment finden sich mit dem RADEON 9600SE (RV350) und dem
RADEON 9200 (RV280) aktuell zwei Chipfamilien zur Auswahl. Sie verfügen
über eine 4x1-Pipeline-Architektur, die allerdings im Vergleich zu den Massenmarktprodukten mit verminderter Taktfrequenz und einer Speicherbusbreite von
lediglich 64 Bit arbeitet. Zu Gunsten der Nachfolger wurde die Produktion des
RADEON 9100 (R200) und der RADEON-9000-Versionen (RV250) eingestellt.
webcode: a1283
23
Highend
RADEON 9800 PRO
R350 380/340+ MHz
RADEON 9800
R350 325/290 MHz
(8x1 P, 256 Bit)
RADEON 9800 XT
R360 412/365 MHz
(8x1 P, 256 Bit)
Mainstream
RADEON 9600 PRO
RV350 400/300 MHz
RADEON 9600
RV350 325/200 MHz
(4x1 P, 128 Bit)
RADEON 9800 SE
R350 380/340 MHz
RADEON 9600 XT
RV360 500/300 MHz
(4x1 P, 128 Bit)
Value
Desktop
RADEON 9200 PRO
RV280 400/300 MHz
RADEON 9200
RV280 250/200 MHz
(4x1 P, 64/128 Bit)
RADEON 9600 SE
RV350 325/200 MHz
RADEON 9200 SE
RV280 200/166 MHz
(4x1 P, 64 Bit)
1H'03
R420
AGP 8x /
PCI Express
R380/R370
>PCI Express
???
PCI
> Express
2H'03
1H'04
© tecCHANNEL
ATI-Roadmap: Mit dem R420 will die kanadische Chipsatzschmiede ATI im ersten Halbjahr
2004 einen Highend-Grafikchip für den neuen PCI-Express-Slot auf den Markt bringen.
Die Informationen über ATIs zukünftige Entwicklungen sind spärlich gesät. Unter
dem Codenamen R420 will ATI aber im ersten Halbjahr 2004 eine PCI-ExpressLösung für den Highend-Bereich vorstellen. Der AGP-8x-Support soll wie bei
NVIDIA über einen Bridge-Baustein möglich sein. Sowohl der Pixel- als auch der
Vertex-Shader in den Versionen 3.0 bieten voraussichtlich DirectX-9.1-Unterstützung. Offen ist auch die Frage, ob der Grafikchip bereits DDR3-Support bietet.
1.3.2 NVIDIA: Zukunftsperspektiven
Die amerikanische Chipsatzschmiede NVIDIA hat im Highend-Segment aktuell
mit dem GeForceFX 5950 (NV38) und dem GeForceFX 5900 (NV35) zwei Kandidaten im Portfolio. In der Chiparchitektur unterscheiden sich die beiden Chips
nicht voneinander, lediglich die Taktraten für Core und Speicher sind unterschiedlich. Der Vorgänger GeForceFX 5800 (NV 30) wird nur noch als Auslaufmodell
gehandelt. Im umsatzträchtigsten Bereich stehen dem Kunden mit der GeForceFX
5700 (NV36) und der GeForce 5600 (NV 31) ebenfalls zwei Chipfamilien zur
Auswahl. Sie verfügen im Vergleich zu den Topmodellen über eine abgespeckte
Pipeline-Architektur und eine auf 128 Bit halbierte Speicherbusbreite. Die beiden
Grafikchiptechnologien ersetzen die veralteten GeForce4-Ti-Familien (NV28/
NV25). Das Einsteigerfeld deckt NVIDIA mit der GeForceFX 5200 (NV34) ab.
Der Grafikchip kann je nach Anforderungen eine 64 oder 128 Bit breite Speicherschnittstelle ansprechen. Der Core- und Speichertakt sowie die Chiparchitektur
sind, wie die Roadmap zeigt, entsprechend für das Segment zugeschnitten.
24
www.tecChannel.de
Highend
GeForceFX 5800 U
NV30 475/475 MHz
GeForceFX 5800
NV30 400/400 MHz
(4x2 P, 128 Bit)
GeForceFX 5950 U
NV38 475/475 MHz
GeForceFX 5900 XT
NV35 390/350 MHz
(4x2 P, 256 Bit)
NV40
AGP 8x/PCI Express
600/750 MHz
(8x2 P, 256 Bit)
Mainstream
GeForceFX 5600 U
NV36 400/400 MHz
GeForceFX 5600
NV36 325/275 MHz
(2x2 P, 128 Bit)
GeForceFX 5700 U
NV36 475/450 MHz
GeForceFX 5600 XT
NV31 235/200 MHz
(2x2 P, 128 Bit)
NV36X
(NV36 mit
PCI Express)
PCI Express
Value
Roadmap: Grafikchips
GeForceFX 5200 U
NV34 325/325 MHz
GeForceFX 5200
NV34 250/200 MHz
(2x2 P, 64/128 Bit)
GeForceFX 5200 SE
???
NV43/NV42
PCI
> Express
>PCI Express
1H'03
2H'03
NV45
PCI Express
NV41
1H'04
© tecCHANNEL
NVIDIA-Roadmap: Der NV40 soll NVIDIAs erster Grafikchip mit PCI-Express-Schnittstelle
werden. Vorstellen will ihn der Hersteller im ersten Halbjahr 2004.
Das Einsteigerfeld deckt NVIDIA mit der GeForceFX 5200 (NV34) ab. Der Grafikchip kann je nach Anforderungen eine 64 beziehungsweise 128 Bit breite Speicherschnittstelle ansprechen. Der Core- und Speichertakt sowie die Chiparchitektur sind, wie die Roadmap zeigt, entsprechend für das Segment zugeschnitten.
Neues technisches Terrain will der Chiphersteller mit der Vorstellung des NV40
Anfang 2004 beschreiten. Dieser Grafikbaustein soll über eine PCI-ExpressSchnittstelle verfügen und neben DDR2- bereits DDR3-Speichertechnologie unterstützen. Ein spezieller AGP-Bridge-Baustein ermöglicht dann den Einsatz in
den herkömmlichen AGP-8x-Slots. Zusätzlich soll der Neuling eine schnellere
8x1- oder sogar 8x2- statt 4x2-Pipeline-Architektur besitzen. Darüber hinaus enthält der NV40 voraussichtlich vollen DirectX-9.1-Support mit Pixel- und VertexShadern der Version 3.0 – aktuell unterstützen die Grafikprozessoren DirectX 9.0
mit Shadern der Version 2.0+. Auch in preissensitiven Bereichen plant NVIDIA,
entsprechende PCI-Express-Pendants auf den Markt zu bringen.
1.3.3 S3 Graphics: Comeback-Versuch
Auf dem Desktop-Grafikchipmarkt hatte S3 Graphics in den letzten Jahren keine
Marktpräsenz, da die bisherigen Grafikchiptechnologien ausschließlich als integrierte Lösungen für den Mobile-Bereich bestimmt waren. Doch mit der neuen
DeltaChrome-Generation beabsichtigt das taiwanische Unternehmen 2004 den
Wiedereinstieg in das Desktop-Segment.
Für den Highend-User bietet S3 Graphics dann den DeltaChrome F1 mit einer
8x1-Pipeline-Architektur und DirectX-9.0-Unterstützung an. Der Chip arbeitet mit 128-Bit-DDR2-Speichertechnologie und benötigt durch die Ultra-Low-
webcode: a1283
25
Desktop
Power-Technologie im Vergleich zu den Mitbewerbern deutlich weniger Strom.
Das Post-Processing und das HQ-De-Interlacing sind weitere Funktionen des
DeltaChrome F1. Im umsatzstärksten Sektor wird S3 Graphics den DeltaChrome
S8 mit reduzierter Performance und im Vergleich zu den Highend-Modellen nahezu identischem Chipaufbau ausstatten. Für den preissensitiven Einsteigermarkt
steht der DeltaChrome S4 mit vier Pipelines zur Verfügung. Beide Chips arbeiten
mit herkömmlicher DDR-Speichertechnologie und 128 Bit Speicherbusbreite.
Übersicht über die S3-Graphics-Grafikprozessoren
GPU
DeltaChrome F1 DeltaChrome S8 DeltaChrome S4
Schnittstelle
AGP 8x
AGP 8x
AGP 8x
DDR
ja
ja
ja
DDR2
ja
nein
nein
DirectX
9.0
9.0
9.0
Pipeline
8
8
4
TMU
1
1
1
Füllrate
2,4 GByte/s
2,4 GByte/s
1,6 GByte/s
Speicherbandbreite
11 GByte/s
9,6 GByte/s
9,6 Gbyte/s
Der Nachfolger der DeltaChrome-Chips setzt nach einer S3-Graphics-Roadmap
auf DirectX 9.0 und höher, inklusive Vertex- und Pixel-Shader der Version 3.0.
Zusätzlich soll er mit DDR2-Speicher arbeiten. Mit welcher Busbreite das Speicher-Interface den Datenaustausch dann regelt, gibt der Hersteller nicht preis.
1.3.4 XGI: Aufbruchpläne
Zu Beginn des Jahres 2003 formierte sich aus den Grafikchipsparten von SiS und
Trident das Unternehmen eXtreme Graphics Innovation (XGI). Noch im September desselben Jahres stellte XGI auf der „Computex“ in Taipei unter dem Namen
Volari eine vollständige Grafikprozessorfamilie vor.
Der Hersteller adressiert mit den Versionen Volari Duo V8 Ultra und Volari Duo
V5 Ultra den High-Performance-3D-User. Mit den beiden Single-Prozessor-Varianten Volari V8 Ultra und Volari V8 will XGI den Highend-Markt mit GPUs bedienen, für den Mainstream-Bereich sind der Volari V5 Ultra und der Volari V5
ebenfalls in Single-Ausführung vorgesehen.
Zusätzlich soll der Volari 3 das Einsteigerfeld abdecken und der Volari XP5 das
Mobile-Segment erschließen. Welche technischen Details die einzelnen DesktopGPUs voneinander unterscheiden, zeigt die folgende Tabelle:
26
www.tecChannel.de
Roadmap: Grafikchips
Übersicht über die XGI-Volari-Grafikprozessoren
GPU
Volari
Duo V8
Ultra
Volari
Duo V5
Ultra
Volari V8
Ultra
Volari V8
Volari V5
Ultra
Volari V5
Volari V3
AGP 8x
ja
ja
ja
ja
ja
ja
ja
Core
350 MHz
350 MHz
350 MHz
350 MHz
350 MHz
300 MHz
300 MHz
DDR
375+ MHz
375+ MHz
375+ MHz
325+ MHz
375+ MHz
325 MHz
250 MHz
DDR2
500 MHz
500 MHz
500 MHz
450 MHz
500 MHz
450 MHz
nein
DirectX
9.0
9.0
9.0
9.0
9.0
9.0
9.0
Pipeline
16
8
8
8
4
4
2
V-Shader
4
4
2
2
2
2
1
P-Shader 8
4
4
4
2
2
1
P-Shader 8
4
4
4
2
2
1
ShaderVersion
2.0
2.0
2.0
2.0
2.0
1.3
2.0
Die verschiedenen Volari-Desktop-GPUs unterstützen DDRII- oder StandardDDR-Speicher – die Mobile-GPU nur Letzteres. Um die hohe Performance bei
den Volari-Duo-Versionen zu erreichen, berechnen die Prozessoren im Wechsel
einen gesamten Bildaufbau. Ähnlicher Verfahren bedienten sich bereits vor Jahren
erfolglos 3dfx und ATI. Auch zukünftig beabsichtigt XGI, kräftig im Grafikchipgeschäft mitzumischen. Eine interne Roadmap zeigt, welche Überraschungen der
Newcomer im Grafikchipgeschäft zu bieten hat.
Zukunftsaussichten: Nach
XGIs Roadmap folgen bereits
2004 weitere Grafikchips des
Herstellers. (Quelle: XGI)
Man darf also gespannt sein, ob sich das taiwanische Unternehmen XGI mit den
Volari-Chips auf dem hart umkämpften Grafikchipmarkt behaupten kann – das
technische Potenzial dazu hat er. Interessant scheint der XGI Volari für den Markt
webcode: a1283
27
Desktop
zu sein, denn zumindest Grafikkartenhersteller Club3D hat den Grafikchip in sein
Portfolio aufgenommen. Weitere nahmhafte Firmen wie Gigabyte, MSI oder Power Color wollen 2004 nachziehen und Produkte mit den Volari-Chips anbieten.
1.3.5 Fazit
Jeder Grafikchiphersteller hat als Aushängeschild ein Topmodell für DesktopSysteme im Angebot. So bieten Anfang 2004 ATI mit dem RADEON 9800XT
und NVIDIA mit dem GeForce FX 5950 Ultra die gefragtesten Highend-Grafikchips an. XGI will mit dem hauseigenen Flaggschiff Volari Duo V8 Ultra den etablierten Chipsatzschmieden Marktanteile streitig machen. Auch S3 Graphics
plant mit dem neu entwickelten Delta Chrome F1, den Topprodukten der Konkurrenz etwas Ebenbürtiges entgegenzusetzen.
Den Roadmaps zufolge haben nahezu alle Grafikchiphersteller schon für Anfang
2004 erste Modelle mit der neuen Schnittstellentechnologie PCI Express vorbereitet. Zeitgleich werden Mainboards mit entsprechenden Chipsätzen verfügbar
sein. Die Spezifikationen für diese neue Technologie liegen bereits in der finalen
Version vor. In der Übergangsphase können die Grafikchips jedoch per AGPBridge-Baustein an das herkömmliche AGP-8x-Interface angebunden werden.
Eine höhere Performance wollen die Grafikchiphersteller durch höhere Taktfrequenz und neue Hardware-Features wie verbesserte Pixel- und Vertex-Shader
erreichen. Zusätzlich soll die zukünftige DDR3-Speichertechnologie den DDR2Speicher ablösen und für den nötigen Performance-Schub sorgen.
Bernhard Haluschak
tecCHANNEL-Links zum Thema
Webcode
Compact
Roadmap: Grafikchips
a1283
S.23
Test: XGI Volari Duo V8 Ultra vs. ATI
und NVIDIA
a1182
–
Test: NVIDIA GeForceFX 5950/5700 Ultra
a1268
–
PCI Express für Grafikkarten
a1182
S.29
PCI Express: Der Highspeed-Datenbus
im Detail
p1003
–
Speichertechnologien
a1147
S.50
Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de
ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren.
28
www.tecChannel.de
PCI Express für Grafikkarten
1.4 PCI Express für Grafikkarten
PCI Express soll ab Mitte 2004 das in die Jahre gekommene AGP-Interface als
Grafikschnittstelle ablösen. Wegbereiter Intel verspricht höhere Performance und
geringere Kosten durch einfache Implementierung in bestehende Board-Designs.
Bei der aktuellen CPU- und Chipsatzgeneration liegt die Bandbreite des Prozessor- und Speicherbusses bei 5,96 GByte/s. Die AGP-8x-Grafikschnittstelle erreicht eine Datentransferrate von 1,99 GByte/s. Damit ist der AGP-8x-Bus nach
Intels Meinung technisch ausgereizt und verhindert eine ausbalancierte Performance-Verteilung der Datenströme zwischen CPU, Systemspeicher und Grafikchip. Eine PCI-Express-x16-Schnittstelle soll dieses Problem beseitigen. Gleichzeitig will der Technologiegigant Buslösungen wie den eigenen Hub-Link und
das veraltete und langsame PCI-Interface durch PCI Express ersetzen.
Nach den ersten festgelegten Spezifikationen der Version 1.0a und bisherigen Updates erreicht der Grafikbus auf Basis von PCI Express x16 eine rechnerische Datenrate von 3,73 GByte/s unidirektional und 7,46 GByte/s bidirektional. Die
Schnittstelle ist zudem durch variable Busbreiten und höhere Taktfrequenzen einfach skalierbar. Ein weiterer Vorteil der seriellen PCI-Express-Technologie im
Vergleich zur parallelen von AGP ist das unkomplizierte Routing der Signalleitungen. Es vereinfacht die PCB-Entwicklung und spart Kosten. Leistungshungrige
Grafikkarten kann der PCI-Express-x16-Grafikbus mit bis zu 75 Watt an elektrischer Leistung versorgen. Dagegen liefert der Standard-AGP-Port laut Spezifikation nur maximal 25 Watt – lediglich teurere AGP-Pro-Varianten schaffen mehr.
In diesem Artikel stellen wir Ihnen die kommende Schnittstellengeneration für
Grafikkarten im Detail vor. Zusätzlich erläutern wir, welche Vorzüge der neue
PCI-Express-Bus gegenüber dem AGP-Interface hat.
1.4.1 Grafikschnittstellen im Wandel
Die ersten Grafikkarten für PCs wohnten Anfang der 80er Jahre in der immer noch
bekannten ISA-Schnittstelle. Der 16 Bit breite Bus arbeitet mit einer Taktfrequenz
von 8,33 MHz. Er erreicht eine rechnerische Bandbreite von 15,9 MByte/s. Mit
der Einführung von Windows 1985 stiegen die 2D-Datenmengen zur Grafikkarte, denn Microsoft stattete das Betriebssystem mit einem Grafik-User-Interface
(GUI) aus. Um dem hohen Datenaufkommen gerecht zu werden, verabschiedete
das PCI-SIG-Konsortium (www.pcisig.com/home) – und allen voran Intel – 1993
die finale PCI-Spezifikation in der Version 2.0.
Der Peripheral Component Interconnect (PCI) verfügt über einen 32-Bit-Datenbus und erlaubt Taktraten von 8 bis 33 MHz. Die maximale theoretische Bandbreite beträgt 127,2 MByte/s. Mit der Erweiterung der PCI-Spezifikationen auf
Version 2.3 sind sogar Frequenzen bis 66 MHz bei 64 Bit Busbreite zulässig.
webcode: a1182
29
Desktop
4500
PCI Express
Gen1
4000
3500
MByte/s
3000
2500
AGP 8x
2000
1500
AGP 4x
1000
500
0
AGP 1/2x
ISA
PCI
1985
1993
1997
1998
1999
2002
2004
© tecCHANNEL
Generationswechsel: Mit jeder neuen Entwicklungsstufe des Grafikbusses wächst die nominale Datenbandbreite der Schnittstelle zirka um das Doppelte.
Mit der immer stärkeren Nutzung von 3D-Applikationen erwies sich das PCI-Interface schon bald als zu langsam, insbesondere da der PCI-Bus auch noch parallel andere Einsteckkarten verwalten musste. Mitte 1998 verabschiedete die PCISIG den Standard AGP 1x/2x und Ende des Jahres AGP 4x. Der „Accelerated
Graphics Port“ (AGP) ist ein modifiziertes PCI-Interface. Anders als PCI ist der
AGP-Bus nicht an den I/O-Baustein des Chipsatzes angebunden, sondern als
Punkt-zu-Punkt-Verbindung zwischen Grafikkarte und Chipsatz ausgelegt. Die
AGP-Schnittstelle arbeitet mit einem Grundtakt von 66 MHz und erreicht über
den 32-Bit-Datenbus im AGP-/2x-Modus eine maximale Transferrate von 508,6
MByte/s und im AGP-4x-Betrieb 1017,3 MByte/s. Die letzte Entwicklungsstufe
des AGP-Ports beschreibt die Spezifikation 3.0 (September 2002) mit dem AGP8x-Standard. Mit einer Vervierfachung der Frequenz auf bestimmten Steuerleitungen erreicht AGP 8x eine Bandbreite von 1,99 GByte/s.
Die nächste Performance-Stufe soll 2004 PCI Express einläuten. Für die hohen
Datenmengen – um aufwendige fotorealistische Grafiken zu berechnen – steht mit
der ersten Generation des PCI-Express-Grafikbusses eine x16-Link-Verbindung
zur Verfügung. Die nominale Bandbreite beträgt 3,73 GByte/s je Richtung und
7,46 GByte/s bidirektional. Je nach benötigter Bandbreite sind auch Grafikschnittstellen mit geringerer Link-Anzahl möglich. In der nächsten PCI-ExpressGrafik-Interface-Generation sollen Link-Verbindungen bis x32 möglich sein.
1.4.2 AGP 8x und PCI Express im Vergleich
Die Tabelle zeigt eine Gegenüberstellung von AGP 8x und PCI Express x16 mit
den wichtigsten Kenndaten der bisher veröffentlichten Spezifikationen. Die AGP8x-Schnittstelle basiert auf einer parallelen Datenübertragung und ist nicht skalierbar. Demgegenüber steht das serielle Transferverfahren von PCI Express.
30
www.tecChannel.de
PCI Express für Grafikkarten
AGP 8x und PCI Express x16 im Kurzüberblick
Interface
AGP 8x
PCI Express x16
Max. Busbreite
32 Bit
32 serielle Leitungspaare
Max. Taktrate
266 MHz (66 MHz)
2,5 GHz
Max. Bandbreite uni-/
bidirektional (GByte/s)
1,99 / 1,99
3,73 / 7,46
Bandbreite pro Pin
~18 Mbit/s
~100 Mbit/s
Max. Tiefe der RequestPipeline
32
256
Datenlänge des Request
8-64 Byte
4-4096 Byte
Unabhängige DatenStreams
bis zu 3: PCI, LP (linear programmiert),
ISOC (isochron)
bis zu 8 (VC0-7)
Art der isochronen
Übertragung
partiell
voll
Shared Memory
ja (GART)
ja (OS/Treiber)
Physikalische
Schnittstelle
Punkt-zu-Punkt-Verbindung
differenzielle Verbindung
Taktgeber
externer synchroner
Takt
interner Takt
Max. Verlustleistung
25 W (50/110 W bei
AGP Pro)
25 W, 75 W, Pro-Variante
in Vorbereitung
Anzahl der Pins
132
164
Einführung (Jahr)
2002
2004
Mehr Details zur AGP-Schnittstelle erfahren Sie im Artikel „Test: Was bringt
AGP 8x / Pro? (webcode: a1082)“. Technische Einzelheiten über PCI Express
können Sie in dem Beitrag „PCI Express: Der Highspeed-Datenbus im Detail“
(webcode: p1003) nachlesen. Die PCI-Express-Spezifikationen werden ständig
überarbeitet und weiterentwickelt. Diese Aufgabe obliegt dem PCI-SIG-Konsortium, das die daraus resultierenden Spezifikations-Updates auch veröffentlicht.
1.4.3 Die Spannungsversorgung
Die zukünftigen Grafikkarten mit PCI-Express-Schnittstelle verfügen über ein
neues überarbeitetes Konzept der Spannungsversorgung. So fällt die bisherige
notwendige 5-V-Spannungsschiene des AGP-Interface weg. Die PCI-Express-
webcode: a1182
31
Desktop
Grafikkarte erhält ausschließlich über die +3,3- und +12-V-Leitungen Energie.
Aus diesen beiden Spannungsquellen müssen Baugruppen wie der Speicher (Core
und I/O) und der Grafik-ASIC (Core und I/O) sowie die Display-Schnittstelle gespeist werden. Auch eine +5-V-Leitung – per Spannungsregler aus +12 V generiert – für den Anschluss von digitalen Monitoren ist notwendig.
Um eine einwandfreie Energieversorgung zu gewährleisten, sollen die Leitungswege vom Spannungsregler auf dem Mainboard zum PCI-Express-Stecker einen
möglichst geringen Widerstand aufweisen. Außerdem müssen alle Spannungsleitungen mit hohen Kapazitäten gegen Spannungsstörungen abgesichert sein.
160.0
140.0
Speicher
Regler
Grafik-ASIC
120.0
Watt
100.0
80.0
60.0
40.0
20.0
0.0
2001
2002
2003
2004
2005
2006
© tecCHANNEL
Zukunftsperspektiven: Die Leistungsaufnahme von Grafikkarten, bestehend aus Speicher,
Spannungsregler und Grafik-ASIC, soll bis 2006 auf nahezu 160 Watt ansteigen.
Der Spezifikation zufolge darf eine AGP-Grafikkarte maximal 25 Watt an elektrischer Leistung aufnehmen – einen Standard-Slot vorausgesetzt. Die Pro-50/110Versionen mit modifiziertem Stecker benötigen entsprechend mehr. Die heutigen
Standard-Highend-Grafikbeschleuniger benötigen unter Umgehung der Spezifikationen zirka 80 Watt. Wie das obere Diagramm zeigt, wird sich die Leistungsaufnahme bei Grafikkarten bis 2006 nochmals verdoppeln.
Die PCI-Express-Arbeitsgruppe entwickelte in der Spezifikation 1.0a die neue
Schnittstelle für Grafik-Boards mit 60 Watt Leistungsaufnahme. Doch noch vor
der endgültigen Verabschiedung der finalen Spezifikationen hat man den Wert für
Standardgrafikkarten auf 75 Watt erhöht. Zudem laufen die ersten Studien für einen PCI-Express-Pro-Standard mit höher spezifizierten Werten für die Energieversorgung – ähnlich dem AGP-Pro-Standard. Für Low-Profile-Grafikkarten
bleibt die maximale Leistungsaufnahme von 25 Watt bestehen.
Rechnerisch liefert die 3,3-V-Spannungsversorgung eine Leistung von 9,9 Watt.
Zuzüglich der 66 Watt aus der +12-V-Spannungszuführung ergibt sich ein theoretischer Gesamtwert von 75,9 Watt für die PCI-Express-Grafikschnittstelle.
32
www.tecChannel.de
PCI Express für Grafikkarten
PCI-Express-x16-Spannungsversorgung
Spannung:
x16-Schnittstelle
+3,3 V
Toleranz
+/- 9 %
Max. Strom
3,0 A
+12 V
Toleranz
+/- 8 %
Max. Strom
5,5 A
+3,3 V aux
Toleranz
+/- 9 %
Max. Strom Wake-Modus
375 mA
Max. Strom Non-Wake-Modus
20 mA
Um diesen hohen Energiebedarf zu decken, sind Netzteile mit mindestens 300
Watt Ausgangsleistung und ein Stecker mit 2 x 12 Anschlüssen vorgeschrieben,
wie sie bereits in Servern eingesetzt werden. In den bisherigen Desktop-Systemen
genügt ein Netzteil nach ATX-Standard mit 2 x 10 Anschlüssen. Die neuen vier
zusätzlichen Pins setzen sich zusammen aus einer +3,3-V-, 5-V- und 12-V-Spannungsleitung sowie einer Massezuführung.
1.4.4 PCI-Express-Routing
Um unterschiedliche Signallaufzeiten zu vermeiden, müssen beim parallelen
AGP-Bus alle Leitungen gleich lang sein. Grund für diese Vorgabe ist ein externer
Taktgenerator, der zentral nahezu alle Baugruppen synchron ansteuert. Beim seriellen PCI-Express-Interface gibt es, außer bei den einzelnen Verbindungen eines
differenziellen Leitungspaares, keine strengen Längenrestriktionen. Denn aus jedem Datenstrom eines Leitungspaares lässt sich der exakte Steuertakt generieren
(embedded clock). Dieser Steuertakt arbeitet unabhängig von einem zentralen
Frequenzgeber und ermöglicht einen asynchronen Betrieb der Datenleitungen.
Routing eines differenziellen Leitungspaares: Für eine fehlerfreie Signalübertragung bei PCI Express müssen die
Entwickler einige Routing-Regeln befolgen. (Quelle: Intel)
© tecCHANNEL
noch zulässiges Routing
webcode: a1182
optimales
Routing
alternatives
Routing
33
Desktop
Die einzelnen differenziellen Leitungspaare müssen bestimmte Anforderungen
erfüllen. So ist es für einen fehlerfreien Datenstrom besonders wichtig, dass die
zwei Signalleitungen eine Längenabweichung von maximal 0,13 mm untereinander nicht überschreiten. Zusätzlich schreibt die PCI-Express-Spezifikation ein
symmetrisches Routing jedes Paares vor.
Routing eines PCI-Express-Steckers: In der Praxis muss man bei PCI Express besonders auf
das symmetrische Routing der einzelnen differenziellen Signalleitungen achten. (Quelle: Intel)
Um störendes Übersprechverhalten – so genanntes „Crosstalk“ – auf den Datenleitungen zu vermeiden, dürfen die zwei Leitungen eines Paares einen Abstand
von 0,2 mm nicht unterschreiten. Außerdem sollte die Entfernung zum benachbarten Leitungspaar mindestens 0,51 mm betragen.
PCI-Express-Mainboard-Routing: Die Koppelkondensatoren (1) unterdrücken die Gleichspannungsanteile auf den differenziellen Leitungspaaren. Die maximale Länge einer Datenleitung
(2) ist bei PCI Express auf 30,48 mm begrenzt. (Quelle: Intel)
34
www.tecChannel.de
PCI Express für Grafikkarten
Das Bild „PCI-Express-Mainboard-Routing“ zeigt das Routing der Signalleitungen zwischen einem PCI-Express-x16-Stecker und einem Northbridge-Chip.
Deutlich zu erkennen sind die direkten Leiterbahnführungen ohne Mäander zur
Angleichung der Signallaufzeit – wie beim AGP-Routing nötig. Außerdem weisen die Leiterbahnen bei PCI Express eine Abwinkelung von 135 auf – statt wie
üblich 90 Grad. Diese Routing-Vorschrift legt die PCI-Express-Spezifikation fest,
um Jitter-Bildung und Reflektionen auf den Leitungen zu minimieren.
AGP-Mainboard-Routing: Mit serpentinenartigem Leiterbahn-Routing versuchen die Mainboard-Entwickler beim
AGP-Bus die unterschiedlichen Laufzeiten von Strobe- (1) und Datensignalen (2)
auszugleichen. (Quelle: Intel)
1.4.5 Grafikkarten und Mainboards mit PCI Express
Die erste Generation des PCI-Express-Grafikbusses besteht aus einer x16-LinkVerbindung. Dabei unterscheiden sich die mechanischen Spezifikationen nicht
wesentlich von den AGP-Definitionen. So bleiben die PCB-Abmessungen einer
PCI-Express-Grafikkarte unverändert. Das Board-Design und speziell die Platzierung der Bauelemente ändert sich durch die neue Schnittstelle kaum. Ein Vorteil
der PCI-Express-Technologie besteht aber in der flexiblen Positionierung von
Bauteilen durch die Routing-Vereinfachungen.
Erste serienreife Produkte mit der neuen Schnittstelle sollen Mitte 2004 auf den
Markt kommen. So offenbart Intels aktuelle Roadmap den Grantsdale-Chipsatz
als Vorreiter der PCI-Express-Technologie. Den Busstandard setzt der Hersteller
als Chip-to-Chip-Interconnect für die Verbindung zwischen MCH und ICH ein.
Zusätzlich verfügt der Grantsdale über einen PCI-Express-Grafikport.
webcode: a1182
35
Desktop
Express-Grafik: Rein äußerlich unterscheidet sich eine PCI-Express-Grafikkarte nur unwesentlich von einem AGP-Grafik-Board. (Quelle: Intel)
ATI plant für Mitte 2004 mit einem PCI-Express-x1-Onboard-Chip für ServerAnwendungen herauszukommen. Gleichzeitig wollen die Kanadier den PCI-Express-x16-Bus auf 3D-Grafiksteckkarten realisieren. Auch die Mitbewerber, wie
NVIDIA, VIA oder SiS, entwickeln Produkte mit der PCI-Express-Technologie.
Keine Zukunftsvisionen:
Schon Mitte 2004 soll es die
ersten serienreifen Mainboards mit PCI-ExpressSchnittstelle für Grafikkarten geben. (Quelle: Intel)
36
www.tecChannel.de
PCI Express für Grafikkarten
1.4.6 Fazit
Die ersten 3D-Grafikkarten mit einer PCI-Express-x16-Schnittstelle verfügen im
unidirektionalen Betrieb über eine Bandbreite von 3,73 GByte/s. Rechnerisch entspricht das in etwa der doppelten Transferleistung des AGP-8x-Busses. Damit
dürfte das Grafik-Interface für künftige 3D-Anwendungen genügend Reserven
bieten. Darüber hinaus verfügt PCI Express mit der Skalierbarkeit der Busbreite
bis x32 und der Möglichkeit, die Taktfrequenz weiter zu erhöhen, noch über ausreichendes Entwicklungspotenzial. Allerdings steht die Notwendigkeit der höheren Busgeschwindigkeit infolge wachsenden Grafikspeichers in Frage. Aktuell
schöpfen nur wenige Profianwendungen die volle Performance von AGP 8x aus.
Zum Erfolg der PCI-Express-Grafikschnittstelle dürfte die einfache und damit
Kosten sparende Implementierung in bestehende PCB-Designs beitragen. Denn
die serielle Bustopologie mit differenziellen Leitungspaaren vereinfacht das Routing von Signalleitungen entscheidend. Mäanderförmige Leiterbahnführungen
zum Ausgleichen der Signallaufzeiten wie bei AGP 8x gehören mit der Einführung von PCI Express der Vergangenheit an.
Für leistungshungrige High-Performance-Grafikkarten sollte das PCI-Expressx16-Interface nach der Spezifikation 1.0a eine elektrische Leistung von 60 Watt
liefern. Dieser Wert fällt aber angesichts von bis zu 80 Watt Leistungsaufnahme
bei aktuellen Grafikkarten gering aus. Deshalb hat das PCI-SIG-Konsortium ihn
in einem Spezifikations-Update auf 75 Watt erhöht. Für zusätzlichen Leistungsbedarf sind Pro-Varianten des PCI-Busses vorgesehen. Allerdings befinden sie sich
noch in der Entwicklungsphase.
Nahezu alle namhaften Chipsatz- und Grafikchiphersteller wie Intel, SiS, VIA,
ATI, NVIDIA und 3dlabs arbeiten an entsprechenden PCI-Express-basierenden
Produkten. Die ersten serienreifen Ergebnisse kommen Mitte 2004 auf den Markt.
Um den Übergang von AGP auf PCI Express zu erleichtern, wird es je zwei Produktvarianten mit der entsprechenden Schnittstelle geben.
Bernhard Haluschak
tecCHANNEL-Links zum Thema
Webcode
Compact
PCI Express für Grafikkarten
a1182
S.29
ExpressCard löst PC-Card ab
a1275
S.92
PCI Express: Der Highspeed-Datenbus
im Detail
p1003
–
Test: Was bringt AGP 8x / Pro?
a1082
–
Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de
ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren.
webcode: a1182
37
Desktop
1.5 Intel Pentium 4 Prescott
Intels aktuelle Desktop-CPU, der Pentium 4 mit Northwood-Kern, läuft am Anschlag. Seit der Markteinführung im Januar 2002 hat Intel die Taktfrequenz von
2,2 auf 3,2 GHz gesteigert, ein letzter Aufguss mit 3,4 GHz soll noch folgen.
Mehr will man dem alten Northwood nicht mehr zumuten. Schon bei 3,2 GHz
verbraucht die CPU in ihren 130 nm großen Strukturen bis zu 82 Watt. Mehr muss
Intel aus dem alten Core nicht mehr herausholen, denn der Nachfolger mit dem
Codenamen Prescott und 90-nm-Core steht schon bereit. Zwei Fertigungsstätten
produzieren inzwischen den komplett neu designten Pentium 4, eine dritte in Irland nimmt Mitte 2004 den Betrieb auf. Die Fabs sind in der Lage, den 90-nmCore auf 300-mm-Wafern zu fertigen. Bei einer Ausbeute von über 500 Prescotts
pro Wafer kann Intel so monatlich einige Millionen CPUs herstellen.
Die neue CPU wird Anfang Februar ausgeliefert und heißt weiterhin Pentium 4.
Ein neuer Name ist auch nicht angebracht, denn sie beruht immer noch auf der
NetBurst-Mikroarchitektur, die Intel mit dem ersten Pentium 4 eingeführt hat. Allerdings ist der Fertigungsprozess inzwischen zwei Generationen fortgeschritten,
und auch die Core-Designer waren in den letzten dreieinhalb Jahren nicht untätig.
Daher soll Prescott bis mindestens 5 GHz Taktfrequenz skalieren.
Doch die Marketing-freundliche Drehzahl trägt nur einen Teil zur tatsächlich erreichten Rechenleistung einer CPU bei. Ebenso entscheidend ist die Anzahl der
pro Takt abgearbeiteten Instruktionen. Und hier hat der Prescott gegenüber dem
Northwood-Core einige Neurungen vorzuweisen.
1.5.1 Neue Cache-Größen und Sockel
Die ersten beiden Pentium-4-Generationen mit Willamette und Northwood-Core
mussten mit lediglich 8 KByte schnellem L1-Cache für die Daten auskommen.
Prescott erhält nun die doppelte Menge und kann auf 16 KByte exklusiven DatenCache zugreifen. Der Trace-Cache für bereits dekodierte Befehle ist mit 12k µOps
jedoch gleich geblieben.
Der L2-Cache, der sowohl Daten als auch Code speichert, ist bei Prescott mit 1
MByte gegenüber dem Northwood-Core verdoppelt. Nur der Pentium 4 Extreme
Edition, der intern auf dem Xeon-Gallatin-Core basiert, hat mit 2 MByte noch
mehr zu bieten. Wie beim Northwood ist der L2-Cache mit 256 Bit am Core angebunden und hat bei 3,4 GHz Takt eine Bandbreite von 108 GByte/s.
Die FSB-Taktfrequenz startet beim Prescott mit 800 MHz, die auch die Northwood-CPUs nutzen. Da der Prescott zudem kompatibel zum bisherigen Socket
478 ist, läuft die CPU nach einem Bios-Update in zahlreichen aktuellen Pentium4-Boards. Intel hat bereits im Frühsommer 2003 für eine passende hauseigene
Plattform gesorgt und für die i865- und i875-Chipsätze entsprechende PrescottDesign-Spezifikationen veröffentlicht.
38
www.tecChannel.de
Intels Pentium 4 Prescott
Relative Steigerungen: Gegenüber dem ersten Pentium 4 wurden beim Prescott viele Schlüsselfaktoren für mehr Leistung mindestens verdoppelt. (Quelle: Intel)
Mit ihren zwei 400-MHz-DDR-Speicherkanälen passen beide Chipsätze optimal
zum 800-MHz-Frontside-Bus. Noch 2004 soll der Prescott in den alten Boards
mindestens 3,6 GHz erreichen – dann ist wahrscheinlich Schluss mit der Kompatibilität. Bereits Mitte 2004 führt Intel parallel den LGA775-Socket ein. Er arbeitet zunächst auch nur mit 800 MHz FSB, soll später aber bis 1200 MHz bieten.
Zudem können seine 297 zusätzlichen Pins die CPU mit einem höheren Strom
versorgen, so dass Verlustleistungen von weit über 100 Watt möglich werden. Nur
dadurch können Prescott und seine Nachfolger Frequenzen von 5 GHz erreichen.
1.5.2 Mikroarchitektur-Erweiterungen
Hohe Taktfrequenzen erfordern lange Pipelines, damit die einzelnen Pipeline-Stufen möglichst einfach ausfallen. Doch je länger eine Pipeline, desto dramatischer
sind die Auswirkungen auf die Performance, wenn die Pipeline ins Stocken gerät.
Daher hat Intel die Sprungvorhersage und den Hardware-Prefetch wieder einmal
„deutlich“ verbessert. Obwohl man beide seit Jahren weiter entwickelt, scheint
hier immer noch Luft für spürbare Verbesserungen zu sein. Beide Funktionsblöcke sorgen für einen stetigen Nachschub an Befehlen und lasten die extrem lange
Pipeline des Prescott dadurch besser aus.
Entgegen ersten Erwartungen hat Intel die Anzahl virtueller CPUs beim HyperThreading nicht erweitert, es bleibt bei zwei Stück. Auch die 64-Bit-Erweiterung
namens Yamhill oder gar eine x86-64-Kompatibilität zu AMDs Opteron und Athlon 64 erweisen sich im Nachhinein als Wunschtraum.
Als schwacher Trost ist die Integer-Multiplikation mit dem imul-Befehl ein paar
Takte schneller geworden. Sie läuft jetzt in einer eigenen Hardware-Unit und behindert nicht länger Floatingpoint-Berechnungen. Auch die Shift- und Rotate-Bewebcode: a1124
39
Desktop
fehle für Integer-Werte hat Intel beschleunigt. Zusätzliche Buffer sorgen für einen
höheren Durchsatz. Die Store-Buffer hat Intel gegenüber dem Northwood von 24
auf 32 erhöht, die Write-Combine-Buffer von sechs auf acht. Vier zusätzliche
Floatingpoint-Scheduler-Buffer beschleunigen die Fließkommaeinheit.
Evolution, nicht Revolution: Prescott ist eine konsequente Weiterentwicklung der NetBurstArchitektur des ersten Pentium 4 mit Willamette-Core. (Quelle: Intel)
Umstritten ist die im Bild als „La Grande Support“ bezeichnete Erweiterung. Sie
soll einen abgesicherten Programmablauf (Secure Computing) ermöglichen und
Programme und Threads voreinander schützen. Im Grunde integriert sie das Konzept der Trusted Computing Group (www.trustedcomputinggroup.org/home)
(TCG, ehemals TCPA) in der CPU, geht aber noch weit darüber hinaus. So soll es
durch La Grande keinem auch noch so hoch privilegierten Programm mehr erlaubt sein, auf Daten oder Code einer anderen Anwendung zuzugreifen.
La Grande bietet dazu die Möglichkeit, geschützten Code in einer isolierten Umgebung in der CPU und im Speicher laufen zu lassen. Nachträgliches Debugging,
Reverse Engineering oder das Patchen zur Laufzeit durch Maleware ist somit ausgeschlossen. Selbst die Kommunikation mit Eingabegeräten wie der Tastatur und
der Maus erfolgt bei La-Grande-Programmen über kryptographisch abgesicherte
Pfade. Für La Grande sind jedoch auch umfangreiche Änderungen am Chipsatz
und am Betriebssystem nötig.
Erstmals zum Einsatz dürfte La Grande beim Windows-XP-Nachfolger Longhorn
kommen. Microsoft hat darin den Ansatz aufgegeben, Windows komplett sicher
zu machen. Stattdessen teilt Longhorn den PC virtuell in zwei Hälften: in eine mit
40
www.tecChannel.de
Intels Pentium 4 Prescott
normalem, unsicherem Windows und in eine mit eigenem Sicherheits-Kernel namens Nexus. Nexus schottet sich gegen den Rest des PCs ab und besitzt sogar
einen eigenen Hardware Abstraction Layer, genannt NAL. In Nexus sollen dann
ausgewählte Programme wie Homebanking „absolut sicher“ ablaufen können.
Zunächst wird es von Prescott wohl nur für Entwickler spezielle Versionen mit
La-Grande-Technik geben – die im Handel erhältlichen Prescott-Prozessoren
werden vorerst ohne La-Grande-Support ausgeliefert. Später plant Intel nach derzeitigem Stand, Prescott-CPUs mit und ohne La-Grande-Technik anzubieten.
Laut uns vorliegenden Statements soll aber auch bei den Prescott-CPUs mit La
Grande der Anwender wie einst bei der umstrittenen Seriennummer der CPU
selbst entscheiden können, ob diese Funktion aktiviert sein soll oder nicht.
1.5.3 SSE3-Befehlssatz-Erweiterungen
Mit dem Prescott erweitert Intel den IA-32-Befehlssatz um 13 zusätzliche Instruktionen. Die neuen Befehle betreffen vor allem die FPU mit neuen SIMD-Befehlen
und Erweiterungen für die Arithmetik mit komplexen Zahlen. Intel bezeichnet die
Erweiterungen unspektakulär als SSE3.
Die meisten der neuen Befehle sind recht exotisch und dürften lediglich in Spezialfällen zum Tragen kommen. Optimierungspotenzial bieten sie aber etwa für
mathematische Libraries, die viel mit komplexen Zahlen rechnen oder den Butterfly-Algorithmus für die Fast Fourier Transformation nutzen. Vor allem wissenschaftliche Anwendungen und Audio/Video-Codecs dürften davon profitieren.
SIMD: Intel erweitert wieder einmal den SSE-Befehlssatz. (Quelle: Intel)
webcode: a1124
41
Desktop
Die neuen Prescott New Instructions (PNI) im Überblick:
FISTTP wandelt einen Floatingpoint-Wert mit Truncation und nicht wie das bisher vorhandene FISTP durch Runden in einen Integer-Wert um. Dies erspart die
sonst nötige Subtraktion von 0,5, wenn man abschneiden statt runden möchten.
MOVSHDUP liefert bei einem SIMD-Operanden mit je vier Single-Floatingpoints zwei Mal den ersten Wert und zwei Mal den dritten Wert zurück. Aus dem
Vektor (A3,A2,A1,A0) erzeugt MOVSHDUP somit (A3,A3,A1,A1). Ähnlich
verhält sich MOVSLDUP, das (A2,A2,A0,A0) zurückliefert. Nützlich sind diese
Befehle bei Arithmetik mit komplexen Zahlen, wo Real- und Imaginärteil in benachbarten Variablen (A3,A2) und (A1,A0) gespeichert sind.
ADDSUBPS liefert bei zwei Operanden mit je vier Single-Floatingpoints jeweils die Summe der geraden Datenelemente sowie die Differenz der ungeraden
Datenelemente. Aus den Vektoren (A3,A2,A1,A0) und (B3,B2,B1,B0) erzeugt
ADDSUBPS (A3+B3, A2-B2, A1+B1, A0-B0). Damit lassen sich Produkte und
Quotienten von komplexen Zahlen besonders schnell und elegant berechnen.
ADDSUBPD liefert das gleiche Ergebnis für zwei Double-Precision-Floatingpoint-Variablen. Beide Rechenoperationen kommen bei der Fast Fourier Transformation häufig zum Einsatz.
MOVDDUP kopiert einen 64-Bit-Double-Floatingpoint in den oberen und unteren Teil einer 128-Bit-SIMD-Variablen.
LDDQU kann einen 128-Bit-Wert schnell aus dem Speicher in ein Register laden,
auch wenn er nicht auf eine 16-Byte-Grenze aligned ist. In diesem Fall lädt LDDQU automatisch die zwei betroffenen Cache-Lines komplett ein und extrahiert die
gewünschten 16 Byte.
Die meisten SIMD-Befehle verarbeiten Werte aus zwei verschiedenen Operanden. Die neuen horizontalen Befehle HADDPS, HSUBPS, HADDPD und
HSUBPD arbeiten dagegen innerhalb eines Operanden. Aus (A3,A2,A1,A0) und
(B3,B2,B1,B0) berechnet etwa HADDPS (B3+B2,B1+B0,A3+A2,A1+A0). Diese Funktionen sind bei der Berechnung von Skalarprodukten und Determinanten
von Matrizen nützlich.
1.5.4 Thread-Synchronisation in Hardware
Eine echte technische Neuerung beim Prescott Instruction Set stellt die Threadsynchronisation in Hardware über die Befehle MONITOR und MWAIT dar. Damit kann man eine Pipeline einer Hyper-Threading-CPU schlafen legen, bis die
andere Pipeline einen Schreibzugriff auf eine vorher definierte Speicherstelle ausführt. So können sich zwei Threads mit sehr hoher Geschwindigkeit synchronisieren, ohne dafür CPU-Leistung zu verschwenden.
Wie in unserem Beitrag Hyper-Threading: Optimierungen und Fallen (webcode:
a1108) detailliert erläutert, ist es bislang problematisch, zwei Threads ohne aufwendige Betriebssystemfunktionen schnell miteinander zu synchronisieren. Bis42
www.tecChannel.de
Intels Pentium 4 Prescott
her nutzt man für die direkte und schnelle Synchronisation – wenn beispielsweise
ein Thread warten muss, bis ein anderer eine kritische Aufgabe abgeschlossen hat
– folgenden Ansatz:
Beide Threads erhalten Zugriff auf eine gemeinsame Variable. Der wartende
Thread läuft in einer Schleife und überprüft ständig den Wert dieser Variablen. Ist
der effektive arbeitende Thread fertig, verändert er den Wert der Variablen. Daraufhin verlässt der wartende Thread seine Verzögerungsschleife und beginnt wieder, sinnvoll zu arbeiten. Während der Wartezeit hat allerdings der erste Thread
jede Menge an CPU-Leistung nur damit verheizt, mit Gigahertz-Geschwindigkeit
sinnlose Warteschleifen zu drehen – und hat den sinnvoll arbeitenden Thread dadurch ausgebremst. Mit dem Northwood hat Intel zwar den neuen PAUSE-Befehl
eingeführt, der den Verbrauch an CPU-Ressourcen in der Warteschleife lindert,
doch ideal war dies immer noch nicht.
Prescott ermöglicht nun zusätzlich einen weiteren Weg und bietet durch den neuen Befehl MONITOR erstmals einen Hardware-Trigger für die Synchronisation.
Mit MONITOR legt ein Thread eine Speicheradresse fest, die der Prozessor in
Hardware überwacht – ohne Rechenleistung dafür zu verbrauchen. Anschließend
legt sich der Thread mit MWAIT schlafen und gibt alle CPU-Ressourcen für andere Threads frei. Sobald jedoch ein aktiver Thread auf die vorher festgelegte
Adresse schreibend zugreift, schaltet die CPU wieder in den Hyper-ThreadingModus, und der schlafende Thread erwacht zu neuem Leben – ohne in seiner Ruhepause Ressourcen verbraucht zu haben.
Im folgenden Beispiel übergibt MONITOR die Adresse der Steuervariablen „trigger“ in EAX an die CPU. Anschließend legt MWAIT die Pipeline so lange schlafen, bis ein parallel laufender Thread „trigger“ verändert.
triger=0;
If (!trigger){
EAX=&trigger
ECX=0
EDX=0
MONITOR EAX, ECX, EDX
if (!trigger){
EAX=0
ECX=0
MWAIT EAX, ECX
}
}
Prescott lässt bei MONITOR derzeit keine weiteren Optionen zu. Doch bereits
jetzt sind mit ECX und EDX zwei Register spezifiziert, in denen Programmierer
zukünftigen Prozessoren erweiterte Parameter übergeben können. Möglich ist
hier etwa die Angabe eines Stromsparmodus oder die Trigger-Auslösung nur unter bestimmten Zusatzbedingungen. Auch soll in Zukunft die Größe des Monitorblocks variabel sein, so dass der Zugriff auf verschiedene Variablen den Dornröschenschlaf beenden kann.
webcode: a1124
43
Desktop
1.5.5 Designoptimierungen
Neben den erwähnten, von außen sichtbaren Neuerungen hat sich beim Prescott
unter der Haube einiges radikal verändert. Diese Umbauten haben alle den Zweck,
die Taktfrequenz weiter nach oben zu treiben.
Skew-Problem: Das ClockSignal hängt in Teilen des
Northwood-Cores um über
20 ps nach. (Quelle: Intel)
Ein großes Problem innerhalb eines CPU-Cores ist die Verteilung des Taktsignals.
Der Takt sorgt dafür, dass die Funktionsblöcke synchronisiert arbeiten und beispielsweise Daten erst übernehmen, wenn die vorgeschaltete Stufe stabile Ausgangssignale liefert.
Stark verbessert: Der
Skew beim Prescott beträgt
maximal noch 7,5 ps. (Quelle: Intel)
44
www.tecChannel.de
Intels Pentium 4 Prescott
Bedingt durch die Laufzeit der elektrischen Signale variiert der Takt einzelner
Funktionsblöcke aber abhängig von ihrer Position auf dem Die. Wie im Bild zu
sehen, hängen beim Northwood einzelne Bereiche um über 20 ps nach. Da der
Taktzyklus bei einer 5-GHz-CPU nur noch 200 ps dauert, vereitelt dieser so genannte Skew eine saubere Synchronisierung der Funktionsblöcke. Ein derartiges
Design ist für hohe Taktraten daher nicht geeignet.
Beim Prescott haben die Ingenieure die Clock-Verteilung komplett neu entwickelt. Wie im Skew-Diagramm des Prescott zu sehen ist, weicht sie nur noch
maximal 7,5 ps ab. Dies ist weniger als die Schaltzeit des einfachsten logischen
Gatters, eines Inverters. Wenn man die 20-ps-Skew des Northwood und dessen
Taktfrequenz zu den 7,5 ps in Relation setzt, ist diese Clock-Verteilung des
Prescott für Taktraten bis 8 GHz geeignet.
1.5.6 90-nm-Prozess
Die Strukturgröße beim Prescott beträgt 90 nm. Damit kann Intel Transistoren
bauen, die eine Gate-Länge von nur noch 50 nm haben, und schlägt so drei Fliegen mit einer Klappe: Kleinere Transistoren schalten schneller, verbrauchen weniger Energie und belegen zudem noch weniger Platz auf dem kostbaren Wafer.
Während Northwood noch 55 Millionen Transistoren genügten, besitzt Prescott
mit 125 Millionen mehr als doppelt so viele. Die zusätzlichen Transistoren stecken zum großen Teil in dem auf 1 MByte vergrößerten L2-Cache. Die Strukturgröße von 90 nm kompensiert diesen Anstieg jedoch wieder, Prescott belegt mit
112 mm² Die-Größe sogar weniger Platz als der Northwood mit seinen 131 mm².
Aber die Transistoren waren Intel immer noch nicht schnell genug für die angestrebten Taktfrequenzen. Deshalb setzt man als erster Halbleiterhersteller so genanntes Strained Silicon in einem Massenprodukt ein. Dabei wird das natürliche
Kristallgitter des Siliziums künstlich gestreckt. Durch komplexe Zusammenhänge
der Festkörperphysik steigert die unnatürliche Gitterkonstante die Beweglichkeit
der Ladungsträger, so dass die Transistoren schneller schalten und höhere Stromstärken bewältigen können.
Interessanterweise verwendet der weltgrößte Halbleiterhersteller zwei Verfahren,
um die Verzerrung bei den NMOS- und PMOS-Transistoren getrennt einstellen zu
können. Beim PMOS-Transistor scheidet man Silizium mit einigen Prozent Germaniumanteil im Source- und Drain-Bereich ab. Die rund ein Prozent größere
Gitterkonstante der Legierung überträgt sich auch auf den leitenden Channel unter
dem Gate und sorgt so für eine 25 Prozent höhere Leitfähigkeit.
NMOS-Transistoren lässt Intel im aktiven Bereich unverändert und legt stattdessen eine Siliziumnitrid-Schicht über den Transistor. Dessen größere Gitterkonstante überträgt sich ebenso auf den darunter liegenden Transistor und zerrt auf
diese Weise die Atome im aktiven Kanal auf einen größeren Abstand. Allerdings
ist der erzielte Effekt hier geringer, die Leitfähigkeit steigt nur um zehn Prozent.
webcode: a1124
45
Desktop
Gestrecktes Silizium: Die veränderte Gitterkonstante erhöht die
Beweglichkeit der Ladungsträger.
(Quelle: Intel)
Bemerkenswert ist, dass beide Verfahren den aktiven leitenden Kanal lediglich
indirekt über mechanische Kräfte von außen verzerren. Daraus resultiert der Name Strained Silicon, gezerrtes Silizium.
Laut Intel lassen sich beide Streckverfahren relativ einfach in die Fertigung integrieren, da hier nicht mit für Halbleiter „giftigen“ Materialien wie bei der Einführung der Kupferverdrahtung gearbeitet wird. Siliziumnitrid wird beispielsweise
auch in den Verdrahtungsebenen der CPU genutzt. Strained Silicon soll daher die
Fertigungskosten der CPU lediglich um zwei Prozent erhöhen.
Streckbank: NMOS- und PMOS-Transistoren erhalten bei Intels Strained Silicon eine unterschiedliche Behandlung. (Quelle: Intel)
46
www.tecChannel.de
Intels Pentium 4 Prescott
1.5.7 Low-k-Kupferverdrahtung
Die Transistoren zu beschleunigen, ist aber nur ein Schritt auf dem Weg zu schnelleren Prozessoren. Die Ausgangssignale eines Transistors müssen auch möglichst
schnell an die nächste Verarbeitungsstufe weitergeleitet werden. Vor allem die
Laufzeit in den Verbindungsleitungen, den Interconnects, verhindert bei aktuellen
Prozessoren eine höhere Taktrate.
Die Geschwindigkeit, mit der Schaltsignale in den Interconnects von einem Transistor zum nächsten laufen, ist in erster Linie von zwei Faktoren abhängig: dem
Widerstand der Leiterbahn und der parasitären Kapazität. Je kleiner beides ist,
desto schneller lädt ein Schaltvorgang den Interconnect um und desto schneller
liegt am Eingang der nächsten Stufe ein stabiles Signal an.
Daher erhält der Prescott, wie auch schon der Northwood und AMDs Athlon, eine
komplette Verdrahtung in Kupfer. Dessen spezifischer Widerstand ist um 40 Prozent niedriger als der von Aluminium, das noch beim Pentium 4 Willamette genutzt wurde. Neu ist allerdings, dass alle sieben Ebenen in ein so genanntes Lowk-Material eingebettet sind.
Das früher genutzte Siliziumdioxid zwischen den Leiterbahnen sorgte durch seine
relative Dielektrizitätskonstante k von 4,0 für eine hohe Kapazität der Leitungen.
Beim Northwood kam erstmals eine Fluor-Dotierung hinzu, die den k-Wert der
Isolation auf 3,6 drückt. Jetzt nutzt Intel kohlenstoffdotiertes Siliziumdioxid, das
ein k von unter 3,0 haben soll. Dies sorgt für 25 Prozent geringere parasitäre Kapazitäten und erhöht die Geschwindigkeit der Signale um den gleichen Faktor.
Low-k-Dielektrikum: Das Low-k-Material in der Verdrahtungsschicht senkt die parasitären
Kapazitäten zwischen den Kupferleitungen. (Quelle: Intel)
webcode: a1124
47
Desktop
1.5.8 Optimierte Gatterverteilung
Neben der Geschwindigkeit der Signale spielt der Abstand der zu verdrahtenden
Funktionsblöcke eine ebenso große Rolle. Und hier beschreitet Intel beim Prescott
vollkommen neue Wege. Wie der Plan der Northwood-FPU exemplarisch zeigt,
sind hier die Gatter einzelner logischer Funktionsblöcke auch auf dem Die physikalisch zu einem Block zusammengefasst.
So ist es für die Chipentwickler einfacher, einen Prozessorbefehl in Teilaufgaben
zu zerlegen und diese einzeln in Hardware zu gießen. Anschließend werden die
Blöcke so platziert, dass ihr Abstand möglichst gering ist.
Northwood: Hier herrscht Ordnung. Intel hat die Gatter der einzelnen Funktionsblöcke auch
auf dem Die zusammengefasst. (Quelle: Intel)
Dieses Vorgehen vereinfacht zwar die Konstruktion einer CPU, sorgt aber nicht
für eine optimale Platzierung der Gatter. Beim Prescott sortiert Intel in einer rechenaufwendigen Designstufe automatisch die Lage der einzelnen Gatter und
nicht mehr ganzer Blöcke auf dem Die.
Dadurch wandern Transistoren aus dem Block, dem sie logisch zugehören, heraus
an die Stelle, mit der sie interagieren müssen. Die einzelnen Transistoren sind also
nicht mehr funktionell platziert, sondern die kürzesten Wege dienen als Sortierkriterium. Dadurch reduziert sich die Laufzeit der Signale auf den Interconnects, und
die Taktfrequenz kann entsprechend erhöht werden.
48
www.tecChannel.de
Intels Pentium 4 Prescott
Prescott: Die vermeintliche Unordnung auf dem Die führt zu
kürzeren Verbindungswegen
zwischen den Transistoren und
damit zu geringeren Signallaufzeiten auf den Interconnects. (Quelle:
Intel)
1.5.9 Fazit
Der kleine Prescott-Core sorgt auf den 300-mm-Wafern für einen hohen Ausstoß
der Fabs bei geringen Herstellungskosten. Laut Intels Plänen soll deshalb schon
Mitte 2004 jede zweite Pentium-CPU ein Prescott sein.
Beim Prescott hat Intel zwar an etlichen Stellen Neuland beschritten, um die NetBurst-Architektur für die nächsten Jahre fit zu machen. Für den Anwender ist der
Prescott jedoch keine Revolution, sondern nur ein weiterer evolutionärer Schritt.
Aus technischer Sicht fasziniert aber, dass es immer wieder Wege gibt, physikalische Grenzen auszureizen und die Prozessoren noch höher zu takten.
Und mit dem Prescott ist damit sicher noch nicht Schluss. In bewährter Salamitaktik veröffentlicht Intel bereits zahlreiche Details der Generationen 65 nm (2005),
45 nm (2007) und 32 nm (2009) und spricht dabei jetzt schon Marketing-trächtig
vom kommenden Terahertz-Transistor.
Albert Lauchner
Bitte beachten Sie: Dieser Artikel befindet sich auf dem Informationsstand von
Ende Dezember 2003. Ab dem Launch des Prescott Anfang Februar finden Sie auf
tecChannel.de über den webcode a1124 eine aktualisierte Version dieses Beitrags
mit noch mehr Details, Analysen des Cores und detaillierten Benchmarks.
tecCHANNEL-Links zum Thema
Webcode
Compact
Intels Pentium 4 Prescott
a1124
S.38
Hyper-Threading im Detail
p840
–
Pentium 4 Hyper-Threading
Benchmarks
p1064
–
webcode: a1124
49
Desktop
1.6 Speichertechnologien
DDR-SDRAM zählt zu den wichtigsten Speichertechnologien für PCs. Nach Abschluss der finalen Spezifikationen von DDR400 im März 2003 vollzieht sich zurzeit der Wechsel von DDR333-SDRAM auf den schnelleren Speicherstandard.
Doch die Tage dieser Speichertechnologie sind gezählt. Denn mit DDR2 steht die
nächste Speichergeneration in den Startlöchern. Die Spezifikationen hat das
JEDEC-Komitee schon im September 2003 verabschiedet, und erste serienreife
Chipsätze mit der entsprechenden Speicherunterstützung werden bis Mitte 2004
erwartet. Darüber hinaus legte die JEDEC bereits die Grundparameter für DDR3
als den Nachfolger von DDR2 fest.
Das vormals von Intel hochgelobte RDRAM-Memory konnte sich nicht auf dem
hart umkämpften Speichermarkt durchsetzen. Dennoch hält Rambus an dieser
Technologie weiter fest. Genutzt wird sie aktuell vom taiwanischen Chipsatzhersteller SiS im R658- und R659-Chipsatz und in einigen Spielekonsolen. Auf der
Basis der RDRAM-Technologie entwickelt Rambus derzeit den XDR-DRAMSpeicher, um weiter auf dem Speichersektor mitmischen zu können.
Der Chipsatzhersteller VIA plant Anfang 2004 zusammen mit dem Speicherentwickler Kentron, eine neue Speicherarchitektur namens Quad Band Memory
(QBM) einzuführen. Auch Intel entwickelt neue Speichertechnologien. So möchte das Unternehmen 2005 mit Fully-Buffered-DIMMs (FB-DIMMs) eine neue
Speichermodultechnologie für Server und Workstations einführen.
1.6.1 DDR2 auf der Überholspur
Bei der DDR2-Speichertechnologie handelt es sich um eine Weiterentwicklung
des aktuellen DDR-SDRAM-Standards. Zu Beginn sind DDR2-400-, DDR2-533wie auch DDR2-667-Speichermodule geplant. Sie erreichen eine theoretische
Speicherbandbreite von 2,98, 3,97 und 4,97 GByte/s.
DDR2-Speichermodule: Samsung
und Infineon haben
bereits Prototypen
gezeigt. (Quelle:
Samsung)
50
www.tecChannel.de
Speichertechnologien
DDR2 überträgt Daten unverändert zu DDR-SDRAM mit steigender und fallender Taktflanke. Mit dem 4-Bit-Prefetch erreichen die DDR2-Module gegenüber
den herkömmlichen DDR-Speichern bei gleicher interner Taktfrequenz die doppelte externe Bandbreite. So haben DDR400 und DDR2-400 mit 2,98 GByte/s die
gleiche Speicherbandbreite, allerdings arbeitet DDR400 mit einer Core-Frequenz
von 200 MHz und DDR2-400 nur mit 100 MHz. Die externe Busfrequenz beträgt
bei beiden Speichertypen 200 MHz.
© tecCHANNEL
Prefetch-Technologie: Mit dem 4-Bit-Prefetch kann die reale Core-Frequenz der DDR2-Speicherchips gegenüber den herkömmlichen DDR-Speicherbausteinen reduziert werden. Somit
bietet die DDR2-Technologie genug Potenzial für zukünftig höhere Core-Taktfrequenzen und
damit verbundene höhere Speicherbandbreiten.
DDR2-Speicherchips benötigen eine Spannung von 1,8 V statt 2,5/2,6 V bei
DDR. Da die Core-Spannung quadratisch in die Leistungsaufnahme eingeht, halbiert sich die Gesamtleistungsaufnahme von DDR2- gegenüber DDR-Speicher.
Die Signalqualität auf den Datenleitungen von DDR2-Bausteinen soll sich durch
eine On-Die-Terminierung (ODT) gegenüber DDR-Chips verbessern. Das garantiert eine erhöhte Stabilität während des Betriebs. Zusätzlich verwendet DDR2 die
webcode: a1174
51
Desktop
„Off Chip Driver Calibration“ (OCD). Diese Technik gewährleistet, dass die Treiberschaltungen der Speicherzellen Lastschwankungen dynamisch ausgleichen
und somit Signalfehler vermieden werden. Darüber hinaus steigert die PostedCAS-Funktion – eine Befehlssteuermethode – die Effizienz bei der Übertragung
von Daten über den Speicherbus.
© tecCHANNEL
On-Die-Terminierung: Die ODT-Technologie verhindert störende Reflektionen auf den Signalleitungen und erhöht somit die Systemstabilität.
Erste Samples von DDR2-Modulen gibt es bereits, mit der Massenproduktion ist
aber erst Anfang 2004 zu rechnen. Die finalen Spezifikationen für DDR2-Speicher hat die JEDEC im September 2003 in dem Dokument JESD-79-2 veröffentlicht. Intel plant, die ersten DDR2-Chipsätze im zweiten Halbjahr 2004 vorzustellen. VIA will bereits Anfang 2004 vorpreschen. Der VIA Apollo PT890 soll dann
mit einem Dual-Channel DDR2-Controller ausgestattet sein und Pentium-4-Prozessoren mit einem FSB von 800 MHz unterstützen. Intel führt den DDR2-Chipsatz für Desktop-Anwendungen in der Roadmap unter dem Codenamen „Grantsdale“. Für Server-Systeme heißen die Pendants „Lindenhurst“, „Tumwater“ und
„Twin Castle“. Auch für mobile Rechner entwickelt Intel unter dem Codenamen „Alviso“ einen DDR2-Chipsatz.
1.6.2 RDRAM auf dem Abstellgleis?
Neben Intel verfügt mittlerweile auch SiS über die Lizenz der Rambus-SpeicherTechnologie. Schenkt man der Intel-Roadmap Glauben, gibt es außer dem 850E
keinen weiteren Chipsatz mit RDRAM-Unterstützung von Intel. Diesen Zustand
nutzt der taiwanische Chipsatzhersteller SiS aus. Ende 2002 stellte das Unternehmen den R658-Chipsatz mit Dual-Channel-Speicher-Interface und PC1066RDRAM-Support vor. Im November 2003 folgte der R659 mit Quad-ChannelSpeicherarchitektur und PC1200-RDRAM-Unterstützung.
52
www.tecChannel.de
Speichertechnologien
RIMM 4800: Die 32-Bit-RIMM-Module (Dual-Channel) sind bereits erhältlich.
Chipsätze wie Intel 850E und SiS R658 mit Dual-Channel-Speicherbus erreichen
mit PC1066-RDRAM eine Bandbreite von 3,97 GByte/s. Das neue Quad-Channel-Speicher-Interface des SiS R659 bietet mit 1200-MHz-RDRAMs eine Bandbreite von 8,94 GByte/s. Dies schafft genügend Performance-Reserven für den
Pentium 4 mit 800 MHz FSB. Der Prozessorbus kommt bei FSB800 auf eine theoretische Bandbreite von 5,96 GByte/s.
Ein Blick in die Roadmap namhafter Speicherhersteller offenbart, dass RDRAM
auch ohne Intel weiterentwickelt wird. So soll es noch 2003 64-Bit-RDRAM-Module mit PC1200- und PC1333-Chips geben. Sie erreichen mit 4x 16-Bit-Busbreite (Quad-Channel) eine maximale Bandbreite von 8,94 beziehungsweise 9,93
GByte/s. Mainboard-Hersteller könnten diese Speichermodule ideal mit dem
Quad-Channel-Speicher-Interface des SiS-R659-Chipsatzes kombinieren. Weitere Entwicklungen wie PC1600-RDRAM mit einer Bandbreite von 11,92 GByte/s
(Quad-Channel) planen die Unternehmen für 2004/2005.
1.6.3 “Quad Band Memory”-Technologie
Die „Quad Band Memory“-Technologie wurde von Kentron bereits im März 2000
vorgestellt. Außer bei wenigen SRAM-Implementierungen kam QBM bislang
kaum zum Einsatz. Durch die Lizenzierung von VIA und S3 Graphics soll QBM
nun in den PCs Einzug halten. Erste QBM-Module sollen als DDR533 und
DDR667 auf den Markt kommen.
Die QBM-Module bestehen im Prinzip aus zwei zusammengesetzten DDR-Modulen. Bei einem DDR667-QBM-Modul arbeitet die eine Speicherbank mit dem
normalen 333-MHz-DDR-Speichertakt eines DDR333-SDRAMs, die andere mit
einem um 90 Grad verschobenen. So liefern beide Teilmodule zeitlich versetzt
ihre Daten mit 333 MHz – jeweils mit steigender und fallender Flanke. Die Ausgänge der Teilmodule werden über einen schnellen Schalter gemultiplext und so
mit effektiv 667 MHz auf den Datenbus gelegt. Die Datenbreite von DDRSDRAM mit 64 Bit wird bei QBM beibehalten. Auf diese Weise gelingt es, die
Datenrate von DDR333-SDRAM auf 667 MHz zu verdoppeln. Ein DDR667QBM-Modul bietet somit eine Bandbreite von 5,3 GByte/s (1000er Basis) – bei
gleichem Takt wie DDR333-SDRAM.
webcode: a1174
53
Desktop
© tecCHANNEL
Quad Band Memory: Das Timing-Diagramm zeigt vereinfacht, wie die Datenaufbereitung nach
dem Verfahren Quad Band Memory funktioniert.
Der Chipsatzhersteller VIA erwartet die Nachfrage nach DDR2 erst 2004/2005 in
Stückzahlen und will mit QBM die Lücke bis dahin schließen. Laut VIA sind
QBM-Module kompatibel zum existierenden 184 Pin breiten DDR-SDRAMInterface. Mainboards für QBM benötigen kein neues Layout oder eine teure Anpassung und sollen abwärtskompatibel zu DDR-SDRAM sein. Darüber hinaus
müssen Hersteller von QBM-Speicher keine Lizenzgebühren zahlen.
Verdoppelt: Die separaten MultiplexerBausteine QBM10 (R) schalten die Datenströme der zwei voneinander unabhängigen
DDR-SDRAM-Bänke um 90 Grad versetzt
auf den Ausgang. (Quelle: Kentron)
54
www.tecChannel.de
Speichertechnologien
Mainboards mit QBM sind zudem kostengünstiger realisierbar als Dual-ChannelDDR-SDRAM-Lösungen, die ein neues Mainboard-Design benötigen. Erste
Mainboards mit QBM-Unterstützung sollen noch Anfang 2004 ausgeliefert werden. Allerdings verdichten sich die Gerüchte, dass QBM-Speicher noch enorme
technische Probleme bereitet. So bleibt es zweifelhaft, ob VIA überhaupt mit
QBM-Produkten an den Start geht.
1.6.4 DDR3 – Speicher der Zukunft
Die JEDEC arbeitet bereits seit Mitte 2002 an der zukünftigen DDR3-SDRAMSpeichertechnologie. Die detaillierten technischen Eckdaten für DDR3 stehen
noch nicht fest. Denn bei einer Gesamtlösung wie der DDR3-Technologie gilt es,
Speicherchips, Module, Register und Puffer neu zu spezifizieren.
Allerdings gab das JEDEC-Gremium einige Einzelheiten zu DDR3 preis. So sollen die ersten DDR3-SDRAM-Chips mit einer Transferrate von 800 Mbits/s an
den Start gehen. Die nachfolgenden DDR3-Bausteine sollen einen Datendurchsatz von bis zu 1,5 Gbits/s erreichen. Um eine niedrige Leistungsaufnahme zu
gewährleisten, arbeitet der Speicher mit einer Spannung von 1,5 oder 1,2 V. Dagegen benötigt DDR2 1,8 V und DDR400 2,6 V.
0.18 µm
2.5
0.13 µm
0.11 µm
0.10 µm
0.09 µm
DDR1
2.5 + 0.2V
2.6 + 0.1V
Power Suppy Voltage [v]
2.0
1.8 + 0.1V
Mobile RAM, DDR2
1.5V
1.5
or
DDR3
1.0
1999
1.2V
2000 2001 2002 2003 2004 2005 2006 ~ Year
© tecCHANNEL
Unter Spannung: Das Diagramm gibt eine Übersicht über die Betriebsspannung der verschiedenen Speichertechnologien. (Quelle: Elpida)
webcode: a1174
55
Desktop
Wie schon DDR- und DDR2-Speicher soll auch DDR3 vom Desktop bis zum Server alle Einsatzbereiche abdecken. Finale JEDEC-Spezifikationen des DDR3Standards werden frühestens Ende 2005 erwartet. Der Start der Massenfertigung
soll 2007 erfolgen. Die Speicherchiphersteller Samsung, Infineon sowie Micron
zählen zu den Vorreitern der DDR3-Speichertechnologie.
1.6.5 FB-DIMM
Unter dem Namen FB-DIMM verbirgt sich die Bezeichnung „Fully Buffered
DIMM“. FB-DIMM repräsentiert eine neue Speichermodultechnologie. Sie soll
im Server-Umfeld sicherstellen, dass trotz steigender Memory-Taktfrequenz der
maximale Speicherausbau eines Systems nicht verringert werden muss, sondern
sogar erhöht werden kann. Der Hauptinitiator Intel will im Jahr 2005 den neuen
FB-DIMM-Standard von Speichermodulen in der Praxis vorstellen. Dann soll der
„Lakeport“, der erste Chipsatz mit FB-DIMM-Support, die Einführung der neuen
Speichermodule unterstützen.
Standard
DRAMs
24 Differential Pairs
Host
SMBus
CLK Gen
DRAM
DRAM
DRAM
DRAM
Buffer
DRAM
DRAM
DRAM
DRAM
DRAM
DRAM
DRAM
DRAM
DRAM
Buffer
DRAM
DRAM
DRAM
DRAM
DRAM
DRAM
DRAM
DRAM
DRAM
Buffer
DRAM
DRAM
DRAM
DRAM
DRAM
...
CLK Buffer
Clock frequency scales with DRAM data rate
Up to 8
DIMMs
DRAM
DRAM
DRAM
DRAM
Buffer
DRAM
DRAM
DRAM
DRAM
DRAM
Reference
clocks run at
half speed of
DRAM clock
© tecCHANNEL
FB-DIMM-Technologie: Sie arbeitet mit differenziellen Leitungspaaren und benötigt auf den
DIMM-Modulen einen speziellen Buffer-Baustein.
Das FB-DIMM unterstützt DDR2- und DDR3-Speicherbausteine. Jedes Modul
besitzt neben den Speicherchips einen speziellen so genannten Hub-Buffer-Baustein. Dieser Buffer-Chip stellt über 24 differentielle Leitungspaare eine Verbindung zum Memory Controller her. Über diesen Bus und den Treiberchip gelangen
Steuerinformationen und Daten vom Speicher-Controller zu den Speichermodulen und umgekehrt. So entlasten FB-DIMMs ähnlich wie Registered-DIMMs die
Adress- und Steuerleitungen durch einen zwischengeschalteten Treiberbaustein.
Ohne diesen „Leitungstreiber“ müssten zum Beispiel bei einem einseitigen ECCDIMM-Modul die Adress- und Steuerleitungen vom Speicher-Controller zu allen
neun Speicherchips geführt werden – mit Treiberbaustein dagegen nur einmal zu
56
www.tecChannel.de
Speichertechnologien
dem Treiberchip. Je mehr Ein/Ausgänge eines Speicherchips an einer Signalleitung hängen, desto höher sind die elektrischen Belastungen des Signals auf dieser
Leitung, die zu Störungen bei der Signalübertragung führen können. Die Datenleitungen benötigen keine Treiberbausteine, da sie nicht mit allen Speicherchips
verbunden sind. Somit entsteht nur eine geringe elektrische Belastung des Datensignals im Vergleich zu den Adress- und Steuerleitungen.
Maximal adressiert die FB-DIMM-Technologie 288 Devices pro Speicherkanal.
Demgegenüber begnügt sich das herkömmliche Verfahren mit 72. Vorteil: FBDIMMs benötigen weniger Speicherkanäle für einen entsprechenden Speicherausbau als das aktuelle Verfahren mit Standard-DIMMs.
Weitere Pluspunkte bietet die FB-DIMM-Technik mit simultanen Schreib- und
Leseoperationen, so dass die verfügbare effektive Bandbreite pro Speicherkanal
steigt. Zusätzlich bleiben der DIMM-Form-Faktor erhalten und die Anzahl der
Pins gleich, allerdings mit einem veränderten Pinout.
1.6.6 XDR-DRAM
Angelehnt an die RDRAM-Technologie stellte Rambus im September 2003 mit
XDR-RAM eine neue Speichergeneration vor. Als Grundlage für das XDRDRAM nutzt Rambus das unter dem Namen Yellowstone entwickelte SpeicherInterface. Zu den ersten Lizenznehmern gehören Elpida, Samsung und Toshiba.
Sie wollen XDR-Speicher bereits 2004 in Samples ausliefern und 2005 in Massenproduktion gehen. In PCs soll der Speicher im Jahr 2006 Einzug halten. Aber
auch in Servern, mobilen Systemen und Netzwerkbereichen soll XDR-DRAM
Verwendung finden. Die Weichen für die Einführung der Speichertechnologie hat
Rambus schon gestellt, denn erste Spezifikationen sind bereits vorhanden.
XDR DRAM
XDR
ASIC
XDR Interconnect
XDR
Memory
Controller
System Clock
XDR
IO
Cell
XDR
Clock
Generator
Clock
DRAM
CORE
XDR DRAM
Interface Cell
© tecCHANNEL
XDR-Technologie: XDR-DRAMs werden vom XDR IO Cell getauften Speicher-Controller angesteuert. Die Datenübertragung erfolgt mit 8 Bit pro Taktzyklus.
webcode: a1174
57
Desktop
XDR-DRAM-Chips soll es mit einer variablen Datenbusbreite von 1 bis 32 Bit
geben. Die Taktfrequenz beträgt dabei 3,2 GHz und lässt sich auf bis zu 6,4 GHz
skalieren. So erlaubt zum Beispiel ein 16 Bit breites XDR-DRAM Bandbreiten
von 6,4 bis 12,8 GByte/s. Kernstück der XDR-Technologie ist der octal-pumped
betriebene Datenbus. Bei einer Taktfrequenz von 400 bis 800 MHz werden pro
Taktzyklus acht Bits mit der steigenden und fallenden Flanke übertragen. Dadurch ergeben sich Transferfrequenzen von 3,2 bis 6,4 GHz. PC1066-RDRAM
arbeitet mit einem realen Takt von 533 MHz und effektiv mit 1066 MHz.
Eine zusätzliche Neuerung bildet die Flex-Phase-Technologie. Im Gegensatz zur
herkömmlichen seriellen synchronen Leitungstechnik benötigt Flex Phase keine
weiteren Taktgeberleitungen. Der Datenfluss und Takt werden auf den differenziellen Leitungspaaren automatisch aufeinander abgestimmt. Das verringert die
Latenzzeiten und erhöht die nutzbare Bandbreite. Durch das Differenzialsignal
werden zwei Leitungen statt bislang einer pro Signal benötigt.
Bank 7
Bank 5
Write
Write
Bank 3
Bank 1
Odd BankSet
Zusätzliche Vorteile der XDR-DRAMs sind die Differential Rambus Signaling
Levels (DRSL). DRSLs arbeiten mit einem Signal-Hub von 200 mV. Die Signalpegel liegen bei einer Spannung von 1,0 und 1,2 V. Außerdem hat Rambus die
bidirektional arbeitende Terminierung mit DRSL auf den Chip verlagert. Darüber
hinaus ermöglicht XDR-DRAM durch die interne Organisation des Speichers
gleichzeitige und voneinander unabhängige Schreibzugriffe. So können auf die
ungeraden Speicherbänke (Odd BankSet) Schreibzugriffe erfolgen, und zeitgleich
lassen sich aus den geraden Speicherbänken (Even BankSet) Daten auslesen.
XDR-DRAM in der
Praxis: Schreib- und
Lesezugriffe können
durch die interne 8Bank-Organisation in
gerade und ungerade
Speicherbänke unabhängig voneinander
erfolgen.
Read
Read
Bank 0
Bank 2
Bank 4
Bank 6
Even BankSet
Rambus I/F
© tecCHANNEL
Speichermodule mit XDR-DRAM bezeichnet Rambus als XDIMMs. Die ersten
Module sollen 2006 eine Bandbreite von 12,8 bis 25,6 GByte/s bieten. Ein Vorteil
von XDIMMs: Sie besitzen den gleichen Formfaktor und die gleiche Pinanzahl
58
www.tecChannel.de
Speichertechnologien
wie DDR2-Module. Die interne Roadmap von Rambus sieht in den folgenden
Jahren XDIMMs mit 128 Bit Datenbreite und maximal 6,4 GHz Taktfrequenz vor.
Diese Module bieten dann eine effektive Bandbreite von über 100 GByte/s.
1.6.7 Speichertechnologien im Vergleich
In der folgenden Tabelle finden Sie die aktuellen und zukünftigen Speichermodule und deren wichtigste Kenndaten im Überblick.
Speichertechnologien im Überblick
Speichertyp
Bandbreite,
Bandbreite,
Busbreite
Frequenz
Spannung
Modultyp
DDR266
2,1
1,99
64
133
2,5
DIMM
DDR266 Dual
4,3
3,97
2x 64
133
2,5
DIMM
DDR333
2,7
2,48
64
166
2,5
DIMM
DDR333 Dual
5,3
4,97
2x 64
166
2,5
DIMM
DDR400
3,2
2,98
64
200
2,6
DIMM
DDR400 Dual
6,4
5,96
2x 64
200
2,6
DIMM
DDR2-400
3,2
2,98
64
200
1,8
DIMM
DDR2-533
4,3
3,97
64
266
1,8
DIMM
DDR2-667
5,3
4,97
64
333
1,8
DIMM
PC800RDRAM
1,6
1,49
16
400
2,5
RIMM16
PC800RDRAM
3,2
2,98
2x 16
400
2,5
RIMM32
PC1066RDRAM
2,1
1,99
16
533
2,5
RIMM16
PC1066RDRAM
4,3
3,97
2x 16
533
2,5
RIMM32
PC1200RDRAM
2,4
2,23
16
600
2,5
RIMM16
PC1200RDRAM
4,8
4,47
2x 16
600
2,5
RIMM32
PC1200RDRAM
9,6
8,94
4x 16
600
2,5
RIMM64
Basis:
1000
(GByte/s)
Basis:
1024
(GByte/s)
(Bit)
webcode: a1174
(MHz)
(V)
59
Desktop
PC1333RDRAM
2,7
2,48
16
666
2,5
RIMM16
PC1333RDRAM
5,3
4,97
2x 16
666
2,5
RIMM32
PC1333RDRAM
10,7
9,93
4x 16
666
2,5
RIMM64
DDR533- QBM
4,3
3,97
64
133
2,5
DIMM
DDR667- QBM
5,3
4,97
64
166
2,5
DIMM
DDR800- QBM
6,4
5,96
64
200
2,6
DIMM
XDR-DRAM
3,2
2,98
16
400
1,2
XDIMM
XDR-DRAM
6,4
5,96
16
800
1,2
XDIMM
Dual bezieht sich auf einen Dual-Channel-Speicher-Controller.
1.6.8 Fazit
Unterschiedliche Speichertechnologien kämpfen aktuell und zukünftig um die
Gunst der Käufer. Außerhalb des professionellen Umfeldes bringen die Hersteller
häufig Speichertechnologien auf den Markt, ohne dass exakte Standards dafür definiert worden sind. Aber erst finale Spezifikationen des eingesetzten Speichers
garantieren Stabilität und Kompatibilität des gesamten Systems.
Entscheidend für das Für und Wider eines Speichers sollte nicht allein die Performance sein, sondern Flexibilität und Zukunftssicherheit. Setzt man auf die falsche
Speichertechnologie, kann sich diese schnell als Sackgasse erweisen. Erst detaillierte Kenntnisse über den entsprechenden Speicher bewahren vor Fehleinkäufen
und sorgen für Investitionsschutz.
Bernhard Haluschak
tecCHANNEL-Links zum Thema
Webcode
Compact
Speichertechnologien
a1147
S.50
Roadmap: Speicher
a1147
S.19
Test: DDR400-SDRAM
a898
–
Test: RIMM 4200
a985
–
Rambus im Detail
a202
–
Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de
ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren.
60
www.tecChannel.de
Meinung
1.7 Meinung
AGP und PCI sind tot – es lebe PCI Express. Über zehn beziehungsweise sechs
Jahre haben das PCI- und AGP-Interface mittlerweile auf dem Buckel. Zeit für einen Generationswechsel meinte die IT-Branche: Eine neue preiswerte und schnelle Busarchitektur muss her. Nun steht PCI Express am Start. Die Marketing-Abteilungen sind begeistert, die Entwickler schwitzen, und Sie fragen sich: „Brauche
ich diese neue Technologie?“ Ich antworte: „Ja, aber...“.
PCI Express ersetzt die AGP-8x-Schnittstelle. Schön, aber die Notwendigkeit, auf
einen neuen Bus zu wechseln, besteht nicht. Der AGP-8x-Bus bietet eine theoretische Bandbreite von 1,99 GByte/s. x16 PCI Express liefert etwa das Vierfache.
Allerdings reizt bisher nahezu keine 3D-Anwendung die Bandbreite von AGP 8x
aus. Trotzdem, universelle und skalierbare Technologie begrüße ich und werde
mich daher für eine PCI-Express-Grafikschnittstelle entscheiden. Auch für Anwender, die nicht „up to date“ sein wollen, gibt es Trost. Die Hersteller werden in
der Übergangszeit Bridge-Bausteine auf den Grafikkarten einsetzen, um sie auch
in AGP-Boards zu nutzen. Wie immer bei Einführung neuer Technologien sind
Performance-Verluste und Inkompatibilitäten bestimmt auszuschließen...
Für Gbit-Ethernet-Controller und SCSI-RAID-Adapter sind die x1-PCI-ExpressSchnittstellen ideal. Sie liefern eine Transferleistung von 596 MByte/s. Dagegen
limitiert PCI den Datenverkehr auf 127 MByte/s, und das ist zu wenig, um das
Leistungspotenzial der oben genannten Karten voll auszuschöpfen.
Rasant geht es auf dem Speichersektor zu. Da jagt ein DDR-Standard den nächsten. Intel sagte Ende 2002 noch: „DDR400 ist für uns kein Thema.“ Ein halbes
Jahr später war die Aussage nicht mehr gültig, und Intel lieferte die Spezifikationen gleich mit. Für mich kein Problem, glaubte ich damals und kaufte zwei
DDR400-Speichermodule – selbstverständlich Markenqualität. Die Enttäuschung
war dann groß, der Speicher lief nicht in meinem Board. Die Diagnose nach ausführlichem Studium der Hersteller-Homepage: nicht kompatibel. Aber mit der
kommenden DDR2-Speichertechnologie werden mir solche Missgeschicke sicherlich nicht passieren – hoffe ich.
Ich bin Hardware-Redakteur und von Natur aus technikbegeistert. Selbstverständlich werde ich in diesem Jahr die Prescott-CPU für den Sockel 478 samt neuem
Mainboard mein Eigen nennen. Aber wie komme ich aus der Upgrade-Sackgasse
heraus, wenn wenig später schnellere Prescott-Versionen nur noch für den Sockel
LGA775 angeboten werden? Ich werde wohl in das nächste Mainboard inklusive
CPU investieren. Denn Warten lohnt sich bei den kurzen Produktzyklen nicht –
man bekommt immer etwas Besseres und Schnelleres. Dies gilt im Business-Umfeld um so mehr, da hier die Rechner nach einer festgelegten Zeitspanne abgeschrieben sind und Upgrades nur selten durchgeführt werden.
Bernhard Haluschak, Redakteur Hardware
www.tecChannel.de
61
Mobile
2. Mobile
Das Notebook-Segment besitzt laut IDC Wachstumsraten von gut 30 Prozent im
Vergleich zum Jahr 2002. Inzwischen werden in Deutschland 500.000 Stück pro
Quartal verkauft. Entsprechend legen die Prozessorhersteller viel Augenmerk auf
ihre Mobile-CPUs. So debütiert im Februar 2004 die zweite Centrino-Generation.
Und während Transmeta mit den Efficeons einen ernsthaften Pentium-M-Gegner
in petto hat, versucht AMD, dem Athlon 64 Beine zu machen. Drei Hersteller, drei
Prozessoren – wäre ja einfach zu differenzieren. Das Problem ist eher, Alt von
Neu zu unterscheiden und Mobile- von Desktop-Versionen, die Produktbezeichnungen der CPUS sind da wenig hilfreich.
2.1 Roadmap: Mobile-CPUs 2004
AMD, Intel und Transmeta erneuern 2004 ihr Mobile-Portfolio. Im Namen unterscheiden sich Alt und Neu dabei nur in Nuancen – in der Technik aber entscheidend. Wir klären Sie über die Unterschiede der 2004er Prozessoren auf.
Beim Kauf eines Notebooks im Jahr 2004 sollte man verstärkt auf die exakte Bezeichnung des Prozessors achten. Schnell werkelt sonst eine Mobile-CPU mit veralteter Technik im neuen Gerät. So wird der Anfang 2004 vorgesehene PentiumM-Nachfolger mit Codenamen Dothan ebenfalls wieder Pentium M heißen – bei
teilweise gleicher Taktfrequenz. Und die Notebooks schmückt unverändert das
Centrino-Logo. Dabei unterscheiden sich Intels aktueller Pentium M „Banias“
und künftiger Pentium M „Dothan“ sowohl in der Performance als auch im Energiebedarf deutlich. Und wer jetzt schon mit 64 Bit unterwegs sein will, sollte öfter
eine Pause einplanen. Denn der gerne als „Athlon 64 Mobile „ angepriesene 64Bit-Prozessor ist mitnichten eine echte Mobile-CPU. AMDs Datenblätter weisen
ihn als Prozessor für Desktop-Replacement-Notebooks aus – kein Wunder bei einer maximalen Verlustleistung von über 80 Watt. Den „echten“ Mobile Athlon 64
stellt AMD in der ersten Jahreshälfte 2004 vor.
Dank dem Einblick in interne Hersteller-Roadmaps können wir Ihnen schon jetzt
detailliert Modelle und Taktfrequenzen zu den Mobile-CPUs im Jahr 2004 nennen. Wir zeigen, woran Sie die neuen CPUs erkennen.
2.1.1 Mobile Athlon 64
Für Notebooks bietet AMD den Athlon 64 Desktop Replacement an. Diese CPU
ist kein expliziter Mobile-Prozessor, sondern entspricht bis auf Kleinigkeiten dem
Athlon 64 für Desktop-PCs (webcode: a1248). So beschränkt AMD den integrierten Speicher-Controller auf maximal DDR333-SDRAM. Zum Energiesparen
62
www.tecChannel.de
Roadmap: Mobile-CPUs 2004
setzt der Athlon 64 DTR auf die PowerNow!-Technologie. Diese hat auch der
Desktop Athlon 64, nur taufte AMD sie hier auf Cool-‚n‘-Quiet-Technologie um.
AMD bietet den Athlon 64 für Desktop-Replacement-Notebooks in den Varianten
3000+ und 3200+ an. Die Prozessoren arbeiten entsprechend mit den Taktfrequenzen 1,8 und 2,0 GHz. Durch einige Erweiterungen im Transistor-Design besitzt der Athlon 64 für Notebooks eine gesenkte Verlustleistung. Allerdings fällt
diese beim Athlon 64 3200+ DTR mit 81,5 Watt TDP nur unwesentlich niedriger
aus als beim Desktop-Pendant mit 89 Watt.
AMD Athlon 64
130nm SOI
Mobile
AMD Athlon 64
130nm SOI
AMD Athlon
XP-M
130nm
2H03
"Odessa"
90nm SOI
"Oakville"
90nm SOI
"Dublin"
130nm SOI
1H04
2H04
"Trinidad"
90nm SOI
1H05
2H05
© tecCHANNEL
Verzögerte Mobilität: Eine „echte“ mobile Variante der Athlon-64-CPU steht bei AMD in der
ersten Jahreshälfte 2004 auf dem Prozessorreiseplan.
Im ersten Quartal 2004 dürfte dann der Sprung des Athlon 64 DTR auf 2,2 GHz
mit der Model-Number 3400+ erfolgen. Einen „echten“ Mobile Athlon 64 will
AMD noch im ersten Halbjahr 2004 auf den Markt bringen. Die Fertigung erfolgt
aber weiterhin im 0,13-µm-Prozess. Dieser sollte dann mit einer deutlich gesenkten TDP aufwarten. Zum Vergleich: Intel spezifiziert den Pentium M 1,7 GHz mit
einer TDP von nur 24,5 Watt. Auch Transmetas Efficeon TM8600 mit 1,3 GHz ist
mit 13 Watt TDP viel sparsamer als AMDs Athlon 64 DTR.
Den Schwenk auf 90 nm vollzieht AMD dann im zweiten Halbjahr 2004 mit dem
Mobile Athlon 64 „Odessa“. Ihm folgt im ersten Halbjahr 2005 der ebenfalls für
den 90-nm-Prozess vorgesehene „Oakville“. Details über die Features oder Taktfrequenzen von Odessa und Oakville sind noch nicht bekannt. Vermutlich dürfte
aber wie im Desktop-Segment die Unterstützung von DDR2-SDRAM in den neuen Mobile-Prozessoren integriert sein.
Dem Athlon XP-M spendiert AMD in der zweiten Jahreshälfte 2004 mit dem
„Dublin“ ebenfalls einen Nachfolger. Ähnlich dem „Paris“ im Desktop-Segment
wird es sich beim Dublin um einen abgemagerten mobilen Athlon 64 handeln. So
ist davon auszugehen, dass der Dublin keinen 64-Bit-Modus beherrscht und eine
L2-Cache-Größe von 256 KByte erhält. Die Fertigung von Dublin erfolgt wie
beim Athlon XP-M noch mit 130 nm Strukturbreite. Erst im zweiten Halbjahr
2005 steht mit dem „Trinidad“ bei AMDs mobilen Einsteiger-CPUs der Übergang
auf die 90-nm-Produktion mit SOI-Technik an.
webcode: a1285
63
Mobile
2.1.2 Pentium M „Dothan“
Die mit Intels Centrino-Technologie (webcode: a1141) ausgestatteten PentiumM-Prozessoren (webcode: a1142) arbeiten aktuell mit maximal 1,70 GHz Taktfrequenz. Schnellere Varianten sind mit dem Banias-Core nicht geplant. Der
nächste Performance-Sprung steht im ersten Quartal 2004 an – voraussichtlich im
Februar. Dann bietet Intel den Pentium-M-Nachfolger an, der bislang unter dem
Codenamen Dothan läuft. Der Mobile-Prozessor basiert auf dem Pentium M mit
Banias-Core und wird im 90-nm-Prozess gefertigt. Insgesamt besteht der Dothan
aus 140 Millionen Transistoren. Das Gros nimmt der auf 2 MByte verdoppelte
L2-Cache ein. Der Pentium M „Banias“ setzt sich aus „nur“ 77 Millionen Transistoren zusammen. Als Architekturerweiterung sorgt das Enhanced Register Data
Retrieval für ein effizienteres Register-Management bei unterschiedlich langen
Schreib-/Lesevorgängen. Ein Enhanced Data Prefetcher verfügt über eine ausgeklügeltere Vorhersage, welche Daten die CPU im L2-Cache demnächst benötigt.
Dothan
FSB400
1,80/1,70A
1,60A GHz
Dothan
FSB400
1,80/1,70A
1,60A GHz
Dothan
FSB400
2,00/1,80/
1,70A/1,60A/
1,50A GHz
Dothan
FSB533
2,0A/1,87/
1,73/1,60B GHz
LV Dothan
FSB400
1,30 GHz
LV Dothan
FSB400
1,40 GHz
LV Dothan
FSB400
1,40 GHz
LV Dothan
FSB533
> 1,40 GHz
ULV Dothan
FSB400
1,0A GHz
ULV Dothan
FSB400
1,10 GHz
ULV Dothan
FSB400
1,10 GHz
ULV Dothan
FSB400
>>1,10 GHz
Q1'04
Q2'04
Q3'04
>
Q4'04
© tecCHANNEL
Roadmap Pentium M: Im ersten Quartal 2004 erhält der Pentium M den Dothan-Core mit
2 MByte L2-Cache und 90 nm Strukturbreite.
Intels Dothan arbeitet zur Vorstellung mit einer Taktfrequenz von 1,60, 1,70 und
1,80 GHz. Bei Ersteren beiden wird an die Taktfrequenz ein „A“ zur Unterscheidung von den bisherigen Pentium-M-Prozessoren gehängt. Im dritten Quartal
2004 folgt eine Dothan-Version mit 1,50 und 2,00 GHz. Alle Varianten weisen
den vom Pentium M bekannten 400-MHz-FSB auf. Im vierten Quartal 2004 erhöht Intel die Taktfrequenz des Prozessorbusses auf 533 MHz. Die entsprechenden CPUs kennzeichnet Intel dann wie folgt: 1,60B GHz, 1,73 und 1,83 GHz sowie 2,0A GHz. Einen Pentium-M mit FSB533 und einer Taktfrequenz von über
2 GHz will Intel ebenfalls bis Ende 2004 vorstellen.
64
www.tecChannel.de
Roadmap: Mobile-CPUs 2004
Der Dothan-Core hält im Low-Voltage-Bereich im ersten Quartal 2004 mit 1,30
GHz Taktfrequenz Einzug. Im folgenden Quartal erhöht Intel die Taktfrequenz auf
1,40 GHz, bevor dann im vierten Quartal 2004 der FSB533 eingeführt wird. Der
entsprechende LV Pentium M soll mit über 1,40 GHz Taktfrequenz arbeiten. Im
Ultra-Low-Voltage-Segment verharrt der Prozessorbus im Jahr 2004 bei 400
MHz. Der erste ULV Pentium M mit Dothan-Core kommt im ersten Quartal 2004
mit 1,0 GHz. Im zweiten Quartal 2004 erfolgt die behutsame Steigerung auf 1,10
GHz und bis Ende 2004 auf 1,20 GHz Taktfrequenz.
2.2.3 Sonoma – der neue Centrino-Chipsatz
Im vierten Quartal 2004 stellt Intel mit Sonoma eine neue Mobile-Plattform für
Pentium-M-Prozessoren mit Dothan-Core vor. Die Marke Centrino (webcode:
a1141) wird mit Sonoma beibehalten.
Der Chipsatz von Sonoma besteht aus dem GMCH/MCH Alviso und dem ICH6M. Alviso unterstützt DDR2-SDRAM im SO-DIMM-Format. Ein neuer GrafikCore als Nachfolger der Extreme-2-Engine wird in Alviso auch enthalten sein.
Alternativ lassen sich bei Alviso diskrete PCI-Express-Grafikchips anbinden.
Viele Neuerungen bietet der ICH6-M: Neben einem Serial-ATA-Interface unterstützt der I/O-Hub PCI-Express-Schnittstellen (webcode: a1003). Somit kann der
ICH6-M auch ExpressCards direkt ansteuern. Im ICH6-M integriert Intel zudem
eine neue Audio-Interface-Generation. Die mit Codenamen Azalia versehene
Technologie soll AC´97 ersetzen und besonders Strom sparend ausgelegt sein.
Drahtlose Netzwerke nach dem 802.11a/b/g-Standard bietet die Sonoma-Plattform durch den Calexico-2-Baustein. Bei der Triband-Lösung handelt es sich um
den Nachfolger der aktuellen Intel PRO/2100-Mini-PCI-Card der Centrino-Lösung. Support für AES (802.11i) kann Calexico 2 ebenfalls aufweisen.
2.2.4 Mobile Prescott
Im September 2003 hat Intel den Mobile Pentium 4 mit 3,20 GHz Taktfrequenz
und einem FSB533 vorgestellt. Mit dieser CPU hielt die Hyper-Threading-Technologie (webcode: a840) in Notebook-CPUs Einzug. Die Modelle mit 2,66, 2,80
und 3,06 GHz gibt es seither auch mit dem On-Die-Multiprocessing. Der Prescott
wird im zweiten Quartal 2004 mobil. Die Taktfrequenzen betragen zum Launch
2,80, 3,06, 3,20 und 3,46 GHz. Ein „A“ am Ende der Taktfrequenz dient zur Unterscheidung von den bisherigen Modellen: beispielsweise Mobile Pentium 4
3,20A GHz. Alle Varianten sind mit 90 nm Strukturbreite gefertigt und mit einem
1 MByte großen L2-Cache sowie Hyper-Threading versehen. Im Gegensatz zu
den Desktop-Versionen bleibt beim mobilen Prescott die FSB-Taktfrequenz weiterhin bei 533 MHz. Der Core-Takt steigt weiter: Im dritten Quartal 2004 gibt es
den mobilen Prescott mit 3,60 GHz und im vierten Quartal 2004 mit 3,73 GHz.
webcode: a1285
65
Mobile
Mobile Pentium 4
HT FSB533
3,20/3,06/
2,80 GHz
Mobile Prescott
HT FSB533
3,46/3,20A/
3,06A/2,80A GHz
Mobile Pentium
4-M
FSB400
2,60 GHz
Mobile Pentium
4-M
FSB400
2,60 GHz
Q1'04
Mobile Prescott
HT FSB533
3,60/3,46/
3,20A/3,06A GHz
Q2'04
Mobile Prescott
HT FSB533
3,73/3,60/
3,46/3,20A GHz
>
Q3'04
Q4'04
© tecCHANNEL
Roadmap Pentium 4 für Notebooks: Intel integriert den Prescott-Core bei den mobilen Pentium-4-Prozessoren im zweiten Quartal 2004.
Die hochgetakteten mobilen Prescotts sollen einen gebührenden PerformanceAbstand zu den Pentium-M-Prozessoren sicherstellen. Der Stromverbrauch dürfte
allerdings deutlich über den zirka 21 Watt TDP des Pentium M „Dothan“ liegen.
Den aktuellen Mobile Pentium 4 Processor-M lässt Intel noch parallel weiterlaufen. Die CPUs mit 0,13-µm-Fertigungstechnologie, 512 KByte L2-Cache und
400-MHz-FSB gibt es derzeit mit bis zu 2,60 GHz Taktfrequenz. Schnellere Varianten stehen nicht mehr auf der Roadmap. Die Produktion des P4-M endet voraussichtlich im zweiten Quartal 2004.
2.2.5 Transmeta Efficeon
Die Efficeon-Prozessoren (webcode: a1264) arbeiteten bei ihrem Debüt im Oktober 2003 mit Taktfrequenzen von bis zu 1,3 GHz. Transmeta lässt die CPUs bei
TSMC in einem 0,13-µm-CMOS-Prozess fertigen. In der zweiten Jahreshälfte
2004 erfolgt dann der Übergang auf die 90-nm-Technologie. Transmeta gibt für
diese zweite Efficeon-Generation Taktfrequenzen von 1,0, 1,4, 1,6, 1,8 und 2,0
GHz an. Intels Pentium-M-Nachfolger mit Codenamen Dothan soll ab der zweiten Jahreshälfte 2004 ebenfalls mit bis zu 2,0 GHz Taktfrequenz arbeiten.
Bei der 90-nm-Version des Efficeon schrumpft die Die-Fläche von 119 mm²
auf 68 mm². Diese Werte gelten für Modelle mit 1 MByte L2-Cache. Transmeta
wird den 90-nm-Efficeon wieder in drei verschiedenen Varianten anbieten: Der
TM8500 soll als Nachfolger des TM8300 weiterhin als kostengünstiges Einsteigermodell mit 512 KByte L2-Cache fungieren. Der TM8800 löst den TM8600 ab
und bringt wieder einen 1 MByte großen L2-Cache mit. In einem „Small Package“ kommt der Efficeon TM8820. Wie sein Vorgänger TM8620 kann er auf
einen 1 MByte fassenden L2-Cache zurückgreifen.
Die Fertigung des Efficeon der 90-nm-Generation wird Fujitsu im Akiruno Technology Center in der Nähe von Tokio übernehmen. Fujitsus CS100-Prozess ermöglicht einen 240-nm-Leiterbahnenabstand und eine Transistorstrukturbreite
66
www.tecChannel.de
Roadmap: Mobile-CPUs 2004
von 40 nm. Für seine internen Server-Geschäftsbereiche hat Fujitsu bereits mit
der Produktion von 90-nm-Prozessoren begonnen. Im Jahr 2005 soll laut Transmeta die dritte Efficeon-Generation auf den Markt kommen. Die CPUs erhalten
neue Features und werden anfangs im 90-nm-Prozess gefertigt. Noch im Laufe
des Jahres 2005 will Transmeta dann auf eine Strukturbreite von 65 nm übergehen. Angaben zu den geplanten Taktfrequenzen oder Architekturerweiterungen
gibt es von Transmeta allerdings noch nicht.
2.2.6 Fazit
Im Mobile-Sektor konzentriert sich Intel voll auf die Centrino-Technologie (webcode: a1141). Besonders der mit Dothan kommende Schwenk auf die 90-nm-Fertigung verspricht eine weitere Senkung des Stromverbrauchs. Durch „gemäßigte“
Steigerungen der Taktfrequenz sowie eine L2-Cache-Verdopplung dürfte Dothan
auch um einiges schneller sein als der aktuelle Pentium M (webcode: a1142).
Achten Sie im Jahr 2004 beim Kauf eines Centrino-Notebooks somit unbedingt
darauf, dass ein Pentium M „Dothan“ eingebaut ist. Wer andererseits aber unbedingt 3,46 GHz in seinem Notebook haben will, der kann bald auf Intels mobilen
Prescott zurückgreifen – Hyper-Threading und kürzere Akku-Laufzeiten inklusive. Stromhungrig sind mit über 80 Watt TDP auch AMDs Athlon-64-Prozessoren
für Notebooks. Speziell angepasste Mobile-Versionen mit niedrigerem Energieverbrauch wird es erst im ersten Halbjahr 2004 geben. Deutlich genügsamer geht
Transmetas Efficeon (webcode: a1264) zu Werke – allerdings sind damit noch
kaum Notebooks erhältlich. Leicht werden es sowohl AMD als auch Transmeta
ohnehin nicht haben. Denn Intels Centrino-Technologie hat sich in den letzten
Monaten in fast allen Notebook-Segmenten erfolgreich etabliert.
Christian Vilsbeck
tecCHANNEL-Links zum Thema
Webcode
Compact
Roadmap: Mobile-CPUs 2004
a1285
S.62
Intel Centrino
a1141
S.76
Transmeta Efficeon
a1264
S.85
Test: Pentium M für Notebooks
a1142
–
Test: Centrino-Notebooks mit
15-Zoll-Displays
a1201
–
Notebook-Laufzeit optimieren
p1195
–
Aktuelle und zukünftige
Akku-Technologien
a1191
–
Hyper-Threading im Detail
p840
–
webcode: a1285
67
Mobile
2.2 Details zum mobilen Athlon 64
Unterwegs mit 64 Bit: AMDs Athlon 64 für Notebooks erlaubt dies ebenso wie
mit vorhandenen 32-Bit-Betriebssystemen. Wir erläutern wie das funktioniert und
welche Details den mobilen Athlon 64 sonst noch auszeichnen.
Mit dem Athlon 64 für Notebooks portiert AMD seine AMD64-Architektur für
das Mobile Computing. Dabei basiert der erste 64-Bit-Notebook-Prozessor auf
dem Athlon 64 für Desktop-PCs. Entsprechend können Notebooks mit AMDs
neuer Mobile-CPU problemlos mit 32- und 64-Bit-Betriebssystemen agieren.
Der Trick, warum das funktioniert, ist relativ einfach: AMD erweitert beim Athlon 64 für Notebooks die vorhandenen 32-Bit-Register auf eine Breite von 64 Bit.
Findet der AMD64-Prozessor ein 32-Bit-Betriebssystem vor, so liegt die 64-BitErweiterung einfach brach. Die CPU verhält sich wie ein normaler x86-Prozessor.
Bei einem 64-Bit-Betriebssystem werden die 64 Bit breiten Register dagegen genutzt. Einen ähnlichen Weg ging Intel beim Übergang vom 286er zum 386er.
Ausnutzen lässt sich der 64-Bit-Vorteil des Athlon 64 für Notebooks aber nur mit
dem entsprechenden Betriebssystem. Und hier müssen sich vor allem NotebookBesitzer noch etwas gedulden. Denn eine finale Version von Windows XP 64 Bit
für AMD64-Prozessoren soll erst bis spätestens Mitte 2004 auf den Markt kommen. Seit September 2003 existiert zumindest eine Beta-Version. Und Linux –
egal ob in der 32- oder 64-Bit-Version – ist für Notebooks wegen teilweise fehlender Hardware- und Powermanagement-Unterstützung noch nicht ideal.
Wie sich der AMD Athlon 64 für Notebooks beim Einsatz von 32- und 64-Bit-Betriebssystemen verhält und welche Details seine Architektur verbirgt, führen wir
in diesem Artikel detailliert auf.
2.2.1 Details zum Core
Den Athlon 64 für Notebooks positioniert AMD als Prozessor für Desktop-Replacement-Notebooks. Entsprechend wird die CPU auch als Athlon 64 DTR bezeichnet. AMD bietet den Prozessor in einem organischen µPGA-Gehäuse mit
754 Pins an. Auf den Head Spreader der Desktop-Varianten verzichtet AMD. Dadurch lässt sich die Bauhöhe verringern und die Wärme direkter abführen.
Seit dem Launch im September 2003 bietet AMD den Athlon 64 DTR als Modell
3000+ und 3200+ mit einer Taktfrequenz von 1,8 beziehungsweise 2,0 GHz an.
Die Model-Number soll die Leistungsfähigkeit des Prozessors wie beim Athlon
XP bei allen wichtigen Benchmarks wiedergeben. Die Fertigung des Athlon 64
für Notebooks erfolgt im 0,13-µm-Prozess mit SOI-Technik. Das 193 mm² große
Die des Prozessors besteht aus insgesamt 105,9 Millionen Transistoren. Zum Vergleich: Der Athlon XP mit Barton-Core besitzt mit 54,3 Millionen zirka die Hälfte. Das Gros der zusätzlichen Transistoren wird beim Athlon 64 DTR durch den 1
MByte fassenden L2-Cache benötigt.
68
www.tecChannel.de
Details zum mobilen Athlon 64
Flurplan: Der 1 MByte große L2-Cache dominiert das Die. Umrandet ist der Athlon 64 für
Notebooks vom Speicher- und HyperTransport-Interface.
Durch einige Erweiterungen im Transistor-Design besitzt der Athlon 64 DTR eine
gesenkte Verlustleistung gegenüber dem Athlon 64 für Desktops. Allerdings fällt
diese beim Athlon 64 3200+ DTR mit 81,5 Watt TDP nur unwesentlich niedriger
aus als beim Desktop-Pendant mit 89 Watt.
2.2.2 PowerNow!-Technologie
Zum Energiesparen setzt der Athlon 64 DTR auf die seit dem K6-2+ bekannte PowerNow!-Technologie. Diese besitzt auch der Desktop-Athlon-64, nur taufte sie
AMD hier auf Cool´n´Quiet-Technologie um. Die Stromspartechnologie PowerNow! regelt dynamisch die Taktfrequenz und Core-Spannung des Prozessors. Der
Athlon 64 DTR passt damit die CPU-Leistung in 32 Stufen an. Dabei differiert die
Taktfrequenz zwischen 800 und 2000 MHz. Mit dem Arbeitstakt gekoppelt wählt
der Prozessor die passende Core-Spannung – sie variiert zwischen 1,1 V (800
MHz) und 1,5 V (2000 MHz). Unter voller Last benötigt der Athlon 64 DTR eine
Stromaufnahme von 52,9 A. Daraus resultiert der für einen Notebook-Prozessor
sehr hohe TDP-Wert von 81,5 Watt. Zum Vergleich: Intels Pentium M mit 1,7
GHz Taktfrequenz ist mit einem TDP von nur 27 Watt spezifiziert. Im PowerNow!-Modus mit 800 MHz kann der AMD-Prozessor seine Leistungsaufnahme
auf immerhin 19 Watt senken. Bis Mitte 2004 will AMD einen Mobile Athlon 64
mit deutlich reduzierter Verlustleistung vorstellen.
webcode: p1291
69
Mobile
2.2.3 Neun Ausführungseinheiten
Der AMD64-Core des Athlon 64 für Notebooks bietet neun Ausführungseinheiten
für Integer- und Floating-Point-Operationen. Darin ist eine SSE2-kompatible Einheit enthalten. Gefüttert werden die Ausführungseinheiten nach dem Out-of-Order-Prinzip über drei unabhängige Befehls-Decoder-Pipes, die in den Schedulern
enden. Drei davon können je acht Einträge puffern und bedienen die sechs Integer-Units. Diese bestehen aus drei Arithmetical Logical Units (ALU) und den drei
Address Generation Units (AGU), die für die Load-/Store-Vorgänge vom und zum
Cache verantwortlich zeichnen. Die drei FPU-Einheiten versorgt schließlich ein
36 Einträge fassender vierter Scheduler.
L2-Cache
L2-ECC
L2-Tags
L2-Tag-ECC
BefehlsTLB
L1-Befehls-Cache
Fetch2-Transit
Pick
16 KByte History
Counter
Decode 1
Decode 2
Decode 1
Decode 2
Decode 1
Decode 2
RAS & Target
Address
System Request
Queue (SRQ)
Pack
Pack
Pack
Decode
Decode
Decode
Crossbar
(XBAR)
8-entry
Scheduler
8-entry
Scheduler
8-entry
Scheduler
Memory Controller
& HyperTransport
2 KByte Branch
Targets
AGU ALU AGU ALU
Daten-TLB
36-entry
Scheduler
AGU ALU FADD FMUL FMISC
L1-Daten-Cache
ECC
© tecCHANNEL
Futterzeit: Neun Ausführungseinheiten warten beim Athlon 64 DTR auf Befehle. Die FloatingPoint-Units beherrschen bei der AMD64-Architektur erstmals SSE2.
Das Hauptproblem bei modernen CPU-Architekturen mit einer Vielzahl von Ausführungseinheiten besteht darin, diese mit einer hohen Auslastung zu betreiben
und mit genügend Daten zu füttern. Demnach ist selbst beim Athlon die Auslastung der Units längst nicht ausgereizt. Intels Idee, die Ausführungseinheiten zu
beschäftigen, heißt HyperThreading (webcode: a986). Hier wird eine CPU wie
zwei Prozessoren behandelt, und entsprechend werden zwei Threads parallel abgearbeitet. Dadurch sind die Ausführungseinheiten besser ausgelastet – eine angepasste Programmierung der Anwendungen vorausgesetzt.
70
www.tecChannel.de
Details zum mobilen Athlon 64
2.2.4 Cache- und TLB-Tuning
Da AMD beim K8-Core der Athlon-64-CPUs aber auch von der schnellsten x86kompatiblen Architektur spricht, muss die höhere Performance anderen Quellen
als einer erhöhten Unit-Zahl entspringen. Eine Möglichkeit wäre die Vergrößerung der Caches. Diese nutzt AMD aber nur teilweise. Für den L1-Cache gibt der
Hersteller eine Größe von je 64 KByte für Befehle und Daten an – unverändert
zum Athlon XP. Der 16fach assoziative L2-Cache fasst dagegen 1 MByte. Die
Athlon XPs mit Barton-Core setzen auf 512 KByte.
Weitaus tief schürfender sind bei der AMD64-Architektur die Änderungen, die
schon im Vorfeld der Befehlsabarbeitung erfolgen. So hat AMD die Translation
Lookaside Buffer (TLB) einer gründlichen Überarbeitung unterzogen. Je mehr
Einträge der Translation Lookaside Buffer fassen kann, desto seltener muss bei
der Berechnung der physikalischen Adresse die Translation-Tabelle aus dem Arbeitsspeicher geladen werden.
Dies spart Zeit, und bestimmte Befehle erfordern somit weniger Taktzyklen. Der
L1-Daten- und Befehls-TLB der Athlon-64-Prozessoren fasst je 40 Einträge und
ist voll assoziativ ausgelegt. Beim Athlon XP kann nur der L1-Daten-TLB gleich
viele Einträge speichern, für Befehle stehen lediglich 25 Einträge bereit. Die
4fach-assoziativen L2-TLBs können mit je 512 Einträgen beim K8-Core doppelt
so viel aufnehmen wie noch beim Athlon XP. Außerdem weisen die TLBs beim
Athlon 64 geringere Latenzzeiten auf als im K7-Core (webcode: p250).
2.2.5 Flush- und Sprung-Tuning
Zusätzlich zu den größeren TLBs verfügt die AMD64-Architektur über einen 32
Einträge fassenden Flush-Filter. Dies erlaubt ein besseres Management der TLBs
bei Task-Wechseln. Mehrere Threads können sich durch den Flush-Filter nun einen TLB teilen, ohne dass die Software dabei Einfluss nehmen muss. Normalerweise setzt der Prozessor bei Task-Wechseln jedes Mal die TLBs neu und stellt sie
später wieder her – das kostet Rechenzeit.
Die Sprungvorhersage hat AMD bei den Athlon-64-CPUs ebenfalls verbessert.
Insbesondere bei Anwendungen mit großem Speicherbedarf – den so genannten
Large Workloads – soll der Prozessor eine höhere Performance bieten. Hierzu
wurde der Global History Counter auf 16 K Einträge aufgestockt – gegenüber
dem K7-Core des Athlon eine Vervierfachung. Eine bessere Sprungvorhersage
braucht der K8-Core auch, denn er hat an Pipeline-Stufen zugelegt.
Die Gefahr langer Pipelines sind falsche Sprungvorhersagen. Im ungünstigsten
Fall muss die komplette Pipeline, also alle Funktionseinheiten, neu geladen werden. Dies kostet viele Takte und reduziert die Performance. Effektive „Branch
Predictions“ zählen bei modernen CPUs zu zentralen Performance-Bringern.
webcode: p1291
71
Mobile
2.2.6 Gestreckte Pipeline
Die Pipeline einer CPU zu verlängern, ist ein beliebtes Mittel zur Realisierung
höherer Taktfrequenzen. Intel verdoppelte beim Schritt vom Pentium III zum Pentium 4 die Tiefe der Pipeline auf 20 Stufen. So extrem ging AMD nicht vor: Von
vormals 10 Stufen beim Athlon kann die AMD64-Architektur nun auf eine 12-stufige Pipeline bei Integer-Operationen zurückgreifen. Sind Fließkommaberechnungen in Arbeit, benötigt der K8-Core 17 Stufen.
Die 20 Prozent tiefere Pipeline der AMD64-Architektur findet sich im Frontend
wieder. AMD hat im Vergleich zu den Athlon-Prozessoren die Befehlshol- und
Dekodierphase überarbeitet. Ziel der optimierten „Vorbereitungsphase“ ist es, die
Scheduler und somit die Ausführungseinheiten mit schneller aufeinander folgenden dekodierten Befehlen zu versorgen. Das soll unnötige Waitstates sowie unausgelastete Ausführungseinheiten reduzieren.
Die Optimierung beginnt beim K8-Core bereits mit zwei statt nur einer Fetch-Stufe, die die x86-Befehle aus dem L1-Cache holen. Die folgende Pick-Stufe bereitet
die Befehle dann für die ersten beiden von insgesamt drei Dekodierstufen auf.
Ähnlich der Align-Stufe beim Athlon versucht der Athlon 64 beim Pick-Vorgang
so viele unabhängige Befehle wie möglich zu finden und vorsortiert an die Ausführungseinheiten zu senden. In den Dekodierstufen 1 und 2 sammelt die CPU
Informationen, die für den weiteren Dekodiervorgang benötigt werden – beispielsweise direkter oder vektorbasierender Dekodierpfad. Für Letzteren ist zusätzlich Microcode aus dem Microcode-ROM (MROM) erforderlich. Die beiden
Stufen sind mit der Early-Decode-Phase des Athlon vergleichbar.
Vor dem dritten Dekodierschritt bereitet eine Pack-Stufe die vorberechneten Informationen nochmals auf. Dann erfolgt die Umwandlung in MacroOPs. Diese
einfach zu handhabenden Kommandos fester Länge beinhalten die zerlegten
komplexen x86-Befehle. Ein MacroOP kann aus ein bis zwei dieser OPs bestehen.
Der zweite OP ist immer ein Load/Store-OP. Die Scheduler verteilen schließlich
die MacroOPs auf die Ausführungseinheiten. Die Daten landen in den letzten beiden Stufen 11 und 12 der Basis-Pipeline im L1-Daten-Cache.
2.2.7 Speicher-Interface integriert
Zu den Neuerungen der AMD64-Architektur zählt neben der Registererweiterung
auf 64 Bit der integrierte Memory-Controller. Der Vorteil der Integration liegt in
den reduzierten Latenzzeiten bei Speicherzugriffen. Den Umweg über eine „klassische“ externe Northbridge umgeht die CPU. Eine geringe Latenzzeit ist vor allem dann wichtig, wenn der Speicherzugriff auf verteilt liegenden Stellen erfolgt.
Hier ist die reine Speicherbandbreite oft gar nicht der entscheidende Faktor. Anders hingegen, wenn die Daten zusammenhängend im Speicher liegen und die
CPU im Burst-Modus große Mengen ausliest – hier zählt die Bandbreite.
72
www.tecChannel.de
2,48 GByte/s
64 KByte L1-Befehls-Cache
DDR-SDRAM
H&M: AMDs Athlon 64 für Notebooks ist
mit einem HyperTransport-Interface sowie
einem Memory Controller für DDR333SDRAM ausgestattet.
AMD64 Prozessor-Core
64 KByte L1-Daten-Cache
DDR-Speicher-Controller
HyperTransport
16
1024 KByte L2-Cache
Details zum mobilen Athlon 64
2,98 GByte/s pro Richtung
© tecCHANNEL
Beim mobilen Athlon 64 integriert AMD einen Single-Channel-Speicher-Controller für DDR-SDRAM in den Varianten DDR200, DDR266 und DDR333. Die
Desktop-Variante unterstützt zusätzlich DDR400-SDRAM. Im Server-Prozessor
Opteron und der Highend-Desktop-CPU Athlon 64 FX sind zwei 72 Bit breite
DDR-SDRAM-Kanäle realisiert. ECC-Support bieten alle AMD64-Modelle.
2.2.8 HyperTransport-Bus
Statt des üblichen parallelen FSB kommuniziert der Athlon 64 für Notebooks über
eine HyperTransport-Schnittstelle. Das serielle Interface mit variabler Bitbreite
ermöglicht eine Datentransferrate von 2,98 GByte/s – in jede Richtung gleichzeitig. Damit ergibt sich eine Gesamtbandbreite von 5,96 GByte/s. Zum Vergleich:
Der Pentium 4 mit 800 MHz FSB erlaubt ebenfalls einen maximalen Datendurchsatz von 5,96 GByte/s – aber nicht in beiden Richtungen gleichzeitig. Beim Pentium M mit seinem FSB400 sind es nur 2,98 GByte/s.
Über das HyperTransport-Interface läuft der gesamte Datenverkehr der Athlon64-Prozessoren und des integrierten Memory-Controllers. Um beispielsweise
AGP-Grafikkarten einen direkten Zugriff auf den Arbeitsspeicher zu gewähren,
besitzt der Athlon 64 für Notebooks eine Schaltzentrale XBAR. Diese Cross-BarArchitektur leitet Datenströme vom HyperTransport-Interface über 64 Bit breite
interne Busse direkt an die System Request Queue des AMD64-Core oder an den
Memory-Controller weiter. Für Befehle und Adressen stehen der XBAR zusätzlich 64 Bit breite Busse zur Verfügung.
2.2.9 Betriebsmodi des Athlon 64
Um problemlos mit 32- und 64-Bit-Software agieren zu können, beherrschen die
AMD64-Prozessoren verschiedene Betriebsmodi:
• Legacy Mode
• 64-Bit-Mode
• Compatibility Mode
webcode: p1291
73
Mobile
Findet der Athlon 64 für Notebooks aktuelle Betriebssysteme wie Windows XP
mit 32-Bit-Kernel vor, so arbeitet die CPU im so genannten Legacy-Mode. Der
Athlon 64 DTR verhält sich dabei wie ein normaler x86-Prozessor und ist voll
kompatibel zu vorhandenen 16- und 32-Bit-Betriebssystemen und -Anwendungen. Die 64-Bit-Features der AMD64-Architektur liegen dann brach.
Steht dem AMD-Prozessor dagegen ein 64-Bit-Betriebssystem zur Seite, schaltet
die CPU in den Long Mode getauften Betriebsmodus. Der Long Mode der
AMD64-Technologie beinhaltet zwei Untermodi: den 64-Bit-Mode und einen
Compatibility Mode. 64-Bit-Anwendungen arbeiten im entsprechenden 64-BitMode. Den Programmen steht somit auch der volle Adressraum zur Verfügung.
Der Compatibility Mode der AMD64-Architektur erlaubt unter 64-Bit-Betriebssystemen eine binäre Kompatibilität mit 16- und 32-Bit-Anwendungen. Die Programme müssen nicht neu kompiliert werden. Den 64 Bit großen Adressraum des
Betriebssystems können diese nicht nutzen, sie bleiben auf 4 GByte beschränkt.
2.2.10 Erweiterte Register
Wenn der Athlon 64 DTR im 64-Bit-Mode arbeitet, stehen dem Prozessor im Vergleich zum Legacy Mode folgende zusätzliche Features zur Verfügung:
• 64-Bit-Adressraum
• Relative Datenadressierung mit 64-Bit-Offset
• Registererweiterung der acht GPRs auf 64 Bit durch das Präfix R
• Zusätzlich acht neue GPRs R8 bis R15
• Acht neue 128-Bit-SSE-Register XMM8 bis XMM15
• 64-Bit-Befehlszeiger (RIP)
Den 64 Bit breiten Adressraum sieht die AMD64-Architektur nur über eine segmentierte Adressierung vor. Die physikalische Adressbreite ist auf 52 Bit beschränkt. In der ersten Generation des Athlon 64 implementiert AMD einen 48 Bit
breiten virtuellen Adressraum – die physikalische Adressbreite ist auf 40 Bit beschränkt. Die ersten AMD64-CPUs haben auf ein TByte Arbeitsspeicher Zugriff.
Anwendungen, die im Legacy oder Compatibility Mode laufen, stehen beim Athlon 64 DTR weiterhin nur die acht allgemeinen 32 Bit breiten Register EAX,
EBX, ECX, EDX, EBP, ESI, EDI und ESP zur Verfügung. Arbeitet der Prozessor
dagegen im 64-Bit-Mode, erweitert die AMD64-Architektur diese acht Register
über den R-Präfix auf 64 Bit. Die verbreiterten Register erhalten die Bezeichnungen RAX bis RSP. Zusätzlich kann die AMD-CPU im 64-Bit-Mode auf acht neue
ebenfalls 64 Bit breite GPRs (General Purpose Register) R8 bis R15 zugreifen.
Für Fließkomma-Berechnungen wurden außerdem die acht 128 Bit breiten SSERegister mit XMM8 bis XMM15 verdoppelt. Davon profitiert allerdings nur der
64-Bit-Mode. Die Kompatibilität zu Intels SSE2-Befehlssatz erlauben aber alle
Betriebsmodi. Der Pentium 4 verfügt über acht XMM-Register.
74
www.tecChannel.de
Details zum mobilen Athlon 64
XMM0
31
RAX
0
XMM7
XMM8
15
7
EAX AH
EAX
0
AL
79
0
X87
127
63
GPR
x86-Register
zusätzliche
AMD64-Register
SSE&SSE2
Registeranbau:
Die AMD64-Architektur der Athlon64-CPUs erweitert
die 32-Bit-Register
der IA-32-Prozessoren auf 64 Bit.
EDI
R8
Instruction
Pointer
63 31 0
EIP
R15
XMM15
© tecCHANNEL
2.2.11 Fazit
Der größte Vorteil des Athlon 64 für Notebooks ist die Kompatibilität zu vorhandener Software. Allerdings bleibt die generelle Frage nach dem Sinn von 64-BitApplikationen auf Notebooks. Im Serverumfeld mit großen Datenmengen oder
bei Workstations mit wissenschaftlichen Berechnungen macht der Umstieg auf 64
Bit durchaus Sinn. Aber bei Notebook-Anwendungen wie Office-Applikationen,
E-Mail und Internet ist die Bit-Verdopplung nicht wirklich notwendig. Eine Nische könnte der Athlon 64 für Notebooks aber in mobilen Workstations finden.
Wichtig bei Prozessoren für Notebooks – neben der zweifelsohne hohen Performance des Athlon 64 DTR – ist ein geringer Energiebedarf. Und hier liegen die
AMD-CPUs mit einem TDP von 81,5 Watt deutlich zu hoch. Selbst ein Mobile
Pentium 4 mit 3,20 GHz Taktfrequenz unterbietet mit 76 Watt TDP den Athlon 64
für Notebooks. Bis Mitte 2004 will AMD deshalb einen Mobile Athlon 64 mit
deutlich reduzierter Verlustleistung vorstellen.
Christian Vilsbeck
tecCHANNEL-Links zum Thema
Webcode
Compact
Details zum mobilen Athlon 64
p1291
S.68
Alle Details zur AMD64-Architektur
p1022
–
Test: Athlon 64 mit Windows XP 64 Bit
p1245
–
Test: Athlon 64/FX vs Pentium 4
a1244
–
webcode: p1291
75
Mobile
2.3 Intel Centrino
Mit Centrino verfügt Intel über eine komplette Mobile-Plattform. Pentium-MProzessor, 855-Chipsätze und Wireless-LAN 802.11 sollen hohe Performance,
lange Akku-Laufzeiten und einfachen Connect bieten. Wir stellen die Details der
Centrino-Technologie vor.
„Die Marke Centrino bezeichnet eine neue Generation mobiler PCs, die verändern werden, wie und wo Menschen mit dem Computer arbeiten“, kommentierte
Pam Pollace, Intel Vice President und Director der Corporate Marketing Group,
die neue Marke. Das Logo für die Centrino-Mobiltechnologie soll Leichtigkeit,
Mobilität und Vorwärtsdrang signalisieren.
Kern der Centrino-Plattform ist der Pentium M – auch unter dem Codenamen
„Banias“ bekannt. Beim Pentium M verfolgt Intel einen holistischen Ansatz, um
die Performance höher getakteter mobiler Pentium-4-Prozessoren bei wesentlich
weniger Energieverbrauch zu ermöglichen. Techniken wie MicroOPs-Fusion, aggressives Clock-Gating oder eine erweiterte SpeedStep-Variante sollen dieses
Vorhaben verwirklichen.
In diesem Artikel finden Sie alle Details zum Pentium-M-Prozessor. Darüber hinaus stellen wir Ihnen die Chipsätze sowie die Wireless-LAN-Lösung von Intels
Centrino-Plattform vor. Einen ausführlichen Test des Pentium M für Notebooks
(webcode: a1142) können Sie ebenfalls bei tecCHANNEL nachlesen. Außerdem
haben wir für Sie 15-Zoll-Business-Notebooks (webcode: a1201) mit CentrinoTechnologie getestet.
2.3.1 Details zum Core
Intel fertigt den Pentium M mit einer Strukturbreite von 0,13 µm. Die 77 Millionen Transistoren benötigen eine Die-Fläche von zirka 100 mm². Einen Großteil
davon belegt der L2-Cache, den Intel auf 1024 KByte dimensioniert hat.
Cache-Architekturen im Vergleich
Cache
Pentium M
Pentium III
Pentium 4
Efficeon
L1-Befehle
32 KByte
16 KByte
12K-µOps
128 KByte
L1-Daten
32 KByte WB 16 KByte WB 8 KByte WT
64 KByte
L2-Größe
1024 KByte
512 KByte
512 KByte
512/1024
KByte
L2-Organisation
8fach assoziativ
4/8fach
assoziativ
8fach assoziativ
4fach assoziativ
L2-Cache-Line
64 Byte
32 Byte
64 Byte
128 Byte
76
www.tecChannel.de
Intel Centrino
Die Organisation des L2-Cache ist dabei achtfach assoziativ ausgelegt. In der ersten Cache-Stufe stehen dem Pentium M jeweils 32 KByte für Daten und Befehle
zur Verfügung. Die einzelnen Cache-Speicherzellen hat Intel jeweils aus nur vier
Transistoren aufgebaut.
Intel hat die Pentium-M-Mikroarchitektur mit dem SSE2-Befehlssatz des Pentium 4 (webcode: a606) ausgestattet. Eine weitere Gemeinsamkeit mit der Netburst-Architektur des Pentium 4 ist der 400-MHz-Prozessorbus (Quad Pumped).
Damit erlaubt der FSB des Pentium M eine Bandbreite von 2,98 GByte/s.
Flurplan: Von den 77
Millionen Transistoren des Pentium M
benötigt der 1 MByte
fassende L2-Cache
einen Großteil. (Quelle: Intel)
2.3.2 MicroOPs Fusion
Intel vereinfacht beim Pentium M die komplizierte Verwaltung der MicroOPs in
den Schedulern durch die MicroOPs-Fusion. Die neue MicroOPs-Fusion-Technologie analysiert die Instruktionen des Programmablaufs. Wenn sich mehrere Operationen zusammenfassen lassen, werden sie zu einem Befehl verschmolzen. Erst
für die Bearbeitung in den parallelen Ausführungseinheiten werden die gebündelten Befehle wieder in die einzelnen MicroOPs aufgetrennt.
Die Effizienz der Befehlsabarbeitung erhöht sich durch dieses Verfahren, weil der
Scheduler weniger Einträge verwalten muss. Diese „Befehlsreduzierung“ vor den
Ausführungseinheiten steigert aber nicht nur die Performance, sondern reduziert
gleichzeitig den Energiebedarf der Scheduler-Einheit. Durch die MicroOPs-Fusion-Technologie muss der Pentium M zehn Prozent weniger MicroOPs in den
Ausführungseinheiten berechnen.
Um die Zahl der MicroOPs weiter zu verringern, hat Intel der Pentium-M-Architektur einen eigenen Ablaufmanager spendiert. Programm-Overhead wie etwa die
Stack-Befehle push, pop, call und ret führt der Pentium M in einer dezidierten
webcode: a1141
77
Mobile
Hardware durch. Der Prozessor kann das eigentliche Programm in den Ausführungseinheiten damit ohne Unterbrechung abarbeiten. Die Zahl der MicroOPs
verringert sich durch den Stack Manager laut Intel um fünf Prozent, was für eine
Performance-Steigerung sorgen soll.
2.3.3 Strom sparen durch bessere Vorhersagen
Die Ausführungseinheiten aktueller Prozessoren sind über ein Viertel ihrer Zeit
mit Befehlswiederholungen durch falsche Sprungvorhersagen beschäftigt. Dies
kostet aber nicht nur Performance, gleichzeitig steigt durch die Befehlswiederholung der Stromverbrauch. Deshalb hat Intel beim Pentium M viel Wert auf optimierte Sprungvorhersagen gelegt.
© tecCHANNEL
Gut gesprungen: Die Advanced Branch Prediction des Pentium M soll falsche Sprungvorhersagen um 20 Prozent reduzieren.
Die „Advanced Branch Prediction“ des Pentium M analysiert die vergangene Programmausführung und sagt darauf basierend voraus, welche Operationen wahrscheinlich als Nächstes ausgeführt und welche Daten benötigt werden. Intel hat
bei der Pentium-M-Architektur drei verschiedene Logiken zur Sprungvorhersage
kombiniert: bimodal, local und global. Damit soll der Pentium M falsche Sprungvorhersagen um über 20 Prozent reduzieren. Die Performance des Prozessors steige durch die Advanced Branch Prediction um fünf Prozent. Gleichzeitig soll der
Pentium M durch diese Optimierung zirka zwei Prozent weniger Strom verbrauchen. Diese Angaben basieren auf von Intel durchgeführten Simulationen.
78
www.tecChannel.de
Intel Centrino
2.3.4 Aggressives Clock-Gating
Um Energie zu sparen, kann die Pentium-M-CPU inaktive Bereiche komplett abschalten, wenn diese zur Befehlsabarbeitung kurzfristig nicht benötigt werden.
Das Ein- und Ausschalten der einzelnen Blöcke erledigt der Prozessor dabei innerhalb eines Taktzyklus.
Beim L2-Cache hat Intel jeden der acht Cache-Pfade in vier Quadranten aufgeteilt. Über einen so genannten Quadrant Selector kann der Pentium M jeden der
insgesamt 32 Blöcke gezielt selektieren. Cache-Bereiche, die momentan nicht benötigt werden, lassen sich in einen Stromsparmodus schalten. Eine dezidierte Logik überprüft und analysiert beim Pentium M die Cache-Zugriffe und kann die
inaktiven Bereiche lokalisieren.
Sparfuchs: Der L2-Cache ist beim Pentium M in 32 Segmente aufgeteilt, die sich zum
Stromsparen gezielt abschalten lassen. (Quelle: Intel)
Beim Pentium M lässt Intel auch den Prozessorbus nicht außen vor und optimiert
ihn auf niedrigen Stromverbrauch. Deshalb werden nur die Stellen des Busses mit
Strom versorgt, die diesen auch aktuell benötigen. Gerade die Buffer-Schaltungen
besitzen eine hohe Leistungsaufnahme. Diese Schaltkreise konvertieren die Busspannungen in die vom Chip benötigten Spannungswerte. Die Pentium-M-Architektur versorgt die Buffer dynamisch nur bei Bedarf und nicht ständig.
webcode: a1141
79
Mobile
2.3.5 Enhanced SpeedStep
Intel führt mit dem Pentium M die dritte Version der Stromspartechnologie
SpeedStep ein. Die ersten beiden SpeedStep-Varianten kennen nur zwei Prozessorzustände, zwischen denen sie die Taktfrequenz und Core-Spannung wechseln
können. SpeedStep II (offiziell Enhanced SpeedStep) des Pentium III-M und Pentium 4-M kann die miteinander gekoppelte Taktfrequenz und Core-Spannung
auch dynamisch an die Prozessorauslastung anpassen.
Beim Pentium M kann das Enhanced SpeedStep die Taktfrequenz und Spannung
nun in mehreren Schritten variieren. Transmetas LongRun-Technologie (webcode: a1264) und AMDs PowerNow! verwenden dieses Verfahren schon lange.
Intel hat beim Pentium M Abstufungen von 200 MHz gewählt. Die minimale
Taktfrequenz der Pentium-M-Prozessoren beträgt jeweils 600 MHz. Ein Pentium
M 1600 kann somit dynamisch mit 600, 800, 1000, 1200, 1400 und 1600 MHz
Taktfrequenz arbeiten. Die Core-Spannung der CPU variiert mit der Taktfrequenz
gekoppelt zwischen 0,956 und 1,484 V.
Intel hat beim Pentium M zudem die I/O-Voltage von der Core-Spannung über die
IMVP-Technik der vierten Generation komplett entkoppelt. Dies erlaubt eine gezieltere Regulierung der Spannungs-Level. IMVP packt Intelligenz in die Stromversorgung und nutzt den zulässigen Spannungsbereich eines Prozessors zur Reduzierung der Leistungsaufnahme aus.
2.3.6 Pentium-M-Versionen
Intel bietet den Pentium M Anfang 2004 mit den Taktfrequenzen 1,3, 1,4, 1,5, 1,6
und als Topmodell mit 1,7 GHz an. Zusätzlich gibt es Low Voltage Pentium M mit
1,1 und 1,2 GHz sowie Ultra-Low-Voltage-Versionen mit 900 MHz und 1 GHz
Taktfrequenz. Der TDP-Wert liegt bei den LV-Varianten bei 13 Watt respektive 7
Watt bei den ULV-Pentium-M-CPUs.
Die 1,7-GHz-Version ist mit einer Thermal Design Power von 24,5 Watt spezifiziert. Im Durchschnitt soll der Leistungsbedarf der Pentium-M-Prozessoren aber
unter einem Watt liegen. Die LV- und ULV-Versionen genehmigen sich durchschnittlich nur ein halbes Watt.
Die in 0,13-µm-Technologie gefertigten Pentium-M-Prozessoren arbeiten mit einer Core-Spannung von 1,484 V – im SpeedStep-Modus sinkt sie auf 0,956 V.
Genügsamer geben sich wieder die LV-Pentium-M mit 1,18 V und die ULV-Varianten mit 1,004 V Core-Spannung.
Im ersten Quartal 2004 erfolgt in der Roadmap dann der Wechsel auf den Dothan.
Beim Dothan wird die Fertigung des Pentium M von 0,13 µm auf 90 nm umgestellt. Neben der Verdopplung des L2-Cache auf 2 MByte sorgt das Enhanced
Register Data Retrieval auch für ein effizienteres Register-Management bei unterschiedlich langen Schreib-/Lesevorgängen.
80
www.tecChannel.de
Intel Centrino
2.3.7 Pentium-M-Chipsätze
Intel bietet für den Pentium M drei Chipsatzvarianten an: den 855PM-Chipsatz
ohne sowie den 855GM und den 855GME mit integrierter Grafik-Engine.
VID
IMVP IV
PSI
Optimized
Power Supply
Pentium M
Processor
400 MHz Low
Power Processor
System Bus
DDR333 Memory
AGP 4x Graphics
AGP 4x (1.5V)
855PM
Hub
Interface
Integrated
LAN
2 ATA66/100
IDE Channels
Pro/Wireless
Network Connection
802.11b (a)
PCI 33 MHz
Cardbus
ICH4-M
6 USB Ports
(1.1/2.0)
Modem
AC'97 2.3
© tecCHANNEL
Intel 855PM: Der Chipsatz für DDR333-SDRAM (ab dem B1-Stepping) kann externe AGP-4xGrafikkarten ansteuern. Für die Peripherie zeichnet der ICH4-M verantwortlich.
Die Chipsätze unterstützen über zwei SO-DIMM (webcode: a73)-Slots bis zu 2
GByte DDR-SDRAM. Der 855PM und der 855GM arbeiten mit DDR200 und
DDR266. Seit September 2003 steuert der 855PM mit dem B1-Stepping zusätzlich DDR333-SDRAM an. Seit diesem Zeitpunkt gibt es auch den 855GME mit
webcode: a1141
81
Mobile
DDR333-SDRAM-Support. Über eine ECC-Prüfung verfügen alle Chipsätze.
Der Prozessorbus arbeitet mit 400 MHz Taktfrequenz. Externe Grafikchips steuert
der 855PM per AGP-4x-Schnittstelle an. Beim 855GM/855GME übernimmt Intels Extreme Graphics 2 die Bildschirmausgabe. Der Core arbeitet beim 855GM
mit einer Taktfrequenz von 200 MHz beziehungsweise 250 MHz beim 855GME.
VID
IMVP IV
PSI
Optimized
Power Supply
Pentium M
Processor
400 MHz Low
Power Processor
System Bus
TPV
DVO
DDR333 Memory
DVO (2 ports)
LVDS
855GME
Integrated
Graphics
Hub
Interface
Integrated
LAN
2 ATA66/100
IDE Channels
Pro/Wireless
Network Connection
802.11b (a)
PCI 33 MHz
Cardbus
ICH4-M
6 USB Ports
(1.1/2.0)
Modem
AC'97 2.3
© tecCHANNEL
Intel 855GME: Die Intel Extreme-Graphics-2-Engine ist im Chipsatz gleich integriert.
Mit der Dual-Frequency Graphics Technology des 855GME kann jetzt neben der
CPU auch die Grafik-Engine im Akku-Betrieb automatisch die Taktfrequenz senken und auf diese Weise Strom sparen. Dieses Feature ist vom Anwender einstellbar. Beim 855GME soll die Display Power Saving Technology zusätzlich für län82
www.tecChannel.de
Intel Centrino
gere Akku-Laufzeiten sorgen. Die Technologie regelt abhängig vom aktuellen
Bildschirminhalt die Helligkeit und den Kontrast des Displays dynamisch nach
und versucht, die Hintergrundbeleuchtung dabei möglichst weit abzudunkeln.
Für die Schnittstellen zeichnet beim 855PM/GM/GME der ICH4-M verantwortlich. Der I/O-Hub bietet sechs USB-1.1/2.0-Ports und Ultra-ATA/100-Unterstützung. Support für Audio-, Modem- und 10/100-Ethernet-Funktionalität ist im
ICH4-M auch integriert. Die Wireless-LAN-Anbindung erfolgt über eine MiniPCI-Card von Intel. Darauf befindet sich der unter dem Codenamen Calexico bekannte Chip. Der CardBus-Anschluss wird über den PCI-Bus angebunden.
2.3.8 Centrino-Plattform Wireless
Nahtlose und drahtlose Vernetzung will Intel mit den Centrino-Notebooks offerieren. Für die drahtlose Netzwerkfähigkeit zeichnet bei der Centrino-Plattform eine
Mini-PCI-Card von Intel verantwortlich. Der Funkbaustein mit Codenamen Calexico liefert Wireless LAN nach dem 802.11b-Standard. Seit Oktober 2003 hat Intel zusätzlich eine 802.11a/b-Lösung mit 54 Mbit Bandbreite im Angebot. Intel
hat den Calexico-Chip speziell für die Zusammenarbeit mit dem Pentium M sowie den 855PM/GM/GME-Chipsätzen optimiert und verifiziert.
Wireless LAN: Die Mini-PCI-Card ist ein Grundbestandteil von Centrino. (Quelle: Intel)
Zum Jahreswechsel 2003/2004 will Intel eine 802.11b/g-Variante anbieten. Eine
Triple-Band-Lösung 802.11a/b/g steht für Mitte 2004 auf der Roadmap. Ausführliche Informationen über die Features der einzelnen WLAN-Standards finden Sie
unter webcode: a1129 bei tecCHANNEL.
webcode: a1141
83
Mobile
Für die drahtlose Kommunikation sorgt auch die Bluetooth-Kompatibilität der
Centrino-Plattform. Die Intel PROSet-LAN-Software soll sicherstellen, dass der
Übergang von WLAN zu Bluetooth nahtlos und unsichtbar für den Benutzer passiert. Ein passiver Netzwerkscan sucht dabei stets nach möglichen Verbindungen.
Die Bluetooth-Funktion ist im Centrino-Package allerdings nicht integriert. Unterbrechungsfreies Arbeiten garantiert Intel mit der PROSet-LAN-Software auch
beim Wechsel ins Festnetz.
2.3.9 Fazit
Centrino-Notebooks sollen den Idealvorstellungen mobil arbeitender Menschen
entsprechen: Akku-Laufzeiten von acht Stunden, Performance ohne Kompromisse und die Möglichkeit, immer und überall online zu sein, so Intel.
Unsere getesteten 15-Zoll-Business-Notebooks (webcode: a1201) erreichen immerhin Laufzeiten bis über sieben Stunden. Der Prozessor benötigt bei einem
Notebook aber nur einen Teil der Gesamtenergie. Immerhin hat Intel diesen Anteil
mit dem Pentium M minimiert – im Durchschnitt soll sich die CPU mit unter einem Watt begnügen. Aber Intel hat beim Centrino-Projekt nicht nur die CPU im
Fokus, sondern optimierte auch die gesamte Plattform: Chipsätze und Controller
für Wireless LAN wurden aufeinander abgestimmt gleich mitentwickelt.
Neben langen Akku-Laufzeiten überzeugen die Centrino-Notebooks auch durch
hohe Rechenleistung: In unserem Test des Pentium M (webcode: a1142) erreicht
die 1,6-GHz-Variante das gleiche Niveau wie ein Pentium 4 mit 2,4 GHz Taktfrequenz. Damit macht Intel seinem mobilen Pentium 4 selbst den Garaus.
Christian Vilsbeck
tecCHANNEL-Links zum Thema
Webcode
Compact
Intel Centrino
a1141
S.76
Test: Pentium M für Notebooks
a1142
–
Test: Centrino-Notebooks mit
15-Zoll-Displays
a1201
–
IDF: Neue Centrino-CPUs, -Chipsätze
und Mobile-Plattformen
a1243
–
Transmeta Efficeon
a1264
S.85
Notebook-Laufzeit optimieren
p1195
S.115
Aktuelle und zukünftige
Akku-Technologien
a1191
S.97
Mobile Pentium III Processor-M
a216
–
Wireless-LAN-Grundlagen
p680
–
84
www.tecChannel.de
Transmeta Efficeon
2.4 Transmeta Efficeon
Transmeta präsentiert mit dem Efficeon seine nächste Prozessorgeneration. Mit
neuer Architektur und einer integrierten Northbridge soll sie Intels Pentium M als
beste Mobile-CPU ablösen.
Der Name von Transmetas neuem Hoffnungsträger wurde bereits im August 2003
bekannt gegeben: Efficeon – die Bezeichnung steht für mehr Effizienz. Die Efficeon-Prozessorfamilie soll beim Energiesparen und in der Performance für Notebooks, Tablet PCs, geräuscharme Desktops, Blade-Server und Embedded-Systeme industrieweit eine Spitzenposition einnehmen.
Um dieses Ziel zu erreichen, hat die kalifornische Prozessorschmiede das Hardware-Design und die Code-Morphing-Software für den Efficeon komplett neu
entwickelt. Der Nachfolger des Crusoe TM5800 soll eine 50 Prozent höhere Integer-Performance besitzen und Multimedia-Anwendungen um 80 Prozent pro
Taktzyklus beschleunigen. Hierfür hat Transmeta unter anderem einen großen L2Cache und Intels SSE2-Befehlssatz integriert. Die unter dem Modellnamen
TM8000 firmierenden Efficeons werden klar gegen Intels Pentium M (webcode:
a1141) positioniert. Auf dem Microprocessor Forum 2003 in San Jose, Kalifornien, stellte Transmeta den Efficeon-Prozessor offiziell vor. In diesem Artikel haben
wir die Details von Transmetas zweiter Prozessorgeneration zusammengefasst.
2.4.1 Efficeon-Modelle
Transmetas Efficeon-Prozessoren gibt es seit ihrer Vorstellung im Oktober 2003
mit den Taktfrequenzen 1,0, 1,1, 1,2 und 1,3 GHz. Zusätzlich bietet Transmeta die
Efficeons in drei verschiedenen Ausführungen an: Der TM8300 verfügt über einen 512 KByte großen L2-Cache und ist als kostengünstiges Einstiegsmodell gedacht. Den TM8600 stattet Transmeta mit einem 1 MByte fassenden L2-Cache
aus. Beide Serien nutzen ein Standardgehäuse mit Abmessungen von 29 x 29 mm.
Die dritte Variante Efficeon TM8620 gibt es in einem „Small Package“ mit Abmessungen von 21 x 21 mm. Der TM8620-Prozessor darf trotz der geringeren
Packungsdichte auf einen 1 MByte großen L2-Cache zurückgreifen.
Die Fertigung des Efficeon erfolgt in einem 0,13-µm-CMOS-Prozess von TSMC.
Die Varianten mit dem 1 MByte großen L2-Cache benötigen dabei eine Die-Fläche von 119 mm². Der Efficeon braucht durch seine integrierte Northbridge als
Chipsatzpartner nur noch eine Southbridge. Damit erlauben Efficeon-Systeme
eine höhere Packungsdichte. Ein Intel Pentium M nimmt zusammen mit dem
MCH 855PM und dem ICH eine Gesamtfläche von 3592 mm² ein. Der Efficeon
TM8600 belegt mit einer NVIDIA nForce3 Go 150 Southbridge zusammen nur
2066 mm². Die Small-Package-Lösungen des Efficeon und nForce 3 Go begnügen
sich insgesamt mit 925 mm² Fläche.
webcode: a1264
85
Mobile
Alles drin: Der Transmeta-Prozessor
beherrscht SSE2 und besitzt einen
DDR400-SDRAM-Controller sowie ein
AGP-Interface. (Quelle: Transmeta)
2.4.2 256-Bit-Hardware
Die Hardware, auf der Transmetas Crusoe seine Berechnungen abwickelt, ist ein
einfacher VLIW-Prozessor. Diese „very long instruction words“ sind bei allen
Crusoe-Prozessoren einschließlich des letzten Modells TM5800 bis zu 128 Bit
breit. In diesen 128 Bit können bis zu vier unabhängige Befehle à 32 Bit verpackt
sein. Pro Taktzyklus sind damit vier Instruktionen möglich.
Beim Efficeon hat Transmeta ein komplett neues Design verwirklicht. Der superskalar ausgelegte TM8000 verfügt über eine 256-Bit-VLIW-Engine und kann damit acht 32 Bit breite Befehle pro Taktzyklus bearbeiten. Im Vergleich zum
TM5800 und zum Gros der Konkurrenz ist der TM8000 laut Hersteller in der
Lage, die doppelte Arbeit pro Takt durchzuführen.
Damit sei der Efficeon auch viel effizienter im Umgang mit der Energie, und die
Batterielaufzeit erhöhe sich. Die gleiche Arbeit kann mit dem Mobile-Prozessor
bei niedrigerer Taktfrequenz und somit auch geringerer Core-Spannung durchgeführt werden, so Transmeta weiter.
2.4.3 Details zum Core
Der Efficeon unterscheidet sich nicht nur mit 1,3 GHz Taktfrequenz vom Vorgänger Crusoe TM5800 mit maximal 1,0 GHz. Neben der 256-Bit-Engine bietet die
TM8000-Serie weitere tiefgreifende Änderungen am Core. Das auffälligste neue
Feature ist die SSE/SSE2-Unterstützung des Efficeon. Nach AMD mit den Athlon-64- und Opteron-Prozessoren setzt nun auch Transmeta auf die MultimediaBefehlserweiterung von Intel. Die erste Cache-Stufe hat Transmeta beim Efficeon
wie folgt festgelegt: Der L1-Befehls-Cache besitzt mit 128 KByte die doppelte
Größe des Crusoe-Cache und ist 4fach assoziativ organisiert. Eine Cache-Line ist
86
www.tecChannel.de
Transmeta Efficeon
dabei 64 Byte groß. Für Daten stehen dem Efficeon 64 KByte (wie beim Crusoe
TM5800) in 8fach assoziativer Auslegung zur Verfügung – die Cache-Line ist hier
auf 32 Byte festgelegt.
Den L2-Cache dimensioniert Transmeta beim Efficeon je nach Modell auf 512
oder 1024 KByte. Die zweite Cache-Stufe ist jeweils 4fach assoziativ organisiert
und fasst 128 Byte große Lines. Zusätzlich verfügt der Write-Back-L2-Cache
über eine ECC-Prüfung. Dieses im Server-Einsatz wichtige Merkmal konnte der
Crusoe TM5800 nicht bieten.
Flurplan: Der 1 MByte fassende L2-Cache
belegt über ein Drittel der Die-Fläche. Gut
erkennbar ist auch der 128 KByte große
L1-Cache für Befehle. (Quelle: Transmeta)
Transmeta gibt für den Efficeon 1,3 GHz einen TDP-Wert von 14 Watt an. Die
Variante mit 1,0 GHz Taktfrequenz spezifiziert der Hersteller mit nur 5 Watt. Zum
Vergleich: Der Pentium M 1,3 GHz hat einen TDP-Wert von 22 Watt, die ULVVersion mit 1,0 GHz steht mit 7 Watt in den Datenblättern.
Cache-Architekturen im Vergleich
Cache
Pentium M
Crusoe
TM5800
Efficeon
TM8600
L1-Befehle
32 KByte
64 KByte
128 KByte
L1-Daten
32 KByte
64 KByte
64 KByte
L2-Größe
1024 KByte
512 KByte WB
1024 KByte
L2-Organisation
8fach assoziativ
4fach assoziativ
4fach assoziativ
L2-Cache-Line
64 Byte
k.A.
128 Byte
webcode: a1264
87
Mobile
2.4.4 Pipeline-Workflow
Für die Durchführung von Befehlen greift der Efficeon auf insgesamt elf Ausführungseinheiten zurück: zwei Load-/Store-, zwei Integer-, zwei Floating-Point-,
eine Alias-, Branch- und Control-Unit sowie zwei zusätzliche Execution-Units.
Die Fütterung der Ausführungseinheiten übernimmt der bis zu 48 Befehle puffernde Scheduler des Efficeon.
Befehl 1
Befehl 2
Load
Store
32-bit add
FP/MMX
SSE/SSE2
Befehl 3
Load
Store
32-bit add
MMX
SSE/SSE2
Befehl 4
Befehl 5
Integer
ALU-1
Integer
ALU-2
Branch
Befehl 6
Befehl 7
Alias
Exec-1
Befehl 8
Control
Exec-2
© tecCHANNEL
Parallelisierung: Der Efficeon kann die zu bewältigenden Rechenaufgaben auf insgesamt elf
Ausführungseinheiten verteilen.
Beim Ausführen von 32-Bit-Befehlen durchläuft die TM8000-Architektur neben der 6-stufigen Load-/Store-Pipeline sechs Integer-Stufen oder eine 8-stufige
Fließkomma-Pipeline. Ganzzahlenberechnungen in der Integer-Pipeline beginnen
mit der Stufe Instruction Issue. Der eingeholte Integer-Befehl wird hier an die entsprechende Unit weitergeleitet und in der zweiten Stufe dekodiert. Im nächsten
Schritt werden die Register mit den Operanten gelesen. Nach der Berechnung der
ALU-Operation folgt in der fünften Stufe das Setzen von Flags. Final wird das
Ergebnis in die Integer-Register zurückgeschrieben.
Die acht Stufen der Fließkomma-Pipeline beginnen ebenfalls mit dem Instruction
Issue. Nach der Zuweisung erfolgen zwei Dekodierschritte. Die Floating-PointBerechnung führt der Efficeon in vier Stufen durch. Der letzte Schritt besteht aus
dem Zurückschreiben des Fließkomma-Registers.
Beim Crusoe TM5800 setzt Transmeta noch auf eine 7-stufige Integer- und 10stufige Floating-Point-Pipeline. Der Efficeon benötigt somit weniger Arbeitsschritte bei der Befehlsabarbeitung. Die Pipeline einer CPU zu verlängern, ist eigentlich ein beliebtes Mittel zur Realisierung höherer Taktfrequenzen. Je länger
sie aber wird, desto mehr Zeit vergeht bei falschen Sprungvorhersagen. Im ungünstigsten Fall muss die komplette Pipeline, also alle Funktionseinheiten, neu
geladen werden. Dies kostet viele Takte und reduziert die Performance. Gleichzeitig steigt durch die Befehlswiederholung auch der Stromverbrauch. Dem begegnet Transmeta mit der Stufenreduzierung.
88
www.tecChannel.de
Transmeta Efficeon
6-stufige Integer-Pipeline
L1-BefehlsCache
Decoupled
Front End
Instruction
Fetch Unit
128 KByte
L2-Cache
1 MByte
8-stufige Floating-PointPipeline
puffert bis
zu 48 Befehle
L1-DatenCache
6-stufige Load/Store-Pipeline
64 KByte
© tecCHANNEL
Schritt für Schritt: Der Efficeon berechnet Ganzzahlen in sechs und Fließkommawerte in acht
Stufen. Die Fütterung der Pipelines übernimmt der bis zu 48 Befehle puffernde Scheduler.
2.4.5 Integrierte Northbridge
Transmetas Efficeon wartet mit drei Highspeed-Interfaces auf. Für einen schnellen Speicherzugriff mit geringen Latencies verfügt der Core über einen integrierten Single-Channel-DDR400-SDRAM-Controller. Einen Speichertakt von 266,
333 und ungewöhnlichen 366 MHz unterstützt der Prozessor ebenfalls. Wichtig
für den auch anvisierten Server-Markt ist der Support von ECC. Insgesamt kann
der Efficeon bis zu 4 GByte Arbeitsspeicher – verteilt auf vier Steckplätze – adressieren. Der Crusoe TM5800 besitzt zwar ebenfalls einen integrierten Memory
Controller, kann aber maximal 512 MByte DDR266- oder 1024 MByte PC133SDRAM ohne ECC-Prüfung ansteuern.
AGP 4x
0,99 GByte/s
Transmeta
Efficeon
LPC
FLASH
802.11
PCI
DDR400
2,98 GByte/s
400-MHz-HyperTransport-Bus
1,49 GByte/s
HT
Southbridge
© tecCHANNEL
Kurze Wege: Der Efficeon steuert die AGP-Grafikkarte direkt an. Ein DDR400-SDRAM-Controller ist ebenfalls im Prozessor integriert.
webcode: a1264
89
Mobile
Als zweites Highspeed-Interface fungiert beim Efficeon der integrierte AGP-4xBus. Grafikkarten müssen beim Zugriff auf den Arbeitsspeicher nicht mehr den
Umweg über eine separate Northbridge gehen. Hier bietet die TM8000-Familie
einen Performance-Vorteil gegenüber anderen Lösungen wie AMDs mobilem
Athlon 64. Der AMD-Chip hat ebenfalls einen integrierten Speicher-Controller,
die AGP-Grafikkarte benötigt aber einen zusätzlichen Northbridge-Baustein.
Für die Kommunikation mit der Peripherie zeichnet die dritte Highspeed-Verbindung verantwortlich. Transmeta stattet den Efficeon mit einem HyperTransportInterface (webcode: p1000) aus. Der mit 400 MHz getaktete serielle Bus verbindet den TM8000 mit einer Breite von 8 Bit je Richtung mit einer Southbridge.
Durch das HyperTransport-Interface kann der Prozessor mit einer Vielzahl handelsüblicher HyperTransport-Komponenten zusammenarbeiten.
2.4.6 CMS zweiter Generation
Die größte Intelligenz der Transmeta-Crusoe-Prozessoren steckt in der CodeMorphing-Software CMS. Damit wird zur Laufzeit der gesamte Code einer Rechnerarchitektur auf die eigentliche Hardware umgesetzt. Nur die Code-MorphingSoftware selbst hat Zugriff auf den Prozessor. Die CMS optimiert und übersetzt
x86-Befehle dynamisch in nativen VLIW-Code. Zur Laufzeit wird das System
immer schneller, da die Code-Morphing-Software versucht, jede Befehlskette nur
einmal zu übersetzen. Den übersetzten VLIW-Code hält die CMS im Speicher.
Transmeta hat für den Efficeon die zweite Generation seiner Code-MorphingSoftware entwickelt. Die neue Version ist speziell auf die TM8000-Architektur
zugeschnitten und kann nicht bei Crusoe-Prozessoren (TM5800) verwendet werden. Die CMS2 zeichnet sich durch höhere Performance und intelligentere Algorithmen aus. Durch die Code-Optimierung in der Software reduziere sich laut
Transmeta auch die Leistungsaufnahme in der Hardware. Die Code-MorphingSoftware wird beim Einschalten des Systems von einem Flash-ROM ins RAM
geladen, und dieser Bereich wird dann schreibgeschützt.
2.4.7 LongRun Version 2
Unter der Kontrolle der Code-Morphing-Software kann der Efficeon wie der Vorgänger Crusoe TM5800 selbst entscheiden, wann wie viel Leistung gebraucht
wird. Entsprechend werden der Takt und die Core-Spannung der CPU dynamisch
angepasst. Neu an LongRun2 des Efficeon ist eine auf die Hälfte reduzierte Ansprechzeit beim Anpassen der Taktfrequenz. Optimierte LongRun-Algorithmen
wählen die erforderliche Taktfrequenz zudem effizienter. Der Efficeon maximiert
die Performance auch innerhalb einer thermisch vorgegebenen Grenze besser. Neben der dynamischen Anpassung von Taktfrequenz und Spannung senkt LongRun2 zusätzlich die Verlustleistung der Transistoren dynamisch. Dies erfolgt über
90
www.tecChannel.de
Transmeta Efficeon
eine Regelung der Schwellenspannung. Die Leckströme der Transistoren werden
laut Transmeta zu einem steigenden Problem bei der Bewältigung von Moores
Law der Technologieskalierung. So haben 100-Watt-Prozessoren bereits einen
Leckstromanteil von 40 Watt, wie Transmeta weiter betont. LongRun2 soll den
Leckstrom von Transistoren mittels Software kontrollieren können. Die Software
bewältigt die Kontrolle der Verlustleistung als „interdisziplinäre“ Lösung in Verbindung mit speziellen Schaltungen auf dem Efficeon-Prozessor sowie dem Standard-CMOS-Prozess. So lässt sich die Verlustleistung des Efficeon bei aktiviertem LongRun2 im Standby-Modus von 144 mW auf 2 mW senken.
Transmeta implementierte die LongRun2-Technologie noch nicht bei den ersten
Efficeons, die im vierten Quartal 2003 ausgeliefert wurden. Erst im Laufe des Jahres 2004 zählt LongRun2 beim Efficeon zu einem Standard-Feature.
2.4.8 Fazit
Transmeta setzt große Hoffnungen in den Efficeon. Schon die bisherigen Transmeta-CPUs waren sehr genügsam in der Leistungsaufnahme, dennoch blieb der
große Erfolg mangels zu geringer Performance aus – besonders in Europa.
Die komplett neu entworfene Efficeon-Architektur kann diesen Nachteil wettmachen. Den von Transmeta präsentierten Benchmark-Resultaten zufolge liegt die
Performance des Efficeon über einem vergleichbaren Pentium M. Verantwortlich
dafür seien der integrierte DDR400 Memory Controller, SSE2-Unterstützung,
große Caches sowie der 256-Bit-VLIW-Core mit acht Instruktionen pro Taktzyklus. Die Code-Morphing-Software der zweiten Generation soll zudem wesentlich
effizienter sein. Dabei bleibt der Efficeon nach wie vor sehr Strom sparend.
Leicht wird es Transmeta allerdings nicht haben. Denn Intels Centrino-Technologie hat sich in den letzten Monaten erfolgreich etabliert. Und im ersten Quartal
2004 schickt Intel bereits den Pentium-M-Nachfolger Dothan ins Rennen. Dem
wird ein verdoppelter L2-Cache für mehr Performance und ein 90-nm-Prozess für
längere Akku-Laufzeiten spendiert.
Christian Vilsbeck
tecCHANNEL-Links zum Thema
Webcode
Compact
Transmeta Efficeon
a1264
S.85
Intel Centrino
a1141
S.76
HyperTransport im Detail
p1000
–
Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de
ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren.
webcode: a1264
91
Mobile
2.5 ExpressCard löst PC-Card ab
Um einen einheitlichen Standard für Steckkarten im mobilen Umfeld zu entwickeln, formierte sich 1989 eine Vielzahl von IT-Firmen zum PCMCIA-Konsortium (Personal Computer Memory Card International Association). Ein Jahr später veröffentlichte die PCMCIA den 1.0-Standard.
Dieser definierte die Grundfunktionen für die Kommunikation zwischen einer
PCMCIA-Karte und der entsprechenden Schnittstelle, die elektrischen Anschlüsse und die Abmessungen der Einschubkarte. Vorerst galten die Spezifikationen
ausschließlich für Memory Cards mit einer Datenbusbreite von 8/16-Bit und einem festgelegten Formfaktor von 54 x 85,6 x 3 mm (Typ I) und 54 x 85,6 x 5 mm
(Typ II). Der 16-Bit-Datenbus dieser Einschubkarten erreicht eine maximale Datenbandbreite von 20 MByte/s. Erst 1991 mit der Vorstellung der Version 2.0 erweiterte das Konsortium die so genannte PCMCIA-Card um eine I/O-Funktionalität. Sie ist zwingend notwendig, um zum Beispiel Netzwerk-, SCSI- oder Fax-/
Modemadapter sowie ISDN-Karten an der PCMCIA-Schnittstelle zu betreiben.
Einen weiteren Formfaktor führte das 1992 durchgeführte Update der PCMCIASpezifikation auf die Version 2.01 ein. Die Höhe der Einschubkarten änderte sich
mit dem Typ-III-Faktor auf 10,5 mm. Letzterer ermöglicht nun die Aufnahme von
Minifestplatten als mobiles Speichermedium.
2.5.1 PC-Card-Evolution
Die PC-Card löste durch die Weiterentwicklung der PCMCIA-Spezifikationen
1995 die PCMCIA-Karte ab. Die Grundlage des PC-Card-Standards Version 5.0
bildet die 32 Bit breite Cardbus-Schnittstelle mit busmasterfähiger PCI-Bus-Anbindung. Sie erreicht mit einer Taktfrequenz von 33 MHz eine maximale theoretische Datenübertragungsrate von 132 MByte/s (Basis 1000).
Sowohl die PCMCIA- als auch die PC-Card-Schnittstelle verfügen über insgesamt 68 Anschlusspins. Darüber hinaus sind die Einschubkarten Hot-Plug-fähig,
so dass das System sie beim Einstecken im laufenden Betrieb automatisch erkennt
und konfiguriert. Ebenso einfach lassen sich die Karten beim Entnehmen im Betrieb deinstallieren. Die PC-Card ist zum veralteten PCMCIA-Slot nicht abwärts
kompatibel, umgekehrt funktioniert jedoch eine 16-Bit-PCMCIA-Karte in einem
32-Bit-PC-Card-Slot einwandfrei.
ExpressCard ist die nächste Evolution des PC-Card-Standards auf Basis von PCI
Express. Die PCMCIA Trade Association (www.pcmcia.org) verabschiedete die
unter dem Codenamen NEWCARD entwickelte ExpressCard-Spezifikation 1.0
im September 2003. Der ExpressCard-Standard löst mit höherer Performance und
kleinerem Formfaktor die bisherigen PC Cards in Notebooks ab und soll auch in
PCs zum Einsatz kommen. Ein gravierender Nachteil der ExpressCard-Technologie: Sie ist zum Vorgänger nicht kompatibel.
92
www.tecChannel.de
ExpressCard löst PC-Card ab
2.5.2 ExpressCard-Technologie
Eine hohe Datenbandbreite garantiert beim ExpressCard-Standard 1.0 die PCIExpress-Technologie. Wahlweise kommt USB 2.0 zum Einsatz und zu Kontrollzwecken der SMBus. Die ExpressCard-Architektur vereint alle drei Bussysteme
zu einem standardisierten universellen 26-poligen Interface. Der integrierte x1PCI-Express-Link erreicht eine rechnerische Bandbreite von 2,5 Gbit/s je Richtung. Bedingt durch das komplexe 8B/10B-Kodierverfahren entspricht das einer
nominalen Transferleistung von 250 MByte/s pro Richtung. Im Gegensatz dazu
arbeitet das optional nutzbare USB-2.0-Interface mit einer theoretischen Bandbreite von 480 Mbit/s. Die maximale Stromaufnahme der 3,3- und 1,5-Volt-Leitungen beträgt 1750 mA.
PCI
CardBus
Controller
Power
Controller
USB 2.0
SMBus
Power
Controller
CardBus
Card
PC-Card 16
Card
PCI-Express
Card
USB 2.0
Card
ExpressCard
PCI-Express
ISA
26 Pin Socket
System
Chipset
PCI
Legacy
System
Chipset
68 Pin Socket
Dualbus: ExpressCard-Steckplätze
(Codename NEWCARD) bieten stets
USB 2.0 und PCI
Express als Bussystem an. Den
Karten bleibt die
freie Wahl. Oben
im Bild: Herkömmliche PCCard-Lösung mit
extra ControllerChip.
© tecCHANNEL
Künftige Notebooks oder PCs benötigen keinen zusätzlichen Controller für die
Ansteuerung der ExpressCard-Schnittstelle: PCI Express und USB 2.0 zählen
dann zu den Standard-Features der Systemchipsätze. Demgegenüber müssen
Notebooks mit PC-Card-Steckplätzen noch einen eigenen speziellen PC-CardController nutzen – der zusätzliche Kosten verursacht.
Mit der ExpressCard-Spezifikation bietet die PCMCIA erstmals einen gemeinsamen Standard für Erweiterungskarten an, der für Notebooks und PCs gilt. Die aktuellen PC-Cards haben sich ausschließlich in den mobilen Rechnern durchgesetzt. Ähnlich wie USB 1.1/2.0 soll ExpressCard in Zukunft beide Gattungen
verbinden und somit eine höhere Funktionalität bieten. Neben der PCMCIA Trade
Organisation unterstützen Intel, Microsoft und Dell sowie Lexar Media und SCM
Microsystems die Entwicklung von ExpressCard. Die Industriegruppen USB-IF
(www.usb.org/home) und PCI-SIG (http://www.pcisig.com) arbeiten auf Grund
ihrer Interfaces ebenfalls am Erweiterungsstandard mit.
webcode: a1275
93
Mobile
2.5.3 ExpressCard-Karten und -Slot
Die ExpressCard-Spezifikation 1.0 definiert zwei Formfaktoren für Einschubkarten: den ExpressCard/34 mit einer Breite von 34 mm und den ExpressCard/54 mit
54 mm Breite. Letztere entspricht der Breite einer herkömmlichen PC-Card und
kann beispielsweise entsprechende Festplatten aufnehmen.
Einschubkarten im Vergleich: Der ExpressCard-Standard definiert zwei Varianten (rechts)
ExpressCard/54 und ExpressCard/34. Zum Vergleich links die PC-Card. (Quelle: PCMCIA)
Als Steckplätze sind ebenfalls beide Formfaktoren vorgesehen. Der universell
einsetzbare ExpressCard/54-Slot kann aber auch 34er ExpressCards aufnehmen.
Zusätzlich bietet der ExpressCard-Standard einen 68-mm-Slot. Dieser kann zwei
ExpressCards/34 oder wahlweise eine ExpressCard/54 aufnehmen. Die Höhe der
ExpressCards beträgt standardmäßig 5 mm bei einer Länge von einheitlich 75
mm. Je nach benötigter Bandbreite kann der Hersteller eine ExpressCard individuell mit einer USB-2.0- oder PCI-Express-Schnittstelle ausstatten.
ExpressCardSlots im Vergleich: Je nach
Anwendung
können entsprechende SlotVarianten für
ExpressCard/34
oder ExpressCard/54 eingesetzt werden.
(Quelle: PCMCIA)
94
www.tecChannel.de
ExpressCard löst PC-Card ab
Das USB-2.0-Interface eignet sich primär für langsamere Technologien wie Bluetooth- oder Flash-Memory-Karten. Die schnelle PCI-Express-Variante ist prädestiniert für Geräte mit hohen Transferraten wie 1394b- oder Gbit-Ethernet-Cards.
2.5.4 ExpressCard-Schnittstelle
Wie bereits bei der PC-Card definiert, verfügt die ExpressCard ebenfalls über
eine Hot-Plug-Funktionalität. Sie gilt für die PCI-Express- und die USB-2.0Schnittstelle. Zusätzlich erlaubt ein genau ausgeklügeltes Powermanagement den
Einschubkarten einen effizienten Umgang mit den begrenzten Energieressourcen
eines Notebooks oder eines Pocket PCs. Dabei ist die maximale Leistungsaufnahme einer ExpressCard/34 auf 1,3 Watt limitiert, dagegen darf die 54er Variante 2,1
Watt nicht überschreiten. Aus welchen einzelnen Signalleitungen das ExpressCard-Interface besteht, zeigt die nachfolgende Tabelle.
Signalliste des ExpressCard-Host-Interface
Signal Group
Signal
Direction
Description
PCI Express
PETp0,PETn0,
PERp0,
PERn0
Input /
Output
PCI Express x1 data interface: 1 differential transmit
pair and 1 differential receive pair
REFCLK+,
REFCLK-
Input
PCI Express differential,
spread-spectrum reference clock
PWERST#
Input
PCI Express functional
reset
Universal
Serial Bus
(USB)
USBD+,
USBD-
Input /
Output
USB 2.0 serial data interface
SMBus
SMBDATA,
SMBCLK
Input /
Output
SMBus management
channel
System auxiliary signals
CPPE#
Output
PCI Express module detection and power control
CPUSB#
Output
USB module detection and
power control
CLKREQ#
Output
Used to indicate when
REFCLK is needed (PCI
Express only)
webcode: a1275
95
Mobile
WAKE#
Power and
Ground
Output
PCI Express function initiated wake event
+3,3 V
Primary voltage source
+3,3 V AUX
Auxiliary voltage source
+1,5 V
Secondary voltage source
GND
Return current path
2.5.5 Fazit
Die grundsätzlichen Vorteile der ExpressCard-Technologie sind die sehr hohen
Transferraten der Schnittstelle, der universelle Einsatz der Architektur und der
günstige Formfaktor. Ein weiterer Pluspunkt des ExpressCard-Standards sind
niedrige Kosten durch die geringe Leiterbahnanzahl und die einfache Verbindung.
Auf der anderen Seite verlangt die Technologie eine neue Verbindungsarchitektur
auf den System-Boards und neue Steckkarten wie die ExpressCard/34 und die
ExpressCard/54. Eine Kompatibilität zwischen der ExpressCard und der PC-Card
ist nicht vorgesehen und wird es zukünftig auch nicht geben.
Erste serienreife ExpressCard-Devices wird es laut PCMCIA in der zweiten Jahreshälfte 2004 im Fachhandel zu kaufen geben. Dann soll auch bereits eine breite
Infrastruktur von Systemen mit PCI-Express-Chipsätzen existieren, die ExpressCard-Komponenten direkt unterstützen.
Sicherlich wird es ExpressCard in der Anfangsphase schwer haben, sich gegen die
etablierte PC-Card-Busarchitektur und die vorhandene Basis von Steckkarten
durchzusetzen. Allerdings sprechen die Vorteile für sich und sollten ExpressCard
die herkömmliche Technologie schnell ablösen lassen.
Bernhard Haluschak
tecCHANNEL-Links zum Thema
Webcode
Compact
ExpressCard löst PC-Card ab
a1275
S.92
PCI Express für Grafikkarten
a1182
S.29
PCI Express: Der Highspeed-Datenbus
im Detail
p1003
–
USB 2.0: Highspeed mit 480 Mbit/s
a558
–
Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de
ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren.
96
www.tecChannel.de
Akku-Technologien
2.6 Akku-Technologien
Die Laufzeit mobiler IT-Geräte und USVs ist das größte Manko, da Akkus die benötigte Energie liefern. Dieser Artikel beschreibt die aktuellen und künftigen
Akku-Technologien und erklärt deren Vor- und Nachteile im Betrieb.
Die mobilen Helfer wie Notebooks, PDAs oder Mobiltelefone sind wahre Multitalente und erfreuen sich heute zunehmender Beliebtheit – wie die Umsatzentwicklungen im Notebook- und Telekommunikations-Bereich zeigen. Nachteile
der tragbaren elektronischen Geräte sind die begrenzte Einsatzdauer und oft das
hohe Gewicht. Die Schuldigen sind in der Regel die sparsam bemessenen Energieversorger – die Akkumulatoren. So kann zum Beispiel das Gewicht eines Lithium-Ionen-Akkus 40 Prozent des Gesamtgewichts eines Handys (Nokia 6210)
ausmachen. Bei Notebooks (Dell Latitude D800) liegt der Wert bei etwa 15 Prozent. Je nach Akku-Typ variieren die Laufzeiten der Geräte von sechs Tagen bei
Handys bis zu vier Stunden bei Notebooks.
Die Akkus erzeugen in einem chemischen Prozess elektrische Energie. Durch das
begrenzte Volumen der Energiezellen und das eingesetzte chemische Verfahren ist
die Leistung der mobilen Stromquellen beschränkt. In der Praxis bedeutet dies,
dass die Akkus über eine endliche Zeit nur einen bestimmten Strom liefern können und somit die Laufzeit von mobilen Geräten bestimmen. Daher sollten die
Energiespender für den mobilen Einsatz folgende Kriterien erfüllen:
• lange Laufzeit ohne ständiges Nachladen
• geringes Gewicht
• minimales Volumen
• schnelle Auflademöglichkeit
• hohe Lebensdauer (Ladezyklen)
• geringer Preis
• unproblematische Entsorgung
In diesem Artikel erklären wir detailliert die aktuellen Akku-Technologien BleiSäure, Nickel-Cadmium, Nickel-Metallhydrid und Lithium-Ionen/Polymer. Außerdem geben wir einen Ausblick auf die neuen Hoffnungsträger als Energielieferanten im mobilen Umfeld: die Brennstoffzelle und den Zink-Luft-Akku.
2.6.1 Funktionsweise eines Akkumulators
Akkus, auch Sekundärelemente genannt, zählen zu den elektrochemischen Energiewandlern. Sie können chemisch gespeicherte Energie in elektrische Energie
umwandeln – und umgekehrt. Letzteres können herkömmliche Batterien (Primärelemente) nicht. Sie müssen nach dem Gebrauch beziehungsweise der Entladung
einer umweltverträglichen Entsorgung zugeführt werden.
webcode: a1191
97
Mobile
Ein Akku funktioniert wie folgt: In einem Behälter befindet sich eine elektrisch
leitende Flüssigkeit (Elektrolyt). Darin sind zwei unterschiedliche leitfähige Metalle (Elektroden) eingetaucht. Sie erzeugen durch die verschiedenen chemischen
Zusammensetzungen untereinander eine Spannung. Diese Eigenschaft von Metallen entdeckte Alessandro Volta im Jahre 1793 und definierte sie in der „Voltaschen Spannungsreihe“. Sie besagt: Je weiter zwei bestimmte Metalle in der Spannungsreihe auseinander liegen, desto höher ist die elektrische Spannung zwischen
diesen beiden Elementen.
Elektronen-Strom
Ionen-Strom
+
Ionen-Strom
-
Kathode (-)
(Nickel)
poröse Trennwand
(Separator)
Anode (+)
(Cadmium)
+
+
Elektrolyt
Elektrolyt
Funktionsprinzip
einer Akku-Zelle:
Durch einen elektrochemischen Prozess
entsteht ein Spannungspotenzial
zwischen Anode und
Kathode.
© tecCHANNEL
Im Elektrolyt trennt eine poröse Wand (Separator) die beiden Metallelektroden
(Anode und Kathode), um einen Kurzschluss durch Berührung zu vermeiden. An
der Anode herrscht Elektronenüberfluss und an der Kathode Elektronenmangel.
Diese Elektronendifferenz definiert die elektrische Spannung. Ein Verbraucher
zwischen den Elektroden ermöglicht den Elektronen, die Spannung abzubauen.
Den Elektronenfluss von der Anode zur Kathode bezeichnet man als elektrischen
Strom. Die Strommenge, die ein Akkumulator über ein Zeitintervall an einen Verbraucher abgeben kann, heißt Kapazität.
Für einen ständigen Elektronenfluss muss der Stromkreislauf auch im Elektrolyt
geschlossen sein. Das übernimmt der elektrochemische Prozess im flüssigen
Elektrolyt durch Oxidation und Reduktion der entsprechend verwendeten Metalle.
Es entsteht ein Ionen-Strom, der im Elektrolyt von der Kathode durch den Separator zur Anode fließt. Wird der Stromkreislauf unterbrochen, stoppt der Prozess
der „Entladung“ – allerdings nicht vollständig. Bedingt durch einen temperaturabhängigen Reaktionsprozess im inneren des Akkus wandern Ladungen zwischen
den Elektroden und entladen das chemische System. Man spricht dabei von so genannter Selbstentladung. Je nach Akku-Typ beträgt sie bis zu 30 Prozent der gespeicherten elektrischen Kapazität pro Monat.
98
www.tecChannel.de
Akku-Technologien
Um einen Akku aufzuladen, pumpt ein Ladegerät Elektronen von der Kathode zur
Anode und reaktiviert die entladenen Elektroden. Der Lade- und Entladevorgang
lässt sich je nach Akku-Typ bis zu 1000 Mal wiederholen. Dann ist die Akku-Zelle nicht mehr in der Lage, die elektrische in chemische Energie umzuwandeln.
2.6.2 Historie der Akku-Technologie
Die Geschichte der Akku-Technologie begann mit Luigi Galvani (1737-1798)
und Alessandro Cont di Volta (1745-1827) und der Erforschung der Elektrizität.
So entdeckte Galvani 1789, dass Froschbeine zucken, wenn man sie mit zwei unterschiedlichen Metallen berührt. Daraus entwickelte er einen direkten Zusammenhang zwischen Elektrizität und Muskelbewegung und entdeckte damit die
ersten elektrochemischen Prozesse.
Etwa zehn Jahre später konstruierte Volta die erste brauchbare elektrochemische
Spannungsquelle (Batterie). Dazu verwendete er Kupfer- und Zinkstreifen, die
durch eine in Salzlösung getränkte Pappe getrennt waren.
Historisch belegt: Die „Rittersche Säule“ gilt heute
als Urform des modernen Akkumulators. Sie bestand
aus Karton- und Kupferscheiben, die in eine Salzlösung getaucht waren. (Quelle: Varta)
Die Urform des Akkumulators baute 1802 Johann Wilhelm Ritter. Der unter dem
Namen „Rittersche Säule“ bekannte Versuchsaufbau konnte mit elektrischem
Strom geladen werden und gab diesen bei der Entladung wieder ab. Die Säule bestand aus Karton- und Kupferscheiben, die in einem Gefäß mit einer Salzlösung
lagen. Um 1850 experimentierten die Wissenschaftler Sinsteden und Plante mit
den ersten Akkumulatoren auf der Basis von Blei, Schwefeldioxid und Bleidioxid. Die verwendeten Bleiplatten konnten durch mehrmaliges Auf- und Entladen
webcode: a1191
99
Mobile
– das so genannte Formatieren – elektrische Energie speichern und an einen Verbraucher abgeben. Die erste industrielle Nutzung von Bleiakkus läutete Faure
1880 mit einem Patent ein. Er bestrich eine Bleiplatte mit einer Paste aus Schwefelsäure und Bleipulver und erreichte nach dem ersten Aufladen bereits eine sehr
hohe Kapazität (Energieleistung).
Als Pioniere der Nickel-Cadmium-Akkus gelten die beiden Erfinder Thomas Alva
Edison und Waldemar Jungner. Sie forschten auf dem Gebiet der elektrochemischen Energiespeicher und meldeten 1901 die ersten Patente für Nickel-Eisenund Nickel-Cadmium-Akkumulatoren an. Sie gelten auch als Urväter der ZinkLuft-Akku-Technologie. Der entscheidende Schritt zur kommerziellen Nutzung
von NiCd-Akkus gelang aber erst Neumann im Jahr 1948 mit der Beschreibung
einer gasdichten Gehäuseform für diese Akku-Technologie. Bedingt durch die hohen Umweltschutzauflagen ersetzten die Akku-Hersteller Anfang der 90er Jahre
das hochgiftige Schwermetall des NiCd-Akkus durch einen metallisch gebundenen Wasserstoff. Damit begann der Siegeszug der Nickel-Metallhydrid-Akkus.
Mit der steigenden Verbreitung mobiler IT-Geräte und dem damit verbundenen
Wunsch nach leichten und leistungsstarken Akkumulatoren mit geringen Abmessungen entwickelte die Industrie Mitte der 90er Jahre den Lithium-Ionen-Akku.
Mit der fortschreitenden Miniaturisierung der Geräte verlangten die Hersteller
nach variablen Akku-Gehäuseformen der Li-Ion-Technologie. So entstand 1993
der Lithium-Polymer-Akku, der heute vorwiegend in Kleingeräten wie Handys
oder PDAs zum Einsatz kommt.
Große Hoffnung setzen die Akku-Entwickler auf die Brennstoffzelle als zukünftigen leistungsfähigen Energiespender. Bereits 1839 stellte der Physiker Sir Robert
Grove die Weichen für diese Technologie. Er entwickelte den ersten funktionsfähigen Prototyp. Dieser bestand aus zwei Platin-Elektroden, die sich in separaten
Glaszylindern befanden. Grove füllte einen Zylinder mit Sauerstoff und den anderen mit Wasserstoff und tauchte sie in eine verdünnte Schwefelsäure (Elektrolyt).
Dieser Aufbau erzeugte eine messbare Spannung und gilt als Urform der Brennstoffzelle. Nach dieser Entdeckung geriet die Brennstoffzellen-Technologie lange
Zeit in Vergessenheit. Erst 1950 entdeckten das Militär und die Raumfahrttechnik
die kompakte und leistungsfähige Energiequelle wieder. Seit Beginn der 90er Jahre erforschen die Wissenschaftler auch die Nutzung der Brennstoffzellen-Technologie im industriell-kommerziellen Umfeld – mit guten Zukunftsaussichten.
2.6.3 Blei-Säure-Akku
Die positive Elektrode eines herkömmlichen offenen Blei-Säure-Akkus besteht
aus Bleidioxid (PbO2), als negatives Elektrodenmaterial kommen Bleiplatten
zum Einsatz. Zwischen den Elektrodenplatten befindet sich ein Separator, der aus
Glasfaser, Mikroglas oder PVC bestehen kann. Als Elektrolyt dient in einer Flüssigkeit gelöste Schwefelsäure. Mittlerweile ersetzen die Entwickler aus Effizienzgründen die Flüssigkeit durch eine gelartige Masse, die eine rasche Ausgasung
100
www.tecChannel.de
Akku-Technologien
des gebundenen Elektrolyts verhindert. Als Bauform kommt ein geschlossenes
gasdichtes Gehäusesystem zum Einsatz. Dies schützt den Akku vor rascher „Austrocknung“ beziehungsweise Ausgasung und verlängert die Lebensdauer.
Darüber hinaus vereinfacht der geschlossene Blei-Säure-Akku die Wartung und
verhindert bei unsachgemäßer Behandlung beziehungsweise mechanischer oder
elektrischer Überbeanspruchung das Auslaufen des Elektrolyts. Als Sicherheitsmechanismus dient ein Ventil, das bei einem kritischen Überdruck innerhalb des
Akkus anspricht und das angestaute Gas entweichen lässt.
Prinzipieller Aufbau eines Blei-Säure-Akkus von 1952: Der Blei-Säure-Akku ist bereits seit
etwa 150 Jahren bekannt. Er gehört zu den ältesten elektrochemischen Energielieferanten und
gehört auch heute noch zu den weltweit meistgenutzten Akkumulatoren. (Quelle: Bosch)
Die Vorteile von Blei-Akkus sind die Hochstromfähigkeit und die äußerst niedrigen Herstellungskosten, da nur sehr preiswerte Grundmaterialien wie Blei und
Schwefelsäure verwendet werden. Zusätzlich lassen sich die verwendeten Materialien einfach recyceln. Negative Eigenschaften, die die Nutzungsdauer des Akkus
verkürzen, wie Memory-Effekt oder Lazy-Battery-Effekt, besitzt die Blei-SäureAkku-Technologie nicht. Demgegenüber steht die geringe spezifische Energie
von 30 bis 50 Wh/kg. Zusätzlich schränkt das hohe Gewicht und das große Volumen des Akkus das Einsatzgebiet ein. Ein weiteres Manko ist die problematische
Umweltverträglichkeit des Schwermetalls Blei.
Verwendung findet der Blei-Akku vorwiegend in der Automobilindustrie und in
der IT-Industrie als Energielieferant für Notstromversorgungen (USV). In diesen
Einsatzgebieten besitzt der Blei-Säure-Akku – wie keine vergleichbare Akkuwebcode: a1191
101
Mobile
Technologie – die Fähigkeit, in kurzer Zeit große Ströme zu liefern. Die Lebensdauer moderner gasdichter Bleiakkumulatoren beträgt bei sachgerechter Nutzung
wie niedriger Luftfeuchtigkeit und spezifizierten Temperaturen zirka sechs Jahre.
2.6.4 Nickel-Cadmium-Akku
Wie der Name suggeriert, besteht ein Nickel-Cadmium-Akkumulator aus der negativen Cadmium- und der positiven Nickel-Hydroxid-Elektrode. Als Elektrolyt
kommt Kalium-Hydroxid zum Einsatz. Die Renaissance erlebte der NiCd-Akku
mit dem Beginn der Entwicklung von mobilen PCs. Vor allem die ersten Notebooks profitierten von den Vorteilen der Akku-Technologie. Sie liefert kurzfristig
hohe Energiemengen für die stromhungrigen Komponenten wie CPU, Display
oder Festplatte. Zusätzlich verfügt der Akku über eine lange Lebensdauer. Ein
weiterer positiver Aspekt sind die geringen Herstellungskosten durch die Verwendung preisgünstiger Materialien wie Nickel und Cadmium.
Aufbau einer NiCd-Akku-Rundzelle: Bedingt durch
das hochgiftige Cadmium müssen die Akkus absolut
gasdicht aufgebaut sein. Auf Grund der hohen Druckverhältnisse im Inneren des Akkus muss eine runde
Zellenform verwendet werden. (Quelle: Varta)
Auf der Negativseite der NiCd-Akkus steht die geringe spezifische Energie mit 40
bis 60 Wh/kg im Vergleich zu aktuellen Akkus wie NiMH oder Lithium-Ion mit
doppelt und dreifach so hohen Werten. Zusätzlich muss man bei der Verwendung
der NiCd-Technologie den so genannten Memory-Effekt beachten.
102
www.tecChannel.de
Akku-Technologien
Ein Umweltproblem stellt das verwendete Elektrodenmaterial Cadmium dar. Es
gehört zu den hochgiftigen Schwermetallen, so dass eine gasdichte Gehäuseform
und gesonderte Entsorgung der Zellen am Ende des Lebenszyklus gewährleistet
sein muss. Durch die sehr hohe Belastbarkeit der NiCd-Akkus kommen sie heute
vorwiegend in Geräten mit hohem Strombedarf zum Einsatz. Dazu zählen in erster Linie Akku-Werkzeuge. Aber auch in schnurlosen Telefonen und Camcordern
werden sie auf Grund der geringen Herstellungskosten gerne eingesetzt.
2.6.5 Der Memory-Effekt
Ein typisches negatives Merkmal von Nickel-Cadmium-Akkus ist der so genannte „Memory-Effekt“. Diese Eigenschaft hängt mit dem verwendeten Cadmium an
der negativen Elektrode zusammen, denn das Material neigt unter bestimmten Bedingungen zur Kristallbildung.
Spannung (U)
Dieses Phänomen tritt auf, wenn der Akku vor der vollständigen Entladung wieder aufgeladen wird. Als Folge der Auskristallisierung verringert sich die Kapazität des Akkus und liefert weniger Spannung an der entsprechenden Stelle der Entlade-Kennlinie (Memory-Effekt). Der Akku kann dann ein Gerät nicht mehr über
die gesamte Zeitspanne seiner Betriebsdauer mit genügend hoher Spannung versorgen, denn das Gerät schaltet beim Erreichen der Geräteabschaltspannung vorzeitig ab (siehe Bild unten zum Memory-Effekt). Auch zu geringe Ladeströme
jenseits der Spezifikationen führen zum unerwünschten Memory-Effekt.
Beginn des
Memory-Effekts
Minimale Spannung
für den Gerätebetrieb
(Geräte-Abschaltspannung)
Entladespannung
ohne Memory-Effekt
Verlorene Zeitspanne
für den Gerätebetrieb
Entladezeit (t)
© tecCHANNEL
Unerwünscht: Ein falsches Handling beim Laden und Entladen von NiCd-Akkus fördert den so
genannten Memory-Effekt. Er verkürzt durch vorzeitiges Erreichen der Abschaltspannung die
Betriebsdauer des Geräts entscheidend.
webcode: a1191
103
Mobile
Diese negative Eigenschaft der NiCd-Zellen ist reversibel. Durch ein mehrmaliges definiertes Entladen mit einem geringen Strom bis zur vorgeschriebenen Entladespannung und anschließendem Laden lässt sich der Memory-Effekt beseitigen. Dabei sind spezielle Akku-Ladegeräte mit so genannter Refreshing-Funktion
hilfreich. Diese prozessorgesteuerten Akku-Lader können den aktuellen Ladezustand eines Akkus ermitteln und ein entsprechendes Ladeprogramm – auch für
vorgeschädigte Akkus – mit den notwendigen Parametern starten. Nach dieser
Prozedur erreicht der NiCd-Akku wieder seine volle Nennkapazität.
2.6.6 Nickel-Metallhydrid-Akku
Mit der zunehmenden Anforderung von mobilen Geräten an Akkus, hohe und
konstante Ströme über einen langen Zeitraum zu liefern, entwickelten die Ingenieure den Nickel-Metallhydrid-Akku. Seine Elektroden sind von einem alkalischen Elektrolyt umgeben. Der Pluspol der Energiezelle enthält Nickel-Hydroxid,
und der Minuspol besteht aus einer Metalllegierung, die Wasserstoff binden kann.
Der Aufbau gasdichter NiMH-Akkus entspricht prinzipiell dem von NiCd-Zellen.
Aufbau einer NiMH-Akku-Rundzelle: Anders als die
NiCd-Zelle enthält der NiMH-Akku kein hochgiftiges
Schwermetall. Grundsätzlich unterscheiden sich die
beiden Technologien im mechanischen Aufbau kaum.
(Quelle: Varta)
Durch seine Materialzusammensetzung liefert der NiMH-Akku bei identischem
Volumen und gleichem Gewicht wie ein NiCd-Akku eine höhere spezifische
Energie. Sie beträgt 60 bis 80 Wh/kg. Allerdings verzichtete man auf die Verwendung von giftigen Schwermetallen, so dass die Entsorgung der Akkus weniger
104
www.tecChannel.de
Akku-Technologien
problematisch ist als bei NiCd-Akkus. Ein gravierender Nachteil der NiMH-Technologie besteht im kapazitätsmindernden Lazy-Battery-Effekt – ähnlich dem Memory-Effekt bei NiCd-Zellen. Auf Grund der guten Umweltverträglichkeit und
einer sehr hohen Kapazität umfasst das Einsatzgebiet des NiMH-Akkus vorwiegend Handys, Camcorder, Notebooks und Audio-Geräte.
2.6.7 Der Lazy-Battery-Effekt
Spannung (U)
Der reversible Lazy-Battery-Effekt ist prinzipiell mit dem Memory-Effekt vergleichbar. Er entsteht durch eine nicht vollständige Entladung des Akkus während
des Betriebs beziehungsweise durch eine Dauerladung mit einem zu geringen,
nicht spezifikationskonformen Strom. Ähnlich wie beim Memory-Effekt bilden
sich Kristalle an der positiven Nickelhydroxid-Elektrode aus. Allerdings bricht
die Spannung beim Lazy-Battery-Effekt nicht erst an der Stelle der Teilentladung
ein, sondern sie fällt über die gesamte Entladezeit geringfügig ab.
Lazy-Battery-Effekt
Entladespannung ohne
Lazy-Battery-Effekt
Minimale Spannung
für den Gerätebetrieb
(Geräte-Abschaltspannung)
Verlorene Zeitspanne
für den Gerätebetrieb
Entladezeit (t)
© tecCHANNEL
Lazy-Battery-Effekt: Bei unsachgemäßer Akku-Pflege vermindert sich die elektrische Kapazität des NiMH-Akkus über die gesamte Entladezeit.
Der Lazy-Battery-Effekt wirkt sich weit weniger dramatisch aus als der MemoryEffekt. Die Akku-Spannung liegt beim Entladen zwar unter der Normspannung,
das verkürzt die Betriebsdauer jedoch nur geringfügig. Um diese negative Eigenschaft zu beseitigen, muss der Akku zwei bis drei Mal hintereinander vollständig
entladen werden. Wie schon beim Memory-Effekt kann hier ein modernes Ladegerät mit entsprechenden Lade- und Entladefunktionen helfen, die ursprüngliche
Leistungsfähigkeit des Akkus wiederherzustellen.
webcode: a1191
105
Mobile
2.6.8 Lithium-Ion-Akku
Der Lithium-Ionen-Akku ist die jüngste Evolution in der Akku-Technologie. Er
hat mit 90 bis 110 Wh/kg die höchste spezifische Energie unter den wiederaufladbaren Systemen. Ein zusätzliches Plus besteht in der geringen Selbstentladung
und somit der langen Lagerfähigkeit ohne erneutes Aufladen der Zellen. Ein besonderer Vorteil der Lithium-Ionen-Technologie ist, dass weder Memory-Effekt
noch Lazy-Battery-Effekt auftreten. Auch liefert die Lithium-Ionen-Zelle über
den gesamten Entladezeitraum eine nahezu konstante Ausgangsspannung, die
deutlich über der Nennspannung von zirka 3,6 V liegt.
Lithium-Ionen-Akku: Die Lithium-Ionen-Technologie besitzt im Vergleich zu den herkömmlichen Akkus wie NiCd oder NiMH die höchste spezifische Energie. (Quelle: Varta)
Anders als NiCd- oder NiMH-Akkus verfügt ein Li-Ion-Energiespeicher über
eine Systemspannung von typisch 3,6 V statt 1,2 V. Grund dafür ist der Aufbau.
So enthält der Li-Ion-Akku als Material für die Kathodenelektrode eine Lithiumverbindung, die aus Cobalt-, Mangan- oder Nickel-Oxid bestehen kann. Die Anode setzt sich aus einer Graphitverbindung zusammen. Als Isolierung zwischen den
Elektroden dient eine mikrodurchlässige Kunststoffmembran. Das Elektrolyt besteht aus einer organischen Flüssigkeit mit einem gelösten Lithium-Salz.
106
www.tecChannel.de
Akku-Technologien
© tecCHANNEL
Entladekurve eines Lithium-Ionen-Akkus: Die Spannung während des Entladevorgangs liegt
nahezu über die gesamte Zeitspanne über der Nennspannung von 3,6 V. Negative Phänomene
wie der Memory- oder Lazy-Battery-Effekt treten nicht auf.
Lithium ist ein hoch reaktives Leichtmetall, so dass bei starker Erwärmung das
leicht entzündliche Material explodieren kann. Aus diesem Grund verwenden die
heutigen Akkus – wie oben beschrieben – ein organisches Elektrolyt. Trotzdem
besitzt jeder moderne Lithium-Ionen-Akku aus Sicherheitsgründen ein Ventil
zum Druckabbau und ein besonders druckfestes Gehäuse. Zusätzlich muss jeder
Lithium-Akku mit einer speziellen angepassten Ladeelektronik ausgestattet sein.
Sie verhindert einen zu hohen Stromfluss vom und zum Akku, regelt das Ladeund Entladeverhalten und schützt die Energiezelle vor Überhitzung. Alle diese
Sicherheitsmaßnahmen schlagen sich im Preis nieder. So ist eine aufladbare Lithium-Ionen-Batterie gegenüber einem NiMH-Akku um zirka 30 Prozent teurer.
In Bezug auf Gewicht und Volumen hat die Lithium-Ionen-Technologie das
höchste Energiespeichervermögen gegenüber den herkömmlichen Akkus wie
NiCd und NiMH. Allerdings erreichen die Lithium-basierenden Akku-Zellen
nicht die Kapazität. Die bevorzugten Einsatzgebiete für Lithium-Ionen-Akkus
sind mobile Geräte wie Handys, digitale Kameras und Notebooks.
2.6.9 Lithium-Polymer-Akku
Die Lithium-Polymer-Akkus haben prinzipiell den gleichen Aufbau wie LithiumIonen-Zellen – mit einem Unterschied: Sie enthalten keine wässrigen Elektrolyte
und sind daher auslaufsicher. Den flüssigen Reaktionsstoff in der Akuzelle ersetz-
webcode: a1191
107
Mobile
ten die Entwickler durch ein festes beziehungsweise gelartiges Polymerelektrolyt.
Trotz der veränderten Zusammensetzung verfügt der Lithium-Polymer-Akku
über die gleiche spezifische Energie wie das Lithium-Ionen-Pendant.
Lithium-Polymer-Akku: Durch das feste Polymer-Elektrolyt lassen sich die Abmessungen des
Akkus (Gehäuseformen) frei variieren. (Quelle: Varta)
Die klassischen Gehäuseformen wie zylindrische oder rechteckige Metallgefäße
sind mit der Einführung der Lithium-Polymer-Technologie passé. So kann man
jetzt durch entsprechende Aluminium- oder metallisierte Kunststofffolien nahezu
alle Formen von Lithium-Polymer-Akkus realisieren. Komplizierte Hohlräume
von Geräten lassen sich auf diese Weise mit einem Li-Polymer-Akku mit wenig
mechanischem Aufwand ausfüllen.
2.6.10 Zink-Luft-Akku
Die Entwicklung von Zink-Luft-Akkus steckt noch in den Kinderschuhen, ist aber
keinesfalls neu. Der grundlegende Aufbau eines Zink-Luft-Akkus setzt sich aus
einer negativen Zink-Elektrode und einer positiven Aktivkohle-Elektrode zusammen. Die negative Elektrode besteht aus einem mechanisch gepressten Zinkschwamm oder -pulver. Mit ihrer großen Oberfläche gewährleistet sie eine optimale chemische Reaktion durch leichtes Freisetzen von Elektronen. Als aktives
Reaktionsmittel des Pluspols fungiert der Luftsauerstoff. Deshalb verwendet man
als Elektrodenmaterial speziellen Kohlenstoff (Aktivkohle in Form von Sauer-
108
www.tecChannel.de
Akku-Technologien
stoffmembranen), der den Luftsauerstoff absorbiert und dem Reaktionsprozess
zuführt. Je nach Einsatzgebiet und Bauform des Akkus setzt der Hersteller eine
flüssige oder pastöse Kalilauge als Elektrolyt ein. Alle benutzten Komponenten
sind frei von umweltbedenklichen Giften und lassen sich leicht recyceln. Die
Zink-Luft-Technologie wird daher als umweltfreundlich eingestuft. Darüber hinaus sind die eingesetzten Materialien preiswert.
Aufbau einer ZinkLuft-Akku-Zelle:
Zink, Kalilauge und
Luftsauerstoff sind die
drei Grundstoffe, die
als Energieerzeuger
dienen. (Quelle: Zoxy)
Der Nachteil des Zink-Luft-Akkus besteht darin, dass er ein offenes chemisches
System bildet. Denn beim Entladen muss Außenluft an die Reaktionsfläche gelangen, und beim Laden muss der freigesetzte Sauerstoff entweichen. In luftdichter
Umgebung ist der Akku daher nicht einsetzbar.
Ein Vorteil des Akkus ist dagegen seine geringe Selbstentladung im versiegelten
(luftdichten) Zustand. Lagerhaltungen ohne Elektrolyt sind sogar bis zu zehn Jahren möglich. Ein weiterer Pluspunkt für die Zink-Luft-Technologie ist die hohe
elektrische Kapazität. Sie beträgt bis zum Dreifachen eines vergleichbaren Lithium-Ionen-Akkus. Außerdem braucht man keine negativen Eigenschaften wie Memory- oder Lazy-Battery-Effekt bei der Nutzung der Akkus zu beachten.
Zink-Luft-Technologie wird wegen der hohen spezifischen Energie von bis zu
350 Wh/kg vorwiegend als Batteriezelle in Hör- und Personenrufgeräten genutzt.
Als wiederaufladbare Akku-Zelle wird sie für stationäre Energiespeichersysteme,
webcode: a1191
109
Mobile
wie unterbrechungsfreie Stromversorgungen (USV), verwendet. Erste Prototypen
für den mobilen Einsatz, wie in Notebooks, sind noch in der Entwicklungsphase.
Wann es serienreife Produkte geben wird, steht derzeit nicht fest.
2.6.11 Kenndaten aktueller Akku-Technologien
In der folgenden Übersicht vergleichen wir die im Artikel beschriebenen AkkuTechnologien. Es werden nicht nur die typischen elektrischen Kenngrößen der
Akku-Zellen (vergleichbar mit Mignon-Zelle, Format AA) aufgelistet, sondern
auch die Vor- und Nachteile der entsprechenden Technologie erwähnt.
Aktuelle Akku-Technologien im Vergleich
Typ
Li-Ion
/ Polymer
NiCd
NiMH
Pb
Zn-Luft
Zellen-Spannung (V)
3,6-3,7
1,2
1,2
2,0
1,4
Kapazität
(mAh)
kleiner
1000
1000
2000
größer
1000
k. A.
Spezifische
Energie (Wh/
kg)
90-110
40-60
60-80
30-50
200-350
Energiedichte
(Wh/l)
250-350
80-200
200-300
60-100
bis 500
Entladeschluss (V)
2,5
0
0,8
1,7
k. A.
Ladeschluss
(V)
4,1-4,2
nicht
definiert
nicht
definiert
2,4
k. A.
Ladezyklen/
Lebensdauer
500-800
500-800
300-500
200-300
k. A.
Verlauf der
Entladespannung bei Belastung
nahezu
waagerecht
fallend
gering
fallend
stark
fallend
k. A.
Selbstentladung (pro
Monat)
gering,
10 Prozent
mittel, 20
Prozent
hoch, 30
Prozent
gering,
kleiner
10 Prozent
k. A.
110
www.tecChannel.de
Akku-Technologien
Entladerate /
Belastbarkeit
(x-fache der
Nennkapazität)
3
20
10
10
hoch
Schnellladung
(Min)
120
10
30
k. A.
k. A.
Material der
Minus-Elektrode
LiC6
Cd
MH
Pb
Zn
Material der
Plus-Elektrode
LiCoO2
NiOOH
NiOOH
PbO2
C (O2)
Empfohlener
Ladezustand
bei langer
Lagerung
geladen
(voll)
entladen
geladen
geladen
entladen
(deaktiviert)
Mechanische
Belastbarkeit
sehr
gering
sehr
hoch
mittel
hoch
k. A.
Preis
sehr
teuer
günstig
teuer
sehr
günstig
k. A.
Bei den Angaben handelt es sich um Zirka-Werte.
2.6.12 Lagerung und Pflege von Akkus
Auch wenn ein Akku im geladenen Zustand längere Zeit unbenutzt bleibt, der
chemische Prozess innerhalb einer Akku-Zelle bleibt weiterhin aktiv und beeinflusst die Eigenschaften der Zelle negativ. Diese so genannte Selbstentladung bewirkt, dass innerhalb weniger Wochen beziehungsweise Monate eine „volle“
Akku-Zelle einen Teil ihrer elektrischen Kapazität verliert.
Zusätzlich beschleunigen hohe Temperaturen den unerwünschten Ladungsverlust
eines Akkus. Um der Selbstentladung entgegenzuwirken, sollte der Akku trocken
und bei kühler Umgebungstemperatur lagern. Darüber hinaus verhindert ein
Nachladen des Akkus in bestimmten Zeitintervallen eine Tiefenentladung und
verlängert somit deutlich die Lebensdauer des Energiespenders.
Positiv auf die Brauchbarkeit und Kapazität von Akkus wirkt sich ein effektiver
Aufladeprozess aus. Hierbei hilft die moderne Elektronik in entsprechenden Ladegeräten. Ein prozessorgesteuertes Ladegerät kann zum Beispiel unterschiedliche physikalische Eigenschaften einer Akku-Zelle (Strom, Spannung, Temperatur) während des Ladeprozesses sammeln und mit den spezifischen gespeicherten
Parametern beziehungsweise Kennlinien vergleichen. Damit ist gewährleistet,
dass die Energiezelle stets mit der optimalen Spannung beziehungsweise optimalem Strom aufgeladen wird. Darüber hinaus erkennt eine intelligente prozessorgewebcode: a1191
111
Mobile
steuerte Ladeelektronik das Ladeende des Akkus. Sie kann anschließend in den
Modus der Erhaltungsladung übergehen und den Akku einsatzbereit halten. In
diesem Zustand wird die Zelle in bestimmten Zeitintervallen kurz nachgeladen.
Weitere Vorteile von professionellen Ladegeräten sind Regenerierungs-, Konditionierungs- und Pflegeprogramme für den jeweiligen Akku-Typen. Sie bestehen
aus speziellen Lade- und Entladezyklen mit abgestimmten elektrischen Parametern für den Akkumulator.
Damit helfen die Programme des Ladegeräts, die Lebensdauer einer Sekundärzelle entscheidend zu verlängern. Außerdem erhalten sie seine Nennkapazität – das
ist die Fähigkeit eines neuen Akkus, eine bestimmte Menge an elektrischer Energie chemisch zu speichern.
2.6.13 Die Brennstoffzelle
Im Bereich mobiler Energieversorgung besitzt die Brennstoffzellen-Technologie
gegenüber den klassischen Verfahren wie NiCd, NiMH und Lithium-Ion das
größte Zukunftspotenzial. Die Brennstoffzelle kehrt das herkömmliche Verfahren
der Elektrolyse, das unter Zuführung von elektrischer Energie Wasser in die Gase
Sauerstoff und Wasserstoff aufspaltet, um. Der so gewonnene Wasserstoff dient
als Energieträger bei Verbrennungsprozessen (Knallgaseffekt).
Elektronen-Strom
Anode (+)
Kathode (-)
Energie
Wasserstoff
Die Elektrolyse: Unter Zuführung
von Energie wird das Elektrolyt
(wässrige Salzlösung) in Wasserstoff und Sauerstoff aufgespalten.
Sauerstoff
Elektrolyt
Ionen-Strom
Prinzip der Elektrolyse
© tecCHANNEL
Der prinzipielle Funktionsprozess der Brennstoffzelle verwendet Luftsauerstoff
und Wasserstoff als Energielieferant. In einem chemischen Verfahren – der so genannten „kalten Verbrennung“ – wandelt sie die beiden Elemente in elektrische
Energie um. Als Abfallprodukt entstehen Wärme und Wasser. Diese Methode erzeugt doppelt so viel Energie wie das klassische Verbrennungsverfahren.
112
www.tecChannel.de
Akku-Technologien
Die Brennstoffzelle: Die Brennstoffzelle erzeugt in einer so genannten „kalten Verbrennung“ von Luft und Wasserstoff elektrische
Energie und Wärme.
Anode (+)
Kathode (-)
Elektrolyt
Wasserstoff
Energie
Luft
Wärme
Wasser
© tecCHANNEL
Die Brennstoffzelle ist in ihrer Struktur einfach aufgebaut. Die wichtigste Komponente einer Brennstoffzelle ist eine semipermeable elektrolytische Membran
auf Polymerbasis. Sie verhindert, dass die beiden Reaktionsstoffe Wasserstoff und
Luftsauerstoff sich zu Wasser verbinden, da sie nur Kerne der Wasserstoffatome
(Protonen) passieren lässt. Die Elektroden der Anode und Kathode dienen als Katalysator für den Wasserstoff beziehungsweise Luftsauerstoff.
Der Prozess der „kalten Verbrennung“ läuft wie folgt ab: In der Kathode der
Brennstoffzelle befindet sich der Sauerstoff und in der Anode der Wasserstoff. Die
elektrolytische Membran trennt den Wasserstoff in Elektronen und Ionen (geladene Atomkerne) auf. Die Wasserstoff-Ionen wandern durch die Membran und
wollen mit dem Sauerstoff zu Wasser oxidieren. Dazu fehlen aber die auf der Wasserstoffseite befindlichen Elektronen, die durch die isolierende Membran von der
Sauerstoffseite getrennt sind.
Verbindet man nun die Kathode und die Anode einer Brennstoffzelle, so kann ein
nutzbarer elektrischer Strom fließen, der die Elektronendifferenz ausgleicht. Der
elektrochemische Prozess in der Energiezelle läuft so lange, bis sie einen der Reaktionsstoffe aufgebraucht hat.
Vorteile der Brennstoffzellen-Technologie sind ein hoher Wirkungsgrad und eine
hohe Energiedichte gegenüber den aktuellen Akku-Systemen. Ein Nachteil ist der
geringe Strom, den die Brennstoffzelle liefert. So benötigen derzeitige Prototypen
von Brennstoffzellen in mobilen Geräten immer noch Energiepuffer in Form von
Akkus, um kurzzeitig hohe Ströme an das elektrische System zu liefern. In diesem
Aufbau besteht die wesentliche Aufgabe der Brennstoffzelle lediglich im stetigen
Nachladen der Akku-Zellen.
Funktionsfähige Prototypen von Brennstoffzellen für Notebooks haben Firmen
wie Motorola, NEC und Toshiba bereits in den Jahren 2000 bis 2003 vorgestellt.
Allerdings wollen die Hersteller die ersten kommerziell nutzbaren Zellen erst
Ende 2004 auf den Markt bringen.
webcode: a1191
113
Mobile
2.6.14 Fazit
Die herkömmlichen Akku-Technologien wie NiCd und NiMH sind technologisch
nahezu ausgereizt. NiCd-Akkus spielen durch die problematischen Materialien
und die geringe spezifische Energie im mobilen Umfeld keine Rolle mehr. Lediglich wo sehr hohe Stromstärken gefordert werden, kann der NiCd-Akku seinen
Vorteil eines hohen Entladestroms (20fache Nennkapazität) ausspielen.
Die NiMH-Akkus gehören heute zu den gängigsten wiederaufladbaren Energielieferanten. Sie verfügen über eine hohe spezifische Energie und Kapazität sowie
Belastbarkeit. Zusätzlich sind sie weniger schädlich als die NiCd-Zellen, da das
hochgiftige Cadmium durch Metallhydrid ersetzt wurde. Zu den Nachteilen zählen die geringe Lebensdauer (Ladezyklen) und die hohe Selbstentladung.
Ein hohes Entwicklungspotenzial für den mobilen Einsatz besitzt zurzeit die Lithium-Ionen- beziehungsweise die Lithium-Polymer-Technologie. Sie bietet eine
hohe spezifische Energie, geringe Selbstentladung und keine negativen Eigenschaften wie den Memory- oder Lazy-Battery-Effekt. Zudem ist der Lithium-Polymer-Akku durch die variablen Abmessungen universell einsetzbar. Diese Vorteile bezahlen die Anwender jedoch mit einem hohen Preis bei der Anschaffung.
Als künftige Energieversorger für mobile Geräte kommen die Brennstoffzelle und
die Zink-Luft-Akku-Technologie in Frage. Sie befinden sich noch in der Entwicklungsphase, die ersten Ergebnisse von Prototypen sind aber vielversprechend.
Der Blei-Säure-Akku zählt zu den ältesten und weltweit meistgenutzten Energielieferanten. Als Notstromreserve in USVs oder Starterbatterien bietet diese Technologie ein konkurrenzloses Preis-Leistungs-Verhältnis, da als Grundstoff das
preiswerte und in großen Mengen verfügbare Schwermetall Blei dient. Zusätzlich
ist der Blei-Säure-Akku durch moderne Herstellungsverfahren in der Handhabung unproblematisch. Auf der Negativseite stehen die sehr geringe Energiedichte gegenüber anderen Akku-Technologien und das giftige Schwermetall Blei.
Bernhard Haluschak
tecCHANNEL-Links zum Thema
Webcode
Compact
Akku-Technologien
a1191
S.97
Notebook-Laufzeit optimieren
a1195
S.115
Test: Centrino-Notebooks mit
15-Zoll-Displays
a1201
–
Test: Pentium M für Notebooks
a1142
–
Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de
ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren.
114
www.tecChannel.de
Notebook-Laufzeit optimieren
2.7 Notebook-Laufzeit optimieren
Bei Notebooks entscheidet in erster Linie die Kapazität des Akkus über die stromnetzunabhängige Laufzeit. Zusätzlich hängt sie von den verwendeten Komponenten und deren effektivem Powermanagement ab.
Im normalen Arbeitsbetrieb gehört der LCD-Bildschirm eines Notebooks zu den
Topverbrauchern – er benötigt über 30 Prozent der Akku-Gesamtleistung. Erst
dann folgen mit zirka 10 Prozent der Prozessor und der Chipsatz. Bei rechenintensiven Anwendungen verschieben sich die Anteile zu Ungunsten des Prozessors.
Die Hersteller mobiler Geräte versuchen ständig, die Einsatzdauer im Akku-Betrieb durch verschiedene Maßnahmen zu erhöhen. So entwickelt die Industrie
Mobile-Prozessoren mit speziellen Energiesparmechanismen. Auch die LCDDisplays von Notebooks unterscheiden sich durch reduzierten Stromverbrauch
von den netzabhängigen Desktop-Versionen.
Darüber hinaus forschen die Hersteller auf dem Gebiet strommindernder Technologien wie zum Beispiel ALS oder USB Suspend. Doch auch der Anwender kann
durch sein Nutzungsverhalten die Laufzeit seines mobilen Helfers beeinflussen.
In diesem Artikel zeigen wir die wichtigsten Stromverbraucher in einem Notebook und deren Auswirkung auf die Akku-Laufdauer. Zusätzlich erläutern wir, wo
und in welchem Umfang die Akku-Ressourcen bei der täglichen Arbeit mit dem
Notebook geschont werden können.
2.7.1 Elektrische Leistungsverteilung in Notebooks
Messungen der elektrischen Leistung von Notebooks sind sehr komplex. Denn
die ermittelten Werte variieren je nach eingesetzter Hard- und Software stark. Zusätzlich können in der Praxis bestimmte Komponenten wie CPU oder Grafikkarte
nicht einzeln, sondern nur in Verbindung mit anderen Bauteilen gemessen werden. Im mobilen Einsatz übernimmt der Akku die Stromversorgung der elektrischen Komponenten eines Notebooks. Seine gespeicherte Energie bestimmt die
Betriebsdauer des Geräts wie folgt:
Die Laufdauer eines Akkus in Stunden ergibt sich aus der Leistungskapazität des
Akkus, gemessen in Watt-Stunden, dividiert durch die durchschnittliche Leistungsaufnahme des Geräts, ermittelt in Watt. Ein Blick auf die Verteilung der
elektrischen Leistung eines Notebooks verdeutlicht, wo in punkto Leistungseinsparung noch Entwicklungspotenzial besteht.
Ein Drittel der Akku-Kapazität beansprucht im „Normalbetrieb“ das Display. Erst
dann folgen mit deutlichem Abstand die CPU und die Stromversorgung. Letztere
ist eine rein thermische Verlustleistung der Spannungsregler. Denn die Regelelektronik muss aus einer hohen Akku-Spannung viele unterschiedliche kleine Spannungen für die einzelnen Notebook-Komponenten erzeugen. Diese Regelkreise
webcode: a1195
115
Mobile
haben einen bestimmten Wirkungsgrad, der sich wie folgt berechnet: Eingangsleistung dividiert durch Ausgangsleistung. Je höher der Wirkungsgrad (Effizienz),
desto weniger „nutzlose“ thermische Leistung erzeugt ein elektrisches Gerät.
Taktgenerator
5%
Intel DVD LAN
Lüfter 2%
ICH 2% 2%
3%
Festplatte
8%
Display
33%
Grafik
8%
Sonstiges
8%
Intel MCH
9%
CPU 10%
Stromversorgung 10%
© tecCHANNEL
Status quo: Das Diagramm zeigt, welche Komponenten in einem Notebook bei „normaler
Nutzung“ prozentual wie viel elektrische Energie verbrauchen. (Quelle: Intel)
Fazit: Durch eine geringere Akku-Spannung erhöht sich der elektrische Wirkungsgrad der internen Gerätestromversorgung, gleichzeitig sinken die hohen
thermischen Verluste. Daraus resultiert eine längere Akku-Laufzeit.
90 %
Effizienz (%)
80 %
Vdc = 9V
Vdc = 19.0V
70 %
60 %
50 %
40 %
Thermische
Verluste
EBLAuswirkung
1
5
10
15
20
Strom (A)
25
30
© tecCHANNEL
Effizienz-Verluste: Durch hohe Akku-Spannungen (Vdc) sinkt die Effizienz (Wirkungsgrad) der
gesamten Stromversorgung im Notebook. (Quelle: Intel)
116
www.tecChannel.de
Notebook-Laufzeit optimieren
2.7.2 Extended Battery Life Workgroup (EBL WG)
Um die Akku-Laufzeit von mobilen Geräten zu verlängern, formierten sich im
Oktober 2002 auf dem Intel Developer Forum in San Jose unter der Führung von
Intel namhafte Hersteller wie Dell, Fujitsu, IBM, Microsoft, NEC, Samsung und
Toshiba zu der Extended Battery Life Working Group (www.eblwg.org). Die Mitglieder beschlossen eine industrieweite Kooperation. Als Hauptziel setzte sich das
EBL-Konsortium, die Leistungsaufnahme bestimmter Gerätekomponenten zu untersuchen und gegebenenfalls durch geeignete Technologien zu reduzieren. Die
folgende Tabelle zeigt die mittlere Leistungsaufnahme verschiedener Funktionsgruppen in einem Standard-Notebook und die von der EBL Working Group erwartete Entwicklung im Jahr 2004.
Mittlerer Leistungsverbrauch in einem Beispiel-Notebook
Komponente
Elektrische Leistungsaufnahme (W) 2003
Erwartete elektrische
Leistungsaufnahme
(W) 2004
LCD (14 Zoll) und
Elektronik
4,20
3,20
CPU
1,00
0,80
Intel GMCH
1,00
1,10
Speicher
0,30
0,50
Intel ICH
0,60
0,75
Wireless-LAN
0,15
0,15
Sonstiges
1,20
1,20
Takt Generator
0,70
0,50
Lüfter
0,30
0,30
Festplatte
1,20
1,20
DVD /CD-RW
0,40
0,40
Verluste der Spannungsversorgung
1,11
0,89
Einsatz von EBLTechnologien (1)
Gesamtleistung
-1,00
12,16
9,99
Werte ermittelt mit Mobile Mark 2002 und den Optionen: Workload Avarage Power und Adaptive Mode. (Quelle: Intel)
webcode: a1195
117
Mobile
Nach dem Willen der EBL-Workgroup soll durch den Einsatz verschiedener EBLTechnologien der Gesamtverbrauch der elektrischen Leistung eines Notebooks
um zusätzlich ein Watt reduziert werden. Die folgende Auflistung gibt detailliert
wieder, wie viel Energie bestimmte Funktionsgruppen durch elektrische Optimierungen mittels entsprechender EBL-Techniken einsparen.
Einfluss der EBL-Technologie auf die elektrische Leistung
(1) EBL-Komponente
Erwartete elektrische
Leistungsreduzierung (W)
Optimierung des LCD-Displays
0,2
Optimierung des DVD-Laufwerks
0,3
LCD-Helligkeitssteuerung (ALS)
0,2
Optimierung der I/O-Spannungsversorgung
0,2
Reduzierung der Akku-Versorgungsspannung
0,1
Gesamt
1,0
2.7.3 Energieverbraucher Nr.1 – das Display
Eine kleine Revolution auf dem Gebiet der LCD-Displays gab es mit der Einführung der Low-Temperature-Poly-Silicon-TFTs (LTPS-TFT) Ende 2001. Im Vergleich zu herkömmlichen TFT-Displays basiert die neue LTPS-Technologie auf
einem modifizierten Fertigungsprozess.
Ein speziell entwickeltes Glassubstrat ermöglicht eine hohe Beweglichkeit der
Elektronen im Material. Zusätzlich sind, bedingt durch die niedrig gehaltene
Temperatur während des Fertigungsprozesses, die Treiberbausteine für die TFTMatrix direkt im Glassubstrat integriert. Die Poly-Silicon-Technologie zeichnet
sich besonders durch hohe Auflösung und Helligkeit sowie eine um bis zu 40 Prozent geringere Stromaufnahme aus.
Die folgenden Diagrammkurven zeigen deutlich, dass die Leistungsaufnahme der
Hintergrundbeleuchtung inklusive Treiberbausteinen bei den aktuellen LCD-Displays nicht optimal aufeinander abgestimmt ist. Im typischen Bereich der Helligkeit eines Notebook-Displays bei 60 cd/m² erreicht das optisch-elektrische System eine Effizienz von lediglich 55 Prozent. Hier besteht für die Hersteller Handlungsbedarf, indem sie die Leistungsaufnahme der Matrixtreiber-ICs reduzieren
und somit die Effizienz des gesamten Systems erhöhen.
118
www.tecChannel.de
Notebook-Laufzeit optimieren
5.00
100%
4.50
Leistung (W)
80%
3.50
3.00
70%
2.50
60%
2.00
1.50
50%
Treiber
Lampe
1.00
Effizienz
40%
0.50
0.00
Effizienz (%)
90%
4.00
20
40
60
80
100
120
Helligkeit (cd/m2)
140
160
30%
© tecCHANNEL
Kleine Differenzen: Eine Leuchtstärke geringer als 60 cd/m² wirkt sich negativ auf die Effizienzbetrachtung der optischen Komponenten (Hintergrundbeleuchtung) und elektrischen
Funktionsgruppen (Matrixtreiber) eines LCD-Panels aus. (Quelle: Intel)
Ein weiterer Schritt, um den enormen Leistungshunger künftiger LCD-Displays
zu zügeln, ist der Einsatz der so genannten Ambient Light Sensor Technology
(ALS). Der Anwender kann mittels eines User-Interface die gewünschte Helligkeit eines Displays einstellen. Ein ALS-Treiber gibt die Anwenderinformationen
an die ACPI-Schnittstelle weiter. Diese regelt über eine Elektronik die Helligkeit
des LCD-Panels. Gleichzeitig erhält das ACPI-Interface von der Steuerelektronik
eines Lichtsensors aktuelle Informationen über die Umgebungshelligkeit und
passt die Hintergrundbeleuchtung entsprechend der vorgegebenen und ermittelten
Daten (Ist-Soll-Vergleich) automatisch an.
User-Interface
ALS-Treiber
Inverter
Panel
intergrierter
Controller
LichtSensor
ACPI
© tecCHANNEL
ALS-Technologie im Detail: Die automatische Steuerung der Hintergrundbeleuchtung durch
die Ambient-Light-Sensor-Technologie (ALS) reduziert den Strombedarf mobiler Geräte und
vereinfacht die Regelung der Helligkeit.
webcode: a1195
119
Mobile
Die hier vorgestellten technischen Maßnahmen haben ein gemeinsames Ziel: Die
elektrische Leistungsaufnahme der zukünftigen LCD-Displays in Standard-Notebooks soll von den derzeit gängigen 4,2 Watt auf unter 3 Watt sinken.
2.7.4 Strom sparen an der USB-Schnittstelle
Mittlerweile gehören bei gängigen Notebooks mehrere USB-Schnittstellen zur
Standardausstattung: Der Universal Serial Bus bietet eine schnelle und einfache
Verbindungsart zwischen den mobilen Helfern und externen Geräten. Zusätzlich
liefert er eine Stromstärke von bis zu 500 mA pro Port. Das erspart oft lästige zusätzliche Netzteile für die Geräte.
Leistungsverbrauch verschiedener USB-Komponenten
USB-Komponente
Leistungsaufnahme
(mW)
Einfluss auf
die AkkuLaufzeit
(Minuten)
Einfluss auf
die AkkuLaufzeit
(Prozent)
Microsoft Wheel Mouse
Optical USB
372
- 11
- 3,1
Microtech USB CameraMate
DPCM-USB (CF-Reader)
258
- 8.
- 2,2
Qtronix USB Tastatur
Scorpius 980A
118
-4
- 1,1
Sony Micro Vault 256 MB
(USB-2.0-USB-Stick)
610
- 18
- 5,0
Sony Micro Vault 256 MB
(USB-2.0-USB-Stick)
schreiben/lesen
691
- 20
- 5,6
Plextor USB-Stick 128 MB
640
- 19
- 5,3
Plextor USB-Stick 128 MB
schreiben/lesen
595
- 17
- 4,7
MSI PC2PC Bluetooth
305
-9
- 2,5
MSI PC2PC Bluetooth
senden/empfangen
720
- 21
- 5,9
Die Messungen haben wir mit einem Toshiba Tecra S1 durchgeführt. Das Notebook läuft im typischen Schreibbetrieb ohne hohe CPU-Belastung 5,97 Stunden bei einer durchschnittlichen
Leistungsaufnahme von 11,7 W. Die Leistungsmessung erfolgte per Adapter direkt an der USBSchnittstelle mit dem Multimeter Voltcraft M-4660M.
120
www.tecChannel.de
Notebook-Laufzeit optimieren
Für Notebooks stellt die „Bus-Powered-Schnittstelle“ einen gravierenden Nachteil dar, denn der Betrieb der Geräte verschlingt Akku-Energie und verkürzt somit
die Betriebsdauer des Notebooks spürbar. In der Tabelle auf der vorherigen Seite
finden Sie einige USB-Geräte und deren Leistungsaufnahme sowie die rechnerische Auswirkung auf die Laufzeit eines Notebooks.
Das Betreiben von USB-Geräten an Notebooks und deren Energieverbrauch ist
weitaus vielschichtiger, als Intel auf dem Frühjahrs-IDF 2003 erläuterte. So erreicht man durch das effiziente Einsetzen des so genannten „USB Selective Suspend“ eine Erhöhung der Akku-Laufzeit von fünf bis zehn Prozent – vorausgesetzt das Betriebssystem, wie Windows XP oder Linux, und die angeschlossene
USB-Hardware unterstützen diesen Betriebsmodus.
USB Selective Suspend: Die Funktion verhindert,
dass ständig Busmaster-Anfragen an den Prozessor erfolgen und er somit nicht in den C3/C4Stromsparmodus gelangen kann.
Prozessor
Cache
Speicher
CacheZugriff
Northbridge
Southbridge
USB-HostController
USB-Gerät
© tecCHANNEL
Der USB Selective Suspend arbeitet prinzipiell wie folgt: Windows XP mit aktiviertem ACPI ist in der Lage, einen mobilen Prozessor in den definierten C3/C4Stromsparmodus zu versetzen. Im C3/4-Zustand wird nicht nur die Spannung
herabgesetzt beziehungsweise für bestimmte Funktionseinheiten ausgeschaltet,
sondern zusätzlich wird die Taktfrequenz einzelner interner Funktionsgruppen
schrittweise reduziert. In diesem Modus arbeitet der Prozessor sehr eingeschränkt,
allerdings nur so lange, wie keine Bus-Master-I/O-Anfragen von den USB-HostControllern oder anderen Devices kommen.
Bisher erfolgen bei angeschlossenem USB-Gerät periodisch (UHCI: 1 ms, EHCI:
125µs) Busmaster-Zugriffe auf den Prozessor, so dass dieser nicht in den C3/C4Stromsparmodus übergehen kann. Mit Hilfe der Funktion USB Selective Suspend
webcode: a1195
121
Mobile
erfolgen nur dann Busmaster-Operationen, wenn das USB-Gerät benutzt wird. In
der übrigen Zeit belästigt der USB-Host-Controller den Prozessor nicht, und er
kann in den so genannten Strom sparenden Schlafmodus (C3/C4) übergehen.
2.7.5 Strom sparen mit Powermanagement
Anhand der speziellen Powermanagement-Funktionen des Notebooks Toshiba
Tecra Si mit Centrino-Technologie erläutern wir exemplarisch die Stromsparfunktionen und die Auswirkung auf die Akku-Laufzeit. Zu Beginn unserer Messreihe ermitteln wir die maximal mögliche Akku-Laufzeit des Notebooks unter
Ausnutzung der Powermanagement-Funktionen: CPU im SpeedStep-Modus, minimale Display-Helligkeit und Festplatte nach drei Minuten aus (alle zehn Minuten erfolgt Script-gesteuert ein Zugriff, um die Festplatte zu reaktivieren).
Sparbüchse: Die verschiedenen Stromsparfunktionen eines Notebooks (hier: Toshiba Tecra
S1) beeinflussen die Akku-Laufdauer entscheidend.
122
www.tecChannel.de
Notebook-Laufzeit optimieren
Bei diesen Einstellungen messen wir mit dem Multimeter Voltcraft M-4660M
eine durchschnittliche Leistungsaufnahme des Notebooks von 11,66 Watt. Um ein
praxisnahes und repräsentatives Ergebnis zu bekommen, betätigt unser tecSimulator-Automat jede Sekunde eine Taste. Mit diesen festgelegten Testvorgaben erreicht das Toshiba Tecra S1 eine Laufdauer von 5,97 Stunden.
Die ermittelten Ergebnisse der Leistungsaufnahme und der Laufzeit dienen als
Grundlage für weitere Berechnungen. Sie beziehen sich auf die einzelnen
Stromsparfunktionen unseres Testkandidaten Toshiba Tecra S1. So kann der Anwender zum Beispiel per Schieberegler die Taktfrequenz und die Monitorhelligkeit in vom Hersteller festgelegten Stufen verändern. Die Funktionen „Monitor /
Festplatte ausschalten“ sowie der System-Standby erwarten bestimmte Zeitvorgaben pro Stromsparstufe. In der folgenden Tabelle haben wir den Einfluss der verschiedenen Energiesparfunktionen auf die Akku-Laufzeit aufgelistet.
Powermanagement-Funktionen in der Praxis
PowermanagementFunktion
Leistungsaufnahme
(MaximumEinstellung
aller Funktionen)
Leistungsaufnahme
(MinimumEinstellung
der Funktion)
Leistungsdifferenz
Laufdauerdifferenz im
Vergleich
zur Maximum-Einstellung
Taktfrequenz
17,7 W
13,7 W
4,0 W
+ 69 Min.
DisplayHelligkeit
17,7 W
14,4 W
3,3 W
+ 54 Min.
Display
ausschalten
17,7 W
12,4 W
5,3 W
+ 101 Min.
Festplatten
ausschalten
17,7 W
17,0 W
0,7 W
+ 11 Min.
SystemStandby
17,7 W
0,54 W
17,2 W
+ 125 Std.
Die Tabelle zeigt, welche Funktion wie viel Einsparpotenzial in Bezug auf die
Laufzeit des Notebooks bietet. Benötigt der Anwender zum Beispiel bei OfficeAnwendungen nicht die volle Prozessorleistung, ist es vorteilhaft, die Taktfrequenz auf ein Minimum zu reduzieren. Diese Maßnahme verlängert die Laufzeit
des mobilen Geräts um bis zu 69 Minuten. Wenn es die Lichtverhältnisse zulassen, spart eine reduzierte Display-Helligkeit zusätzlich Akku-Ressourcen. Die
Differenz der Akku-Laufzeit zwischen der maximalen und der minimalen eingestellten Leuchtstärke beträgt bei unserem Testkandidaten 54 Minuten.
webcode: a1195
123
Mobile
Besonders Energie sparend arbeitet der Standby-Modus. Er schaltet nahezu alle
Funktionsgruppen (außer Speicher oder bestimmte Funktionen des Chipsatzes)
bei Nichtbenutzung des Notebooks ab, bietet aber bei Reaktivierung eine schnelle
Systemverfügbarkeit. Im Standby-Modus reicht die Akku-Kapazität bei unserem
Probanden für insgesamt 125 Stunden.
2.7.6 Strom sparen in der Praxis
Neben den speziellen Powermanagement-Funktionen beeinflusst im Wesentlichen der praxisnahe Umgang mit verschiedenen Anwendungen und Komponenten die Akku-Laufzeit. Ein häufiger Arbeitsvorgang auf Notebooks ist das Lesen,
Speichern und Kopieren von Dateien auf der Festplatte. Auch das DVD- oder CDROM-Laufwerk wird oft als Abspielgerät benutzt.
Diese beiden Anwendungen kosten bei unseren Messungen im ungünstigsten Fall
je bis zu 25 Prozent der Gesamtlaufzeit des Akkus. Allerdings sind die einzelnen
Komponenten nicht alleine für den Leistungshunger verantwortlich. Sie benötigen Unterstützung vom Chipsatz, Prozessor und Systemspeicher. In der folgenden
Tabelle finden Sie eine Auflistung einiger Anwendungen auf einem Notebook und
deren Einfluss auf die Akku-Laufzeit.
Einfluss verschiedener Anwendungen auf die Akku-Laufzeit
Anwendung
Leistungsdifferenz zwischen
Ruhezustand und
Anwendung (W)
Einfluss auf die
Akku-Laufzeit
(Minuten)
Einfluss auf die
Akku-Laufzeit
(Prozent)
Festplatte,
kopieren
3,8
- 88
- 25
DVD abspielen
4,0
- 91
- 25
SYSmark 2002
0,8
- 23
- 6,4
3DMark 2001 SE
18,6
- 138
- 39
Auch Office-Anwendungen wie Word, Excel oder Access und 3D-Applikationen,
wie zum Beispiel Animationen, Simulationen oder Spiele, wirken sich auf die Betriebsdauer eines Notebooks negativ aus. So reduziert das Benchmark-Programm
SYSmark 2002, das wir stellvertretend für das Arbeiten mit Office-Programmen
verwendeten, die Akku-Laufzeit nur um 6,4 Prozent. Komplexe 3D-Programme
simulieren wir mit 3DMark 2001 SE. Die Messergebnisse zeigen, dass sie die
Akku-Laufzeit um bis zu 39 Prozent verkürzen.
124
www.tecChannel.de
Notebook-Laufzeit optimieren
2.7.7 Strom sparen mit WLAN und LAN
Einflüsse auf die Akku-Laufzeit haben auch Komponenten wie LAN-Karten oder
integrierte beziehungsweise externe Wireless-LAN-Adapter. Die folgende Tabelle gibt eine Übersicht über den Leistungverbrauch dieser Geräte.
Auswirkung von LAN-Geräten auf die Akku-Laufzeit
Komponente
Leistungsverbrauch
(mW)
Einfluss auf
die Akku-Laufzeit (Minuten)
Einfluss auf
die Akku-Laufzeit (Prozent)
Interner Intel Wireless
LAN 2100 3B Mini PCI
Adapter (betriebsbereit,
Antenne deaktiviert)
371
- 11
- 3,1
Interner Intel Wireless
LAN 2100 3B Mini PCI
Adapter (betriebsbereit,
Antenne aktiviert)
934
- 27
- 7,5
Lindy Wireless LAN PC
Card 11 Mbps (betriebsbereit )
1279
- 35
- 9,7
3Com EtherLink III LAN
PC Card 3C589D-Combo
529
- 16
- 4,5
Eine voll funktionsfähige externe Wireless-LAN-Karte kostet nahezu 10 Prozent
der Akku-Gesamtlaufzeit. Ein internes Gerät nimmt zirka 7,5 Prozent in Anspruch. Um diesen Wert für die internen WLAN-Adapter zu reduzieren, bieten die
Notebook-Hersteller die Möglichkeit an, die Antennenfunktion zu deaktivieren.
Das spart zusätzlich etwa 3,5 Prozent an Laufzeit, wenn sie nicht benötigt wird.
Zu empfehlen wäre allerdings, das Gerät gleich völlig abzuschalten.
2.7.8 Fazit
Die Hersteller mobiler Geräte unternehmen große Anstrengungen, um die AkkuLaufzeit entscheidend zu verlängern. Ihr Fokus richtet sich auf Energiesparmaßnahmen bei den eingesetzten Komponenten wie Display, CPU oder USB-Schnittstelle. So sollen neue Technologien wie Ambient Light Sensor Technology (ALS)
oder USB Selective Suspend die Akku-Laufzeit von Notebooks steigern. Sie steuern intelligent mit Hilfe der Vorgaben des Anwenders die Stromversorgung der
entsprechenden Komponente. Darüber hinaus optimieren die Entwickler die
Elektronik der internen Notebook-Stromversorgung, um die „nutzlose“ Verlustwebcode: a1195
125
Mobile
leistung zu reduzieren. Doch nicht nur die Hardware ist gefordert, sondern auch
das Betriebssystem muss in der Lage sein, die Hardware entsprechend anzusteuern. Auch hier stehen die Entwickler in der Pflicht, die Powermanagement-Software weiter zu optimieren.
Ebenfalls bedeutend für die Betriebsdauer von mobilen Geräten sind der praktische Einsatz und die konsequente Nutzung der Powermanagement-Funktionen
durch den Anwender. Der Gewinn: Die Betriebszeit des Notebooks lässt sich bis
zu einer Stunde verlängern. Besonders von einer ausgewogenen Kombination vieler unterschiedlicher Stromsparfunktionen profitiert die Akku-Laufzeit.
Zusätzlich sollte der Benutzer integrierte und optionale Peripherie wie USBSticks oder Wireless-LAN-Karten mit Bedacht einsetzen. Sie kosten als einzeln
angeschlossenes Gerät bis zu 7,5 Prozent der Akku-Laufzeit.
Bernhard Haluschak
tecCHANNEL-Links zum Thema
Webcode
Compact
Notebook-Laufzeit optimieren
a1195
S.115
Aktuelle und zukünftige
Akku-Technologien
a1191
S.97
Transmeta Efficeon
a1264
S.85
Intel Centrino
a1141
S.76
Test: Centrino-Notebooks mit
15-Zoll-Displays
a1201
–
Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de
ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren.
126
www.tecChannel.de
Meinung
2.8 Meinung
AMD, Intel und Transmeta – drei Prozessorhersteller buhlen mit ihren MobileCPUs um die Gunst der Käufer. Und natürlich hält jeder sein Produkt für das beste. Zwei davon sind wirklich echte Mobile-Prozessoren, und einen davon gibt es
sogar in Produkten verpackt zu kaufen.
Kaufen Sie also ein Notebook mit Intels Pentium M „Centrino“. Nein, dieser Satz
kommt nicht aus Intels Marketing-Abteilung, ich bekomme für meine Wortwahl
auch kein Geld von Intel. Und die Intel-Werbung mit dem Centrino-Notebook auf
dem stürmischen Mount Everest in 5181 Meter Höhe entfacht bei mir ebenfalls
keine Begeisterungsstürme. Denn bei -30 Grad Celsius würde alleine das Display
wohl schon streiken, und ganz bestimmt gibt es auf dem Berg dort oben Hotspots,
um online zu gehen und E-Mails zu empfangen...
Fakt ist aber, der Pentium M bietet eine sehr gute Performance und geht sparsam
mit der Energie um. Einfach gesagt, ein idealer Mobile-Prozessor. Und die hohe
Marktpräsenz von Intel sorgt für Centrino-Notebooks in den verschiedensten Kategorien. Ab Februar 2004 wird die Mobile-CPU mit dem Pentium-M-Nachfolger
„Dothan“ sogar nochmals besser. Man sollte allerdings aufpassen, beim Kauf
nicht eine alte Centrino-Version zu erwischen.
Aber da gibt es ja auch noch Transmetas Efficeon. Die kleine Prozessorschmiede
aus Santa Clara gab sich bei der Vorstellung im Oktober 2003 äußerst optimistisch. Meiner Meinung nach ist der Efficeon eine sehr pfiffige Mobile-CPU, die
dem Pentium M in nichts nachsteht. Ich würde Transmeta einen Erfolg gönnen,
denn Konkurrenz belebt das Geschäft, und immer nur Centrino-Notebooks testen
wird langweilig. Viele Monate nach dem Launch gibt es jedoch immer noch keine
Efficeon-Notebooks zu kaufen – außer in Japan. Aber wir sind hier in Europa, und
den Efficeon könnte das gleiche Schicksal ereilen wie seinen Vorgänger Crusoe:
Die großen Hersteller bleiben Intel treu und geben den kleinen Transmetas keine
Chance. Beim Crusoe war es ja noch verständlich, die CPU war einfach zu langsam. Der Efficeon ist aber schnell. Fürchten manche Notebook-Hersteller den
Groll Intels, wenn sie es wagen würden, eine Konkurrenz-CPU zu verwenden?
AMD sollte ich noch erwähnen – oder besser nicht. AMDs Athlon 64 ist zweifelsohne ein guter Prozessor, aber er gehört nicht in Notebooks. Denn was AMD als
Athlon 64 für Notebooks anbietet, ist nichts anderes als ein verkappter DesktopProzessor. Ein Notebook soll lange laufen, dafür ist es ein Notebook geworden.
Und eine Mobile-CPU mit über 80 Watt TDP ist hier fehl am Platze. Ähnliches
gilt übrigens auch für den Mobile Pentium 4.
Wenn Sie Ihr Notebook allerdings nur auf den Schreibtisch stellen wollen und
Mobilität nebensächlich ist, dann können Sie ruhig zu diesen CPUs greifen. Ansonsten – wählen Sie den Pentium M.
Christian Vilsbeck, Redakteur Hardware
www.tecChannel.de
127
Server
3. Server
Die Auswahl der Server-Plattform ist eine strategische Entscheidung, und Informationen über künftige Entwicklungen sind dabei unabdingbar. Was passiert mit
Intels Xeon-CPUs? Bleibt der Itanium weiterhin plattformkompatibel, oder soll
man doch auf AMDs Opteron setzen? Besonders über die Frage, ob der Umstieg
auf 64 Bit Sinn macht, streiten sich die Gemüter. Unsere Server-Benchmarks helfen bei der Entscheidungsfindung. Wer umfangreich in SCSI-Equipment investieren will, sollte das kommende Serial Attached SCSI berücksichtigen. Das neue
Interface löst Ultra320 SCSI ab und wartet mit viel versprechenden Features auf.
3.1 Server- & Workstation-CPUs
Besonders im Server-/Workstation-Umfeld dauert die Entwicklung und Validierung oft sehr lange. Schließlich sollen die Systeme bei der Markteinführung stabil
und sicher laufen. Die Industrie benötigt von AMD und Intel deshalb möglichst
frühzeitig detaillierte Informationen über geplante neue Prozessoren.
Diese Informationen gelangen oft zu tecCHANNEL – aber nicht offiziell von den
CPU-Herstellern. Spekulationen über Taktfrequenzen und Features weichen damit den Fakten. So spendiert Intel dem IA-64-Prozessor Itanium 2 ungewöhnlich
große Caches – das macht die CPUs teuer. Und ab 2005 arbeiten zwei Cores auf
den Itaniums. Zusätzlich stattet Intel die Itanium-Prozessoren dann mit einer
Hardware-Multithreading-Technologie aus.
Bei den IA-32-Prozessoren aus Intels Xeon-Serien steht in einigen Jahren ebenfalls der Wechsel zum Dual-Core an. Vorher wird aber noch erheblich an den
Taktfrequenzen und Caches gedreht. Den Takt erhöht AMD auch beim Opteron,
Strom sparende Versionen hat der Hersteller für 2004 ebenfalls auf der Agenda.
Wir weisen darauf hin, dass Informationen aus inoffiziellen Roadmaps erfahrungsgemäß mit Vorsicht zu genießen sind. Schon öfter haben CPU-Hersteller
noch kurz vor dem Launch für Überraschungen gesorgt oder den Start verschoben. Unsere Informationen aus verschiedenen Quellen bestätigen allerdings die
Plausibilität der aktuellen Hersteller-Roadmaps.
3.1.1 Opteron „Athens, Troy & Venus“
AMD bietet die Opteron-Prozessoren in den Serien 100, 200 und 800 an. Als Modell 148, 248 und 848 arbeiten die Opterons mit einer maximalen Taktfrequenz
von 2,2 GHz. Die Einstiegsmodelle 140, 240 und 840 operieren mit 1,4 GHz Taktfrequenz. In der zweiten Jahreshälfte 2004 will AMD seine SOI-Fertigung von
130 nm auf 90 nm umstellen. Dann sollen die Opteron-Nachfolger mit Codena-
128
www.tecChannel.de
Server- & Workstation-CPUs
men Venus (100er Serie), Troy (200er Serie) und Athens (800er Serie) debütieren.
Von radikalen Änderungen am Core sieht AMD bei den neuen Modellen ab. Der
L2-Cache bleibt bei dem 1 MByte der aktuellen Opteron-Prozessoren. Neu bei
Venus, Troy und Athens soll dagegen die Unterstützung von DDR2-SDRAM sein.
Keine Änderungen gibt es beim Steckplatz mit dem Socket 940.
"Athens"
90 nm SOI, Full &
Low Power
800 Series,
1-8 way
"Egypt"
90 nm SOI
AMD Opteron
130 nm SOI,
1-8 way
"Troy"
90 nm SOI, Full &
Low Power,
200 Series,
1-2 way
"Italy"
90 nm SOI
AMD Athlon MP
130 nm,
1-2 way
"Venus"
90 nm SOI, Full &
Low Power,
100 Series, 1 way
"Denmark"
90 nm SOI
As market requires
2H03
1H04
2H04
1H05
2H05
© tecCHANNEL
Öffentlich: Mehr Details als in dieser Roadmap gibt es von AMD offiziell nicht. Der Athlon MP
sieht demnach seinem Ende entgegen.
AMD plant ebenfalls in der zweiten Jahreshälfte 2004 die Einführung von Opteron-Prozessoren, die als Low-Power-Versionen weniger Energie brauchen. Diese
CPUs sollen etwa in Blade-Servern und im Storage-Bereich zum Einsatz kommen. Geplant sind jeweils zwei Energiesparmodelle quer durch die Opteron-Serien 100, 200 und 800. Den angestrebten TDP gibt AMD mit 55 und 30 Watt an.
Zum Vergleich: Die derzeit auf dem Markt befindlichen Opteron-CPUs verbrauchen zwischen 85 und 90 Watt. Laut AMD könnte die geringere Wärmeabgabe
der neuen CPUs auch ein Kriterium für große Server-Farmen sein, bei denen die
Kühlung der Server-Räume immense Kosten verursache.
Durch den Schritt in dieses Marktsegment zieht AMD mit Intel gleich. Der Rivale
hatte am 8. September 2003 den Low-Voltage-Itanium-2 (Deerfield) mit 1 GHz
Taktfrequenz und 1,5 MByte L3-Cache vorgestellt. Der Deerfield benötigt mit 62
Watt im Vergleich zum Itanium 2 mit Madison-Core nur halb so viel Energie.
Für die zweite Jahreshälfte 2005 steht mit Denmark, Italy und Egypt eine erneute
Ablösung der Opteron-Serien 100, 200 und 800 an. Diese Prozessoren will AMD
weiterhin mit 90 nm Strukturbreite herstellen. Welche neuen Features die Modelle erhalten, ist dagegen noch nicht bekannt. Allerdings könnte es sich dabei schon
um einen Dual-Core handeln. Entsprechende Hinweise auf eine Dual-Core-Unterstützung fanden sich bereits in den ersten Datenblättern der AMD64-Architektur (webcode: p1022) zur Vorstellung auf dem Microprocessor Forum 2001.
webcode: a1118
129
Server
3.1.2 Xeon DP „Nocona & Jayhawk“
Der Xeon DP für Single- und Dual-Prozessorsysteme basiert aktuell auf dem
Prestonia-Core, der im Prinzip dem Northwood-Core des Pentium 4 entspricht.
Die schnellste Xeon-Variante arbeitet mit 3,20 GHz und verwendet einen 533
MHz schnellen FSB. Wie der Pentium 4 beherrschen die Xeons Hyper-Threading
(webcode: a840) und werden durch einen 512 KByte großen L2-Cache unterstützt. Ab dem Xeon mit 3,06 GHz Taktfrequenz verfügt die CPU über einen 1
MByte großen L3-Cache. Noch im ersten Quartal 2004 stellt Intel einen Xeon
3,20 GHz mit einem 2 MByte großen L3-Cache vor. Damit entspricht dieser Prozessor im Prinzip dem Pentium 4 Extreme Edition. Beim Xeon bleibt der FSB
allerdings auf 533 MHz Taktfrequenz beschränkt.
Im zweiten Quartal 2004 kommt der mit dem Codenamen Nocona versehene
Nachfolger der Xeon DPs auf den Markt. Der Nocona basiert auf dem PrescottCore (webcode: a1124). Die Taktfrequenz des in 90-nm-Technologie gefertigten
Nocona beträgt zum Debüt 2,80, 3,00, 3,20, 3,40 sowie 3,60 GHz. Den FSB erhöht Intel auf 800 MHz – ursprünglich sollte er auf 533 MHz verharren.
Dem Nocona stellt Intel mit dem E7501-Nachfolger „Lindenhurst“ gleich den
passenden Server-Chipsatz zur Seite. Lindenhurst basiert auf Intels GrantsdaleChipsatz für die Prescott-Prozessoren. Die Highlights des Chipsatzes sind die Unterstützung von DDR2-Speicher (webcode: a1147) sowie PCI Express (webcode: a1003). Für Workstations offeriert Intel zusätzlich den E7505-Nachfolger
„Tumwater“ mit PCI-Express-Grafikkarten-Interface.
Im dritten Quartal 2004 erhöht Intel die Taktfrequenz des Nocona auf 3,80 GHz.
Ebenfalls für diesen Zeitraum vorgesehen ist eine Low-Voltage-Variante des Nocona mit 2,80 GHz Taktfrequenz. Im ersten Quartal 2005 soll dann der NoconaNachfolger mit dem Codenamen Jayhawk erscheinen. Hierbei handelt es sich um
eine neue Prozessorgeneration – bei den Desktop-CPUs heißt das Pendant Teja.
Jayhawk arbeitet mit einer FSB-Taktfrequenz von 800 MHz und wird im 90-nmProzess gefertigt. Den L2-Cache dimensioniert Intel auf großzügige 2 MByte.
Weitere Details sind zum Jayhawk noch nicht bekannt.
3.1.3 Xeon MP „Potomac“
Geht man nur nach der Taktfrequenz, hinken die Xeon MPs immer um einiges
hinter den Xeon-DP-Modellen her. Entscheidender als der Takt ist bei SMP-Systemen aber der Speicherzugriff. Um hier den Flaschenhals zu erweitern, hat Intel
dem Gallatin-Core der Xeon MPs neben dem 8-KByte-L1- und 512-KByte-L2Cache noch einen 2 MByte großen L3-Cache spendiert.
Die aktuell schnellste Xeon-MP-Variante läuft mit 2,80 GHz Taktfrequenz. Der
FSB arbeitet weiterhin mit 400 MHz. Bewegung in der Roadmap gibt es wieder
im ersten Quartal 2004: Intel bietet den Xeon MP mit einem 4 MByte großen L3-
130
www.tecChannel.de
Server- & Workstation-CPUs
Cache an. Die Taktfrequenz der CPU beträgt dann 3,00 GHz. Gefertigt werden die
Xeon MPs mit dem Gallatin-4M-Core im 0,13-µm-Prozess. Ebenfalls neu im ersten Quartal sind die Varianten 2,20 und 2,70 GHz mit 2 MByte L3-Cache.
Xeon MP
FSB400
3,00 GHz
4M L3
Xeon MP
FSB400
3,00 GHz
4M L3
Xeon DP
FSB533
3,20 GHz / 2M L3
Nocona
FSB800
3,60 GHz
Nocona
FSB800
3,80 GHz
Q2'04
Q3'04
Q1'04
Xeon MP
Pentium
4 HT
FSB400
FSB800
3,00
GHz
3,20/3,00/
4M L3GHz
2,80/2,60
Xeon MP
FSB400
3,00 GHz
4M L3
Nocona
FSB800
4,00 GHz
Q4'04
Pentium 4 HT
FSB800
Potomac
3,20/3,00/
2,80 GHz
Jayhawk
FSB800
2M L2
Q1'05
© tecCHANNEL
Roadmap Xeon: Die Xeon MPs benötigen im ersten Quartal 2005 eine neue Plattform. Der
Xeon-DP-Nachfolger Nocona muss im zweiten Quartal 2004 das Mainboard wechseln.
Da die Mühlen im Server-Bereich langsamer mahlen und Kontinuität wichtig ist,
gibt es für die großen IA-32-Server im ersten Quartal 2005 eine neue Plattform.
Dann erscheint der Potomac zusammen mit dem Chipsatz Twin Castle für vier
Prozessoren. Hinter Potomac verbirgt sich im Prinzip der Prescott-Core (webcode: a1124), erweitert um die SMP-Fähigkeit und einen L3-Cache. Die Fertigung von Potomac erfolgt im 90-nm-Prozess. Wie der Lindenhurst-Chipsatz für
Xeon DPs unterstützt Twin Castle DDR2-SDRAM-Speicher (webcode: a1147)
und PCI Express (webcode: a1003).
3.1.4 Xeon MP „Tulsa“
Paul Otellini, Corporation President und COO bei Intel, gab während der Keynote
zum IDF Fall 2003 erstmals Details zu den Plänen künftiger Xeon-Prozessoren
bekannt. Bei dem mit Codenamen Tulsa versehenen Prozessor handelt es sich um
einen Xeon MP mit Dual-Core. Durch die zusätzliche Hyper-Threading-Technologie wird Tulsa vom System als vier Prozessoren erkannt. Beim Tulsa handelt es
sich demnach um den Potomac-Nachfolger. Die Dual-Core-CPU soll laut Otellini
2005 oder 2006 auf den Markt kommen.
3.1.5 Itanium 2 „Fanwood & Madison 9M“
Die aktuellen Itanium 2 mit Madison-Core stellte Intel im Juni 2003 vor. Die IA64-Prozessoren arbeiten mit 1,3, 1,4 und 1,5 GHz Taktfrequenz und verfügen über
L3-Caches von 3, 4 und 6 MByte. Im September 2003 gesellte sich eine Variante
mit 1,4 GHz und 1,5 MByte L3-Cache hinzu. Zusätzlich erschien in diesem Zeit-
webcode: a1118
131
Server
raum eine Low-Power-Variante mit dem Codenamen Deerfield. Der für Dual-Processing ausgelegte LV-Itanium 2 mit 1,0 GHz Taktfrequenz und 1,5 MByte L3Cache besitzt eine TDP von nur 62 Watt. Damit liegt er deutlich unterhalb der
plattformstabilen 130 Watt der restlichen Itanium-2-Familie.
Neuigkeiten gibt es auf der Itanium-Roadmap erst wieder im dritten Quartal 2004:
Der mit dem Codenamen Madison 9M versehene Itanium 2 für Enterprise-Server
darf dann auf einen 9 MByte großen L3-Cache zugreifen. Die Transistorzahl
übersteigt beim Madison 9M bereits 500 Millionen Stück. Ebenfalls gesteigert
wird die Taktfrequenz: Mehr als 1,5 GHz sind im Gespräch.
Evolution Itanium-Prozessoren
Itanium
Itanium 2
Itanium 2
„McKinley“ „Madison“
Itanium2
„Madison 9M“
Vorstellung
2001
2002
2003
2004
Architektur
EPIC
EPIC
EPIC
EPIC
Fertigung
180 nm
180 nm
130 nm
130 nm
Transistoren
On-Die
25 Mio.
221 Mio.
410 Mio.
> 500 Mio.
L3-Cache
0
3 MByte
6 MByte
9 MByte
Taktfrequenz
800 MHz
1,0 GHz
1,5 GHz
> 1,5 GHz
Core-Spannung 1,6 V
1,5 V
1,3 V
1,3 V
Leistungsaufnahme
130 W
130 W
130 W
130 W
Den Fertigungsprozess belässt Intel auf der Strukturbreite von 0,13 µm. Trotz unveränderter Core-Spannung von 1,3 V soll sich der Madison 9M weiterhin mit
130 Watt Verlustleistung begnügen. Hier bedarf es wohl einiger Kunstgriffe im
Schaltungsdesign und eines ausgeklügelten Power-Managements. Intel will beim
Madison 9M weiterhin die thermische, elektrische und mechanische Kompatibilität zu vorhandenen Itanium-2-Systemen garantieren.
Die für Dual-Processing ausgelegten Itanium 2 mit 1,4 GHz Taktfrequenz und 1,5
MByte L3-Cache erhalten mit dem Fanwood ebenfalls im dritten Quartal 2004
eine Auffrischung. Der Fanwood basiert auf dem Madison 9M und bleibt weiterhin auf dem 400-MHz-Prozessorbus. Die Taktfrequenz von Fanwood soll über 1,5
GHz liegen. Im vierten Quartal 2004 will Intel den Fanwood dann alternativ auch
mit einem auf 533 MHz Taktfrequenz gesteigerten FSB anbieten.
Für den Deerfield plant Intel gleichfalls im dritten Quartal 2004 einen „refresh“.
Der für Dual-Processing ausgelegte LV-Itanium 2 basiert dann auch auf dem Fanwood-Core. Über den LV-Fanwood ist bislang nur bekannt, dass die Taktfrequenz
über 1,0 GHz liegen und der FSB mit 400 MHz arbeiten soll.
132
www.tecChannel.de
Server- & Workstation-CPUs
3.1.6 Itanium 2 „Montecito“
Im Jahr 2005 will Intel mit dem Montecito die nächste IA64-Prozessorgeneration
vorstellen. Bei Montecito handelt es sich um den Nachfolger des Madison 9M.
Der weiterhin zum Itanium 2 kompatible Prozessor enthält als Highlight zwei unabhängige Cores, vereint auf einem Siliziumplättchen.
Beim Montecito besitzen beide Cores ihren eigenen L3-Cache. Von einem Unified-L3-Cache hat Intel abgesehen, weil die Latenzzeit beim Zugriff zu hoch
wäre. Jeder Core entspricht beim Montecito einem Madison 9M. Allerdings will
Intel den Cores nochmals einen größeren L3-Cache spendieren. Damit verfügt der
Itanium 2 im Jahr 2005 über insgesamt mindestens 18 MByte L3-Cache – im Gespräch sind 24 MByte. Die Fertigung des Montecito soll im 90-nm-Prozess erfolgen. Montecito wird Intels erste CPU mit über 1000 Millionen Transistoren sein.
Ein Arbiter schaltet die beiden Cores des Montecito auf ein gemeinsames Bus-Interface. Intel verwendet beim Montecito somit wieder den Itanium-2-Sockel
PAC611. Ebenfalls mit Montecito debütiert Hardware-Multithreading bei den
IA64-CPUs. Der Prozessor würde sich dann nach außen wie ein 4-Wege-System
präsentieren. Ein für Dual-Processing – zwei physikalische CPUs – ausgelegter
Montecito steht 2005 ebenfalls auf Intels Roadmap. Dieser Prozessor ist somit der
Nachfolger des Fanwood und besitzt den Codenamen Millington. Auch ein LowVoltage-Millington soll 2005 auf den Markt kommen.
3.1.7 Itanium 2 „Tanglewood“
Während der Eröffnungs-Keynote zum IDF Fall 2003 in San Jose stellte Intels
Corporation President und COO Paul Otellini das Tanglewood-Projekt vor. Der
IA-64-Prozessor der Itanium-Serie arbeitet mit einem Multi-Core-Die. Die CPU
soll laut Otellini die 7fache Performance von aktuellen Itanium-2-CPUs mit Madison-Core aufweisen. Die Entwicklung von Tanglewood (Englisch „tangle“:
Wirrwarr, verwirrt sein) führt das von Intel übernommene ehemalige Digital Alpha-Prozessor-Design-Team durch. Wie viele Cores Tanglewood auf einem Die
vereint, gab Otellini noch nicht bekannt. Von mindestens vier Cores ist dabei auf
jeden Fall auszugehen. Bei späteren Versionen von Tanglewood munkelt man von
bis zu 16 Cores auf einem Siliziumplättchen.
Auf dem Microprocessor Forum 2002 gab Intel erstmals Pläne über Itanium-Prozessoren mit mehreren Cores bekannt. Damals verkündete Intel-Fellow John
Crawford Aussichten auf Itanium-Prozessoren mit vier Cores auf einem Die.
Crawford nannte 2007 als Zeitpunkt für die Markteinführung eines entsprechenden Produkts. Der Multi-Core-Itanium ist zusätzlich mit einer Hardware-Multithreading-Technologie ausgestattet. Vom Codenamen Tanglewood wurde damals
aber noch nicht gesprochen. Dass es sich dabei bereits um Tanglewood handelte,
ist nach Otellinis Ankündigung klar: Er nannte für den Tanglewood ebenfalls
2007 als wahrscheinliches Launch-Datum.
webcode: a1118
133
Server
3.1.8 Fazit
Erfreulich ist, dass Intel bei den IA64-Prozessoren der Itanium-Serie den Sockel
PAC611 und das Busprotokoll mindestens bis zum Montecito nicht verändert.
Das kommt jedoch nicht von ungefähr: Im Umfeld des Itanium werden oft langfristige lösungsbasierte Verträge geschlossen: Der Server-Hersteller garantiert
dem Kunden zum Festpreis eine Performance-Steigerung über einige Jahre hinweg. Ist diese durch ein simples Update der CPU möglich, können die Systeme
günstiger angeboten werden und haben somit bessere Marktchancen.
Wie ernst Intel aber AMDs 64-Bit-Prozessor Opteron (webcode: a1164) nimmt,
sieht man am Beispiel Deerfield: Zu einem Kampfpreis von 744 US-Dollar
(Stand: Dezember 2003) soll 64-Bit-Computing auch mit Intel-Produkten erschwinglich werden. Die ebenfalls mit dem Opteron konkurrierenden 32-bittigen
Xeon DP und MP rüstet Intel zudem kräftig auf mit integrierten L3-Caches und
deutlichen Taktfrequenzsteigerungen. Intel profitiert natürlich von dem Vorteil,
seit Jahren fest im Server-Bereich etabliert zu sein. Denn wie bereits zitiert, mahlen die Mühlen im Server-Umfeld langsam. Hier scheut man oft den Umstieg auf
eine komplett neue Architektur – ein nicht zu unterschätzender Nachteil für
AMDs Opteron – und den Intel Itanium.
Christian Vilsbeck
tecCHANNEL-Links zum Thema
Webcode
Compact
Roadmap: Server- & Workstation-CPUs
a1118
S.128
Multiprocessing: Funktion &
Besonderheiten
p693
–
Supercomputing
a696
–
Hyper-Threading im Detail
p840
–
Hyper-Threading Benchmarks
a1064
–
Hyper-Threading: Optimierungen
und Fallen
a1108
–
Test: Opteron- vs. Xeon-Architektur
a1164
–
Test: Opteron im Server
p1163
–
Desktop-Prozessoren im Detail
p1248
–
Alle Details zur AMD64-Architektur
p1022
–
Speicher-Roadmap
a1147
S.19
Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de
ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren.
134
www.tecChannel.de
Itanium Grundlagen
3.2 Itanium Grundlagen
Weder die Anwender noch Intel selbst konnten mit der ersten Itanium-Generation
zufrieden sein. Doch inzwischen startet die dritte Generation mit Madison-Core
durch und lehrt andere 64-Bit-CPUs das Fürchten.
Nachdem andere 64-Bit-Prozessoren wie etwa MIPS, Alpha oder UltraSparc
schon seit zehn Jahren auf dem Markt waren, stellte Intel im Jahre 2001 mit dem
Itanium seinen ersten 64-Bit-Prozessor vor. Trotz vieler innovativer Konzepte
überwogen bei der ersten Itanium-Generation die Schwächen des neuen Designs.
Zudem waren auch die Compiler noch nicht ausgereift, so dass der neue Prozessor
leistungsmäßig sogar von gängigen 32-Bit-CPUs überholt wurde.
Mit einem radikalen Redesign und unter dem neuen Namen Itanium 2 (Codename
McKinley) hat Intel 2002 viele Schwachpunkte behoben. Seit Mitte 2003 ist nun
schon die dritte Version des Itanium mit dem so genannten Madison-Core auf dem
Markt. Da er Hardware-kompatibel zu McKinley ist, lässt ihn Intel aber unter der
alten Itanium-2-Flagge segeln.
Roadmap: Neben dieser offiziellen Roadmap verspricht Intel bis mindestens 2005 kompatible
Itanium-2-CPUs mit mehreren Cores und bis zu 24 MByte Cache. (Quelle: Intel)
Durch den Übergang zur 0,13-µm-Fertigung konnte Intel die früheren Schwachstellen wie zu kleine Caches oder eine zu geringe Taktfrequenz überwinden. Die
offizielle Intel-Roadmap zeigt mindestens bis 2005 immer schneller getaktete Itanium-Modelle mit bis zu 24 MByte Cache und mehreren Cores auf einem Die.
Dabei verspricht Intel, Hard- und Software-kompatibel zum aktuellen Itanium 2
webcode: p1281
135
Server
zu bleiben. Speziell bei großen Servern ist dieser Investitionsschutz ein entscheidendes Kaufkriterium. So ausgestattet kann sich der Itanium nun endlich anschicken, den 64-Bit-Markt in gewohnter Intel-Manier zu erobern.
3.2.1 Eckwerte
Der Itanium ist keine reinrassige Intel-Entwicklung. Bereits im Mai 1994 gaben
die Firmen HP und Intel ihre Zusammenarbeit zur Entwicklung eines neuen 64Bit-Prozessors bekannt. Das Resultat dieser Kooperation, die unter dem Codenamen Merced entwickelte Itanium Architecture (IA, früher Intel Architecture 64,
IA-64), wurde im Mai 2000 von beiden Konzernen vorgestellt. Die Eckdaten dieser Architektur sind 128 allgemeine Register, 128 Register zur Gleitkommaverarbeitung, 64 Predicate-Register und eine 64-Bit-Speicheradressierung.
Itanium Blockdiagramm und Datenfluss: Die Zahlen an den verschiedenen internen und
externen Bussen geben die Busbreite in Bits an. (Quelle: Intel)
Damit sind 264 Bytes an Speicherplatz direkt und linear adressierbar, dies sind 16
Exabyte oder 16 Mega-Mega-Megabyte. Eine solche Speichermenge wird sicherlich in den nächsten Jahren noch nicht benötigt werden. Physikalisch nutzt Intel
daher nur 50 Bit, genug für 1024 Terabyte (TByte). Die Beschränkungen von Intels 32-Bit-Architektur (IA-32), die nur eine direkte Adressierung von 4 Gigabyte
an Speicher erlaubt, ist damit langfristig überwunden. Sie erschwert den Einsatz
des „kleinen“ Server-Prozessors Xeon in Highend-Computern spürbar.
136
www.tecChannel.de
Itanium Grundlagen
3.2.2 Stammbaum
Während der erste der Itanium-Prozessoren, Merced, noch mit 25 Millionen Transistoren auskam, erhöhte sich diese Zahl mit dem Itanium 2 McKinley auf 220
Millionen Transistoren. Für diesen Sprung ist vor allem die direkte Integration des
L3-Cache auf dem Die verantwortlich.
Der aktuelle Itanium Madison besteht aus 410 Millionen Transistoren auf dem
Die, bis 2005 soll die erste CPU mit mehr als einer Milliarde Transistoren und 24
MByte Cache erscheinen. Zum Vergleich: Der Pentium 4 Northwood benötigt 55
Millionen Transistoren.
Seit 2003 spaltet sich mit dem Deerfield ein neuer Ast aus dem Itanium-Stammbaum ab. Deerfield arbeitet mit einer geringen Versorgungsspannung und besitzt
nur 1,5 MByte L3-Cache. Dadurch sinkt seine Leistungsaufnahme gegenüber
dem Madison von 130 Watt auf 62 Watt. Zudem hat Intel das Design etwas vereinfacht, so dass der Deerfield maximal noch als Dualprozessor laufen kann. Als
Zielmarkt für den kleinen Itanium-Bruder sieht Intel Workstations und kompakte
Blade-Server. Die wesentlichen Unterschiede zwischen den einzelnen ItaniumCPUs fasst die Tabelle zusammen.
Itanium-Generationen
Takt
L1-/ L2-/ L3Cache
Systembus
Prozess
733 MHz,
800 MHz
32 KByte / 96 KByte
/ 4 MByte extern
266 MHz
0,18 µm
McKinley (2002) 900 MHz,
1 GHz
32KByte / 256KByte
/ 3 MByte intern
400 MHz
0,18 µm
Madison (2003) 1,3 GHz,
1,4 GHz,
1,5 GHz
32 KByte / 256
KByte / 1,5 bis 6
MByte intern
400 MHz
0,13 µm
Deerfield (2003) 1 GHz
32KByte / 256KByte
/ 1,5 MByte intern
400 MHz
0,13 µm
Merced (2001)
Die Prozessoren Merced und McKinley sind in einem 0,18-µm-Prozess gefertigt,
Madison und Deerfield hingegen in einem 0,13-µm-Prozess. Aus diesem Grund
konnte Intel trotz der erhöhten Zahl an Transistoren die Chipfläche von 410 mm²
beim McKinley auf 354 mm² beim Madison verkleinern. Während aber der Pentium 4 (Prescott) seit Anfang 2004 mit 90 nm gefertigt wird, steht dieser StrukturShrink für den Itanium erst 2005 an. Denn im Verhältnis zum Verkaufspreis fallen
die Fertigungs- und Siliziumkosten bei Server-Prozessoren weniger ins Gewicht,
und Intel kann so die „alten“ Fabs noch Gewinn bringend auslasten.
webcode: p1281
137
Server
3.2.3 Register-Features
Die IA-64 definiert 128 Allzweckregister mit einer Breite von 64 Bit, 128 Floatingpoint-Register und 64 so genannte Predicate-Register (dazu später mehr). Außerdem besitzt die IA-64 noch eine Anzahl weiterer Spezialregister wie 128 Applikationsregister für den Kernel und die Stack Engine, acht Branch-Register und
verschiedene ID- sowie Performance-Monitor-Register.
Die ersten 32 Allzweckregister werden statisch, die restlichen 96 Register hingegen dynamisch verwaltet. Das erste der statischen Register r0 ist fest auf den häufig benötigten Wert 0 gelegt. Die übrigen 127 Register können als Operand oder
als Zielregister bei der Abarbeitung von Instruktionen dienen.
Reichlich: 128 Universalregister lassen viel Spielraum für Codeoptimierungen. (Quelle: Intel)
Jedes Allzweckregister kann auch als ein Bündel von acht 8-Bit-, vier 16-Bit- oder
zwei 32-Bit-Registern aufgefasst werden, die sich mit einem einzelnen Befehl bearbeiten lassen. Ein solches Vorgehen bezeichnet man als SIMD (Single Instruction Multiple Data), es entspricht den MMX-Befehlen der Pentium-Prozessoren.
SIMD-Befehle eignen sich gut für Multimedia-Anwendungen oder auch für sonstige 8-Bit-Aufgaben wie String-Verarbeitung. Als nettes Feature kann die IA-64
Registerinhalte beim Abspeichern ohne zusätzlichen Rechenschritt inkrementieren. Dies korrespondiert mit dem Postinkrement-Operator der Programmiersprache C und wird in der Programmierung vielfach verwendet.
3.2.4 Rotation mit dynamischen Registern
Die dynamischen Register bieten gegenüber der IA-32 zahlreiche Besonderheiten. Zum einen kann die Register Stack Engine (RSE) den Inhalt der 96 so genannten stacked/rotating Register bei Bedarf in den Cache-Speicher auslagern.
138
www.tecChannel.de
Itanium Grundlagen
Dadurch können Unterprogramme dieselben Register verwenden wie die aufrufenden Routinen und bis zu 127 lokale Integer-Variablen in den schnellen Registern halten. Die langwierigen push- und pop-Befehlssequenzen, die bei IA-32
nötig sind, um Register in Unterprogrammen erst einmal frei zu räumen, vermeidet die IA-64 so durch eine entsprechende Prozessor-Hardware.
Zum anderen bieten die 96 dynamischen Allzweckregister (und ebenso die 96 dynamischen Floatingpoint-Register) auch eine so genannte Rotation. Zunächst ordnet der Itanium dabei den physikalischen Registern virtuelle zu. Diese Zuordnung
wird dann typischerweise in den Iterationen einer Schleife pro Durchlauf jeweils
um eine Position verschoben. Ist beispielsweise das virtuelle Register v33 auf das
physikalische Register r52 abgebildet, so enthält es in der nächsten Iteration den
Inhalt von Register r53 – ohne dass die CPU dafür zeitaufwendig Daten physikalisch kopieren muss.
Beispiele für Schleifenstrukturen, die sich durch diese Rotation optimieren lassen,
sind Filterfunktionen für die Bildbearbeitung. Hier wertet man für jeden Bildpunkt die benachbarten Bildpunkte aus und berechnet daraus den Farbwert des
neuen Punkts. Typischerweise läuft eine Schleife dafür über alle Bildpunkte, die
Berechnungen sind unabhängig voneinander. Beim ersten Bildpunkt bringt Rotating noch keine Vorteile: Die Schleife lädt alle benötigten alten Bildwerte in die
virtuellen und die entsprechend zugeordneten physikalischen Register und berechnet den ersten neuen Bildpunkt. Beim zweiten Bildpunkt zeigt sich der Vorteil: Rotating verschiebt alle virtuellen Registerinhalte um eine Position, ohne
dafür Rechenleistung zu verbrauchen. Jetzt muss die CPU nur noch einen der ursprünglichen Farbwerte neu einlesen und findet alle anderen bereits in den passenden virtuellen Registern vor.
Besonders effizient wird dies, wenn man auch das so genannte Software-Pipelining mit berücksichtigt. Da ein superskalarer Prozessor wie der Itanium 2 sechs
Befehle gleichzeitig ausführen kann, laufen mehrere Iterationen einer Schleife
gleichzeitig ab. Besteht wie im obigen Fall keine Abhängigkeit der Ausgangsdaten, greifen die Iterationen über dieselben virtuellen Register auf unterschiedliche
physikalische Register zu, wodurch sich ein zeitaufwendiges Kopieren der Daten
von Register zu Register vermeiden lässt.
3.2.5 Floatingpoint-Register
Die Fließkommaeinheit ist eine der herausragenden Funktionseinheiten der IA64. Für Berechnungen stehen 128 Fließkommaregister mit einer Breite von 82 Bit
zur Verfügung. Lediglich die Register f0 und f1 sind fest auf die häufig benötigten
Werte 0 beziehungsweise 1 gelegt. Alle Register sind nach dem Schema Ergebnis
= Operand1 x Operand2 ansprechbar. Dies ist eine wesentliche Verbesserung gegenüber der IA-32, die alle Fließkommaoperanden über einen Stack übergibt. Die
128 Fließkommaregister sind ebenso wie die Allzweckregister in 32 statische und
in 96 dynamische Register aufgeteilt.
webcode: p1281
139
Server
Die IA-64 bietet wie die IA-32 die Möglichkeit, 80-Bit-Fließkommaberechnungen durchzuführen. Die zusätzlichen Bits der 82 Bit breiten Register nutzt der
Itanium intern für Zwischenergebnisse. Durch die höhere Genauigkeit verringern
sich Rundungs- und Verfahrensfehler bei komplexen Berechnungen.
Neben dem 80-Bit-Format sind Floatingpoint-Operationen im 64-Bit-DoublePrecision-Format und im 32-Bit-Single-Precision-Format möglich. Bei Single
Precision kann der Itanium gleich zwei Werte parallel in einem Floatingpoint-Register halten und bearbeiten. Der Fließkommabefehlssatz enthält unter anderem
eine Multiply and Accumulate (MAC) Instruction, die eine Multiplikation und
eine Addition in einem Taktzyklus gemeinsam durchführt. Durch die SIMD-Fähigkeit des Prozessors kann man bei einfacher Genauigkeit sogar zwei MACOperationen gleichzeitig erledigen. Diese Funktion ist die Grundlage vieler Filteralgorithmen und üblicherweise nur bei Signalprozessoren vorhanden.
Erstaunlich ist, dass die Itanium Architektur keine Befehle zur Berechnung transzendenter Funktionen wie der Quadratwurzel oder des Tangens zur Verfügung
stellt. Selbst die einfache Division ist ihr unbekannt. All diese Funktionen bildet
der Compiler als Software-Algorithmen nach. Dabei kann er aber die Eigenschaften des Prozessors wie etwa das Software-Pipelining mit Register-Rotation sowie
die parallele Ausführung von Programmteilen durch mehrere Fließkommarecheneinheiten optimal ausnutzen. Dadurch ist die Fließkommaberechnung des Itanium
meist deutlich schneller als die anderer Prozessoren, die diese Aufgaben fest in
Hardware verdrahtet haben.
3.2.6 Predication: Erst rechnen, dann entscheiden
Neben den Allzweck- und den Fließkommaregistern definiert die IA-64 noch 64
Predicate-Register von je einem Bit Breite. Die ersten 16 dieser Register sind statisch, die übrigen werden dynamisch verwaltet und unterstützen das SoftwarePipelining durch Rotation. Test- und Vergleichsbefehle setzen die Predicate-Register. Sie berechnen dabei jeweils zwei Predicate-Register, wobei eines für eine
erfüllte und das andere für eine nicht erfüllte Bedingung steht.
Bei fast jedem Befehl der IA-64 kann man ein Predicate-Register als Bedingung
mit angeben. Ist das Predicate-Register wahr, führt der Itanium den Befehl aus
und berechnet das Ergebnis, ansonsten verwirft er es. Der Clou ist nun, dass man
zwei Befehle, die sich eventuell wiedersprechen und auch auf dieselben Register
zugreifen können, mit zwei komplementären Predicate-Registern versieht. Der
Itanium kann dann in seinen Pipelines beide Befehle gleichzeitig abarbeiten, liefert aber am Ende nur das passende Ergebnis.
Durch die Predication kann man einfache Fallunterscheidungen viel eleganter lösen als bei der IA-32. Obwohl bei der IA-64 beide Zweige tatsächlich berechnet
werden, ist dieses Vorgehen vielfach schneller als die Verwendung eines bedingten Sprunges. Dieser verursacht nämlich eine massive Störung der Pipeline, falls
die Sprungvorhersage sich geirrt hat.
140
www.tecChannel.de
Itanium Grundlagen
Rechnen und verwerfen: Die IA-64 berechnet beide Zweige der Fallunterscheidung parallel
und entscheidet sich erst später für den passenden. (Quelle: Intel)
Deutlich wird dies im obigen Beispiel der Berechnung der absoluten Differenz
zweier Zahlen. Die IA-32 ermittelt mit dem Befehl cmpGE, welcher der beiden
Werte in den Registern r2 und r3 größer ist. Abhängig davon führt sie einen bedingten Sprung zum passenden Codeblock aus. Dieser Sprung bringt jedoch die
Pipeline des Prozessors ins Stocken und kostet daher sehr viele Taktzyklen.
Die IA-64 wertet ebenfalls die Bedingung aus und setzt aber damit nur zwei Predicate-Register (p1 und p2) entsprechend. Beide Möglichkeiten der Berechnung
werden im Code nun mit Predicate-Registern versehen und auch tatsächlich berechnet. Auf Grund der sechs parallelen Pipelines berechnet die CPU aber sowohl
die Werte der Predicate-Register als auch beide Ergebnisse zeitgleich. Am Ende
trägt sie jedoch nur den Wert mit passendem Predicate-Flag in das Register r4 zur
späteren Weiterverarbeitung ein. Ohne einen einzigen Sprung wird hierbei also
das Ergebnis der Fallunterscheidung in nur einem Taktzyklus ermittelt, ohne die
Pipeline zu gefährden.
3.2.7 Rechnen in epischer Breite
Die Itanium Architektur definiert eine superskalare Prozessorarchitektur. Eine
solche Architektur besitzt mehrere Recheneinheiten (Arithmetic Logic Unit,
ALU) und ist dadurch in der Lage, in jedem Taktschritt mehrere Befehle gleichzeitig abzuarbeiten. Entscheidend ist dabei, die ALUs immer mit unabhängigen,
parallel ausführbaren Instruktionen zu füttern.
Die meisten superskalaren Prozessoren, nicht aber der Itanium, basieren dazu auf
einer RISC-Architektur mit Out-of-Order Execution. Dabei werden mehrere Befehle in einem Puffer bereitgehalten, die der Prozessor in beliebiger Reihenfolge
ausführt, sobald eine passende Berechnungseinheit frei ist und die benötigten
Operanden vorhanden sind.
webcode: p1281
141
Server
Die so berechneten Ergebnisse speichert die CPU dann wieder in der Reihenfolge
ab, die durch die ursprüngliche Reihenfolge der Befehle im Befehlsstrom vorgegeben ist (Ergebnissequenzialität).
Für die Out-of-Order Execution muss der Prozessor Abhängigkeiten zwischen
den Befehlen erkennen, die verwendeten Register umbenennen, Ergebnisse intern
umsortieren und sich auch im Falle einer Unterbrechung durch einen Interrupt
nach außen wie ein In-Order-Prozessor geben. All dies erfordert eine komplexe
Hardware-Schaltung mit hohem Platzbedarf auf dem Die und sorgt für zusätzliche
Stufen in der Bearbeitungs-Pipeline.
Mit EPIC (Explicit Parallel Instruction Computing) beschreitet Intel bei der IA-64
einen anderen Weg. EPIC basiert auf dem VLIW (Very Long Instruction Word)Prinzip. Hier wird ein sehr breites Befehlswort in mehrere Felder unterteilt, die
einzelne unabhängige Instruktionen enthalten. Bei der Programmausführung liest
die CPU das lange Befehlswort ein und leitet die darin enthaltenen Instruktionen
an voneinander unabhängige Ausführungseinheiten weiter. Die Auswahl der parallel ausführbaren Befehle bleibt somit dem Compiler überlassen. Dieser hat
beim Erzeugen des Codes einen sehr viel weiteren Blick für den Programmkontext als eine Hardware innerhalb der CPU zur Laufzeit. Deshalb kann der Compiler unabhängige Instruktionen viel effektiver zusammenstellen.
3.2.8 Drei Instruktionen pro Befehlswort
41 Bit
Instruktion 1
41 Bit
41 Bit
5 Bit
Instruktion 2
Instruktion 3
Template
OpCode
Register 1
Register 2
Register 3
Predicate
14 Bit
7 Bit
7 Bit
7 Bit
6 Bit
© tecCHANNEL
EPIC verwendet lange Befehlswörter von 128 Bit Breite. Diese Befehlswörter
werden bei Intel als Bündel bezeichnet und können drei Instruktionen zu je 41 Bit
Breite, die Silben, sowie ein so genanntes Template mit fünf Bit aufnehmen. Das
Template kodiert die Befehlsart der Instruktionen des Bündels und legt die Ausführungseinheiten fest, die die drei Silben benötigen. So signalisiert etwa das
Template-Mnemonic „MII“, dass der erste Befehl im Bundle auf das Memory zugreift und die beiden anderen unabhängig je eine Integer-Pipeline belegen.
128-Bit-Befehl: Ein VLIW enthält drei Instruktionen plus Steueranweisungen für die Pipelines.
142
www.tecChannel.de
Itanium Grundlagen
Die fünf Bit des Templates ermöglichen 32 verschiedene Kombinationen von Befehlsarten, derzeit unterstützt der Itanium jedoch nur 24 Kombinationen. Durch
die Verwendung des Templates werden die Kombinationsmöglichkeiten von Befehlen in einem Bündel eingeschränkt. Dadurch kann die Schaltung, die die Instruktionen auf die Ausführungseinheiten verteilt, einfacher und schneller gehalten werden. Allerdings führen die Unverträglichkeiten von Befehlskombinationen
auch oft dazu, dass der Compiler kein komplettes Bündel erzeugen kann. Fehlstellen füllt er dann mit NOP (No Operation)-Befehlen, die jedoch den Speicherbedarf für Programme anwachsen lassen.
Optimale Bündel: Der Itanium 2 (*) erlaubt mehr Befehlskombinationen als der erste Itanium
(x). (M Memory, F Floatingpoint, I Integer, L Long Intermediate, B Branch). (Quelle: Intel)
Der Itanium verarbeitet aber nicht nur ein Bündel gleichzeitig. Er kann die Befehle zweier Bündel zeitgleich auf die Funktionseinheiten verteilen und so maximal
sechs Befehle parallel ausführen. Allerdings sind die Kombinationsmöglichkeiten
der zwei Bündel eingeschränkt. Während der Itanium-Prozessor mit dem MercedKern nur 28 Prozent aller Template-Paarungen parallel ausführen konnte, hat Intel
diese Zahl beim Itanium 2 durch die größere Zahl von Ausführungseinheiten auf
75 Prozent gesteigert. Verboten sind die restlichen Kombinationen jedoch nicht.
Treffen zwei unverträgliche Bündel aufeinander, so muss eines einen Taktzyklus
in einem Pufferspeicher in der Pipeline warten. Bei realen Programmen kann man
mit effektiv drei bis vier Befehlen pro Taktzyklus rechnen. In hoch optimierten
Libraries soll der Itanium sogar fünf Befehle pro Takt erreichen.
3.2.9 Tipps für die CPU
EPIC erlaubt es, der CPU Informationen etwa über Datenabhängigkeiten oder die
wahrscheinlichste Verzweigung bei Fallunterscheidungen mitzuteilen. Zur Optimierung lässt man die erste Codeversion in einem Profiler ablaufen, der den bei
einer Verzweigung meist benutzten Weg ermittelt. Eine erneute Compilation baut
diese Informationen dann über so genannte Hints in den optimierten Code ein.
webcode: p1281
143
Server
Zur statistischenVorhersage von bedingten Sprüngen verwendet der Itanium-Prozessor ebenso wie die Pentium-Prozessoren das zweistufige dynamische PAs-Verfahren nach Yeh-Patt. Für jeden Sprung im Instruktions-Cache wird das Verhalten
der letzten Sprünge mitprotokolliert. Ein aus diesem Protokoll ermittelter Wert
steuert das Pattern History Memory an. Dieser liefert dann eine Vorhersage, ob
der bedingte Sprung wahrscheinlich ist oder nicht.
Trotz der Hinweise und einer ausgefeilten Sprungvorhersage stellen bedingte
Sprünge immer noch ein Problem aktueller Prozessordesigns dar, da bei einem
falsch vorhergesagten Sprung die gesamte Pipeline mit den zum Teil bereits abgearbeiteten Befehlen verworfen und neu geladen werden muss. Der Itanium begegnet diesem Problem mit den bereits erwähnten Predicated Instructions, der spekulativen Ausführung ganzer Befehlspfade und der relativ kurzen Pipeline.
3.2.10 Vorausschauen...
Da Speicherzugriffe eine verhältnismäßig lange Zeit benötigen, ist es sinnvoll,
spezielle Vorab-Ladebefehle für Daten am Beginn einer Programmsequenz zu
platzieren. Das Laden der später benötigten Daten findet dann parallel zur Bearbeitung anderer Befehle statt, die Daten sind aber bereits im Prozessor, wenn eine
Berechnung sie später tatsächlich benötigt. Wird zwischen dem Vorab-Ladebefehl
und der Stelle im Programmcode, an der die Daten benötigt werden, der betreffende Speicherbereich geändert, so sind die im voraus eingelesenen Daten nicht mehr
gültig. Gründe dafür können ein Schreibzugriff des Prozessors selbst oder auch
ein DMA-Zugriff eines I/O-Controllers sein. Die ursprünglich eingelesenen Werte werden dann verworfen und neu eingelesen.
Vorab: Register r4 wird weit vor seiner Nutzung schon mal vorsorglich mit einem Wert aus dem Speicher gefüllt. (Quelle: Intel)
Für das Vorabladen der Daten wird mittels des Befehls ld.a (Load Advanced) für
eine Ladeoperation ein Eintrag in der Advanced Load Address Table (ALAT) vorgenommen. Im Beispiel erzeugt ld4.a einen entsprechenden Eintrag für das Register r4, das den Inhalt einer Speicheradresse erhalten soll, die in r3 steht. Jetzt hat
die CPU genügend Zeit, diesen Wert bis zur eigentlichen Nutzung, der Addition
von r4 und r5, aus dem langsamen Speicher zu holen. Werden bis dahin Daten an
die betreffende Speicheradresse geschrieben, so löscht die CPU den zugehörigen
Eintrag in der ALAT. Vor der Addition prüft der Compiler mit ld4.c.clr, ob der
Wert noch gültig ist. Falls ja, erfolgt die Addition ohne Verzögerung. Andernfalls
aktualisiert der Itanium den Wert durch einen Zeit raubenden Speicherzugriff.
144
www.tecChannel.de
Itanium Grundlagen
3.2.11 ...und Spekulieren
Neben dem Vorabladen von Daten kann der Itanium auch Sprüngen vorangestellte Ladeoperationen und Berechnungen spekulativ durchführen (Control Speculation). Beim Befehl ld.s (Load Speculative) versucht die CPU, Daten in ein Register zu laden. Das betreffende Register wird markiert, falls beim Laden ein Fehler
oder eine Ausnahme aufgetreten sind. Eine solche Ausnahme kann zum Beispiel
eine „Page not Present Exception“ sein, falls das Betriebssystem die betreffende
Seite noch nicht im Speicher eingeblendet hat.
Zur Markierung besitzen die Allzweckregister r0...r127 ein 65. Bit, welches Intel
als Not a Thing (NaT) bezeichnet und das bei ungültigen Registerwerten gesetzt
ist. Bei Fließkommaregistern wird dagegen ein Wert als Kennzeichnung verwendet, der als Fließkommazahl nicht definiert ist (Not a Value, NatVal).
Im weiteren Programmablauf rechnet man ungeniert mit den Registern und kümmert sich nicht darum, ob sie überhaupt einen sinnvollen Wert enthalten. Erst später prüft man mit dem Befehl chk.s (Check Speculation), ob das Ergebnis auf gültigen Daten beruhte. Ist beim Ergebnis einer Berechnung das NaT-Bit gesetzt oder
enthält das Fließkommaregister den Wert NatVal, so führt man über den chk.s-Befehl einen Sprung auf eine Programmsequenz aus, die die Berechnung mit gültigen Daten erneut durchführt.
Spekulatives Laden: Der Code wächst, das Programm wird aber schneller. (Quelle: Intel)
Im Beispiel rechts wird r3 spekulativ geladen und mit dem Inhalt von r5 nach r6
addiert. Falls die nachfolgende Bedingung durchlaufen wird und man das Ergebnis der Summe benötigt, prüft die CPU zunächst mit chk.s r6, recv, ob r6
webcode: p1281
145
Server
einen gültigen Inhalt besitzt. War die Spekulation nicht erfolgreich, wird die Berechnung durch einen Sprung zu recv nachgeholt. Nach Abarbeitung des Korrekturcodes springt der Programmablauf wieder zum Befehl nach chk.s zurück.
Sinnvoll ist obiges Beispiel vor allem dann, wenn man die Summe in r6 nur innerhalb eines Zweiges der Bedingung benötigt. Hat man Glück, steht sie bereit, und
der Itanium hat sie „nebenbei“ schon im Vorfeld berechnet. Falls nicht, muss man
eben noch einmal explizit die Berechnung starten. Und läuft man überhaupt nicht
in die Bedingung, kann einem das Ergebnis sowieso egal sein.
Die Verwendung der spekulativen Ausführung von Ladebefehlen führt zwar meist
zu einem schnelleren Programmablauf, bedeutet jedoch auch einen größeren Programmcode, da der Korrekturcode ebenfalls vorhanden sein muss. Zudem „verheizt“ der Itanium Zeit und Energie mit der Bearbeitung von Befehlen, die eventuell auf ungültigen Daten beruhen.
3.2.12 Kompatibilitäten
Als gemeinsames Projekt der Firmen HP und Intel sollte die Itanium Architektur
sowohl kompatibel zur PA-RISC-Architektur von HP als auch kompatibel zur IA32 von Intel sein. HP entwickelte deshalb ein Verfahren namens Dynamic Translation, welches die Binärkompatibilität des Itanium zur PA-RISC-Familie und
zum Betriebssystem HP-UX sicherstellen soll. Dabei werden die RISC-Maschinenbefehle der PA-Architektur in die entsprechenden Befehle des Itanium übersetzt und zur Laufzeit eines Programms dynamische Optimierungen vorgenommen. Dies bedeutet, dass die Dynamic Translation bereits übersetzten Code im
Speicher hält, falls er in Schleifen wiederholt durchlaufen wird, oder dass sie Vorteile der IA-64 wie Predication oder Spekulationen nutzt.
Die IA-32-Kompatibilität erreicht Intel durch eine Hardware-Emulation auf dem
Prozessorchip. Die IA-32-Funktionseinheit simuliert dabei einen Pentium III mitsamt PC-Bausteinen wie den Timer oder die A20-Gate-Schaltung. Die Hardware
setzt den IA-32-Befehlsstrom direkt in Itanium-Befehle um und leitet diese an die
Ausführungseinheiten weiter, die IA-32-Register bildet sie auf Itanium-Register
ab. So ersetzt die IA-32-Funktionseinheit die ersten beiden Stufen der PipelineVerarbeitung. Aus einem Itanium-Programmcode heraus kann jederzeit mit dem
Befehl br.ia auf den IA-32-Befehlssatz umgeschaltet werden. Der IA-32-Befehl
jmpe wiederum aktiviert erneut den Itanium-Befehlssatz. Interrupts des IA-32
verarbeitet der Itanium jedoch immer im Itanium-Befehlssatz. Von einer solchen
Ausnahmebehandlung kehrt der Befehl rfi direkt zum IA-32-Code zurück.
Allerdings konnte die IA-32-Emulation in Hardware nie richtig überzeugen, da
die Rechenleistung für echte Server-Software nicht ausreichte. Nützlich ist sie
aber, wenn man IA-32-Administrationsprogramme zur Konfiguration und Wartung des Itanium-Servers nutzen will. Seit dem Servicepack 1 bietet Windows
Server 2003 alternativ einen IA-32 Execution Layer (IA-32 EL) in Software, der
analog zu HPs Dynamic Translation arbeitet und deutlich mehr Leistung bietet als
146
www.tecChannel.de
Itanium Grundlagen
die Hardware-Emulation. Mit dem IA-32 Execution Layer soll einen 1,5-GHzItanium mit 6 MByte Cache immerhin die Leistung eines Xeon MP mit 1,5 GHz
erreichen. Zudem ermöglicht die Software-Emulation ein einfaches Upgrade auf
moderne virtuelle IA-32-CPUs mit Features wie SSE2 und SSE3.
Für dezidierte 32-Bit-Server-Anwendungen ist aber auch der IA-32 EL nicht
wirklich geeignet. Ein Xeon-Server dürfte bei gleicher Leistung doch ein paar
Euro billiger kommen. Interessant ist der IA-32 EL aber für Workstations mit dem
Deerfield-Itanium. Typischerweise wird zwar deren Primäranwendung, wie etwa
ein CAD-Programm oder eine Floatingpoint-orientierte Software als ItaniumArchtecture-Code vorliegen. Doch ein Workstation-Benutzer verwendet meist
auch Programme wie eine Office-Suite, einen E-Mail-Client oder gar Active-XKomponenten für den Internet Explorer. Spätestens da ist Schluss mit nativem 64Bit-Code und zwingend eine schnelle IA-32-Emulation erforderlich.
3.2.13 Der Itanium 2
Der Itanium-2-Prozessor verarbeitet die Befehle in einer 8-stufigen Pipeline. Die
beiden ersten Stufen IPG (Instruction Pointer Generation and Fetch) und ROT
(Instruction Rotation) bilden das Frontend der Pipeline, die übrigen Stufen stellen
das Backend dar. Die beiden Abschnitte der Pipeline sind durch einen Puffer entkoppelt, so dass sich Störungen im Ablauf oder Verzögerungen beim Laden nicht
auf alle Pipeline-Stufen auswirken.
IPG
ROT
EXP
REN
REG
IGP Instruction pointer generation
and fetch
ROT Instruction rotation
EXP Instruction template decode,
expand and disperse
REN Rename and decode
EXE
DET
WRB
FP1
FP2
FP3
REG
EXE
DET
WRB
FPX
FP4
Register file read
ALU execution
Exception detection
Write back
Floating point stage x
© tecCHANNEL
Pipeline des Itanium 2: Jeder Befehl durchläuft die acht Stufen der Pipeline.
Jeder Befehl durchläuft alle Stufen, so dass eine Abarbeitung in Phasen aufgeteilt
ist, die mit den Stufen korrespondieren. Die gesamte Pipeline bietet eine In-Order-Ausführung von Instruktionen, wobei pro Taktschritt bis zu sechs Befehle
gleichzeitig zur Verarbeitung zugeteilt werden. Da Intel auf eine Out-of-OrderAusführung verzichtet und die optimale Parallelisierung dem Compiler überlässt,
ist die Hardware selbst relativ einfach und damit schnell. Den gewonnenen Platz
auf dem Die nutzt Intel für ein umfangreiches System zum effizienten Speicherzugriff mit geringen Latenzzeiten.
webcode: p1281
147
Server
3.2.14 Speicher und Caches
Der Itanium-Prozessor besitzt eine dreistufige Hierarchie von Caches. Die L2-und
L3-Caches speichern dabei sowohl Daten als auch Instruktionen (Unified Cache),
der L1-Cache ist geteilt in einen L1-Instruktions-und einen L1-Integer-Cache.
Der L2- und der L3-Cache können über das System-Interface direkt auf den
Hauptspeicher zugreifen, die L1-Caches sind mit dem L2-Cache verbunden.
Adresse [63:12]
TLB
32 Einträge, vollasoziativ
Adresse [11:6]
Tag-RAM
4-Wege-assoziativ
32
32
64
Adresse [11:3]
Daten-RAM
4-Wege-assoziativ
Vergleich
Bitweises
and/or
4
64
© tecCHANNEL
Ohne Verzögerung: Der Prevalidated-Cache liefert die Daten mit nur einem Clock Latenzzeit.
Die L1- und L2-Caches sind als so genannte Prevalidated-Tag-Caches ausgeführt,
um L1-Cache-Zugriffe mit nur einem Zyklus Latenzzeit zu gewährleisten. Im
Tag-Ram des Cache ist nicht die physikalische Speicheradresse, sondern eine Referenz auf einen Eintrag im Translation Lookaside Buffer (TLB) gespeichert.
Beim Auslesen gibt der Cache die Daten aus den verschiedenen Wegen des mehrfach assoziativen Speichers parallel aus. Gleichzeitig wird aus der virtuellen Speicheradresse über den vollassoziativen TLB ein Vektor erzeugt, der genau einen
1-Bit- und ansonsten nur 0-Werte enthält (one hot vector).
Dieser Vektor wird parallel mit allen vom Mehrwege-Tag-Ram gelieferten Tags
durch bitweise and/or-Operationen verglichen und, falls vorhanden, der CacheWeg, der das gewünschte Datum speichert, ermittelt. Ebenfalls gleichzeitig mit
diesem Vorgang werden gespeicherte Datenwerte des Mehrwege-Cache parallel
ausgelesen und die Daten des ermittelten Cache-Weges schließlich an die nachfolgenden Funktionseinheiten weitergeleitet.
Der wesentliche Unterschied zu herkömmlichen Caches besteht somit darin, dass
das Tag-Ram nicht die physikalischen Speicheradressen, sondern eine Referenz
auf einen TLB-Eintrag speichert.
Das System-Interface des Prozessors ist mit 200 MHz getaktet und kann pro Takt
zwei Speicherzugriffe vornehmen. Der Datenbus selbst hat eine Breite von 128
Bit. Damit kann der Itanium 2 bis zu 6,4 GByte pro Sekunde übertragen, mehr als
das Dreifache des ersten Itaniums (Merced).
148
www.tecChannel.de
Itanium Grundlagen
Itanium 2 Processor
External
Memory
L1
32 GByte/s 16 KByte
L2
L3
64
Byte/line
256 KByte
3 MByte
1 CLK
6,4 GByte/s
32 GByte/s
8-way
12-way
128 Byte/line
128 Byte/line
L1D
5-7 CLKS 32 GByte/s 16 KByte
12-15 CLKS
64 Byte/line
1 CLK
Itanium Processor
External
Memory
L3
4 MByte
2,1 GByte/s
12,8 GByte/s
4-way
64 Byte/line
21-24 CLKS
L1
25,6 GByte/s 16 KByte
L2
32
Byte/line
96 KByte
2 CLKS
6-way
64 Byte/line
L1D
6-9 CLKS 25,6 GByte/s 16 KByte
32 Byte/line
2 CLKS
© tecCHANNEL
Der kleine Unterschied: Die Latenzzeiten und die Datentransferraten zum Cache und Speicher
sind beim Itanium 2 gegenüber dem ersten Itanium deutlich schneller geworden.
Die Speicherzugriffe führt der Itanium über 2 Queues aus: Die In-Order-Queue
(IOQ) mit acht und die Out-of-Order-Queue (OOQ) mit 18 Einträgen. Die IOQ
arbeitet die Speicheranfragen nacheinander ab, die OOQ enthält lediglich die aufgeschobenen Speicheranfragen in der Queue. Zusätzlich enthält das System Interface zwei 128-Byte-Pufferspeicher (coalescing buffer) für 8-Bit-Zugriffe auf den
Speicher. Hier werden diese Speicheranfragen gesammelt und als gemeinsamer
Speicherzugriff behandelt.
3.2.15 Details zur Pipeline: Frontend
Die Funktionseinheiten zur Erzeugung der Befehlsadresse (Instruction Pointer,
IP), zum Laden der Befehle sowie die Funktionseinheit zur Emulation von IA-32Befehlen bilden gemeinsam die ersten beiden Stufen der Prozessor-Pipeline. Diese beiden Stufen heißen Frontend der Pipeline.
Die Instruction Pointer Generation (IPG) Stufe holt die Instruktionen paarweise
(zwei Bündel a drei Instruktionen) aus dem Speicher in den Prozessor und stellt
sie den nachfolgenden Stufen zur Verfügung. Dazu wird als neue Befehlsadresse
entweder der IP um 32 erhöht oder die Befehlsadresse einer Sprungvorhersage
beziehungsweise die alternative Adresse bei fehlgeschlagenen Sprungvorhersagen ausgewählt. Die Sprungvorhersage der IPG-Stufe berücksichtigt dabei die
Ergebnisse der letzten vier Befehlsausführungen eines jeden Sprunges im Instruktions-Cache. Ist die ermittelte Adresse bereits im L1-Instruktions-Cache gespeiwebcode: p1281
149
Server
chert, werden die beiden zugehörigen Instruktionsbündel an die zweite Stufe der
Pipeline übergeben. Andernfalls holt sie der Instruction Streaming Buffer aus den
übergeordneten Cache-Hierarchien, speichert sie im L1-Instruktions-Cache und
leitet sie direkt an die zweite Stufe weiter.
Ebenfalls in dieser Pipeline-Stufe ist die Prefetch Engine des Itanium zum vorausschauenden Laden von Instruktionen angesiedelt. Dazu wertet diese Funktionseinheit die Hints aus, die der Compiler optional an den Prozessor übergeben kann.
Dieser lädt daraufhin maximal vier zusätzliche Cache-Zeilen des L2-Cache in den
Instruktionsspeicher.
Instruction pointer generation and fetch
+32
L1 Cache
16 KByte
Branch
Prediction
Branch
misprediction
& exception
Instruction rotation
Hit
Instruction
Buffer
8 Bundles
2
Bundles
fill
L2/L3 Fill 32 Byte
Instruction
Streaming
Buffer
16 Bundles
Prefetch
Engine
© tecCHANNEL
Frontend: Die beiden ersten Stufen der Pipeline laden die Befehle und sorgen für eine möglichst gleich bleibende Auslastung der Ausführungseinheiten im Backend.
Die zweite Stufe der Pipeline heißt Instruction Rotation (ROT). Sie speichert im
Instruction Buffer die zwei Bündel, die die erste Pipeline-Stufe übergibt. Je nach
aktueller Auslastung der Ausführungseinheiten im Backend leitet die ROT-Stufe
dann das neue oder das älteste Instruktionsbündel weiter. Da der Instruction Buffer acht Paare von Instruktionsbündeln zwischenspeichern kann, entkoppelt er
den L1-Instruktions-Cache und den Befehls-Fetch von den restlichen Stufen der
Pipeline-Verarbeitung.
3.2.16 Details zur Pipeline: Backend I
Das Backend der Pipeline verteilt die Instruktionen auf die verfügbaren Funktionseinheiten, verwaltet die physikalischen und logischen Register, führt die Instruktionen aus und schreibt die Ergebnisse in die Register. Damit legt das Backend den architekturellen Zustand der CPU fest.
150
www.tecChannel.de
Itanium Grundlagen
Das Backend besteht aus den folgenden Pipeline-Stufen:
• Instruction template decode, expand and disperse (EXP)
• Rename (for register stack and rotating registers) and decode (REN)
• Register file read (REG)
• ALU execution (EXE)
• Exception detection (DET)
• Write Back (WRB)
Die Pipeline-Stufe EXP verteilt jeweils ein Paar von Instruktionsbündeln (sechs
Instruktionen) über elf so genannte Issue Ports auf die Funktionseinheiten. Ist für
eine Instruktion des Bündels keine passende Funktionseinheit frei, warten alle Befehle einen Taktzyklus, bevor EXP sie gemeinsam verteilt. Die Verteilung auf die
verschiedenen Funktionseinheiten erfolgt dynamisch. Sind etwa alle Integer-Einheiten belegt, kann EXP eine Integer-Operation auch einer Speicherfunktionseinheit zuweisen, die ebenfalls eine einfache Integer-Arithmetik beherrscht.
Pipeline-Stufen
ITLB
IPG
IA-32
Decode
& Control
Insturction-Buffer
8Bundles
Frontend
L1 Instruction-Cache
16 KByte
Fetch/Prefetch
������
����������
� �����
ROT
11 Issue Ports
B
B
M
M
M
I
I
F
EXP
F
Register Stack Engine (RSE)/ Register Renamer
REN
128 IntegerRegister
REG
Branch & PredicateRegister
3x
Branch
Unit
M
L1 DataCache
16 KB
L2 Data
TLB
ALAT
32 Entries
128 FP-Register
6x
Integer
6x
MultimediaUnit
Hardware
Page Walker (HPW)
L3 Cache
1,5-6 MByte
System Interface
L2 Cache
256 KByte
EXE FP1
2x
Floating
Point
Unit
Backend
B
DET FP2
WRB FP3
FP4
© tecCHANNEL
Blockdiagramm: Die Funktionseinheiten des Itanium 2 und zugeordnete Pipeline-Stufen.
webcode: p1281
151
Server
Die folgende Pipeline-Stufe REN besteht aus der Register Stack Engine (RSE)
und dem Register Renamer. Die RSE lagert gegebenenfalls Registerinhalte in den
Cache-Speicher aus, schreibt die Inhalte wieder zurück in die Register und stellt
so verschiedenen Applikationen oder Unterprogrammen einen vollständigen Registersatz und lokale Register zur Verfügung. Zum Speichern oder Zurückschreiben von Registerinhalten kann RSE die gesamte Pipeline anhalten.
Die Register-Renamer-Funktionseinheit rotiert auch die Register bei SoftwarePipelines. Spezielle Sprungbefehle im Code steuern die REN und lösen eine Rotation der Register aus. Diese Einheit benennt diese Register allerdings statisch
und unabhängig von eventuellen Datenabhängigkeiten (Write after Read Hazard,
WAR) um. Die passende Zuordnung wieder herzustellen, ist bei der EPIC-Philosophie die Aufgabe des Compilers. Damit fällt der Schaltungsaufwand für die
REN wesentlich einfacher aus als für die Renaming-Einheit in Prozessoren mit
Out-of-Order-Programmausführung.
3.2.17 Details zur Pipeline: Backend II
Die REG-Stufe der Itanium-Pipeline liest die Registerinhalte aus und stellt sie den
Ausführungseinheiten zur Verfügung. Neben den vorhandenen Registerwerten
reicht die fünfte Stufe auch die Ergebnisse vorangegangener Berechnungen an die
Ausführungseinheiten weiter, die noch nicht in die Register zurückgeschrieben
sind (forwarding). Damit kann die Ausführung von abhängigen Befehlen schon
beginnen, bevor die vorangegangenen Befehle durch die Write-Back-Stufe komplett abgeschlossen wurden. Registerzugriffe registriert der Itanium im Scoreboard-Speicher. Falls Datenabhängigkeiten auftreten, wird die Ausführung weiterer Befehle gestoppt, bis die betreffenden Register wieder verfügbar sind.
Die eigentliche Berechnung oder die Ausführung sonstiger Befehle findet in der
EXE-Stufe der Pipeline statt. Jede Integer- und logische Operation benötigt einen
Taktzyklus zur Ausführung, Speicherzugriffe erfordern mindestens zwei und
Fließkommaberechnungen vier Taktzyklen. Die so genannte Dependency-Matrix
stellt dabei die Abhängigkeiten nachfolgender Operationen fest und verzögert die
folgenden Befehle für die Dauer der aktuellen Berechnung. Die REG-EXE-Funktionseinheit besitzt zwölf Ports zum Lesen und acht Ports zum Schreiben in die
Register, so dass Zugriffe weit gehend parallel erfolgen können. Die DET-Stufe
kontrolliert den Fluss der Befehle in der Pipeline und stoppt bei Bedarf das Verteilen weiterer Instruktionen in der EXP-Stufe. Diese Ereignisse führen zu einem
vorübergehenden Anhalten der Befehlsverarbeitung durch der DET-Stufe:
• L2-Daten-Cache-Miss
• Alle Schreib-Lese-Einheiten in den Speicher sind belegt
• Koordination der Integer- und der Fließkommaausführung bei
Datenabhängigkeiten
• Koordination des L1-Daten-Cache mit der Integer-Berechnung
152
www.tecChannel.de
Itanium Grundlagen
Die DET-Stufe erlaubt es den Caches, Speicheroperationen in den Befehlsfluss
einzufügen, ohne die Programmausführung mehr als nötig zu verzögern. In der
abschließenden WRB-Phase werden die Ergebnisse der Berechnungen in die Register zurückgeschrieben und damit vom physikalischen in den architekturellen
Zustand der CPU übernommen.
3.2.18 Performance-Vergleich
Obwohl alle Itanium-Prozessoren durch ihre Fließkommaleistung beeindrucken
konnten, war die Integer-Leistung, die besonders im Server-Bereich benötigt
wird, anfangs nicht die beste. Wie die Tabelle der SPEC-Ergebnisse
(www.spec.org) zeigt, kann sich der Itanium der dritten Generation im Bereich
der Fließkommarechnung deutlich von allen Konkurrenten absetzen. Bei 1500
MHz und mit einem L3-Cache von 6 MByte behauptet er sich jetzt auch bei den
Integer-Berechnungen unter den Prozessoren vergleichbarer Taktfrequenz und
liegt nun nahezu gleichauf mit dem Opteron von AMD.
SPEC-Werte im Vergleich
SPECfp2000
SPECint2000
Alpha 21264, 1250MHz
1365
928
AMD Opteron 146, 2000MHz
1250
1335
IBM Power4+, 1700MHz
1678
1103
Itanium, 800 MHz, 4 MByte L3-Cache
701
400
Itanium 2, 1500MHz, 6 MByte L3-Cache
2119
1322
Pentium 4, 3,2 GHz
1285
1330
Die für Server wohl wichtigsten Kennwerte werden vom Transaction Processing
Performance Council (www.tpc.org/default.asp) (TPC) geliefert. Dessen Benchmarks messen die Leistung von Server-Systemen bei Datenbanksystemen für Online Transaction Processing.
TPC-C Benchmarks, 4-Way
CPU
tpmC
Kosten/tpmC (US-Dollar)
Alpha 21264 1250 MHz
56375
9,44
AMD Opteron 844 1800MHz
82226
2,72
Itanium 2 1500MHz
136111
3,97
Xeon MP 2,8 GHz
90272
3,94
webcode: p1281
153
Server
Unter den 4-CPU-Systemen erreicht ein auf Itanium basierendes System den
höchsten Kennwert. Daneben hält ein Itanium-2-Rechner auch den höchsten bisher erreichten tpmC-Wert: Ein HP-Superdome-System mit 64 Prozessoren vom
Typ Itanium 2/1,5GHz lieferte 1.008.144 tpmC. Auffallend ist, dass die meisten
der Top-Benchmark-Werte auf Rechnersystemen von HP erzielt wurden, die die
hauseigenen Chipsätze zx1 und sx1000 verwenden.
3.2.19 Fazit
Mit dem EPIC-Paradigma verlagert Intel einen großen Teil der Aufgabe, Programmcode zu parallelisieren, von der Hardware auf den Compiler. Dies bietet
zum einen den Vorteil einer weniger komplexen und damit schnellen Hardware.
Zum anderen ist diese Technologie in der Lage, die Ergebnisse künftiger Entwicklungen und Algorithmen zu nutzen, ohne dass Intel die Hardware ändern muss.
Durch die Hints, das spekulative Laden von Daten und das Software-Pipelining
wird ein Interface zum Compiler geschaffen, das ein effizientes Hardware-Software-Codedesign ermöglicht. Insbesondere die Fließkommaeinheit des Itanium
ist sämtlichen anderen Prozessoren dieser Klasse weit voraus. Das komplexe und
schnelle Speichersystem tut ein Übriges, um den Systemdurchsatz zu erhöhen.
Mit dem Itanium definiert Intel so eine moderne Plattform, die viele Schwächen
der alten IA-32 vermeidet. Der Nachteil dieser Vorgehensweise liegt im teils wesentlich erhöhten Speicherbedarf für Programme. Da nicht alle Kombinationen
von Templates parallel ausführbar sind, enthält der Code viele NOP-Befehle. Der
Korrekturcode für die spekulative Ausführung bläht die Programme zusätzlich
auf. Predicated Instructions und das spekulative Laden von Daten beschäftigen
die CPU zudem oft mit Berechnungen, die später wieder verworfen werden.
Nicht umsonst schluckt der Itanium 2 bei 1,5 GHz 130 Watt, der Strom sparende
Deerfield immerhin noch 62 Watt bei 1 GHz. Wenngleich die Itanium-CPU daher
kaum in tragbaren Computern zu finden sein wird, ist er dank seiner sehr leistungsfähigen Fließkommaeinheit und der innovativen Konzepte wie der RegisterRotation bestens für die Zukunft gerüstet. Nach einem zähen Start lehrt er im Server-Bereich inzwischen andere CPU-Hersteller das Fürchten. Und mit dem Deerfield schiebt Intel bereits vorsichtig einen Brückenkopf in Richtung Desktop-PC.
Christian Wiegand und Albert Lauchner
tecCHANNEL-Links zum Thema
Webcode
Compact
Grundlagen zu Intels Itanium
p1281
S.135
Roadmap Server CPUs
a1118
–
Opteron im Server-Einsatz
p1163
–
154
www.tecChannel.de
Serial Attached SCSI
3.3 Serial Attached SCSI
2004 tritt Serial Attached SCSI an, um mittelfristig das parallele SCSI abzulösen.
Kompatibilität zu SATA und neue Features sowie breite Herstellerunterstützung
sollen für eine schnelle Akzeptanz der Schnittstelle sorgen.
Im klassischen professionellen SCSI-Markt zählen abseits von Performance Argumente wie Skalierbarkeit und Verfügbarkeit. Hier bringt Serial Attached SCSI
gegenüber seinen parallelen Vorfahren entscheidende Änderungen mit. Das parallele SCSI hat mit dem aktuellen Ultra320-SCSI den Höhepunkt des technisch
sinnvoll Machbaren erreicht. Wie bei anderen Schnittstellen und Bussystemen erfolgt auch bei SCSI der Umstieg auf den seriellen Betrieb.
Im ersten Schritt soll Serial Attached SCSI Übertragungsraten von bis zu 300
MByte/s (1000er Basis) erreichen, die Roadmap sieht bis 2010 Übertragungsraten
von bis zu 1200 MByte/s vor. Serial Attached SCSI (SAS) verspricht SoftwareKompatibilität, günstigere Steckverbinder, bessere Skalierbarkeit, höhere Geschwindigkeit sowie Unterstützung von SATA-Festplatten. Serial Attached SCSI
bringt nicht nur Potenzial für weitere Entwicklungen mit, sondern bietet auch
deutlich mehr Flexibilität als seine Vorgänger. Dafür sorgen unter anderem die
Anleihen bei SATA und Fibre Channel, die in Serial Attached SCSI einflossen.
3.3.1 Serial Attached SCSI
Mit Ultra320-SCSI ist die parallele SCSI-Schnittstelle nach über 20 Jahren in
ihrer jetzigen Form ausgereizt. Zu aufwendig und teuer wäre es, den Anforderungen der nahen Zukunft mit einem parallelen Interface zu begegnen. Bereits bei
Ultra320-SCSI waren Techniken wie AAF (Adjustable Active Filter) erforderlich,
um einen sauberen Signaltransport zu gewährleisten. Bei Ultra640-SCSI wären
die Reflexionen schon so stark wie die Signale selbst. Der elektrische Aufwand
zur Realisierung wäre immens – und ein weiterer Fortschritt nur noch schwerlich
absehbar. Serial Attached SCSI ist wie SATA eine Punkt-zu-Punkt-Verbindung
und kein paralleler Bus. Zwischen dem SAS-Host-Bus-Adapter und den einzelnen Endgeräten verwendet SAS wie SATA einzelne Verbindungen. Damit entfallen auch die für SCSI bisher typischen Problematiken hinsichtlich Verkabelung
und Terminierung. Darüber hinaus wird ausgeschlossen, dass ein defektes Kabel
oder Endgerät die anderen beeinflusst. SAS übernimmt die für SATA eingeführten
Kabel mit einer Steckverbindung, die Verwechslungen ausschließt. SATA-Geräte
lassen sich an SAS nutzen, jedoch nicht umgekehrt.
In der ersten Stufe sieht SAS eine Bandbreite von 3 Gbit/s vor. Dies soll eine Datentransferrate von 300 MByte/s genügen. Anders als bei Ultra320-SCSI müssen
sich die Endgeräte die Bandbreite nicht teilen. Wie unser Test (webcode: a1076)
von Ultra320-SCSI zeigt, gerät ein Single-Channel-Controller bereits mit vier angeschlossenen Festplatten an seine Grenze.
webcode: a1274
155
Server
SAS HBA (Initiator)
SAS
HDD
SATA
HDD
SATA
HDD
SAS
HDD
© tecCHANNEL
Friedlich vereint: An SAS-Host-Bus-Adaptern können sowohl SAS-Festplatten als auch SATADrives Anschluss finden, die Erkennung erfolgt automatisch.
Darüber hinaus erfolgt bei SAS die Datenübertragung im Vollduplex-Modus. Das
in der SAS-Spezifikation vorgesehene Dual-Porting erlaubt den Anschluss einer
SAS-Festplatte an zwei unterschiedliche Host-Adapter. Damit lassen sich redundante Architekturen einfach realisieren. Zusätzlich erlaubt SAS die Zusammenfassung von Ports in einer Art Kanalbündelung zur Performance-Erhöhung. SAS
unterstützt wie SATA eine interne Kabellänge von einem Meter, die Spezifikation
sieht zudem externe Kabel von bis zu zehn Metern Länge vor.
3.3.2 SAS-Topologie
Gegenüber dem traditionellen parallelen SCSI geht SAS in Sachen Skalierbarkeit
auf Expansionskurs. Punkt-zu-Punkt-Verbindungen erlauben höhere Bandbreiten
als parallele Lösungen. Um allerdings mehr Geräte an einem Controller zu betreiben, als dieser Ports bietet, sind zusätzliche Erweiterungseinheiten erforderlich.
Mit den so genannten Expandern wird dafür bei SAS eine neue Geräteklasse eingeführt. Diese Expander agieren als eine Art Switch zwischen dem Host-Adapter
und den Endgeräten und übernehmen die Verwaltung derselben.
156
Dynamische Adressierung: Das SASKonzept erlaubt, dass über Expander jeder
Host mit jedem Endgerät kommuniziert.
Die Übertragung erfolgt dabei simultan.
JBOD
© tecCHANNEL
Expander
Backpanel
www.tecChannel.de
Serial Attached SCSI
An einen Edge-Expander lassen sich bis zu 128 SAS-Endgeräte anschließen. Ein
so genannter Fanout-Expander verträgt bis zu 128 Edge-Expander-Sets, so dass
sich in einer SAS-Umgebung mehr als 16.000 Endgeräte betreiben lassen. Das ist
weniger als bei Fibre Channel, aber deutlich mehr als bei parallelem SCSI.
Fanout expander device
Edge
expander
device set
Edge
expander
device
Edge
expander
device
End device
Edge
expander
device
...
End device
Edge
expander
device set
Edge expander device
End device
Maximal 128 Edge-Expander-Device-Sets
Maximal 128 SAS-Adressen
pro Edge-Expander-Device-Set
Fanout expander device
Eine derart hohe Anzahl an möglichen Endgeräten macht die Verwaltung komplexer, als dies beim bisherigen SCSI der Fall war. Beim parallelen SCSI erfolgt die
Einstellung der Adressen Hardware-seitig. Als Identifikation arbeitet SAS mit den
WWN (WorldWideNames), die als eindeutige Kennung für SCSI-Geräte fungieren. In einer SAS-Umgebung betriebene SATA-Geräte bekommen von den Expandern eine WWN-Kennung zugewiesen.
End device
© tecCHANNEL
Gerätevielfalt: Ein Fanout-Expander kann bis zu 128 Edge-Expander unter sich aufnehmen,
die ihrerseits je 128 SAS-Adressen verwalten können.
3.3.3 Serielle Verkabelung
Wie erwähnt verwendet SAS die von SATA bekannten Kabel und adaptierte
Steckverbinder. SCSI-Festplatten sind nicht als notorische Einzelgänger bekannt,
sondern treten in der Regel in Gruppen auf. Das macht die Verkabelung bei parallelen SCSI-Einheiten entsprechend komplex. Neben den empfindlichen und teuren 68-poligen SCSI-Kabeln sind auch die aktuellen unterschiedlichen Steckverbindungen kein Garant für Flexibilität.
Abseits der elektrischen Auswirkungen, wie dem Übersprechen, bietet die serielle
Verkabelung noch einen anderen – augenscheinlich profanen – Vorteil: SCSIFestplatten arbeiten meist nicht nur im Verbund, sie tun dies auch mit hohen Umwebcode: a1274
157
Server
drehungszahlen. Beide Faktoren zusammen erfordern ein durchdachtes Design
hinsichtlich der Temperaturentwicklung. Dies um so mehr, da bei der Entwicklung von Storage-Lösungen der Raumbedarf zunehmend an Bedeutung gewinnt.
Bei einer seriellen Verkabelung lässt sich ein ausreichender Luftstrom deutlich
leichter realisieren als beim aktuellen Parallel-SCSI.
Darüber hinaus erleichtern die kleineren Steckverbinder die Verwendung von
Festplatten mit kleinerem Formfaktor. So entwickelt Seagate eine EnterpriseFestplatte für SAS im 2,5-Zoll-Format. Und last but not least sorgen die serielle
Verkabelung sowie die Kompatibilität zu SATA für günstigere Backplanes. Je
nach Anwendung lässt sich entscheiden, ob SAS- oder SATA-Drives zum Einsatz
kommen, die vorhandene Umgebung bleibt identisch.
3.3.4 Kompatibilität
Eine wichtige Eigenschaft von Serial Attached SCSI ist die Kompatibilität zum
bisherigen SCSI. Eine Anpassung von Applikationen und Betriebssystemen an
SAS ist nicht oder nur geringfügig notwendig. Serial Attached SCSI arbeitet mit
drei Protokollen. Das SSP (Serial SCSI Protocol) ist die serielle Umsetzung des
bestehenden SCSI-Protokolls. Das STP (Serial Tunneling Protocol) kümmert sich
um die Umsetzung der SATA-Befehle für die gegebenenfalls angeschlossenen
SATA-Festplatten. Das SMP (SCSI Management Protocol) liefert die Verwaltungsinformationen und ist für das Management der Vielzahl der möglichen
Punkt-zu-Punkt-Verbindungen zuständig. Alle drei Protokolle teilen sich kompatible Verbindungen und das Hardware-Interface. Wie SATA und Fibre Channel
bedient sich Serial Attached SCSI der 8B/10B-Kodierung für die Übertragung.
Übersetzer: Beim Betrieb von SATA-Festplatten an einem SAS-Controller sorgt das Serial
Tunneling Protocol für die korrekte Umsetzung.
SAS HBA (Initiator)
Serial Tunneling
Protocol
SAS
HDD
158
SATA
HDD
© tecCHANNEL
Expander
www.tecChannel.de
Serial Attached SCSI
Serial Attached SCSI und Serial ATA verwenden den gleichen Steckertyp. Eine
Kerbe am Stecker verhindert, dass sich eine SAS-Festplatte an einen SATA-Controller anschließen lässt. SAS arbeitet mit höheren Spannungen als SATA, da das
Signal gegebenenfalls längere Strecken oder Backplanes überwinden muss. Bei
der Initialisierung der SAS-Umgebung erfolgt die Erkennung der einzelnen Endgeräte mit der Zuweisung des entsprechenden Protokolls und der Signale je nach
SATA- oder SAS-Endgerät.
3.3.5 SCSI-Roadmap
Das im Jahr 2002 eingeführte Ultra320-SCSI ist die letzte parallele Version von
SCSI. Branchenkenner gehen momentan innerhalb der installierten SCSI-Umgebungen von einem Anteil von zehn Prozent Ultra320-SCSI aus. Das ursprünglich
als Nachfolger geplante Ultra640-SCSI ist nicht mehr in der Diskussion. Gründe
dafür dürften unter anderem die erwähnten technischen Schwierigkeiten bei der
Umsetzung sein. So sorgt etwa die Verkabelung für extreme Probleme. Eine einfache Migration auf einen neuen Standard wäre kaum möglich.
Serial Attached
SCSI
SAS 1200
Serial Attached
SCSI
SAS 300
Serial
Attached SCSI
SAS 600
Parallel SCSI
Ultra 320
2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
© tecCHANNEL
Stufenweise: SAS startet mit 300 MByte/s und soll 2004 das parallele SCSI ablösen, die Planung steht bis zu 1200 MByte/s (jeweils 1000er Basis) im Jahre 2010.
Erste Produkte mit Serial Attached SCSI soll es im Jahr 2004 mit einer Datenübertragungsrate von 300 MByte/s geben, konkret wird die zweite Jahreshälfte als
Einführungsdatum von Endprodukten genannt. Im Jahr 2004 geht man bei SCSIFestplatten von sequenziellen Datentransferraten von 127 MByte/s aus. 2006 sollen es 238 MByte/s sein. Damit wäre ein SAS-300-Kanal inklusive Overhead
schon ausgereizt. Für das Jahr 2007 ist deshalb die nächste SAS-Variante mit eiwebcode: a1274
159
Server
ner Bandbreite von 600 MByte/s geplant. Serial SCSI 1200 soll 2010 an den Start
gehen. Die Bandbreite von 1200 MByte/s wäre dann auch nötig, denn eine Festplatte liefert nach Ansicht der SCSI Trade Association (http://www.scsita.org) zu
diesem Zeitpunkt bereits 830 MByte/s sequenzielle Datentransferrate.
3.3.6 SAS – Status quo
2003 gelang es den Herstellern sukzessive, erste Erfolge bei der Umsetzung von
SAS in Hardware zu erzielen. So demonstrierte Seagate bereits auf der „CeBIT
2003“ einen Prototypen einer funktionierenden SAS-Festplatte. Das Demolaufwerk basierte auf einer Seagate Cheetah mit 73 GByte Kapazität. Ebenfalls im
März 2003 war es Adaptec gelungen, ein SCSI-Signal von einem RAID-Controller über serielle Verkabelung auf vier Festplatten und wieder zurück zu übertragen. Die breite Unterstützung durch die Hersteller belegt die im April 2003 von
Adaptec und den Festplattenherstellern Fujitsu, Maxtor, Seagate und Hitachi ins
Leben gerufene „Serial Attached SCSI“-Initiative.
Im Sommer 2003 demonstrierten Seagate und Maxtor auf der HP World, wie sich
SAS- und SATA-Festplatten kombinieren lassen. Dabei kamen Maxtors MaxlineSATA-Drives und Atlas-Festplatten mit Serial Attached SCSI zum Einsatz.
Seagate zeigte darüber hinaus eine 2,5-Zoll-Festplatte mit SAS-Interface für den
professionellen Einsatz. Ebenfalls im Sommer 2003 stellten Maxtor und LSI Logic beim T10-Komitee eine lauffähige SAS-Umgebung vor. Bei der Demonstration arbeitete ein LSI Logic-SAS-Controller mit SAS-Festplatten von Maxtor und
Seagate zusammen. Dabei wurden unter Verwendung des „Serial Attached“SCSI-Protokolls (SSP) SCSI-Schreib- und Lesebefehle ausgeführt. Schließlich
zeigte LSI Logic auf der „Comdex“ in Las Vegas im November 2003 zwei Prototypen von Expandern – im Zusammenspiel mit SAS-Controllern sowie SATAund SAS-Festplatten.
Im Mai 2003 ging die Spezifikation von Serial Attached SCSI an das T10-Komitee (http://www.t10.org). Seit Juli 2003 ist dort die Spezifikation öffentlich, im
November 2003 wurde ein Entwurf der SAS-Spezifikation 1.1 veröffentlicht, der
einige Änderungen enthält.
Unter der Aufsicht von ANSI legt das T10-Komitee die Details für alle SCSIStandards fest. Das T10 sorgt dafür, dass die verabschiedeten Richtlinien in Übereinstimmung mit den Industriegruppen erfolgen.
3.3.7 Ausblick
Auf Grund seiner Konzeption bietet Serial Attached SCSI ein hohes Maß an Flexibilität. Damit ist Serial Attached SCSI in den Bereichen DAS, NAS und SAN
ebenso einsetzbar wie für interne Lösungen. Für die externe Anbindung zu Speichernetzen kommen nach wie vor Fibre Channel und iSCSI zum Zuge. Da auf
160
www.tecChannel.de
Serial Attached SCSI
Applikationsseite dank SCSI-Unterstützung keine Umstellung erforderlich ist,
dürften der Migration zu SAS keine zu großen Hemmschwellen im Wege stehen.
Dazu sollten auch die wegen geringerer Kosten für Backplanes und Verkabelung
verfügbaren Storage-Lösungen beitragen. Die Kompatibilität zu SATA-Drives
dürfte da ihr Übriges tun. Überall dort, wo es die Anforderungen zulassen, können
die günstigeren Laufwerke zum Einsatz kommen. Dass die SAS-Festplatten selbst
in Richtung 2,5 Zoll streben, kommt den Anforderungen des Markts gleichfalls
entgegen. Damit bietet Serial Attached SCSI nicht nur aus Leistungs-, sondern
auch aus Kostensicht einige Vorteile. Bleibt abzuwarten, ob der gesetzte Zeitplan
eingehalten wird.
Malte Jeschke
tecCHANNEL-Links zum Thema
Webcode
Compact
Serial Attached SCSI
a1274
S.155
SCSI-Grundlagen
p382
–
SCSI-Spezifikationen
p320
–
Test: Ultra320-SCSI
a1076
–
iSCSI – IP-basierte Speichernetze
p1085
–
Highspeed-IDE: Serial-ATA (II)
p574
–
SANs – Standards und Lösungen
a679
–
Gefahr: IDE-Festplatten im Dauereinsatz
p964
–
Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel.
Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von
www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum
Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren.
webcode: a1274
161
Server
3.4 AMD Opteron im Server-Einsatz
AMD beschreitet mit der AMD64-Technologie neue Wege, ohne alte Pfade zu
verlassen. Statt wie Intel bei den 64-Bit-CPUs der Itanium-Serie eine komplett
neue Architektur aufzusetzen, erweitert AMD die vorhandenen Register auf 64
Bit Breite und fügt einige neue hinzu. Damit geht das Unternehmen einen ähnlichen Weg wie Intel beim Übergang vom 286er zum 386er.
Die Erweiterung der vorhandenen IA-32-Technologie soll sicherstellen, dass die
AMD64-CPUs sowohl mit 32- als auch 64-Bit-Betriebssystemen vorhandenen
16- und 32-Bit-Code ohne Performance-Verlust ausführen können. Die IA-64-Architektur von Intels Itanium-Serie arbeitet alte Anwendungen dagegen nur mittels
einer aufwendigen Hardware-Emulation ab. Dabei werden x86-Register auf die
IA-64-Register abgebildet und über eine Kontrolllogik in einen IA-64-Datenstrom umgewandelt. Das kostet Zeit und geht zu Lasten der Performance. Bei der
AMD64-Architektur ist eine Emulation dagegen nicht erforderlich – die 64-BitErweiterung wird bei 32-Bit-Software einfach nicht genutzt.
Neuland betritt AMD beim Prozessorbus. Statt über einen parallelen Front Side
Bus kommuniziert die CPU über eine HyperTransport-Schnittstelle. Das serielle
Interface mit variabler Bitbreite ermöglicht beim Opteron eine Datentransferrate
von 2,98 GByte/s – in jede Richtung gleichzeitig. Damit ergibt sich eine Gesamtbandbreite von 5,96 GByte/s. Zum Vergleich: Der Pentium 4 mit 800 MHz FSB
erlaubt ebenfalls einen maximalen Datendurchsatz von 5,96 GByte/s – aber nicht
in beiden Richtungen gleichzeitig.
Den Server-Prozessoren der Opteron-800-Serie spendiert AMD gleich drei HyperTransport-Schnittstellen. In Multiprozessorsystemen koppelt HyperTransport
die CPUs direkt miteinander. Ohne zusätzlichen Chipsatz lassen sich damit bis zu
acht Opterons zusammenschalten. AMD nennt dieses Verfahren „Glueless Multiprocessing“. Über das HyperTransport-Interface läuft der gesamte Datenverkehr
der Hammer-Prozessoren und des integrierten Memory Controller.
Damit vermeidet die AMD64-Architektur den Flaschenhals Northbridge, wie er
sich in der Intel-Architektur findet. Dadurch würde sich ein Opteron-basierter
Rechner zumindest in der Theorie eigentlich ideal für den Server-typischen Einsatz mit hohen I/O-Lasten eignen. Ob dem auch in der Praxis so ist, haben wir in
mehreren Testserien mit Dual- und Quad-Opteron-Systemen erprobt.
3.4.1 Newisys 2100
Kurz vor Ostern 2003 traf frisch aus dem texanischen Austin das erste Testmuster
eines Dual-Opteron-Rechners bei tecCHANNEL ein. Trotz der 1HE-Ausführung
lässt sich der Newisys 2100 (alias „Kephri“) nicht wirklich als Pizzabox umschreiben: Bei einer Gehäusetiefe von stolzen 73 Zentimetern passt der Server bei
weitem nicht in jedes Rack.
162
www.tecChannel.de
AMD Opteron im Server-Einsatz
Neben zwei mit 1800 MHz getakteten CPUs des Typs Opteron 244 bringt das
Testsystem 2 GByte Registered DDR-333-SDRAM sowie zwei als Mirror Set
konfigurierbare 36-GByte-Festplatten mit Ultra320-SCSI-Interface mit. Neben
dem für die Harddisks zuständigen SCSI-Controller von LSI Logic finden sich auf
dem Board integriert auch noch ein Trident-Grafikchip sowie zwei 100/1000Mbit/s-Ethernet-Controller von Broadcom. Zwei über getrennte Busse angesteuerte PCI-X-Slots stehen für Erweiterungskarten parat (eine darf volle, die andere
nur halbe Baulänge haben).
Aufgeräumt: Das Innenleben des Opteron-Testrechners präsentiert sich übersichtlich. (Quelle: tecCHANNEL)
Für Management-Angelegenheiten zeichnet ein eigener Service-Prozessor verantwortlich, der unter anderem die zahlreichen Temperatur-, Spannungs- und Lüftersensoren des Boards überwacht. Er lässt sich per HTTPS mit SSL-Verschlüsselung über eine eigene Fast-Ethernet-Schnittstelle ansprechen, so dass sich die
Maschine Security-konform in ein gesichertes Management-Teilnetz einbinden
lässt. Über das Verwaltungs-Interface kann der Administrator bei Bedarf auch den
Server herunterfahren oder neu starten.
3.4.2 Die Konkurrenz
AMD positioniert den Opteron trotz seiner 64-Bit-Fähigkeiten als Konkurrenz zu
Intels Xeon-CPU – eine Einschätzung, die auch Intel durchaus teilt. Daher lassen
wir den Newisys gegen zwei P4-Xeon-Konkurrenten antreten: Den Einstiegs-Server x225 von IBM und den Abteilungs-Server PowerEdge 4600 von Dell.
webcode: p1261
163
Server
Feld, Wald, Wiese: Der IBM xSeries 225 ist als
Allround-Maschine für kleinere Benutzerzahlen
gedacht. (Quelle: tecCHANNEL)
Unser Testsystem IBM xSeries 225 bringt zwei Xeon-Prozessoren mit 2,40 GHz
Taktrate und 2 GByte Dual-Channel-DDR266-SDRAM mit. Als Massenspeicher
werkelt eine einzelne Ultra320-SCSI-Disk, immerhin hätten aber sechs Stück im
Gehäuse Platz. Grafik- und 100/1000-Mbit/s-Ethernet-Controller finden sich auf
dem Board, für Erweiterungen stehen ein PCI-32- und vier PCI-64-Steckplätze
zur Verfügung. Typische Server-Features wie Management-Chipsatz, zugriffsgeschützte Laufwerke oder redundante Komponenten lässt der x225 vermissen. Zu
dieser Workstation-Anmutung passt auch der für einen Server absolut ungewöhnliche AGP-Slot auf dem Board.
Arbeitstier: Als robuster Lastesel für mittlere Arbeitsgruppen positioniert sich der mit redundanten
Komponenten operierende Dell PowerEdge 4600.
(Quelle: tecCHANNEL)
Der Dell PowerEdge 4600 stellt das absolute Komplement dazu dar. Als robuster
Arbeitsgruppen-Lastesel ist er mit einem ServerWorks-Management-Chipsatz
und zahlreichen High-Availability-Merkmalen, wie etwa redundanten Netzteilen,
ausgestattet. Ein Zweikanal-RAID-Controller bedient bis zu zehn Ultra320-SCSI164
www.tecChannel.de
AMD Opteron im Server-Einsatz
Disks mit maximal knapp 1,5 TByte Nennkapazität. Sieben PCI-Steckplätze, davon sechs in PCI-X-Ausführung, nehmen Erweiterungen auf. Für reichlich Rechenleistung sollen zwei mit 2800 MHz getaktete Xeon-CPUs sorgen, die in unserem Testsystem auf 4 GByte Registered DDR200-Speicher zugreifen können.
3.4.3 AMD Quartet
Zwar gab AMD bereits im Juni 2003 die Verfügbarkeit der Opteron-800-Series –
also seiner 8-Wege-fähigen 64-Bit-CPUs – bekannt, entsprechende Systeme lassen jedoch auf sich warten. Dies ist um so bedauerlicher, als sich 2-Wege-Server
im Pizzabox-Format wie der Newisys 2100 Kephri zwar hervorragend für Clustering- und Load-Balancing-Lösungen eignen, für den Arbeitsalltag als Workgroupoder Departmental-Lastesel aber einfach zu wenig Substanz mitbringen.
Lastesel: Der Quartet präsentiert sich
Server-typisch in einem robusten Edelstahlgehäuse im klassischen 19-Zoll/
4-HE-Format. (Quelle: tecCHANNEL)
Mit einem auf den schlichten Namen „Quartet“ hörenden 4-Wege-System zeigte
AMD jedoch im September 2003, wie ein für den klassischen Unternehmenseinsatz geeignetes Opteron-System aussehen könnte. Der Quartet präsentiert sich
Server-typisch in einem robusten Edelstahlgehäuse im klassischen 19-Zoll/4-HEFormat. Neben den vier Prozessoren des Typs Opteron 844 mit 1,8 GHz Taktfrequenz finden darin auch bis zu vier Platten und maximal sechs Erweiterungskarten voller Baulänge Platz. Bei den dazugehörigen Steckplätzen handelt es sich um
drei PCI-X-66MHz/64-Bit-Slots, zwei Hot-plug-fähige PCI-X-Slots in 133-MHz/
64-Bit-Ausführung sowie einen Legacy-Steckplatz für 33-MHz/32-Bit-Karten.
Unser Testsystem bringt in den 16 zur Verfügung stehenden Memory Slots 8
GByte Registered DDR-333-SDRAM mit. Für die Ansteuerung der Festplatten
verfügt der Quartet über einen onboard integrierten Ultra320-SCSI-RAID-Controller (LSI 53C1030) mit zwei Kanälen. Die Backplane für die vier in Shuttles
gelagerten Platten steuert ein SAF-TE-fähiger Enclosure Management Controller
von Qlogic (SDR GEM318P). Wer‘s schlichter mag oder eine klassische Konfiguration mit getrennter Bootplatte aufsetzen will, findet aber auch einen UDMA133-EIDE-Port auf dem Board.
webcode: p1261
165
Server
3.4.4 Innenleben und Bedienung
Das 66 Zentimeter tiefe und damit in die meisten Racks problemlos integrierbare
Metallgehäuse des Quartet hat AMD in zwei separate Compartments unterteilt.
Sie werden jeweils durch ein von oben leicht zugängliches, mit Schnappern fixiertes Abdeckblech verschlossen. Komponentenwechsel oder das Nachrüsten von
Steckkarten lassen sich daher in wenigen Sekunden erledigen.
Durchzug: Allein im System-Compartment sorgen acht Ventilatoren für die Belüftung von
Board und CPUs. (Quelle: tecCHANNEL)
Ein schmales Abteil auf der linken Gehäuseseite nimmt die in Shuttles gelagerten
Festplatten – in unserem Fall vier Seagate Cheetah 15K.3 (je 36,7 GByte, 15.000
U/min) und die dazugehörige Backplane auf. Zwei hinter der Backplane residierende Lüfter stellen die Kühlung der Platten sowie der im Anschluss an den Storage-Bereich untergebrachten PCI/PCI-X-Erweiterungskarten sicher.
Im großzügigen rechten Compartment befindet sich die Systemplatine mit den
vier Opteron-CPUs sowie den zahlreichen Onboard-Komponenten. Vier Lüfter –
zwei im Saugbetrieb an der Vorderseite, zwei im Blasbetrieb an der Rückwand –
sorgen für großzügige Durchströmung des Gehäuses mit Kühlluft. Vier weitere
Ventilatoren beatmen darüber hinaus nach demselben Prinzip die in Zweiergruppen platzierten Prozessoren direkt. Trotz der zahlreichen Luftschaufler – insgesamt zählen wir neun – hält sich das Betriebsgeräusch des Rechners in Grenzen.
Auch außen am AMD Quartet gibt es einiges zu sehen – speziell an seiner Vorderseite. Linkerhand findet sich der Storage-Bereich mit den vier 3,5-Zoll-Diskshuttles sowie einem kombinierten Floppy/CD-ROM-Laufwerk im Slimline-Format. Rechts daneben liegen zugangsfreundlich die Anschlüsse für Maus und Tastatur sowie für den Monitor.
166
www.tecChannel.de
AMD Opteron im Server-Einsatz
Für externe Plug-and-Play-Komponenten bietet der Quartet hier außerdem ein
USB-1.1-Interface an. Im rechterhand platzierten Bedien- und Kontrollbereich
finden sich versenkte Power- und Reset-Taster sowie fünf LEDs. Sie signalisieren
den Betriebszustand der Stromversorgung, der Festplatten sowie der zwei Gigabit-Ethernet-Interfaces des Quartet. Bei der fünften Diode handelt es sich um eine
Fault-Anzeige. Falls diese aufleuchtet, ist vermutlich eines der beiden auf der Gehäuserückseite untergebrachten, redundanten Netzteile ausgefallen. Es kann dann
aber im laufenden Betrieb gewechselt werden.
Außer den beiden Stromversorgungen gibt es auf der Rückseite des Quartet nicht
allzu viel zu sehen. An Anschlüssen stehen der externe Kanal des Ultra320-SCSIControllers, eine RS232-Schnittstelle sowie vier RJ45-Ports parat. Bei zwei davon handelt es sich um die beiden Gigabit-Netzwerk-Interfaces des Quartet, dazu
kommt ein weiterer 10/100-Mbit-NIC-Port. Die vierte Netzwerkbuchse soll einmal das – bei unserem Testrechner jedoch noch nicht implementierte – Management-Interface versorgen.
3.4.5 Die Testumgebung
Auf allen Testrechnern installieren wir als Betriebssystem die aktuelle Variante
des SuSE Linux Enterprise Server 8 (kurz: SLES8) für x86. Für die 64-Bit-Tests
auf den Opteron-Systemen kommt der SLES8 für AMD64 zum Einsatz. Somit
können wir auf allen Maschinen des Testfelds in identischer 32-Bit-Betriebssystemumgebung sowie auf den Opteron-Rechnern unter nahezu quellidentischem
32- und 64-Bit-OS testen.
Als Benchmarks verwenden wir eine Reihe von quelloffenen Testsuiten, mit denen sich die Performance unter mittleren bis hohen Systemlasten prüfen lässt.
Eine portierte Variante des bekannten Byte-Benchmarks stellt unixbench dar, aus
dessen Fundus wir einige multiprozessorfähige Tests auswählen. Aus dem Werkzeugkasten der Samba-Entwickler stammt dbench, das unter Verwendung gescripteter Netzwerkdaten den Zugriff hoher Client-Zahlen auf das Filesystem simuliert. Zur Ermittlung grundlegender Bandbreitendaten setzen wir den lmbench
ein. Für die Messung von Lastdaten im Multiuser-Betrieb dient die AIM Suite VII
aus den AIM-Benchmarks von SCO.
Alle Benchmarks kompilieren wir unmittelbar auf den Zielplattformen, was speziell bei den AIM-Benchmarks etwas Nacharbeit am Code erfordert, um einen
fehlerfreien Ablauf zu garantieren. Des Weiteren entfernen wir aus den Suites
Harddisk-spezifische Benchmarks, um die nicht ganz identische Ausstattung der
Testsysteme zu kompensieren. Den mit doppelt so viel RAM wie die OpteronKonkurrenz Kephri ausgestatteten Dell PowerEdge 4600 beschränken wir per
Kernel-Bootparameter auf die Verwendung von 2 GByte Speicher. Vor jedem
Testlauf starten wir die Rechner neu, um Speicher und Filesystem von etwaigen
Überbleibseln des vorherigen Benchmarks zu säubern.
webcode: p1261
167
Server
3.4.6 AIM Suite VII
Als Benchmark für die Verarbeitung hoher Prozesslasten – eine natürliche Domäne jedes Servers – dient uns die AIM Suite VII von SCO. Sie arbeitet eine gemischte Arbeitslast von rund 60 Tests aus den Bereichen Arithmetik, I/O, Prozessgenerierung und Filesystem-Handling ab. Dabei misst sie die Anzahl der verarbeiteten Aufgaben pro Minute. Die festplattenspezifischen Tests der Suite haben wir
ausgeklammert: zum einen, um die unterschiedliche Ausstattung der Testrechner
zu kompensieren; zum anderen, um gezielt die CPU-Leistung zu ermitteln.
© tecCHANNEL
Opteron weit vorn: Bei
der Verarbeitung hoher
Prozesslasten deklassiert der Opteron die
höher getakteten Xeons
deutlich.
Das Ergebnis fällt mehr als deutlich aus. Sowohl im 32- als auch im 64-Bit-Modus
hängt der Dual-Opteron die Xeon-Konkurrenz über den ganzen Messbereich hinweg klar ab. Während sich bei den Xeon-Maschinen ab 48 parallelen Tasks die
Leistung langsam zu nivellieren beginnt, steigt beim Newisys Kephri die Leistungskurve auch mit höherer Aufgabenlast weiter an.
Ein Dauertest, bei dem die Systeme bis zu 512 parallele Tasks abarbeiten müssen,
belegt den Newisys 2100 für knapp 38 Stunden mit Beschlag; die zwei Xeons des
Dell PowerEdge 4600 werkeln mehr als doppelt so lange. Hier erschöpfen sich die
Leistungsreserven des Dual-Xeon-Rechners wesentlich früher: Bei mehr als 178
parallelen Tasks erzielt er keinen Leistungszuwachs mehr und pendelt sich bei
rund 4500 Jobs/Minute ein. Der Dual-Opteron dagegen legt im Test noch bis 298
Tasks an Performance zu und verarbeitet maximal knapp 9500 Jobs je Minute.
„Was die Skalierbarkeit angeht, sollte der Quartet relativ gut performen“, so hatte
AMD-Pressesprecher Jan Gütter uns den 4-Wege-Opteron vorab unbescheiden
angekündigt. Und dabei keineswegs den Mund zu voll genommen, wie die Ergeb-
168
www.tecChannel.de
AMD Opteron im Server-Einsatz
nisse der AIM Suite VII zeigen. Von Overhead-Effekten beim Einsatz von vier
Prozessoren gegenüber zwei im Vergleichssystem Newisys 2100 ist bei AMDs
Quartet-Server nichts zu spüren.
Skaliert perfekt: Mit doppelt
so vielen Prozessoren ausgestattet wie sein kleinerer
Bruder von Newisys, arbeitet
der Quartet hohe Prozesslasten auch entsprechend schneller ab.
© tecCHANNEL
Der Quartet verarbeitete die gestellten Aufgaben tatsächlich doppelt so schnell
wie der 2-Wege-Server. Während der Dual-Opteron-Rechner zudem ab etwa 250
parallelen Tasks nicht mehr an Geschwindigkeit zulegt, weist die Messkurve des
Quartet an derselben Stelle immer noch nach oben.
Beim Einsatz von Opteron-846-CPUs (2,0 statt 1,8 GHz) kann der Quartet noch
einmal rund fünf Prozent an Leistung zulegen. Die höhere Taktrate lässt sich also
nicht direkt in gleichermaßen höhere Performance umsetzen. Dies unterstreicht
die Tatsache, dass die guten Leistungswerte der AMD64-Prozessoren hauptsächlich der geschickten HyperTransport-Architektur zu verdanken sind.
3.4.7 lmbench
Warum der Opteron höhere Prozesslasten so gut abarbeitet, zeigen unter anderem
die Ergebnisse des lmbench. Dieser frei verfügbare, quelloffene Benchmark ermittelt verschiedenste Messdaten auf der untersten Systemebene, darunter auch
Timings zur Prozesserzeugung. Wie man hier erkennt, erledigt der Opteron einen
schlichten fork() mit folgendem exit() fast doppelt so schnell wie die Xeon-Systeme. Auch kompliziertere Prozessaufrufe arbeitet er generell deutlich schneller ab
als die höher getakteten Xeons. Auch bei einem fork() in die Shell operiert der
AMD-Prozessor immer noch gut 20 Prozent zügiger als die Intel-Konkurrenz.
webcode: p1261
169
Server
© tecCHANNEL
Schneller Opteron: Sowohl im 32- als auch im 64-Bit-Betrieb erledigt der Opteron Prozessaufrufe deutlich schneller als seine Intel-Konkurrenten.
3.4.8 unixbench
Das bisher entstandene Bild untermauert der Test mit unixbench. Bei dieser Suite
handelt es sich um eine Portierung des bekannten Byte-Benchmarks für LinuxSysteme. Neben zahlreichen Tests atomarer Operationen bringt unixbench einige
Messreihen mit, die auch SMP-Systeme unter Last setzen. unixbench gibt die Ergebnisse als Anzahl der verarbeiteten Zeilen pro Zeiteinheit aus.
Hier ist der Opteron 244 bei der Erzeugung einfacher Prozesse ebenfalls deutlich
flinker als die Xeon-CPUs. Bei Shell-Aufrufen mit einem, acht und sechzehn konkurrierenden Aufgaben hängt AMD die Konkurrenz nicht mehr ganz so deutlich
ab, erzielt jedoch immer noch einen Performance-Vorsprung von 25 bis 30 Prozent. Einige der weiteren Benchmarks aus der unixbench-Suite demonstrieren,
dass 64 Bit nicht zwangsläufig schneller sein muss als 32 Bit. Beim Pipe-basierten
Umschalten des Kontexts beispielsweise fällt der Opteron im 64-Bit-Modus auf
Grund des höheren Overheads hinter die 32-Bit-Variante zurück.
Ein Paradebeispiel für arithmetische Tests bietet die Berechnung der Quadratwurzel von 2 auf 99 Stellen hinter dem Komma. Der mit einem 2,8 GHz schnellen
Prozessor getaktete Dell PowerEdge 4600 erledigt diese Aufgabe zügiger als der
IBM x225 mit 2,4-GHz-CPUs. Schon im 32-Bit-Betrieb kann der Opteron 244
allerdings beide toppen. Mit 64 Bit legt er hier noch einmal ein Drittel an Geschwindigkeit zu.
170
www.tecChannel.de
AMD Opteron im Server-Einsatz
© tecCHANNEL
Ein Viertel schneller: Auch im unixbench überflügelt AMDs 1,8-GHz-Opteron die mit 2,4 und
2,8 GHz getaktete Intel-Konkurrenz.
© tecCHANNEL
© tecCHANNEL
Gemischte Lasten: Je nach Aufgabenstellung arbeitet der Opteron atomare Aufgaben um 20
oder mehr Prozent schneller ab als die Xeons.
webcode: p1261
171
Server
Ähnlich, wenn auch nicht mit ganz so dramatischem Geschwindigkeitsvorteil für
den Opteron, sieht es beim Abarbeiten gemischter Arbeitslasten aus. Beim Durchsatztest mit dem C-Compiler überflügelt der Opteron 244, egal in welchem Modus, die Xeons aber immer noch um gut 20 Prozent.
3.4.9 dbench
Aus der Feder des Samba-Entwicklers Andrew Tridgell stammt die dbench-Testsuite. Das Samba-Team benutzt die Suite, um das Lastverhalten des Filesystems
im Allgemeinen sowie des Samba-Servers im Speziellen zu untersuchen.
Für unseren Test lassen wir die Samba-spezifischen Teile der Suite außer Acht und
verwenden lediglich dbench selbst. Mit gescripteten Anfragedaten aus einem echten netbench-Testlauf simuliert er den Zugriff vieler Clients auf das I/O-System.
Das hat den Vorteil, das Filesystem unter hohe Lasten setzen zu können, ohne
dazu Hunderte von Clients zu installieren.
Auch in diesem Test sorgt der Newisys 2100 für eine angenehme Überraschung.
Bei parallelen Anfragen sehr vieler Clients bleibt das Dual-Opteron-System responsiv und erzielt dramatisch höhere Datendurchsätze als die Xeon-Rechner.
Das gilt sowohl für den Betrieb im 32-Bit-Modus als auch bei Verwendung der
64-Bit-Spielart. Bei dem CPU-lastigen Test schneiden die beiden Xeon-Varianten
von Dell und IBM in etwa gleich ab: Zwar sind die CPUs des PowerEdge 4600
höher getaktet, sie werden jedoch durch langsameren Speicher (DDR200 anstatt
DDR266 beim IBM x225) gebremst.
Schneller I/O: Auch bei
Anlegen hoher I/O-Lasten
unter dbench weist das
Opteron-System eine
wesentlich höhere Leistung
auf als die Xeon-Server.
© tecCHANNEL
172
www.tecChannel.de
AMD Opteron im Server-Einsatz
Die Messwerte der Zwei- und Vierprozessor-Opteron-Systeme sind hier nicht direkt vergleichbar, da der Newisys lediglich mit 2 GByte Hauptspeicher bestückt
ist, während der Quartet mit 8 GByte operieren kann.
Wesentlich interessanter als die nummerischen Werte ist hier ohnehin der Verlauf
der Leistungskurve: Beim Dualprozessorsystem war relativ früh der Sättigungspunkt erreicht. Der Quartet dagegen kann bis zu 200 simulierte User gleichzeitig
bedienen, bevor die Leistungskurve langsam abzuflachen beginnt. Auch der
schnellere Opteron-846 bewältigt diese lastintensive Aufgabe nicht merklich
schneller als der Opteron-844.
Für hohe Benutzerzahlen:
Der 4-Wege-Opteron
bedient im dbench-Testlauf
problemlos mehrere hundert simulierte NetzwerkClients.
© tecCHANNEL
3.4.10 Fazit
AMDs Entscheidung, seine Hammer-Architektur zuerst einmal in der Server-Variante auf den Markt zu bringen, erweist sich im Nachhinein in zweifacher Hinsicht als richtig. Zum einen spielt der Sledgehammer alias Opteron offensichtlich
gerade im Betrieb als Server-Plattform seine Vorzüge ideal aus. Zum anderen
kann der Opteron schon mit der relativ niedrigen Taktrate von 1,8 GHz in diesem
Segment mit seinen architektonisch bedingten Vorteilen der wesentlich höher getakteten Intel-Konkurrenz Paroli bieten.
Unabhängig von der Taktrate bietet der Opteron gerade im Server-Einsatz einen
entscheidenden Vorteil, den die Konkurrenz derzeit nicht kontern kann. Anders
als Intel nagelt AMD den Anwender mit der Systemarchitektur nicht auf eine Entscheidung für 32 oder 64 Bit fest, sondern lässt alle Wege offen. Schon als 32-BitServer-CPU weist der Opteron den Intel-Konkurrenten Xeon in die Schranken.
webcode: p1261
173
Server
Daneben offeriert er jedoch auch ein nahtloses Upgrade in die 64-Bit-Welt: Je
nach Bedarf kann man die AMD-CPU auch im 64-Bit-Betrieb mit 32-Bit-Applikationen füttern oder komplett auf das neue Format umstellen.
Mit dem Quartet-Server demonstriert AMD zudem eindrucksvoll die exzellente
Skalierbarkeit seiner 64-Bit-Plattform. Gleichzeitig zeigt das System auf, dass robuste und schnelle Server-Systeme für den Arbeitsgruppen- und Abteilungseinsatz nicht zwangsläufig ausschließlich Intels Domäne sein müssen. Es bleibt zu
hoffen, dass in näherer Zukunft auch zunehmend OEMs und Distributoren zu dieser Erkenntnis gelangen und man AMDs leistungsfähige 64-Bit-Systeme nicht
mehr wie die Stecknadel im Heuhaufen suchen muss.
Bislang offerieren hier zu Lande nur eine Handvoll mittlerer und kleiner Anbieter
(wie beispielsweise Dämo, Delta Computer, FMS, Kirtz, ico, sysGen, transtec)
Opteron-basierte Server. Die großen Anbieter dagegen halten sich vornehm zurück. Rühmliche Ausnahme: IBM mit dem Ende November in Europa offiziell
gelaunchten eServer 325.
Jörg Luther
tecCHANNEL-Links zum Thema
Webcode
Compact
AMD Opteron im Server-Einsatz
a1261
S.162
Test: Athlon 64/FX vs. P4 Extreme Edition
a1244
–
Test: Opteron 246 mit 2,0 GHz
a1235
–
Test: Opteron 244 mit 1,8 GHz
a1164
–
Dauertest: Opteron 244 als Server
p1163
–
Alle Details zur AMD64-Architektur
p1022
–
HyperTransport im Detail
p1000
–
Grundlagen: Multiprocessing
p693
–
Prozessorgrundlagen
p375
–
Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de
ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren.
174
www.tecChannel.de
Meinung
3.5 Meinung
Grundsatzfrage: Mit dem Server auf 64 Bit umsteigen – muss das denn sein?
Nein, muss es nicht – falls Ihr Einsatzszenario nicht über File&Print, Mail und
Web hinausgeht. Alle gängigen NOS werden auch weiter die 32-Bit-Architektur
unterstützen. Sie können also heute durchaus einen neuen IA-32-Rechner anschaffen und problemlos bis zur kompletten Abschreibung betreiben.
Zukunftsfrage: Bei 32-Bit-Technik stehen bleiben – macht das Sinn?
Ja – falls Sie auf die Intel-Architektur setzen. Zum einen ist Intels 64-Bit-CPU
Itanium zu teuer, um als „Nur-für-den-Fall“-Prozessor im Server einen 32-bittigen Dornröschenschlaf zu schlummern. Zum anderen bewältigt Intels Vorzeigeobjekt den 32-Bit-Betrieb nur mit erheblichen Leistungsabstrichen. Der Einsatz
von 32-Bit-Software auf dem Dickschiff macht also kaum Sinn. Soll auf Ihrem
Server Linux oder BSD laufen, kommt ein weiterer Gesichtspunkt hinzu: Um die
Stärken der Itanium-CPU ausreizen zu können, muss die Software auch mit einem
(nicht ganz billigen) Intel-Produkt kompiliert werden. Der Intel-Compiler wiederum optimiert nur für Intel-Produkte, andere Architekturen bleiben außen vor. Das
Marketing aus Santa Clara rühmt diese Taktik vollmundig als revolutionäres „Intel Ecosystem“. Tatsächlich handelt es sich schlicht um ein proprietäres System.
Gretchenfrage: Muss ich mich wirklich zwischen 32 und 64 Bit entscheiden?
Nein, müssen Sie nicht. Die AMD64-Architektur ermöglicht ein Sowohl/Alsauch. Die in Zwei- und Vier-Wege-Varianten verfügbaren Server auf Basis von
AMDs Opteron verarbeiten 32-Bit-Software ebenso gut wie 64-Bit-Applikationen. Unter einem 64-Bit-OS ist ein Mischbetrieb von 32/64-Bit-Anwendungen
ohne Leistungseinbußen möglich. Wie Tests bei tecCHANNEL, aber auch in anderen Fachpublikationen gezeigt haben, muss sich ein Opteron-System weder im
32- noch im 64-Bit-Einsatz vor der Intel-Konkurrenz verstecken. Dennoch liegt
der Anschaffungspreis deutlich unter dem eines vergleichbaren Itanium-Systems.
Zudem ist kein spezieller Compiler notwendig, ein schlichter gcc genügt. Dies
bietet gerade unter Open-Source-OS einen entscheidenden Vorteil.
Glaubensfrage: Intel oder AMD?
Jenseits der Technik stellt sich bei der Auswahl einer Server-Plattform aber eine
weitere Frage: die der Investitionssicherheit. Kann sich der David AMD gegen
den Goliath Intel behaupten? AMD ist sich dessen so sicher, dass es gerade für gut
2,5 Milliarden Euro eine zweite CPU-Fab in Dresden baut. Auch IBM setzt auf
die Möglichkeiten der Architektur – und ergänzt die Server-Palette um eine eSeries-Reihe mit Opteron-Systemen. Das Risiko bei der Entscheidung für den Opteron scheint also gering. Als Vorteile winken bei moderaten Anschaffungskosten
eine innovative, I/O-starke Server-Architektur und nahtloser 32/64-Bit-SoftwareBetrieb je nach Bedarf. Ich meine: ein echter No-Brainer. Was meinen Sie?
Jörg Luther, Redakteur Software & Netzwerke
www.tecChannel.de
175
Netzwerk
4. Netzwerk
Wireless LANs mit 54 Mbit/s schießen mittlerweile wie Pilze aus dem Boden.
Anhand eines Vergleichstests untersuchen wir, welcher der beiden konkurrierenden Standards 802.11a und 802.11g sich für welche Verwendung eignet. DSLRouter bieten mehreren PCs preiswerten Internet-Zugang und Schutz vor Attacken aus dem Web. Wir zeigen, welche Features Sie für welchen Einsatzzweck
benötigen. Über DSL-Verbindungen lassen sich übrigens nicht nur schnöde Daten transferieren: Technologien wie VoIP und MPEG4 ermöglichen parallel die
Nutzung von Telefonie und Video. Der letzte Teil unseres Netzwerk-Kapitels fasst
zusammen, welche Hürden dabei noch zu überwinden sind.
4.1 Shootout: 802.11a vs. 802.11g
Die Qual der Wahl hat, wer dieser Tage ein Wireless LAN einkaufen muss.
Ihm fliegt nicht nur ein ganzes Alphabet an Standards von 802.11a bis 802.11i
um die Ohren. Er muss sich vor allem zwischen den zwei Konkurrenztechnologien 801.11a und 802.11g entscheiden, die in völlig unterschiedlichen Frequenzbändern arbeiten.
Beide Technologien warten mit immanenten Vorteilen auf, bringen aber auch spezifische Einschränkungen mit. Doch wie sieht das Ganze im praktischen Einsatz
aus? Dieser Frage ist tecCHANNEL im vorliegenden Test auf den Grund gegangen. Dabei haben wir die Tatsache genutzt, dass die Industrie mittlerweile DualBand/Triple-Mode-Systeme anbietet, die bei gleicher Hardware sowohl im 2,4GHz-Band (802.11b/g) als auch auf den 5-GHz-Frequenzen (801.11a) arbeiten
können. Dies bietet die Möglichkeit, die Tests für die beiden Frequenzbereiche
auf derselben Hardware vornehmen zu können. Damit fallen unterschiedliche
Systemkonstruktionen als Fehlerquelle aus: Die Ergebnisse spiegeln also direkt
den Leistungsunterschied der beiden Technologien wider.
4.1.1 Frequenzfragen
Das klassische Frequenzband für drahtlose Netze ist das ISM-Band im 2,4-GHzBereich. Das Kürzel steht für „Industrial, Scientific, Medical“; für derartige Anwendungen wurden die entsprechenden Frequenzen ursprünglich einmal international freigegeben. Dies schließt die Nutzung innerhalb und außerhalb von Gebäuden ein. Solange die Funkstrecken über eigenem Gelände verlaufen, ist die
Nutzung nach deutschem Recht sowohl anmelde- als auch gebührenfrei.
Im ISM-Band operieren neben Geräten nach den Standards 802.11b und 802.11g
allerdings auch zahlreiche weitere Funktechnologien, deren bekannteste wohl
Bluetooth ist. In Folge der hohen Akzeptanz der Technologie tummeln sich im
176
www.tecChannel.de
Shootout: 802.11a vs. 802.11g
2,4-GHz-Bereich nicht nur immer mehr Funknetze, sondern auch drahtlose Lautsprecher oder Tastaturen übermitteln hier ihre Daten. Außerdem kommen neben
Funksendungen anderer WLANs auf der 2,4-GHz-Frequenz auch Mikrowellen
und sogar Leuchtstoffröhren-Starter als potenzielle Störquelle in Frage.
Die drangvolle Enge wird durch die Tatsache verschärft, dass in dem schmalen
Frequenzband nur drei Kanäle zum konkurrierenden Betrieb zur Verfügung stehen. Das erschwert sowohl das Ausweichen bei Störungen als auch die Versorgung großer Benutzerzahlen über entsprechend dicht gepackte Access Points.
Der 5-GHz-Bereich, in dem 802.11a-Systeme operieren, wird von der Industrie
gern als Allheilmittel gegen die drangvolle Enge des ISM-Bands angepriesen.
Auch er weist bei näherem Hinsehen allerdings einige Nachteile auf. Die Einschränkungen resultieren einerseits aus schlichter Physik, andererseits aus den
rechtlichen Rahmenbedingungen.
802.11-Varianten im Überblick
802.11a
802.11h
802.11g
802.11b
Status
Standard
Draft (Std
Q1/04?)
Standard
(seit 12.6.03)
Standard
Frequenzband
(MHz)
5150-5350,
5725-5825
5150-5350,
5725-5825
2400,02483,5
2400,02483,5
Datenrate
brutto (Mbit/s)
54
54
54
11
Datenrate netto 32
(Mbit/s)
28
32
5
Sendeleistung
[RegTP] (mW)
30
200
100
100
Reichweite
(ca., m)
10 bis 15
30 bis 50
30 bis 50
30 bis 50
Einsatz [RegTP] indoor
indoor
indoor,
outdoor
indoor,
outdoor
Spektrum
300 MHz
83,5 MHz
83,5 MHz
Kanäle [RegTP] 8
300 MHz
8
3
3
Zugriffsverfahren
CSMA/CA
CSMA/CA,
RTS/CTS
CSMA/
CA,RTS/CTS
CSMA/CA
Multicasting
ja
ja
ja
ja
QoS
zukünftig
zukünftig
zukünftig
nein
PHY
OFDM
OFDM mit
DFS
CCK/OFDM,
CCK/DSSS
CCK/DSSS
Link-Kontrolle
nein
TPC
nein
nein
webcode: a1287
177
Netzwerk
Durch die Nutzung der höheren Frequenz ergeben sich zwangsläufig auch eine
höhere Dämpfung sowie eine starke Anfälligkeit gegen Rauschen, Abschattungen
und andere parasitäre Effekte. Beides verteuert die Nutzung der 5-GHz-Technik:
Die geringere Reichweite erzwingt die Dislozierung einer entsprechend höheren
Zahl von Access Points, um eine gleiche Abdeckung zu erreichen. Die Störeffekte
lassen sich durch technische Maßnahmen in den Griff bekommen, die jedoch wiederum die Kosten der Komponenten für 5-GHz-Funknetze erhöhen.
Andererseits bieten 5-GHz-WLANs selbst nach den strengen deutschen Regulatorien ein sehr breites Frequenzband zur Nutzung an. Bei 802.11a/h stehen dadurch acht statt wie bei 11b/g nur drei parallele Kanäle zur Verfügung. In großen
Funknetzen, in denen auf Grund hoher Benutzerzahlen die Access Points ohnehin
dicht gepackt werden müssen, erweist sich das als Vorteil.
4.1.2 Testkonfiguration
Der Test erfolgt im Infrastruktur-Modus. Access Point und LAN-Messstelle (Pentium-III/1GHz, 384 MByte RAM, 3Com 3C905-C, Windows XP Pro SP1) arbeiten dabei an einem 10/100-Mbit/s-Switch (Compex DS-2216). Als mobile Messstation kommt ein Dell Precision M60 (Pentium-M/1,6GHz, 512 MByte RAM,
Windows XP Pro SP1) zum Einsatz.
Als Werkzeug zur Durchsatzmessung verwenden wir NetCPS 1.0 von Jarle Aase.
Die Freeware stellt eine dezidierte TCP/IP-Verbindung (TCP, Port 4455) zwischen zwei Rechnern her und überträgt eine Datenmenge von 100 MByte.
Dabei ermittelt das Programm im Sekundentakt mit einer Auflösung von 1 ms die
Anzahl der übertragenen Bytes. Zusätzlich hält es die maximal erzielte Durchsatzrate fest und berechnet anhand der Übertragungsdauer die durchschnittliche
Geschwindigkeit der Verbindung.
Alle Messungen erfolgen im dritten Obergeschoss eines Bürogebäudes entlang
eines in Ost-West-Richtung verlaufenden Flurs. Der Access Point befindet sich in
einem am westlichen Ende dieses Flurs angeordneten Büro.
Wir nehmen von fünf im Büro und entlang des Flurs angeordneten Standorten aus
Durchsatzmessungen vor. Dabei messen wir in jeweils drei Läufen die Durchsatzrate in den Modi 802.11g, 802.11a und 802.11a-Turbo. Die erzielten Ergebnisse
mitteln wir.
Die erste Messung nehmen wir im selben Raum vor, in dem sich der Access Point
befindet. Die Distanz beträgt dabei fünf Meter. Der zweite Messpunkt liegt in einem nebenliegenden Raum in einer Distanz von ebenfalls fünf Metern zum Access Point. Dabei liegt zwischen AP und Client eine holzverschalte Trennwand,
deren oberes Drittel verglast ist. Messpunkt 3 befindet sich in zehn Meter Abstand
zum Access Point, in der Sichtlinie befinden sich wiederum eine holzverschalte
Trennwand sowie eine Ziegelwand.
178
www.tecChannel.de
Shootout: 802.11a vs. 802.11g
Der vierte Messpunkt liegt im Flur 15 Meter östlich vom Access Point. Diesmal
sind drei dazwischenliegende Wände zu überwinden: je eine mit Holzverschalung, aus Rigips und aus Ziegeln.
Das gilt auch für den nächsten Messpunkt, der jedoch im Abstand von 20 Metern
zum AP liegt. Der sechste und letzte Messpunkt befindet sich in 25 Metern Distanz zum Access Point in einem nach Norden abzweigenden Flur. Hier liegt gegenüber Messpunkt 4 noch eine weitere Rigipswand zwischen AP und Client.
4.1.3 Testgeräte
Als Access Point und die Wireless-LAN-Adapter für den WLAN-Client verwenden wir Produkte des ELSA-Nachfolgers LANCOM. Beim Access Point handelt
es sich um ein System des Typs LANCOM 3550, das derzeitige Flaggschiff aus
LANCOMs WLAN-Portfolio.
Das Power-over-Ethernet-fähige Gerät mit zwei Dualband-Diversity-Antennen
unterstützt den Einsatz sowohl im 2.4- als auch im 5-GHz-Band nach den Standards IEEE 802.11b (2,4 GHz / 11 Mbit/s), IEEE 802.11g (2,4 GHz, 54 Mbit/s)
und IEEE 802.11a (5 GHz, 54 Mbit/s). Da es auf dem AR5001X-Chipset von
Atheros basiert, kann es daneben auch noch mit einem 801.11a-Turbo-Mode mit
einer Brutto-Übertragungsrate von 108 Mbit/s aufwarten.
Alleskönner: Der LANCOM 3550
bietet bis zu zwei unabhängige Funkzellen nach IEEE 802.11a, b und g.
Zusätzlich betätigt er sich als xDSLRouter mit integrierter Firewall.
(Quelle: tecCHANNEL)
Über einen externen Cardbus-Slot bietet das LANCOM 3550 zudem die Möglichkeit, ein zweite unabhängige Funkzelle beliebiger Technologie zuzurüsten. Dabei
lassen sich beide Funkzellen je nach Einsatzzweck dezidiert als 802.11b, 802.11b/
g, 802.11g, 802.11a oder 802.11a-Turbo betreiben.
Zudem betätigt sich der 3550 auch als Router und bietet über eine zweite 10/100Mbit/s-Ethernet-Schnittstelle eine xDSL-Anschlussmöglichkeit. Dabei schützt
eine Stateful-Packet-Inspection-Firewall das interne Netz vor unerwünschten Zu-
webcode: a1287
179
Netzwerk
griffen. Als weitere Sicherheits-Features bietet der Access Point Authentifizierung
nach IEEE 802.1x, WEP-Verschlüsselung mit bis zu 128 Bit langen Keys sowie
auf Wunsch IPSec-VPN-Fähigkeiten.
Als Optionen zur Verwaltung des Access Point stehen ein Web-basiertes Interface
– wahlweise über HTTP oder HTTPS – sowie unter Windows LANCOMs komfortable und umfangreiche Verwaltungssuite LANTools zur Verfügung. Über
Letztere erfolgt auch die Einrichtung des Access Point. Dabei lassen sich alle Verbindungswege für das AP-Management einzeln für das lokale Netz, das drahtlose
Netz und entfernte Netze erlauben oder deaktivieren.
Schaltzentrale: Über das LANconfig-Werkzeug lassen sich alle Einstellungen des LANCOM
3550 komfortabel einrichten und konfigurieren.
Als Client-Adapter kommen LANCOM-Karten des Typs Airlancer MC54ag zum
Einsatz. Die Dual-Band/Triple-Mode-Karten unterstützen wie der Access Point
die Einsatzarten 802.11b, 802.11b/g, 802.11g, 802.11a und 802.11a-Turbo. Sie
bringen Treiber für alle Windows-Spielarten mit und unterstützen wie der Access
Point WEP-Encryption mit bis zu 128 Bit langen Schlüsseln. Einrichtung und
Konfiguration der Karten erfolgen unter Windows über einen einfach zu bedienenden, aber umfassenden „Client Manager“. Während des Betriebs lässt sich der
Verbindungszustand laufend mit einem „Client Monitor“ überwachen.
Linux- und Mac-OS-Benutzer haben allerdings schlechte Karten. Für den verwendeten Chipsatz bietet der Hersteller Atheros keine direkte Unterstützung dieser Betriebssysteme, und folglich kann auch LANCOM keine Treiber liefern.
180
www.tecChannel.de
Shootout: 802.11a vs. 802.11g
Für den Test laden wir die aktuellsten Software-Versionen (Stand: 9.12.2003) für
die Client-Adapter und den LANCOM 3550 vom LANCOM-Webserver. Damit
sind alle Komponenten auf dem neuesten Stand, insbesondere der Access Point
operiert mit der erst kurz vorher freigegebenen Firmware LC.OS 3.22.0007.
4.1.4 Testergebnisse
In der unten stehenden Grafik finden Sie einen Überblick über die ermittelten
Übertragungsgeschwindigkeiten. Dabei handelt es sich um durchschnittliche Netto-Durchsatzraten im unverschlüsselten Betrieb, also ohne WEP-Encryption. Für
die Ermittlung der Datenraten wurden sowohl Access Point als auch Client-Adapter jeweils dezidiert auf die jeweilige Übertragungsart (802.11g, 802.11a beziehungsweise 802.11a-Turbo) eingestellt.
Generell fällt die relativ niedrige Transferrate auf, die bei nominellen 54 respektive 108 Mbit/s nur etwa das Zweieinhalbfache der möglichen Netto-Transferrate
bei 11 Mbit/s beträgt. Dennoch erzielen die 54-Mbit-Betriebsmodi Datendurchsätze, die sich durchaus mit jenen in kabelgebundenen Netzen vergleichen lassen.
Dabei darf man jedoch nicht außer Acht lassen, dass sich die Stationen einer
Funkzelle die verfügbare Bandbreite teilen müssen.
Die 802.11a-Betriebsmodi zeigen sich in unserer Testumgebung trotz zahlreicher
zwischenliegender Wände aus diversesten Materialien als erstaunlich schnell –
auch auf mittlere Distanzen. Offensichtlich kann das 802.11a-WLAN in diesem
Modus recht gut mit den Reflektionen operieren, die sich entlang des Flurs ausbreiten. Als lohnenswerte Alternative erweist sich der Betrieb im 108-Mbit/s-Turbomodus, in dem in unserem Test bis über 30 Mbit/s vom Client zum Server wandern. Erwartungsgemäß sinkt die Datenrate jedoch mit steigender Entfernung
zum Access Point fast linear ab. Bei Distanzen über 20 Meter kommt in unserer
Testumgebung kein brauchbarer Link mehr zu Stande.
© tecCHANNEL
Klare Trennung: Die 802.11a-Modi
bieten zwar auf kurze Distanzen gute
Datenraten, brechen jedoch auf höhere
Entfernungen schnell ein. Liegen mehr
als 20 Meter zwischen AP und Client,
erweist sich 802.11g als überlegen.
webcode: a1287
181
Netzwerk
Der 802.11g-Modus dagegen erbringt in Distanzen bis zu 20 Metern nahezu
gleichmäßig hohe Durchsatzraten, die erst in größeren Entfernungen abzusinken
beginnen. Daran können auch bis zu drei zwischenliegende Wände nichts ändern.
Am Messpunkt 5 in 25 Metern Entfernung vom Access SPoint liefert 802.11g mit
gut 11 Mbit/s ebenfalls eine Netto-Transferrate, die deutlich über dem maximalen
Brutto-Durchsatz von 802.11b liegt.
4.1.5 Fazit
Unser Technologievergleich liefert ein klares Ergebnis: Wer mit Wireless LAN
Kosten sparend größere Flächen abdecken muss und nicht allzu viele Clients zu
versorgen hat, der sollte zu Geräten nach dem 802.11g-Standard greifen. Die höhere Reichweite des g-Standards ermöglicht ein weitmaschigeres und damit kostengünstigeres Netz von APs, allerdings bieten sich lediglich drei nicht überlappende Kanäle.
802.11a dagegen stellt eine Alternative dar, wenn auf relativ engem Raum viele
Clients zu versorgen sind und ein entsprechendes Kanalangebot von Nöten ist.
Speziell für die punktuelle Versorgung mobiler Clients – etwa in Konferenzräumen oder für Hot-Spots – liefert der 802.11a-Turbomodus eine interessante Möglichkeit zum Ausbau der Performance.
Als erfreulichste Perspektive erscheint, dass sich der Anwender im Fall eines Falles gar kein Entweder/Oder abringen muss. Wie die im Test verwendeten LANCOM-Komponenten demonstrieren, kann man bei Bedarf mit geeigneten Access
Points beide Technologien gleichzeitig anbieten.
Jörg Luther
tecCHANNEL-Links zum Thema
Webcode
Compact
Shootout: 802.11a vs. 802.11g
a1287
S.176
Reality Check: IEEE-802.11-WLANs
a1129
–
802.11: Standard für drahtlose Netze
p680
–
Wireless LANs im Überblick
a750
–
Sicherheit im WLAN
a928
–
Power over Ethernet
a1199
–
Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de
ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren.
182
www.tecChannel.de
Kaufberatung: DSL-Router
4.2 Kaufberatung: DSL-Router
DSL-Router ermöglichen den preiswerten Zugang mehrerer PCs in das Internet
und schützen diese zudem vor Attacken aus dem Web. Doch die angebotene
Funktionsvielfalt ist so groß, dass eine Entscheidung schwer fällt. Wir zeigen,
welche Features für welchen Einsatzzweck unabdingbar sind.
Gerade für den Einsatz im SOHO oder bei der Anbindung von Außenstellen an
das Firmen-LAN stellt DSL eine günstige Alternative zur teuren Standleitung dar.
Insbesondere da die Anbieter inzwischen Anschlüsse mit bis zu 2,3 Mbit/s realisieren können. Das reicht ohne Weiteres für eine kleine Arbeitsgruppe oder den
Datentransfer zwischen Außenstelle und LAN. Aber auch im privaten Bereich finden sich immer häufiger Konfigurationen mit mehreren Rechnern, die von einem
Router mit DSL-Anschluss profitieren – insbesondere, wenn die Kinder gerne online spielen. Ein DSL-Router bietet zudem ein Mehr an Sicherheit, da er den direkten Zugriff aus dem Internet auf die Computer dahinter abblockt. Denn im
Allgemeinen vergeht nicht viel Zeit zwischen der Einwahl ins Internet und dem
ersten Portscan, der nach Schwachstellen auf dem Rechner sucht.
All in one: Für kleine Netzwerke ist der eingebaute 4-Port-Switch ausreichend. Für größere
Netze schließen Sie einfach einen zusätzlichen Switch an. (Quelle: tecCHANNEL)
Da die deutschen DSL-Anbieter PPPoE als Anmeldeprotokoll verwenden, muss
das Gerät dieses Protokoll natürlich unterstützen. Um die Flexibilität bei der Provider-Auswahl zu bewahren, sollte das DSL-Modem nicht im Router integriert
sein, sondern an einem normalen Ethernet-Port angeschlossen werden. Dann können Sie den Router bei einem Technologiewechsel – etwa zu einem Kabelmodem
oder von ADSL zu SDSL – weiterhin benutzen. Das ist besonders dann wichtig,
wenn Sie einen teuren Router mit erweiterten Sicherheitsfunktionen kaufen.
Manche Router bieten einen integrierten Switch, so dass Sie ein kleines LAN
komplett an diesem Gerät anschließen können. Diese Möglichkeit oder die Anzahl der Switch-Ports sollten allerdings kein Hauptkriterium für einen Kauf sein,
da sich an das Gerät ja auch ein größerer Switch anschließen lässt.
webcode: a1289
183
Netzwerk
Wichtiger – gerade bei der Anbindung von Außenstellen oder Heimbüros – ist beispielsweise ein Backup-ISDN-Anschluss. Damit kann auch bei einem Ausfall der
DSL-Leitung weiterhin eine Verbindung hergestellt werden.
4.2.1 Basis-Features
Derzeit arbeiten alle Provider mit dem PPPoE-Protokoll zur Authentifizierung des
Benutzers. Das bedeutet, dass es sich bei den DSL-Anschlüssen nicht um eine
echte Always-on-Verbindung handelt, sondern um ein Dial-up-Verfahren. Dementsprechend müssen die Router zumindest dieses Protokoll beherrschen. Wünschenswert ist zudem, dass der Router optional mit einer statischen IP-Adresse
oder als DHCP-Client arbeiten kann. Das i-Tüpfelchen wäre die zusätzliche Unterstützung für VPN zur LAN-LAN-Vernetzung über das Internet. Bei Anbindung
an das Firmen-LAN ist VPN ein Muss.
Eine dynamische IP-Adresse erschwert den Versuch, Dienste im LAN auch für
das Internet freizugeben, denn der Internet-Benutzer muss immer die aktuelle IPAdresse kennen. Für diesen Fall bieten manche Router die Unterstützung dynamischer DNS-Dienste. Dabei meldet sich der Router nach der Einwahl ins Internet
gleich bei einem Dienste-Anbieter an und teilt ihm die aktuelle IP-Adresse mit.
Diese ist dann unter einer Domain wie etwa testdomain.dyndns.org erreichbar.
Ein weiteres relevantes Kriterium ist das Management des Routers. Die wichtigsten Fragen sind hier: Welche Möglichkeiten, wie etwa Telnet, Webbrowser oder
proprietäre Software, stehen zur Verfügung und über welche Schnittstellen sind
sie erreichbar? Wichtig ist die Option, dass man das Management über bestimmte
Schnittstellen wie Internet oder WLAN entweder abschalten oder im besten Fall
über Verschlüsselung und Authentifizierung absichern kann. Bei manchen Geräten lässt sich die Verwaltung auch auf eine bestimmte IP-Adresse einschränken.
Viele Hersteller kommen aus dem amerikanischen oder asiatischen Raum. Dort
herrschen primär echte Flatrates vor. Hier zu Lande sind aber viele DSL-Anschlüsse zeit- oder volumenbeschränkt. Der Router sollte also Funktionen bieten,
die beim Kostensparen helfen. Dazu gehört zum Beispiel das automatische Trennen der Verbindung, wenn in einer gewissen Zeitspanne keine Anforderung aus
dem LAN ins Internet geht. Dummerweise setzen manche Geräte den Idle-Timer
auch dann wieder zurück, wenn vom Internet eine Verbindungsanfrage kommt,
etwa von einem Filesharing-Client, weil unter der IP vorher ein entsprechendes
Programm lief. Damit gerät man bei einem Zeittarif schnell in die Kostenfalle.
4.2.2 WAN-Verbindungen
Einige amerikanische Kabelmodem-Betreiber binden den Account an eine bestimmte MAC-Adresse, um die Authentifizierung zu realisieren. Das verhindert
normalerweise den Einsatz eines Routers, der ja über eine andere MAC-Adresse
184
www.tecChannel.de
Kaufberatung: DSL-Router
verfügt. Bei manchen Routern lässt sich jedoch – wie bei vielen Netzwerkkarten
– die MAC-Adresse einstellen. Praktischerweise können Router die neue Adresse
beim so genannten MAC-Clonen gleich per Mausklick übernehmen.
Ein weiterer Vorteil des Clonens von MAC-Adressen: Es verschleiert auch bis zu
einem gewissen Grad den Hersteller des Produkts und erschwert damit das Ausnutzen von Sicherheitslücken im Gerät selbst.
Weil die meisten DSL-Provider lediglich eine IP-Adresse vergeben, muss der
Router NAT unterstützen, damit sich mehrere Rechner diese Adresse teilen können. Bei Paketen von intern, die durch die Firewall nach extern gelangen sollen,
wird die originale Quelladresse durch die der Firewall und der ursprüngliche
Quellport durch einen neuen ersetzt. Diese Daten hinterlegt die Software in einer
Tabelle, um die Antwortpakete wieder entsprechend umsetzen zu können, ohne
dass der Client etwas von diesem Zwischenschritt bemerkt. Dadurch werden die
Rechner im LAN effektiv vor dem Internet versteckt.
4.2.3 Dienste und Sicherheit
Das NAT-Verfahren funktioniert so lange nur Verbindungen von innen nach außen
aufgebaut werden. Also beispielsweise beim Browsen im Internet oder Abrufen
von Mails. Sollen allerdings Verbindungen von außen zu einem Rechner im LAN
hergestellt werden, ist das nicht ohne Weiteres möglich. Der Router weiß ja nicht,
welcher interne Rechner gemeint ist.
Mit einem Router-Feature namens Virtual Server lässt sich auch ein von außen
gesteuerter Verbindungsaufbau realisieren. Dabei weist man den Router an, auf
bestimmten TCP/IP-Ports eingehende Verbindungen direkt an einen Rechner im
LAN weiterzuleiten. Bietet der Router zusätzlich Port Address Translation, kann
man den Zielport auf dem Rechner bestimmen, also beispielsweise auf Port 80
eingehende Verbindungen auf den Port 8080 des Zielrechners weiterleiten.
Es gibt aber noch eine andere Kategorie von Anwendungen, die beim Einsatz eines Routers nicht funktionieren. Diese Anwendungen verbinden sich mit einem
Port des Servers, der seinerseits von sich aus einen festgelegten Port des Clients
ansprechen will. Dies schlägt jedoch fehl, da der Server die IP-Adresse des Routers adressiert und dieser nicht weiß, wohin mit dem Datenpaket. Virtual Server
hilft hier nicht weiter, da nicht immer derselbe Rechner angesprochen wird.
Unter der Bezeichnung Special Applications bieten beinahe alle SOHO-Router
ansatzweise eine Funktion, die bei großen Firewalls als Stateful Inspection bekannt ist. Dabei überwacht der Router den ausgehenden Datenverkehr auf Verbindungsanforderungen zu den eingestellten Ports und merkt sich, von welchem
Rechner im LAN sie kamen. Wenn nun der angesprochene Server die Verbindung
in Gegenrichtung aufbauen will, leitet der Router dieses Datenpaket zum entsprechenden Rechner im LAN weiter. Der Spiele-Server Battle.net beispielsweise benötigt dieses Szenario.
webcode: a1289
185
Netzwerk
Viele Hersteller von DSL-Routern werben damit, dass im Gerät eine Firewall eingebaut sei. Oft ist das nicht ganz die Wahrheit, denn bei dieser „Firewall“ handelt
es sich nur um NAT. Und das muss so ein Router ohnehin enthalten, denn sonst
könnte er nicht mehrere PCs mit nur einer öffentlichen IP-Adresse bedienen.
NAT bietet schon einen gewissen Grad an Sicherheit, denn der Versuch einer Verbindungsaufnahme von außen scheitert automatisch, weil der Router nicht weiß,
welcher PC gemeint ist. Somit wäre also beispielsweise der Blaster nicht ins LAN
durchgekommen. Aber dennoch stellt NAT keine vollwertige Firewall dar. Wenn
Sie zum Beispiel bestimmte Dienste nach außen freigeben, also dem Router mitteilen, dass er Pakete für einen bestimmten Port an einen bestimmten Rechner im
LAN weiterleiten soll, dann bietet NAT keinerlei weitere Schutzmechanismen,
wie etwa Paketfilterung oder gar Stateful Inspection. Schutz vor einem Trojaner,
der eine Verbindung von innen nach außen aufbaut, bietet NAT ebenfalls nicht.
Wer eine Außenstelle oder ein Home Office mit dem LAN in der Zentrale verbinden will, sollte unbedingt auf VPN-Funktionalität achten. Und zwar per IPSec
direkt im Router. Das Problem bei IPSec ist nämlich folgendes: Wenn der Client
hinter der Netzwerkadress-Umsetzung versucht, einen VPN-Tunnel zum Server
zu öffnen, stimmen Absende-Adresse – also die lokale IP des Clients – und IPAdresse des Pakets nicht mehr überein. Der IPSec-Server wird also den Verbindungsaufbau ablehnen. Dementsprechend muss der Router als IPSec-Client fungieren und ebenso mit zwei externen IP-Adressen umgehen können, einer für den
Internet-Zugang und einer vom IPSec-Tunnel.
4.2.4 Erweiterte Router-Features
Funktioniert ein bestimmter Dienst auch mit Stateful Inspection nicht, bieten die
Router eine letzte Möglichkeit, den so genannten DMZ-Host. Hierbei wird ein
Rechner im LAN bestimmt, an den der Router sämtlichen Traffic durchreicht.
Jeglicher Schutz durch den Router entfällt dabei jedoch, der Rechner sollte also
entsprechend durch eine Personal Firewall geschützt sein.
Etwas absichern lässt sich ein DMZ-Host, wenn im Router ein Paketfilter implementiert ist. Mit einem solchen kann man zudem verhindern, dass ein Trojaner
Daten aus dem LAN hinaussendet. Dazu muss man lediglich die wichtigsten Trojanerports im Router filtern lassen.
Auf der LAN-Seite sollte der Router einen DHCP-Server bereitstellen. Zum einen
muss man sich dann nicht um die Vergabe von IP-Adressen auf den Clients kümmern. Zum anderen werden dann gleich die richtigen Einstellungen für DNS und
Gateway am PC vorgenommen. Dies ist wichtig, da es durchaus möglich ist, dass
sich die DNS-Server beim Provider ändern.
Für Features wie Virtual Server oder Packet Filter sollte der DHCP-Server an bestimmte Clients immer dieselbe IP-Adresse vergeben können (Fixed Mapping).
Damit bleiben die DHCP-Features erhalten, und man ist dennoch in der Lage, bei-
186
www.tecChannel.de
Kaufberatung: DSL-Router
spielsweise einen Webserver mit fester interner IP-Adresse zu betreiben. Mit diesem Mapping, das über die MAC-Adresse gesteuert wird, realisieren viele Router
eine Zugangskontrolle für LAN und WAN. Bestimmte Rechner können komplett
vom Internet-Zugang ausgeschlossen werden. Bei WLAN-Clients lässt sich eine
Liste mit erlaubten MAC-Adressen festlegen. Alle anderen mobilen Rechner können sich dann nicht einmal mit dem Router unterhalten. Auf diese Weise verhindern Sie, dass Nachbarn auf Ihre Kosten surfen.
Ein nettes Feature ist Wake on LAN. Sie haben damit die Option, per Mausklick
einzelne Rechner im LAN aus Standby oder Hibernate aufzuwecken – vorausgesetzt, die Clients unterstützen dies. Wenn Sie das Risiko eingehen wollen, das
Webinterface des Routers im Internet freizugeben, können Sie die Stationen sogar
aus dem Internet starten, etwa, um Zugriff auf einen Virtual Server zu erhalten.
4.2.5 UPnP – Plug-and-Play übers Netzwerk
Windows XP kann es schon lange – auch wenn es zunächst schwere Sicherheitslücken gab. UPnP soll laut Microsoft eine Fülle neuer Features für die Vernetzung
von verschiedensten Endgeräten und Diensten bieten. Wie beim normalen Plugand-Play sollen dabei Erkennung, Installation und Konfiguration vollautomatisch
und ohne größere Benutzerinteraktion ablaufen.
Ein Rechner fungiert als UPnP-Host, der Informationen über alle im Netz verfügbaren UPnP-Geräte sammelt und auf Anfrage liefert. UPnP könnte bestimmte
Dienste wie etwa Kommunikationsprogramme oder Webcams auch über das Internet bereitstellen, wenn da nicht NAT wäre, das in den meisten DSL-Routern
zum Einsatz kommt. Die Applikationen auf den Rechnern im LAN kennen nur die
private IP-Adresse, aber nicht die öffentliche, und der Router weiß nicht, welchem Rechner – etwa ein Netmeeting-Anruf – nun wirklich gilt.
Mit Port-Forwarding könnte man solche Anrufe durchstellen, aber zum einen ist
der Konfigurationsaufwand nicht unerheblich und zum anderen ist das Verfahren
nicht sehr flexibel. Unterstützt der Router allerdings UpnP, kann er als Host fungieren oder zumindest Anfragen an den eigentlichen Host im LAN weiterleiten.
4.2.6 WLAN-Funktionen
In vielen Szenarien macht es durchaus Sinn, einen Router mit integriertem
WLAN zu wählen. Aber gerade beim Einsatz eines WLAN sollten Sie einige
Punkte beachten: WEP-Verschlüsselung sollte auf jeden Fall unterstützt werden.
Besser ist jedoch die Verschlüsselung mittels WPA (WiFi Protected Access). Hier
handelt jeder Client nach der Assoziierung am Router einen eigenen 128 Bit langen Schlüssel aus. Dadurch kann keine andere Station im selben WLAN den Traffic belauschen. Außerdem behebt WPA eine weitere Schwäche von WEP. Der Initialisierungsvektor ist nun 48 Bit lang statt 24.
webcode: a1289
187
Netzwerk
Als Verschlüsselungsverfahren kommt entweder TKIP (Temporal Key Integrity
Protocol) oder AES zum Einsatz. Ersteres setzt, wie auch WEP, auf den RC4-Algorithmus, bietet jedoch via Fast Packet Keying besseren Schutz gegen Tools wie
AirSnort. Der Advanced Encryption Standard (AES) dagegen stellt den Nachfolger von DES dar. Zusätzliche Authentifizierungsmechanismen sind ebenfalls
sinnvoll. Die einfachste Variante – nur bestimmten MAC-Adressen den Zugang
zu erlauben – bietet nur wenig Schutz. Besser ist die Unterstützung von 802.1x,
doch dazu benötigen Sie einen Radius-Server im LAN, der in kleinen Netzen
nicht viel Sinn macht.
Variabel: Bei diesem Gerät können Sie Spezialantennen anschließen und somit die Empfangsqualität für Ihre WLAN-Benutzer optimieren. (Quelle: tecCHANNEL)
Eine „Light“-Variante ohne externen Authentifizierungs-Server ist PSK: Beim
Pre-Shared-Key-Verfahren wird auf Client und Access Point mit gemeinsamen
Keys gearbeitet. Diesen Key verwendet der Client, um sich bei einem Access
Point einzubuchen. Der Key selbst wird dabei aber nicht übertragen. Diese Methode gibt auch Heimanwendern oder kleinen LANs die Möglichkeit, ein sicheres
WLAN aufzubauen, ohne komplexe Authentisierungs-Server zu verwenden.
Eine andere Option wäre es, über die Funkstrecke ein VPN laufen zu lassen. Neben der erhöhten Sicherheit könnten Sie zusätzlich einen „öffentlichen“ Bereich
schaffen, auf den andere WLAN-Nutzer Zugriff haben – beispielsweise einen
kleinen Webserver, der die eigenen Angebote anpreist. Ins Internet oder auf andere Server im LAN kommen diese WLAN-Benutzer natürlich nicht.
Mittels Broadcast der SSID kündigt ein Access Point seine Verfügbarkeit an. Das
ist ein zweischneidiges Schwert, denn es erleichtert Hackern das Aufspüren des
Routers. Wenn ohnehin nur festgelegte vorkonfigurierte WLAN-Stationen auf
den Router zugreifen, stellt ein abgeschalteter SSID-Broadcast eine weitere Hürde dar, die ein Hacker überwinden muss.
Verfügt das Gerät über eine austauschbare Antenne, können Sie mit Spezialantennen einerseits die Ausleuchtung des Raums optimieren und andererseits Hackern
das Leben schwerer machen, denn der Funkbereich des Routers ist auf das wirklich relevante Areal beschränkt.
188
www.tecChannel.de
Kaufberatung: DSL-Router
4.2.7 Fazit
DSL-Router gibt es inzwischen wie Sand am Meer, entsprechend sind auch die
Preise in den Keller gefallen. Doch nicht jedes Gerät ist für jeden Einsatzbereich
gleichermaßen geeignet. Leider geben die Produktverpackungen oder Broschüren
nicht immer Aufschluss darüber, ob bestimmte Funktionen implementiert sind
oder nicht. Hier hilft oft ein Blick auf die Webseite des Herstellers, denn die
Handbücher der Geräte stehen dort zumeist zum Download bereit. Da findet man
schnell die gewünschte Information.
Die Hersteller-Webseite offenbart noch ein weiteres wichtiges Kriterium: Nämlich ob und wie lange der Hersteller Firmware-Updates für seine Geräte bereitstellt, etwa um erkannte Sicherheitslücken zu beheben oder neue Funktionen hinzuzufügen. Finden sich keine oder nur Update-Versprechungen für ältere Geräte
auf der Website, sollten Sie gerade für den Firmeneinsatz nicht auf diesen Hersteller zurückgreifen. Denn das Risiko ist zu groß, dass Sie später bei einem erkannten Sicherheitsloch im Regen stehen.
Mike Hartmann
tecCHANNEL-Links zum Thema
Webcode
Compact
Kaufberatung: DSL-Router
a1289
S.183
DSL – Schneller ins Internet
p418
–
Test: Funknetze nach 802.11b
a620
–
Test: LAN-Starterkits
a619
–
So funktioniert TCP/IP
p209
–
Windows als Dial-up-Router
a828
–
Linux als Dial-up-Router
p322
–
Masquerading mit Linux
a707
–
Linux als Firewall
a695
–
Firewall-Grundlagen
a682
–
Linux-Firewall mit ipchains
a704
–
ADSL unter Linux
a833
–
Proxy-Server unter Linux
a798
–
Mehrwert mit DSL
a868
–
Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel.
Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von
www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum
Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren.
webcode: a1289
189
Netzwerk
4.3 Drei Dienste – eine Leitung
Neue Technologien wie Metro Ethernet versprechen nicht nur für Firmenkunden
erhebliche Verbesserungen bei Service und Preis. Auch Privathaushalte können
davon profitieren – viele neue Dienste und vor allem Anbieter stehen schon in den
Startlöchern. Und Konkurrenz belebt bekanntlich das Geschäft.
Um in einem durchschnittlichen Haushalt Telefonie, Fernsehen und Internet zu
realisieren, benötigt man derzeit verschiedene Übertragungstechnologien und
Diensteanbieter. Dementsprechend viele Kabel sind beim Bau des Gebäudes zu
verlegen. Eine Kupferdoppelader für den analogen oder den ISDN-Telefonanschluss, ein Koaxial-Kabel für TV und je nach Provider und Technologie eventuell noch eine weitere Kupferdoppelader für DSL. Bei ADSL der Telekom läuft das
T-DSL zwar über dieselbe Ader wie das Telefon, aber die Signale werden über den
Splitter voneinander getrennt.
Der TV-Anschluss beschränkt sich normalerweise darauf, dass man die ins Kabel
eingespeisten Sender anschauen kann, und zwar zu der Zeit, die der Sender festgelegt hat. Eine flexible Freizeitgestaltung über Video-on-Demand ist damit nicht
möglich. Auch beim Pay-TV ist der Kunde immer noch auf starre Sendezeiten
festgelegt: Wer zu spät kommt, der verpasst den Anfang. Mittels moderner Geräte
wie einem Harddisk-Recorder kann man inzwischen wenigstens das Programm
aufzeichnen lassen und noch während der Aufzeichnung beginnen, via Time-Shifting den Film anzuschauen, wenn man wieder einmal nicht pünktlich aus dem
Büro kam. Das Gerät muss dazu aber genügend Rechenleistung bieten, da der
analoge Datenstrom in Echtzeit komprimiert werden muss.
Dabei existieren längst geeignete Technologien, die Internet, Telefonie und Video
über ein Datenkabel transferieren können. Voice over IP und MPEG4-VideoStreams sind hier die Schlagwörter. Bei dieser Integration aller Dienste auf ein
Datenkabel ist das Ganze allerdings noch mehr als die Summe der Einzelteile:
• Neben Fernsehen sind auch Pay per View und Video-on-Demand realisierbar.
• Video-Recorder-Funktionen sind einfacher möglich, da die Video-Daten
gleich digital vorliegen.
• Eine elektronische Programmzeitschrift wäre direkt am Fernseher abrufbar
oder könnte mit einigen intelligenten Algorithmen alle für den Benutzer interessanten Programme aufzeichnen.
• Ein eingehender Anruf ließe sich zum Beispiel direkt auf dem Fernseher mit
der Caller-ID einblenden. So müsste man nicht einmal aufstehen, um nachzusehen, wer anruft. Optional könnte man auch direkt per Tastendruck die TimeShift-Aufzeichnung des Programms starten und dann direkt am Fernseher per
Video-Konferenz telefonieren.
• Das „Smart Home“ mit Telemetrie-, Sicherheits- und Überwachungsdiensten
ist ebenfalls einfacher realisierbar, da beispielsweise die Kamera des VideoTelefons gleichzeitig als Überwachungskamera dient.
190
www.tecChannel.de
Drei Dienste – eine Leitung
4.3.1 Benötigte Bandbreite
Diese schöne neue Dienstewelt erfordert jedoch eine deutlich höhere Bandbreite
als die bisher über xDSL angebotene. Immerhin benötigt ein Telefongespräch per
IP-Telefonie knapp 100 Kbit/s, für jeden Video-Stream in adäquater Qualität sind
etwa 5000 Kbit/s fällig. Video-on-Demand oder normales Fernsehen sind also mit
xDSL nicht realisierbar, zumindest nicht in der gewohnten Qualität. Zudem
kommt es vor, dass Familienmitglieder nicht immer einer Meinung sind, was das
anzuschauende Programm angeht. Zwei Fernsehprogramme oder auch zwei verschiedene Filme per Video-on-Demand parallel erfordern jedoch schon die Geschwindigkeit eines 10-Mbit/s-Ethernet.
Kabellos telefonieren: Allerdings nicht per DECT und ISDN,
sondern per WLAN und Voice over IP. Das neue WLANTelefon von Cisco macht es möglich. Demnächst werden
auch Geräte auf den Markt kommen, die Mobilfunk (GSM)
und IP-Telefonie miteinander verbinden. (Quelle: Cisco)
Da trifft es sich gut, dass viele Netzwerkausrüster schon seit einigen Jahren an einer Technik namens Metro-Ethernet arbeiten. Denn man hat erkannt, dass die
klassischen Übertragungsverfahren nicht mehr optimal einsetzbar sind. Basis der
Übertragung sind zumeist Glasfasernetze, die mit der Technik Synchronous Digital Hierarchy (SDH) betrieben werden. SDH hat seinen Ursprung in den klassischen Telefonnetzen und ist dementsprechend für die Übertragung von Sprache
optimiert. SDH ist in Stufen von 2 Mbit/s, 34 Mbit/s und mehr verfügbar, außerdem besteht die Möglichkeit, mehrere 2-Mbit/s-Leitungen gemeinsam zu nutzen.
SDH-Equipment ist jedoch nicht billig, außerdem sind Konfiguration und Management solcher Installationen komplex, was die Dienste entsprechend teuer
macht. Zudem ist SDH hinsichtlich dynamischer Bandbreitenzuweisung sehr unflexibel, was viele Firmenkunden bisher dazu veranlasst hat, eher eine zu kleine
als eine zu große Bandbreite zu mieten.
Eine Lösung dieser Probleme verspricht der Einsatz von Ethernet in den MetroNetzen der Carrier. Das eigentlich für lokale Netze konzipierte Übertragungsverfahren hat sich inzwischen längst als De-facto-Standard für die Datenkommuni-
webcode: a1286
191
Netzwerk
kation in Unternehmen etabliert, weil Ethernet wesentlich einfacher zu handhaben
ist. Zudem ist es auch besser ausbaubar: Ursprünglich sah die Spezifikation eine
Bandbreite von 10 Mbit/s vor, inzwischen ist die Gigabit-Schallmauer durchbrochen, die Arbeiten an der Standardisierung von 10 Gigabit laufen. Eine Weiterentwicklung in Richtung 100 Gigabit wird bereits diskutiert.
4.3.2 Technische Realisierung beim Kunden
Wenn also ohnehin schon Ethernet in den Metro-Netzen verwendet wird, was
liegt da näher, als es auch für die Anbindung des Kunden zu nutzen, da sich damit
die Gerätekosten für die Anbindung senken lassen und eine flexiblere Gestaltung
bei der Bandbreite möglich ist.
Bei Firmengebäuden ist die Anbindung weniger ein Problem, denn entsprechende
Kabel werden meistens schon beim Bau des Gebäudes verlegt – sowohl für den
WAN-Anschluss als auch für die Inhouse-Vernetzung. Anders sieht es bei Wohngebäuden aus. Hier sind gerade mal die vorgeschriebenen Kupfer-Doppeladern in
die einzelnen Wohnungen verlegt. In einem Verteilerkasten im Keller findet sich
eine Anschlusstafel, über die die von außen eingehenden Leitungen mit den Leitungen in die Wohnungen verschaltet werden.
Außerdem ist das gesamte Kabelnetz im Haus über Leerrohre realisiert, die nur
einen relativ schmalen Durchmesser aufweisen. Normale Twisted-Pair-Kabel lassen sich dadurch nicht oder nur mit sehr großem Aufwand verlegen. Die dünneren
Glasfaserkabel sind eher eine Alternative, hier sind allerdings höhere Kosten für
die Kabel zu veranschlagen, und ein Fiber-Port kommt auch teurer als ein Ethernet-Port. Das größte Problem stellt jedoch der Fiber-Anschluss in der Wohnung
dar: Dieser ist relativ empfindlich und kann schon bei einer einfachen Wohnungsrenovierung durch Farbe zerstört werden.
Bleibt also als einfachste Variante die Nutzung der ohnehin bereits bestehenden
Kupfer-Doppelader. Mittels xDSL sind die benötigten Datenraten nicht realisierbar, also braucht man ein anderes Verfahren. Hier kommt Long Reach Ethernet
(LRE) ins Spiel, das Ethernet über Standardkabel auch über größere Entfernungen
transportieren soll. Damit wäre es also durchaus möglich, direkt vom Verteiler
Ethernet bis in die Wohnung zu legen.
Allerdings ist LRE auf längeren Strecken oder schlechten Kabeln sehr störungsanfällig. Eine Lösung für dieses Problem wäre die Verkürzung der Strecke, auf der
LRE genutzt wird: In größeren Wohnhäusern mit zehn oder mehr Mietparteien
stellt man einen LRE-Switch in den Verteilerschrank, der die einzelnen Wohnungen mit Ethernet bedient. An das Metro-Ethernet angebunden wird der Switch
optimalerweise über eine Glasfaserverbindung. Entsprechende Kabel werden
schon seit längerer Zeit prophylaktisch verlegt, sobald ohnehin Arbeiten an den
Hauszuleitungen erforderlich sind.
192
www.tecChannel.de
Drei Dienste – eine Leitung
4.3.3 Wer soll’s machen?
Die Technik ist also da, die notwendigen Verfahren sind beschrieben, und auch die
Anwendungen stehen schon bereit. Es ist also nicht wie bei UMTS, wo man erst
krampfhaft nach der Killerapplikation suchen muss. Dennoch tut sich der Anbietermarkt schwer – entsprechende Angebote existieren in Deutschland nicht. Lediglich Fastweb (www.fastweb.it) in Mailand zeigt, wie es gehen könnte. Dort
stehen dem Kunden diverse Optionen zur Auswahl, beispielsweise ein Anschluss
mit 10 Mbit/s, TV-Option (20 Kanäle) und eine Telefon-Flatrate (lokale und Inlandsgespräche) für insgesamt 95 Euro. Zusätzlich kann der Kunde noch Dienste
wie Video-on-Demand, Video-Konferenzen oder Heimüberwachung buchen.
Der Telekom dagegen scheint ihr derzeitiges DSL-Angebot zunächst zu genügen,
und die alternativen Carrier verwenden zumeist die Kabel der Telekom für die viel
beschworene letzte Meile. Sie sind auch nicht unbedingt daran interessiert, erst
einmal Risikokapital in die Hand zu nehmen, um neue Umsatzquellen zu erschließen. Dabei zeichnet sich schon seit einigen Jahren der Trend ab, dass die Umsätze
aus reinen Sprach- und Datendiensten schneller fallen als die Kosten für die Bereitstellung derselben mit aktuellen Technologien.
Fortschrittlich: Beim italienischen Anbieter Fastweb kann der Kunde Internet, TV/Video und
Telefonie aus einer Hand und über ein Kabel buchen. Die technische Grundlage der Lösung
ist ein Metro-Ethernet.
webcode: a1286
193
Netzwerk
Metro-Ethernet und eine Integration von Sprache, TV und Daten dagegen könnten
aus diesem Dilemma helfen – insbesondere, wenn neue Dienste dazukommen.
Hier handelt es sich nicht zwangsweise um ein Geschäftsfeld, das nur von den
klassischen Carriern beackert werden kann. Auch Stromanbieter sind zunehmend
auf der Suche nach neuen Umsatzquellen, denn der Preiskampf zeigt hier ebenfalls Wirkung. Was hindert also die Stromanbieter daran, beim Verlegen der
Stromzuleitung gleich ein paar Glasfaserkabel mitzulegen?
Gründe für die Schwerfälligkeit gibt es viele. Einerseits müssen sich zahlreiche
Beteiligte einigen: der Metro-Ethernet-Betreiber, der/die Anbieter von TV oder
Video sowie der Hausbesitzer, und andererseits muss allen voran die RegTP mitspielen. Letztere zeigt sich jedoch immer wieder sehr zögerlich, wenn es um neue
innovative Dienste geht, wie alternative Carrier häufig und lautstark beklagen.
4.3.4 Ausblick
Mit Ethernet to the Home (ETTH) und den damit erzielbaren Bandbreiten lassen
sich ganz neue Anwendungen realisieren und für die Anbieter neue Geschäftsfelder eröffnen. Also eine klassische Win-Win-Situation. Zudem erschließen sich für
den Netzbetreiber Einsparpotenziale bei den viel beschworenen OpEx (Operational Expenses, Betriebskosten) und eine bessere Auslastung seines Netzwerks bei
gleichzeitig höherer Gesamtbandbreite.
Wenn sich die verschiedenen Beteiligten, allen voran die RegTP, zu einem gemeinsamen Vorgehen entschließen, stehen uns in der Zukunft neue spannende
Möglichkeiten bevor. Jörg Lösche, Geschäftsführer Allied Telesyn Deutschland,
glaubt, dass noch 2004 die ersten Anbieter loslegen werden und dass in spätestens
zehn Jahren ETTH in Deutschland so verbreitet sein wird wie heute DSL.
Mike Hartmann
tecCHANNEL-Links zum Thema
Webcode
Compact
Daten, Telefon und Fernsehen über
eine Leitung
a1286
S.190
Ethernet Grundlagen
a717
–
Voice over IP
a990
–
Voice over IP II
p991
–
10-Gbit-Ethernet
a876
–
Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel.
Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von
www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum
Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren.
194
www.tecChannel.de
Meinung
4.4 Meinung
Netzwerke und deren Komponenten sind nicht mehr ausschließlich in Firmen zu
finden. Technologien wie xDSL haben dafür gesorgt, dass sie auch in Heimbüros
oder sogar im heimischen Wohnzimmer zum Einsatz kommen, um allen Beteiligten den Zugang zum Internet zu ermöglichen. Einen nicht unerheblichen Anteil an
dieser Entwicklung haben aber auch neue Geräte wie digitale Video-Recorder,
Spielekonsolen mit Netzwerk- und Online-Fähigkeiten oder die Nutzung von PCs
als Home-Entertainment-Zentrale.
Diese neuen Absatzmärkte haben auch die Netzwerkhersteller für sich entdeckt,
die gleichzeitig erkannt haben, dass für diese Märkte ein anderes Marketing notwendig ist. Das ist ja auch verständlich, denn wie erkläre ich einem Laien, dass
er unbedingt mein Produkt kaufen soll? Der Laie verfügt bestenfalls über ein
(un)gesundes Halbwissen, das er sich aus diversen Quellen zusammengesucht
hat. Mit Fachbegriffen und komplizierten Erklärungen kommt man da nicht unbedingt weiter. Das führt häufig zu echter Kunden-Desinformation:
Da wird ein simpler NAT-Router plötzlich zur Firewall, weil der potenzielle Käufer mit dem Begriff NAT nichts anfangen kann, aber durchaus von der Notwendigkeit einer Firewall überzeugt wurde. Auch wenn er eigentlich nur weiß, dass
eine Firewall irgendwie den Rechner schützt.
Da wird 802.11g durch technische Tricksereien so hingebogen, dass parallel zwei
(der gerade mal drei verfügbaren) Kanäle zur Übertragung genutzt werden und
somit nominell die doppelte Übertragungsrate herauskommt. Auf der Verpackung
prangt dann in riesigen Lettern „100 Mbps“, um den Eindruck zu erwecken, dass
man genauso schnell sei wie in einem normalen Fast-Ethernet-LAN. Unterschlagen wird dabei, dass WLAN ein Shared Medium ist, dass die Nettodatenrate weit
unter den nominellen 100 Mbps liegt und dass allein durch die Anwesenheit eines
„Nicht-Turbo“-Clients die Performance noch weiter reduziert wird.
Aber auch andere „Marketing“-Aktivitäten stechen heraus. Diese führen zum Beispiel dazu, dass ein DSL-Anbieter bei der Geschwindigkeitsangabe immer eine
Fußnote angeben muss, etwa 1024 Kbit/s*, um einer Abmahnung vorzubeugen.
Das alles dient nicht der Kundeninformation. Anstatt sich darum zu kümmern,
dass der Kunde, egal ob Heimnutzer oder Firma, das optimale Produkt zum bestmöglichen Preis bekommt, liefert man sich lieber Marketing-Schlachten und spart
an der Produktentwicklung.
Mike Hartmann, Ressortleiter Software und Netzwerke
Abhängig von der Leistungsfähigkeit der anbietenden Server im öffentlichen Internet sowie von der Qualität der Teilnehmeranschlussleitung.
*
www.tecChannel.de
195
Technologien
5. Technologien
Die Menge der gespeicherten Informationen ist im Zeitraum von 1999 bis 2002
jährlich um rund 30 Prozent gewachsen. Dies ist das Ergebnis einer Studie der
Universität von Berkeley, die das Speicherunternehmen EMC veröffentlichte. Im
Zusammenhang mit dem langsamer werdenden Fortschritt bei traditionellen Speichertechnologien erfordert dies zwangsläufig alternative Lösungen. Höhere Speicherdichten und schnellere Speicher gehören zu den primären Zielen bei der Suche nach neuen Lösungen. Im folgenden Kapitel finden Sie den aktuellen Stand
der Entwicklung bei zukünftigen Speichertechnologien.
5.1 Holographische Speichertechnik
Das Prinzip der Holographie ist seit Jahrzehnten bekannt, und seit langer Zeit
schon wird im Bereich der holographischen Speicher geforscht. Inzwischen gibt
es sogar vereinzelte Anwendungen für Speicherzwecke, etwa analoge Hologramme, die als Identifikationsmerkmale auf Geldscheinen, Kreditkarten oder Produktverpackungen dienen. Die Umsetzung in Produkte für den Speichermassenmarkt ist allerdings bislang nicht gelungen.
Nachdem sich der Entwicklungsfortschritt bei Festplatten in jüngster Zeit etwas
verlangsamt hat, wird nun wieder intensiver nach Alternativen für die Zukunft gesucht. Holographische Speicher sind prinzipiell in der Lage, das ganze Volumen
des Speicherkörpers dreidimensional zu nutzen. Die so zu erzielenden hohen
Speicherdichten werden spätestens mit Einführung von HDTV (High-Definition
TV) gebraucht. HDTV-Bilder oder -Filme benötigen rund die zehnfache Speichergröße im Vergleich zu herkömmlichen Speichermedien.
Heute bezeichnet man auch flächige, aufeinander geschichtete Speichertechniken
– meist in Kombination mit einem Blaulicht-Laser – als holographische Speicher.
Speichertechniken, die auf Blaulicht-Lasern basieren, bieten höhere Kapazitäten
als die bisherige Technik und lösen zumindest mittelfristig die für die Zukunft absehbaren Kapazitätsprobleme.
5.1.1 Blaulicht-Laser
Die Verwendung von Blaulicht-Lasern bei DVDs erlaubt auf Grund der kürzeren
Wellenlängen das Schreiben sehr viel kleinerer Pits und damit eine deutliche Erhöhung der Datendichte. Der Blaulicht-Laser arbeitet dabei mit einer Wellenlänge
von 405 nm, bei herkömmlicher Technik mit rotem Licht sind es 635 bis 650 nm.
Den Vorteil der höheren Auflösung durch das kurzwelligere Licht kann man auch
für die holographische Speicherung nutzen.
196
www.tecChannel.de
Holographische Speichertechnik
Blaues Laser-Licht ist jedoch schwierig zu erzeugen. Die dafür verwendeten Laser-Materialien sind nicht besonders temperatur- und alterungsstabil. Die Forschung in diesem Bereich hält noch an. So hat die Universität Bremen in diesem
Jahr zusätzliche 2,9 Millionen Euro zur weiteren Erforschung dieser Technik erhalten. Bremen war in Europa die erste und weltweit die dritte Universität, die
eine blau emittierende Galliumnitrid-Laser-Diode (GaN) herstellen konnte.
Die japanische Firma Nichia hat lange Zeit Pionierarbeit bei der Erforschung von
Blaulicht-Lasern geleistet und sammelte zahlreiche Patente an. Das wiederum
führte zu vielerlei Patentstreitigkeiten zwischen Firmen und Konsortien, die alle
Blaulicht-Laser-Produkte auf den Markt bringen wollen. Nach sechsjährigem Patentstreit gab es eine Einigung zwischen Nichia und Toyoda (beide aus Japan).
5.1.2 Blaue Variationen
Im Bereich Blaulicht-DVDs wird es wie bisher unterschiedliche Formate und die
entsprechenden Kämpfe um die Marktherrschaft geben. Plasmon will etwa 30
GByte bei etwa 8 MByte/s Transferrate mit der Ultra-Density-Optical-Technik
(UDO) auf eine Scheibe in DVD-Größe speichern. Zukünftige Generationen dieser Technik sollen dann Kapazitäten von 60 und 120 GByte erlauben.
Plasmon entwickelt Medien und Laufwerke im eigenen Unternehmen und hat für
die Entwicklung 25 Millionen US-Dollar eingeplant. HP und Sony haben zeitweise an UDO mitgearbeitet. Sony arbeitet mit Firmen wie Hitachi, Philips und vielen anderen an der Blue-ray-Disc-Technik (BD) mit etwa 27 GByte Datenspeicherkapazität. BD-Medien sind nicht kompatibel zu bisherigen DVD-Medien.
Die Basislizenz für BD soll es für 20.000 US-Dollar geben. Die Lizenz für den
Inhaltsschutz beträgt 120.000 US-Dollar im Jahr und 10 Cent pro Laufwerk. Die
Medienhersteller sollen 8000 US-Dollar im Jahr und 2 Cent pro Scheibe für den
Inhaltsschutz bezahlen.
Sony hat im Dezember 2003 die Verfügbarkeit eines DVD-Laufwerks auf Basis
von Blaulicht-Lasern mit passendem Medium bei einer Speicherkapazität von
23,3 GByte und 9 MByte/s Transferrate bekannt gegeben. Das Laufwerk soll zirka 3000 US-Dollar kosten, das Speichermedium rund 45 US-Dollar.
Toshiba und NEC propagieren ebenfalls ein neues DVD-Format mit einer Kapazität von 15 bis 20 GByte auf Basis von Blaulicht-Laser-Technologie im so genannten Advanced Optical Disc Format (AOD). Sanyo hat einen Vorschlag für
Blaulicht-Laser-DVDs mit etwa 25 bis 30 GByte Speicherkapazität eingebracht.
Die Unternehmen Hitachi und Maxell nutzen eine andere Möglichkeit, um mehr
Daten auf DVDs zu speichern. Eine Scheibe mit bis zu 200 Lagen soll insgesamt
1 TByte an Daten speichern können. Die einzelnen Schichten sind transparent.
Die jeweils aktive Schicht verfärbt sich blau, sobald eine Spannung anliegt. Die
wiederbeschreibbaren Medien und die entsprechenden Laufwerke sollen etwa im
Jahr 2007 auf den Markt kommen.
webcode: a1197
197
Technologien
5.1.3 Geschichte holographischer Speichertechnik
Seit etwa 40 Jahren wird an holographischen Techniken geforscht, insbesondere
bei IBM in San Jose, USA (Almaden-Forschungszentrum). In den neunziger Jahren spendierte die amerikanische Regierung Forschungsgelder in Millionenhöhe
über DARPA (Defense Advanced Research Projects Agency). Diese Behörde hat
auch den Vorläufer von Ethernet entwickelt.
Vor drei Jahren prophezeite die Zeitschrift „Scientific American“ den holographischen Speichersystemen eine große Zukunft. Jetzt gibt es erste Anzeichen für den
Einsatz von holographischen Speichern. Ein Massenmarkt ist aber vorerst nicht in
Sicht. Besonders aktiv sind die beiden amerikanischen Firmen Aprilis (Ausgründung von Polaroid) und InPhase (gegründet von Lucent und unterstützt von Imation). Die Speichermedien dieser beiden Hersteller werden derzeit von allen großen Speicherfirmen weltweit getestet.
5.1.4 Holographische Speichertechnik
Ein Hologramm wird durch die Interferenz (Überlagerung) von zwei Lichtstrahlen erzeugt. Meist werden beide Strahlen durch optische Teilung aus einer gemeinsamen Laser-Quelle erzeugt. Ein Lichtstrahl, der Objektstrahl, enthält das
darauf modulierte Abbild (Bitmuster, Seite), der andere, der Referenzstrahl, besteht aus kohärentem Licht.
Die Modulation des Objektstrahls mit dem Bild oder Bitmuster geschieht in einem räumlichen Lichtmodulator (SLM = Spatial Light Modulator). Dies ist meist
eine Flüssigkristallanordnung, ähnlich einem TFT-Bildschirm. Inzwischen kommen auch die aus Projektoren bekannten Mikrospiegelchips zum Einsatz.
��������������
���������
��������������
������������������
��������������� �����
������������
© tecCHANNEL
198
www.tecChannel.de
Moduliertes Abbild: Die
Daten werden beim
Schreiben seitenweise
durch einen Lichtmodulator (SLM) in ein Muster
umgesetzt.
Holographische Speichertechnik
Das entstehende dreidimensionale Interferenzmuster wird auf einem lichtempfindlichen Medium gespeichert. Dabei verändert es einen der drei Faktoren optische Durchlässigkeit, refraktiver Index oder Materialdicke. Meist nutzt man zur
Speicherung einen kristallinen Körper oder einen Polymerfilm.
Das Auslesen des Abbildes erfolgt durch einen mit dem Referenzstrahl identischen, kohärenten Lichtstrahl. Dadurch entsteht das ursprüngliche Abbild wieder.
Dessen Auswertung übernimmt in der Praxis ein CCD-Chip als Detektormatrix.
Mustererkennung: Beim
Auslesen übernimmt meist
ein CCD-Chip die Erkennung des Musters.
© tecCHANNEL
Bei der holographischen Speicherung sind störende Interferenzen ein großes Problem, das auch bei astronomischen Teleskopen im Weltall auftritt. Die zur Abhilfe
entwickelten Fehlerkorrekturverfahren funktionieren fast unverändert auch bei
der holographischen Speicherung.
5.1.5 Variationen der Holographie
Alle Vorgänge sind bei der holographischen Speicherung umkehrbar: Trifft der
Referenzstrahl zum Auslesen der Daten auf das Hologramm, dann entsteht das
Abbild. Bei Bestrahlung des Hologramms durch das modulierte Bild ist das Ergebnis der Referenzstrahl.
Bei Beleuchtung des Abbildes von der Rückseite mit dem Referenzstrahl entsteht
das ursprüngliche Bild vor dem Lichtmodulator (Rückwärtsprojektion). Für die
holographische Abbildung sind sehr teure, hoch präzise optische Linsen und Systeme erforderlich. Daher nutzt man zum Lesen die Rückwärtsprojektion und verwendet die Optik sowohl zum Lesen als auch zum Schreiben.
Das Hologramm der zu speichernden Information lässt sich über Spiegel mit veränderlichem Winkel, unterschiedlicher Wellenlänge oder mit verschiedenen Phasenlagen erzeugen. Dabei werden zahlreiche Datensätze gleichzeitig im kompletten Medium abgelegt.
webcode: a1197
199
Technologien
Vice versa: Wenn der Objektstrahl
auf das modulierte Bild trifft, ist
der Referenzstrahl das Ergebnis.
ausgelesener
Referenzstrahl
lichtempfindliches
Speichermedium
© tecCHANNEL
Objektstrahl
Der Effekt des Speicherns mehrerer Bilder ineinander lässt sich beispielsweise
anhand der Hologramme von Kreditkarten erkennen. Bei der Betrachtung unter
verschiedenen Blickwinkeln kann man unterschiedliche Bilder ausmachen. Bisher ist es gelungen, bis zu 10.000 Seiten (Bilder) in einem ein Zentimeter starken
Material abzulegen.
Umkehrschluss: Das Prinzip
funktioniert in beide Richtungen und liefert den Objektstrahl zurück.
phasen-invertierter
Referenzstrahl
lichtempfindliches
Speichermedium
© tecCHANNEL
ausgelesener
phasen-invertierter
Objektstrahl
5.1.6 Holographische Medien
Nach dem heutigen Stand der Technik könnten holographische Speicherscheiben
in der Größe von CDs oder DVDs bei 20 MByte/s Transferrate etwa 200 GByte
speichern. Im Gegensatz zu Band und Platte wird nicht ein serieller Bitstrom, sondern ein ganzer Datensatz (Seite) gleichzeitig geschrieben oder gelesen. Die Seitengröße beträgt derzeit bei quadratisch flächiger Anordnung etwa 1 Mbit. So
wird jeweils 1 Mbit in einem Schritt geschrieben oder gelesen. Damit werden die
für die großen Speichermengen benötigten hohen Datentransferraten erreicht.
200
www.tecChannel.de
Holographische Speichertechnik
Das wesentliche Hindernis für die Einführung holographischer Speicher ist die
Bereitstellung eines passenden Speichermediums. Viel versprechend ist ein Medium aus Glas mit winzigen Löchern, die mit Acryl gefüllt sind. Glas ist sehr volumenstabil. Die meistens verwendeten Polymermaterialien schrumpfen dagegen
bei der Bearbeitung und verfälschen das Hologramm. Das acrylgefüllte Glas
schrumpft weniger als ein Prozent und ist damit deutlich stabiler als Polymer. Zudem erlaubt Glas eine dickere Speicherschicht als Polymer, wodurch automatisch
ein größeres Speichervolumen zur Verfügung steht.
Das am häufigsten genutzte photorefraktive Material war bisher mit Eisen dotiertes Lithium-Niobat (LiNb03). Dieses Material ist jedoch teuer und empfindlich,
die Daten werden beim mehrfachen Lesen zerstört, und es besitzt nur einen kleinen Dynamikbereich. Mit zweifarbigem Laser-Licht und stöchiometrischem sowie verschieden dotiertem Lithium-Niobat (SLN) versucht man zu erreichen, dass
die Daten beim Auslesen nicht gelöscht werden. Mit der einen Lichtfarbe wird das
Material aktiviert und mit der anderen Farbe wird geschrieben und gelesen.
Einmal beschreibbare Photopolymere verändern den Brechungsindex durch eine
nicht umkehrbare Polymersation. Dabei werden die Zusammensetzung und die
optischen Eigenschaften des Materials dauerhaft verändert. Diese holographischen Medien sollten die Daten für etwa 50 Jahre halten.
5.1.7 Anwendungen
Bei der digitalen holographischen Speicherung wird seitenweise je ein Datenblock gespeichert. Jede Seite kann man sich als eine quadratische Scheibe vorstellen, in die das Bitmuster (Loch/Nichtloch) eingebrannt wurde. Mit jeder Winkelstellung des Referenzstrahls entsteht virtuell eine weitere Lochscheibe, je nach
Winkel des Referenzstrahls davor oder dahinter. Jede Scheibe wird mit einem kohärenten Referenzstrahl unter dem dazugehörigen Winkel ausgelesen. Das entspricht prinzipiell dem Lesen und Schreiben mit herkömmlichen Medien.
Wird beim Lesen ein Suchmuster vorgeschaltet, kann direkt, ohne spätere Vergleichsoperation, nach Inhalt (assoziativ) ausgelesen werden. Der gesuchte Inhalt
ergibt dann Korrelationsspitzen (intensiveres Licht) beim Lesen. Dies erlaubt zum
Beispiel schnell und einfach Inhaltssuchen in Datenbanken.
Bisher sind holographische Datenmedien in der Regel nur einmal beschreibbar.
Sie finden also zunächst ähnliche Einsatzgebiete wie CD- oder DVD-ROMs. Auf
Grund der Kapazität lassen sich beispielsweise HDTV-Filme in voller Länge auf
holographischen Medien ablegen.
Besonders vorteilhaft ist der Parallelbetrieb. Für höhere Datenraten muss keine
Scheibe schneller gedreht werden. Die Kapazität hängt nicht davon ab, dass immer kleinere Speicherpunkte erzeugt werden müssen. Ed Grochowski und Hans
Coufal am Almaden-Forschungszentrum von IBM erwarten erste holographische
Speicherprodukte mit folgenden Eigenschaften:
webcode: a1197
201
Technologien
Holographische Speicherprodukte im Überblick
Produktart
Kapazität
Zugriffszeit
Anwendung
Holo-DRAM
25 GByte
10 µs
nicht flüchtiger Cache
Holo-Platte
1 TByte
10 ms
hohe Zuverlässigkeit
Holo-DVD
1 TByte
10 ms
niedrige Kosten
Holo-Speicherarchiv
1 PByte
10 s
hohe Volumendichte
5.1.8 Produkte und Projekte
In Sachen holographische Speichertechniken existierten zahlreiche Projekte.
Nicht alle Firmen oder Startups, die an entsprechenden Lösungen arbeiteten, haben jedoch überlebt. Andere wiederum erfreuen sich weiterer kräftiger Investitionsschübe: So erhielt Aprilis von einem einzigen Investor in zwei Finanzierungsrunden insgesamt 17 Millionen US-Dollar.
InPhase hat kürzlich einen Entwicklungsauftrag in Höhe von 600.000 US-Dollar
von der National Technology Alliance des US-Verteidigungsministeriums bekommen. Davor sind bereits etwa 8,3 Millionen US-Dollar an Investment-Geldern in
das Unternehmen hineingesteckt worden. Optware in Japan wird von einer Investment-Gruppe (darunter Intel) mit 4,9 Millionen US-Dollar unterstützt.
5.1.9 Aprilis
Der einmal beschreibbare holographische Datenträger von Aprilis aus Maynard,
USA, verwendet ein zwischen zwei Glasplatten eingefügtes Speichermedium.
Die Scheibe (HMD120) mit 120 mm Durchmesser nimmt etwa 200 GByte Daten
auf. Eine ebenfalls entwickelte, quadratische Speicherkarte (HMC050) hat eine
Kantenlänge von 50 mm. Die jeweiligen Medien sind mit einer Dicke von 200
oder 300 µm verfügbar.
Die Gesamtdicke mit Substrat beträgt 0,6 mm, 1,2 mm oder 1,55 mm. Als Datenrate wird mehr als 100 MByte/s angegeben. Die Besonderheit ist dabei das verwendete geometrisch extrem stabile CROP-Medium (Cationic Ring Opening Polymerization). Schreibempfindlichkeit und der refraktive Index sind sehr hoch bei
sehr niedriger Lichtstreuung. Nach dem Schreiben ist das Material nicht mehr
licht- oder sauerstoffempfindlich.
Aprilis hat im Jahr 2002 21 Patente über holographische Techniken von Manhattan Scientifics aufgekauft. Mehr als 15 Firmen, darunter beispielsweise bekannte
Namen wie Sony und Samsung, haben holographische Karten und Scheiben von
Aprilis zur Evaluierung angeschafft.
202
www.tecChannel.de
Holographische Speichertechnik
5.1.10 IBM
Bei IBM kümmert man sich seit über 30 Jahren mehr oder weniger intensiv um
die Erforschung holographischer Speicher. Dabei untersucht IBM alle denkbaren
Materialien, die als holographisches Medium in Frage kommen würden. Bisher ist
es in den Laboren gelungen, Speicherdichten von 400 Bit/µm² zu erzeugen. Zum
Vergleich: Die Speicherdichte bei CD-ROMs beträgt 0,7 Bit/µm² und 4,5 Bit/µm²
bei DVDs. Das Problem des zerstörerischen Auslesens möchte IBM durch unterschiedliche Wellenlängen des Laser-Lichts beim Schreiben und Lesen umgehen.
5.1.11 InPhase
Das Speichermedium Tapestry von InPhase ist ein Photopolymer mit besonders
guten Holographie-Eigenschaften. Es besteht aus zwei unabhängig voneinander
polymerisierbaren chemischen Komponenten. Eine Scheibe in CD-Größe mit 100
GByte Speicherkapazität und 20 MByte/s Transferrate wurde im April 2003 öffentlich vorgestellt. Bis zum Beschreiben muss sich das Medium in einer lichtdichten Kassette befinden. Entsprechende kommerzielle Produkte sollen in absehbarer Zukunft verfügbar sein.
Darüber hinaus berichtet InPhase von Tests mit bis zu 1000 Mal wiederbeschreibbaren Medien. Das Unternehmen macht jedoch keine Angaben zu dem entsprechenden Material. Bisher lässt sich beispielsweise Azobenzene-Material ungefähr
60 bis 80 Mal wiederbeschreiben. Von den Bell Labs hat InPhase 42 Patente mit
Bezug auf holographische Speicher übernommen. Etwa 40 weitere Patente befinden sich in der Anmeldung, einige sind bereits erteilt.
5.1.12 Optilink
Nach eigenen Angaben hat Optilink aus Schweden weltweit als erstes Unternehmen ein tragbares Test- und Evaluierungsgerät für holographische Speicher als
Peripheriegerät zum Anschluss an PCs vorgestellt. Der holographische Speicher
hat die Form einer Kreditkarte. Optilink nutzt die polarisierte Fourier-Holographie mit einem 2 µm dicken Flüssigkristallpolyester als Speichermedium für eine
Kapazität von 1 GByte.
Der Laser arbeitet mit einer Wellenlänge von 532 nm und mit Laser-Impulsen im
Picosekunden-Bereich. Die Modulation erfolgt mit einem Flüssigkristall-SLM.
Der Datenstrahl wird Fourier-transformiert, bevor er mit dem rechtwinklig auftreffenden Referenzstrahl das Interferenzmuster bildet.
Optilink bevorzugt Peptide und Flüssigkristallpolyester. Peptide sind Polymere,
die unter Lichteinfluss Verbindungen mit unterschiedlichen Chromophoren eingehen. Peptide haben viele gute optische Eigenschaften, zudem sind sie besonders
temperaturstabil sowie umweltfreundlich und preiswert herzustellen.
webcode: a1197
203
Technologien
Für das Schreiben ist bei Optilink linear polarisiertes Licht zuständig, das Löschen übernimmt zirkular polarisiertes Licht. Das Lesen und Schreiben kann mit
einem Licht identischer Wellenlänge erfolgen, da die Beleuchtungsenergie für die
Umorientierung des Materials unterschiedliche Intensität erfordert.
Die holographischen Verfahren erforscht Optilink in Kooperation mit dem Riso
National Laboratory in Dänemark und mit der Universität für Technologie und
Wirtschaft in Budapest.
5.1.13 Optostor
Die deutsche Firma Optostor aus Ratingen setzte zusammen mit dem Institut für
Kristallographie der Universität Köln auf Lithium-Kristall als Speichermedium.
Bisher existieren solche Kristalle in der Größe von 50 x 50 x 3 mm. Lithium-Kristalle sind chemisch und mechanisch robust. Das verwendete Lithium-Niobat muss
nach dem Beschreiben im Kristall fixiert werden. Ein Teil der etwa 20 angemeldeten Patente beschreibt das bisher nicht veröffentlichte Verfahren.
Optostor glaubte, dass die Daten bis zu 500 Jahre halten. Das Unternehmen wurde
nicht so alt. Im Dezember 2002 hat Optostor Insolvenz angemeldet. Es fehlten die
in den USA und Japan eher verfügbaren Millionen für die Entwicklung zum verkaufsfähigen Produkt. Die Forschungsergebnisse von Optostor werden wohl in
anderen Firmen weiterentwickelt.
5.1.14 Optware
Das japanische Unternehmen Optware kooperiert mit den Universitäten Stanford
und MIT in den USA. Investitionsgelder kommen ebenfalls aus den USA. Ziel ist
es, einen Datenspeicher mit einer Kapazität von 1 TByte und einer Datentransferrate von 1 GByte/s zu entwickeln. Darüber hinaus produziert Optware den so genannten Holographic Media Analyzer (S-VRD), ein Gerät, das die Analyse holographischer Medien erlaubt.
5.1.15 Ausblick
Holographische Speicherung ist rein theoretisch eine einfache Technik, die seit
vielen Jahren bekannt ist. Ihre Umsetzung in praxistaugliche, preiswerte Produkte
bleibt aber extrem schwierig. Das Speichermedium erweist sich als besondere Herausforderung an die Entwickler und Produzenten holographischer Speicher.
Es muss vor dem Schreiben (Belichten) wie ein fotografischer Film lichtdicht verpackt bleiben. Bei einem wiederbeschreibbaren Medium ist vor dem erneuten Beschreiben diese Lichtempfindlichkeit wiederherzustellen.
204
www.tecChannel.de
Holographische Speichertechnik
Die Daten lassen sich nicht wie bei CDs oder DVDs in holographische Medien
einpressen. Das erschwert die Vervielfältigung von Software, Filmen oder Musik
für die Massenproduktion.
Mit holographischem Material beschichtete DVDs sollten etwa 1 TByte an Daten
speichern können. Mit kommerziellen Produkten wird in drei bis fünf Jahren gerechnet. Nicht holographische Speicher, wie zum Beispiel 30-GByte-DVDs mit
Blaulicht-Technik, stehen dagegen kurz vor der Markteinführung.
Nach Meinung der Hersteller und Experten ersetzen holographische Speicher die
herkömmlichen Speicher (Band, Platte, DVD, MO) in Zukunft nicht. Lediglich in
Nischenanwendungen werden holographische Lösungen diese etablierten Techniken wohl etwas verdrängen.
Hermann Strass
Der Autor Hermann Strass ist Berater für neue Technologien, insbesondere für Busarchitekturen, Massenspeicher sowie industrielle Netzwerke und Automation, Mitglied in nationalen und
internationalen Normungsgremien, in der IEEE Computer Society sowie Technical Coordinator
der VITA in Europa. Daneben ist er Autor von Fachbüchern und Zeitschriftenartikeln, außerdem
organisiert er Seminare.
tecCHANNEL-Links zum Thema
Webcode
Compact
Holographische Speichertechnik
a1197
S.196
DVD-Schreibformate im Überblick
a821
–
Blu-ray statt DVD: Alles blauer Dunst?
a888
–
Grundlagen: DVD-ROM
a847
–
Grundlagen: Festplattentechnik
a641
–
Grundlagen: CD-ROM
p403
–
Technologie-Trends bei Festplatten & Co
a658
–
Nanotechnik: IBM speichert 1 Tbit/in2
a947
–
Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de
ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren.
webcode: a1197
205
Technologien
5.2 Zukünftige Speichertechnologien
Forschungen über physikalische, chemische, biologische und andere (exotische)
Speichertechniken gibt es schon lange. Nachdem sich der Entwicklungsfortschritt
bei Festplatten in jüngster Zeit etwas verlangsamt hat, werden jetzt wieder intensiver Alternativen für die Zukunft untersucht. Nachfolgend finden Sie den Status
quo und die derzeitigen Entwicklungsvorhaben alternativer Techniken beschrieben. Viele Ansätze ähneln sich. Sie werden aber unabhängig voneinander an verschiedenen Orten in verschiedenen Laboren parallel und mit unterschiedlichen
Zielvorstellungen entwickelt. Die Bandbreite reicht dabei vom Speichern von Daten in Molekülen, mit nanomechanischen Verfahren oder mit Hilfe von Proteinen
bis zu elektrischen, optischen und magnetischen Speicherverfahren.
5.2.1 Grundlegendes
Die mehr oder weniger lineare Weiterentwicklung der bisherigen magnetischen
Festplattentechnik (webcode: a641) soll zumindest noch für eine Speicherdichte
bis in den Bereich von Tbit/in² reichen (webcode: a658). Da diese Speicherdichten für Magnetplatten aus heutiger Sicht nur noch mit sehr großem technischen
Aufwand und daher hohen Kosten erreichbar sein dürften, wird eifrig nach Alternativen geforscht. Neuartige magnetische, optische, thermo-mechanische, elektrische, chemische und biologische Verfahren werden intensiv erforscht. Es bleiben
aber noch einige Jahre Entwicklungszeit, bis diese alternativen Techniken einspringen müssen. Oft werden mit ähnlichen Grundtechniken ganz unterschiedliche Verfahren erprobt, wobei sich erst später erweisen wird, welche Technik ökonomisch zu verwirklichen ist.
Speichertechniken werden häufig danach beurteilt, ob sie nach dem Abschalten
der Stromzufuhr ihren Dateninhalt behalten oder nicht. Der übliche Maßstab für
den Datenerhalt sind zehn Jahre ohne erneute Energiezufuhr. Dies ist auch das
Maß für das so genannte superparamagnetische Limit bei magnetischen Plattenspeichern. Das ist keine physikalische Größe, sondern nur ein Maß für die Größe
einer magnetischen Domäne (ein Bit), also der Korngröße, die statistisch nach
zehn Jahren noch unterscheidbar als NULL oder EINS gelesen werden kann.
Weitere Unterscheidungsmerkmale sind einmal oder beliebig oft beschreibbare
Datenträger, mit oder ohne zwischengeschaltete Formatierung/Löschung sowie
die Anfälligkeit gegen Licht oder magnetische Felder. Generell versucht man die
relativ langsamen Schreib- und Lesezyklen von manchen der neuen Materialien
durch Parallelzugriff zu beschleunigen. Ein Beispiel dafür ist der unten beschriebene Tausendfüßler (Millipede). Zum Vergleich sei daran erinnert, dass die relativ
hohe Schreib-/Lesegeschwindigkeit bei Festplatten auf einer rein sequenziellen
Technik beruht. Die Daten werden immer nur als ein Strom von einzelnen Bits
geschrieben und gelesen, das aber bei sehr hoher Bitrate.
206
www.tecChannel.de
Zukünftige Speichertechnologien
5.2.2 Mechanische Verfahren
Nanomechanische Systeme haben Vorteile gegenüber elektronischen Lösungen.
Dabei kommen Varianten von STM (Scanning Tunneling Microscope, Rastertunnelmikroskop) und AFM (Atomic Force Microscope, Rasterkraftmikroskop) wegen ihrer extrem genauen Positioniermöglichkeit zum Einsatz. Die mechanische
Bewegung benötigt wenig Energie und ist relativ schnell. Hitze ist kein großes
Problem, weil sich im Gegensatz zu elektronischen Lösungen die Elektronen
nicht durch immer engere Leiterbahnen und Schaltelemente zwängen müssen.
Wissenschaftler an den Universitäten von Edinburgh in Schottland und Bologna
(Institut für das Studium von Nanostruktur-Materialien) in Italien haben eine Art
molekularer Braille-Schrift entwickelt. Die Braille-Punkte entstehen auf einem
dünnen Plastikfilm (3 bis 35 nm) mit Hilfe von Rotaxane-Molekülen. Im Labor
waren solche Bitmuster einige Tage stabil. Je nach Dicke der Rotaxane-Schicht
werden mit einer Kraft von 2 nN Punkte von 100 bis 500 nm Durchmesser bei einer Höhe von 1 bis 20 nm als Folge des mechanischen Drucks geformt.
5.2.3 Speicherzellen in Atomgröße
Für die Forschung im Nanometer-Bereich und für MEMS (Micro Electronic Mechanical Systems) werden entsprechende AFMs (Atomic Force Microscopes,
Rasterkraftmikroskope) benötigt. Ein solches Messgerät für 8-Zoll-Wafer kostet
derzeit etwa 100.000 US-Dollar. Die AFM-Technik wurde in den Forschungslaboren bei IBM auch schon mit rotierenden Scheiben genutzt.
Einen Chip für Speicherzellen in Atomgröße hat Franz Himpsel, Physikprofessor
an der Universität von Wisconsin (USA) mit einem Team von Wissenschaftlern
hergestellt. Damit wurde zum ersten Mal bewiesen, was der berühmte Physiker
Richard Feynman bereits 1959 vorhergesagt hatte. So könnten theoretisch alle jemals in der Menschheitsgeschichte geschriebenen Worte in einen Würfel mit einer
Kantenlänge von weniger als 0,1 mm passen, wenn jedes Atom zur Speicherung
eines Bit genutzt würde.
Das Labormuster von Franz Himpsel ist allerdings erst zweidimensional, also
noch nicht dreidimensional, wie es für die vorgenannte Speicherdichte nötig wäre.
Aber auch so ist die Speicherdichte schon etwa eine Million mal dichter als bei
heutigen CD-ROMs. Nach herkömmlicher Rechnung wären das 250 Tbit/in², was
etwa 2500-mal so viel ist wie heute maximal bei Plattenspeichern möglich.
5.2.4 20 Atome pro Bit
Der von Professor Himpsel entwickelte Silizium-Speicherchip hat auf seiner
Oberfläche Längsrillen. Darin liegen einzelne Silizium-Atome wie Tennisbälle
nebeneinander in einer Rinne. Werden nun einzelne Atome mit der Spitze eines
webcode: a1209
207
Technologien
STM (Scanning Tunneling Microscope) herausgenommen, entstehen Fehlstellen,
die als logische NULL gelten. Atome, die am Platz bleiben, repräsentieren jeweils
eine logische EINS. Lesen, Schreiben und Formatieren eines solchen atomaren
Speichers geschieht bei Raumtemperatur. Zwar ist die Manipulation einzelner
Atome bei extrem tiefen Temperaturen technisch einfacher und präziser, aber auch
erheblich teurer zu realisieren.
Die Rinnen (Gräben) an der Silizium-Oberfläche wurden nicht in herkömmlicher
Wafer-Technik belichtet und herausgeätzt. Solche Strukturen (heute etwa 90 nm)
wären um Größenordnungen zu grob.
Professor Himpsel bedampfte seine Silizium-Speicherchips extrem dünn mit
Gold. Dadurch entstanden Strukturen mit Längsrillen. Danach wurde darauf noch
Silizium aufgedampft. Die Siliziumatome fallen von allein in die vom Goldüberzug erzeugten Gräben, wie Eier in den Eierkarton. Dabei entstehen automatisch
regelmäßige Abstände zwischen den Atomen, die somit einzeln herausgenommen
oder eingefügt werden können, ohne Nachbaratome zu beeinflussen. Das sind
dann, wie oben schon beschrieben, die atomaren Bits.
Diese Technik benötigt sicher noch Jahre oder Jahrzehnte, bis sie kommerziell genutzt werden kann. Nachteilig ist, dass ein Vakuum benötigt wird. Das Lese-/
Schreib-Gerät in Form eines STM ist langsam, da es nur einzelne Atome bewegt,
und außerordentlich teuer. Die Signalstärke ist offensichtlich extrem klein. Die
Verstärkung aus dem thermischen Rauschen heraus ist sehr aufwendig. Die Speicherdichte übertrifft dabei selbst die in der Natur nach einem langen Evolutionsprozess erreichten Werte: Franz Himpsel benötigt etwa 20 Atome je Bit. In der
DNA werden 32 Atome für eine Informationseinheit je Basenhalbpaar benötigt.
5.2.5 Millipede
Bei der von IBM im Forschungslabor Rüschlikon bei Zürich „entwickelten“ Millipede (Tausendfüßler) genannten thermo-mechanischen Technik werden Bits in
Molekülgröße gespeichert. Peter Vettiger, einer der Erfinder dieser Technik, gibt
an, dass die Idee bei einem kühlen Bier nach dem wöchentlichen firmeninternen
Fußballspiel entstand. Die erreichbare Speicherdichte (1 Tbit/in²) des Millipede
ist etwa 20-mal so hoch wie bei heutigen Festplatten. Kern der Millipede-Technologie ist Angaben von IBM-Research zufolge eine zweidimensionale Anordnung
von V-förmigen Silizium-Federzungen (Kantilever), die 0,5 Mikrometer dünn
und 70 Mikrometer lang sind.
Beim Millipede bewegt sich ein Kamm aus 32 x 32 elastischen Federzungen mit
Kegelspitze über eine Plastikoberfläche. Damit werden beim Schreiben, je nach
Bitmuster, bei 400 Grad Celsius Löcher in die Oberfläche geschweißt. Beim Lesen wird die Meldung, Loch oder kein Loch, als EINS oder NULL interpretiert.
Die Löcher haben einen Durchmesser von etwa 10 nm. Gelesen wird etwa durch
die Temperaturänderung, die sich ergibt, wenn eine Federspitze auf eine atomare
Erhöhung stößt (Reibungswärme). Die Zugriffszeit soll bei zirka 500 µs liegen.
208
www.tecChannel.de
Zukünftige Speichertechnologien
Unter dem Mikroskop betrachtet: IBM zeigt den Aufbau der 3 x 3 mm messenden Anordnung
der Kantilevern (oben links) und einen Ausschnitt von 64 Kantilevern (unten links). Oben rechts
ist ein einziger Kantilever zu sehen, unten rechts eine einzelne Spitze, die am freien Ende der
V-förmigen Zunge aufgebracht ist. (Quelle: IBM)
Denkbar sind kleine Speicherkarten als Ersatz für Flash-Speicherkarten, wobei
die mechanische Bewegung durch MEMS-Elemente erzeugt würde. Auch eine
multifunktionale Uhr mit etwa 15 GByte an Speicher ist nach Meinung von Vettiger machbar. Allerdings gibt es derzeit bei IBM keine Pläne, ein Millipede serienreif zu entwickeln. Wenn doch, dann könnten erste Produkte bereits 2005 erscheinen. Die für Millipede und die anderen oben genannten thermo-mechanischen
Verfahren genutzte Technik wird auch Probe Technology (Tasttechnik) genannt.
Das Schreib- und Lesegerät (Tastmechanismus) beruht auf Varianten von AFM
(Atomic Force Microscope, Rasterkraftmikroskop) beziehungsweise STM (Scanning Tunneling Microscope, Rastertunnelmikroskop), oft mit mehreren Tastköpfen parallel.
5.2.6 Molekülspeicher
Drähte oder Röhren aus Nanostrukturen werden schon zur Stromleitung und zur
Datenspeicherung genutzt. Nanotubes ermöglichen um bis zu drei Größenordnungen höhere Stromdichten als entsprechend kleine Kupferdrähte. Transistoren aus
Nanotubes sind etwa hundert Mal kleiner als herkömmliche Transistoren. Ein Na-
webcode: a1209
209
Technologien
nometer, der typische Durchmesser der Nanotubes, entspricht etwa dem Vierfachen eines Atomdurchmessers oder einem Fünfzigtausendstel des Durchmessers
eines menschlichen Haares. IBM, Infineon und viele andere Firmen arbeiten an
der Erforschung von Nanotubes.
Motorola hat nach eigenen Angaben den weltweit ersten 4-Mbit-Speicherbaustein
aus Silizium-Nanokristall mit einem 90-Nanometer-Prozess erzeugt. Dabei werden Kugeln aus Nanokristallen mit 5 nm Durchmesser zwischen zwei Oxidlagen
eingebettet. Kritisch ist es, die Nanokugeln gleichmäßig in Größe und Verteilung
zu erzeugen. Die Ladung pro Flächeneinheit ist das Kriterium für die Speicherung
von NULL oder EINS. Motorola hat die Q-Flash-Technik im Dezember 2002 vorgestellt und möchte schon bald solche Chips produzieren.
An der Universität von Oklahoma haben Professor Bing Fung und seine Wissenschaftler im Oktober 2002 ein Pixelmuster (32 x 32) im Inneren eines Flüssigkristall-Moleküls gespeichert und wieder ausgelesen. Dabei wird der Spin der einzelnen Atome im Molekül als Speichermedium genutzt. Das verwendete Molekül
bestand aus nur 19 Atomen. Deren einzelne Spins können aber in sehr vielen unterschiedlichen Anordnungen „arrangiert“ werden. Die 1024 Bit wurden mit einem Magnet-Resonanz-Spektrometer geschrieben und ausgelesen. Die Speicherdauer beträgt derzeit nur eine Zehntelsekunde. Das Experiment hat zum jetztigen
Zeitpunkt noch keine praktische Bedeutung.
5.2.7 Biospeicher
3D-Speicher in Proteinen werden derzeit intensiv erforscht. Biomasse ist im Vergleich zu Halbleitern aus Silizium oder ähnlichen Materialien besonders bei großen Stückzahlen preiswert herzustellen.
Mit optischer Lithographie und selbstorganisierenden biologischen Bauteilen sollen kleinste und billige Speicherelemente in großer Stückzahl herstellbar sein. 800
MByte sollten etwa drei US-Dollar kosten. Biologische Systeme arbeiten normalerweise parallel. Sie versprechen dementsprechend große Leistung oder Verarbeitungsgeschwindigkeit, ohne absolute Einzelspitzenleistungen zu verlangen.
In einem Kubikzentimeter Proteinmasse kann ungefähr ein GByte an Daten gespeichert werden, aber auch die hundertfache Speicherdichte ist denkbar. Proteine
reagieren etwa tausend Mal schneller auf Licht, als RAM-Speicher ihren Binärzustand wechseln. Ein parallel arbeitender Proteinspeicher wäre also durchaus ein
erstrebenswertes Bauteil. Bisher bremsen langsame Laser die Geschwindigkeit.
Das von Professor Helmut Schmidt geleitete Institut für Neue Materialien (INM)
in Saarbrücken ist unter dem Namen NanoBioNet einer der weltweit führenden
Anbieter von Materialien, die mit chemischer Nanotechnik erzeugt werden. Ein
bevorzugter Prozess zur Erzeugung von Nanopartikeln ist der Sol-Gel-Prozess.
Dabei entsteht aus einer flüssigen Stoffmischung (Sol) durch chemische Reaktionen ein amorphes Netzwerk, das nach Abschluss der Reaktionen das Nanopartikel
210
www.tecChannel.de
Zukünftige Speichertechnologien
als einen partikulären Festkörper (Gel) hervorbringt. Die Art der Nanopartikel
kann durch die verwendeten Stoffe und durch die gezielte Steuerung des Entstehungsprozesses ausgewählt werden.
5.2.8 Anleihen bei der Natur
Satoshi Ueyama am Mitsubishi Forschungszentrum in Hyogo, Japan, ist es gelungen, eine extrem kleine Diode aus natürlichem Eiweiß und einem Vitamin zu
züchten. Um als Speicher nützlich zu sein, müssten jetzt jeweils zwei Dioden zu
einem Transistor zusammengeschaltet werden.
Chemie-Professor Birge an der Universität von Syracuse im Staat New York,
USA, versucht, hybride Bauelemente aus konventioneller Halbleitertechnik mit
optisch aktiven Schaltelementen aus Proteinen zur Verbesserung der Verarbeitungsgeschwindigkeit von Prozessoren und Speichern zu erzeugen. Biospeicher
aus Bacterirhodopsin als Alternative zu RAM-Speichern sind derzeit in der Entwicklung. Dabei ist der Prozessor aus Silizium, aber RAM und Massenspeicher
sind aus Proteinen aufgebaut. Biomolekulare Computer sollen etwa 15-mal kleiner werden als heutige Rechner. Die benötigten Proteinwürfel haben zurzeit noch
Probleme mit der Schwerkraft.
Professor David Patterson von der Berkeley-Universität in Kalifornien erwartet,
dass die zukünftigen Speicher parallel, assoziativ und damit architektonisch ähnlich wie biologische Systeme aufgebaut sein werden. Aus dem RAM wird dann
ein IRAM (intelligentes RAM).
5.2.9 FRAM/FeRAM
Mit FRAM (Ferro-electric Random Access Memory) oder FeRAM hofft man,
günstigen Speicher produzieren zu können. Daher forschen viele namhafte Firmen auf diesem Gebiet. Das größte Problem ist die Verkleinerung der Bitzelle.
Japanische Wissenschaftler am Phonon Device Lab haben eine Speicherdichte
von 1,5 Tbit/in² mit ferro-elektrischem LiTaO3 (Lithium-Tantalat) erreicht. Nun
arbeitet die Forschung an einer Lösung, um aus dieser Technik Speichersysteme
herzustellen. Dabei ist die Zielvorgabe von 4 Pbit/in² zu erreichen. In kleinen
Mengen werden FRAMs, beispielsweise von Fujitsu, schon seit einigen Jahren
produziert.
In einer ferro-elektrischen RAM-Zelle (Perovskit-Kristall) wird ein Kondensator
aus einem Blei-Zirkonium-Titanat (PZT) in Auf- oder Abwärtsrichtung geladen.
Ein einzelnes Atom im Inneren der Bitzelle befindet sich jeweils in einer von zwei
stabilen Lagen. Ein elektrischer Dipol mit Auf- oder Aborientierung hält die Information. Beim Lesen werden die Bit- und die Wortleitung kurzzeitig mit einem
Spannungsimpuls beschickt.
webcode: a1209
211
Technologien
elektrisches
Feld
Auf und ab: Das Atom im Inneren der Zelle ist jeweils in einer
von zwei stabilen Lagen.
Pla
O
Zr/Ti
© tecCHANNEL
Zeigen angelegtes und gespeichertes Feld in die gleiche Richtung, dann erscheint
ein kleiner Stromimpuls auf der Leitung. Weisen hingegen beide Felder in gegensätzliche Richtung, dann entsteht ein großer Stromimpuls. Ausgelesen wird mit
der Bitleitung. Nach dem Lesen einer Bitzelle muss diese – entsprechend wie
beim DRAM – wieder neu beschrieben werden.
FRAMs werden seit fast 20 Jahren bei Ramtron in den USA entwickelt. Aber erst
seit kurzer Zeit gibt es FRAMs in kommerziellen Produkten. So kommt FRAM
etwa auf einigen Promise-Raid-Controllern zum Einsatz. Insgesamt wurden bereits mehr als 40 Millionen FRAM-Chips produziert. Davon gingen 27 Millionen
an einen Kunden, der damit die Verbrauchsdaten in Stromzählern speichert.
5.2.10 Flash-Nachfolger OUM
Stanford Ovshinsky forscht in den USA seit mehr als 30 Jahren an Speichertechnologien. Die Ovonic-Unified-Memory-Speichertechnik wird derzeit als möglicher Flash-Nachfolger bei Intel und zwei europäischen Halbleiterfirmen zu einem
kommerziellen Produkt weiter entwickelt. Auf der ISSCC 2002 (IEEE International Solid-State Circuits Conference) berichtete Manzur Gill von Intel über entscheidende Fortschritte in der Werkstofftechnik. Mit bereits verfügbaren Testchips wird die Technik in der Praxis erprobt. Man erwartet in drei bis fünf Jahren
kommerzielle Produkte. Intel forscht seit etwa 1970 an der OUM-Technik.
amorph
Zwischenzustand
kristallin
© tecCHANNEL
Wechselhaft: Bei Ovonic Unified Memory macht man sich die aus dem Wechsel zwischen
kristallinem und amorphem Zustand resultierende Widerstandsänderung zu Nutze.
212
www.tecChannel.de
Zukünftige Speichertechnologien
OUM beruht auf dem thermisch gesteuerten Wechsel (Phase Change) zwischen
kristallinem und amorphem Zustand, vorzugsweise von Chalcogeniden wie Tellur. Genutzt wird beim Lesen die daraus resultierende Widerstandsänderung (Faktor 100) des Materials. Die speichernde Schicht aus einer Ge2Sb2Te5-Legierung
wird durch kurze Erhitzung über den Schmelzpunkt in den amorphen Zustand
(hoher Widerstand) oder durch langsame Erhitzung bis unterhalb des Schmelzpunkts in den polykristallinen Zustand (niedriger Widerstand) versetzt.
Der Wechsel ist deutlich schneller als bei Flash und kann mit einer Spannung von
einem Volt erzeugt werden. Das passt zur 3-Volt-CMOS-Technik und vermeidet
die bei Flash-Speichern benötigten hohen Spannungen. Darüber hinaus müssen
OUMs nicht blockweise gelöscht werden. Als Speicherelemente kommen Dioden
und nicht Transistoren zum Einsatz, was Platz spart.
Das Material ist für etwa doppelt so viele Speicherzyklen gut wie Flash. Die Phase-Change-Technik wird in Lizenz praktisch von allen wieder-beschreibbaren
DVD-Varianten genutzt. Bei diesen Speichermedien wird aber nicht die Widerstandsänderung, sondern der Unterschied der Reflektion zwischen amorphem und
kristallinem Material genutzt.
5.2.11 PFRAM/PMC
In einem Polymer Ferro-electric RAM (PFRAM) wird eine dünne Schicht aus ferro-elektrischem Polymer zwischen zwei Metallleitungen polarisiert. Speicher in
PFRAM-Technik lassen sich sehr dicht packen, weil mehrere Lagen von PolymerSchichten übereinander gelegt werden können. Intel und TFE (Thin Film Electronics ASA) aus Linköping in Schweden arbeiten gemeinsam an der Entwicklung
von PFRAMs. Die Herstellungskosten für PFRAMs könnten sehr niedrig werden.
Die PFRAM-Speicher sind allerdings relativ langsam und lassen sich nicht oft
neu beschreiben.
Die PMC-Technik (Programmable Metallization Cell) wurde von Professor Michael Kozeki an der Staatsuniversität von Arizona erfunden und wird derzeit von
Axon Technologies weiter entwickelt. Für PMCs werden Chalcogenide genutzt,
wie bei OUM, aber in anderer Form. Der Elektrolyt wird zwischen einer dünnen
Silberschicht und einem elektrischen Leiter deponiert. Wird eine Spannung angelegt, dann wandern Silberionen in das Elektrolyt und machen es leitfähig. Diese
elektrische Leitfähigkeit bleibt auch nach Wegnahme der Spannung erhalten. Außer Micron befassen sich weitere fünf Firmen mit der PMC-Technik.
5.2.12 3D-Speicherung
Eine proprietäre dreidimensionale Datenspeicherung (3DR) wird von Siros Technologies aus San Jose, USA, vorgeschlagen. Die besondere Lasertechnik (kleine
Öffnung mit 50 nm), die Siros von Lucent übernommen hat, kann kleine Flächen
webcode: a1209
213
Technologien
auch mit relativ langwelligem Licht erzeugen. Das von Lucent patentierte VSALVerfahren (Very Small Aperture Laser) in VCSEL-Anordnung (Vertical Cavity
Surface Emitting Laser) lässt sich gleichzeitig sowohl zum Schreiben als auch
zum Lesen der Daten nutzen.
Bisher ließ sich VCSEL nicht zur Datenspeicherung einsetzen. Die nötige Energiedichte stand bei diesen senkrecht emittierenden Multilaserchips nicht zur Verfügung. Siros gibt an, dass die eigenen VSAL-VCSEL mit der 80fachen Energiedichte (5 mW/mm²) wie herkömmliche VCSEL (0,06 mW/mm²) nutzbar sind. Die
optische Öffnung ist deutlich kleiner als die Wellenlänge des abgestrahlten Laserlichts. Der Abstand zur speichernden Oberfläche entspricht der halben optischen
Öffnung. Das reflektierte Streulicht wird zum Lesen genutzt.
5.2.13 Hyper-CD-ROM
Die Hyper-CD-ROM ist ein dreidimensionaler optischer Speicher. Die rotierende
Scheibe mit dem üblichen Durchmesser von 120 mm kann bei einer Dicke von 10
mm (1,2 mm bei DVD und CD-ROM) auf etwa 10.000 Ebenen beschrieben werden. Auf den verschiedenen Lagen wird in fluoreszierenden Schichten durch Laserbestrahlung selektiv die Fluoreszenz verändert. Das reflektierte Licht hat eine
andere Farbe. Es wird nicht von anderen dazwischen liegenden Schichten beeinflusst und kann damit relativ störungsfrei gelesen werden. Die veränderte Fluoreszenz ist bei normalen Umgebungstemperaturen (bis 550 Grad Celsius) stabil. Erste Hyper-CDs sollen etwa 10 TByte speichern können. Kapazitäten bis 1 PByte
sind nach Meinung des Erfinders theoretisch möglich.
Der Erfinder, Dr. Eugen Pavel aus Bukarest, erhielt im November 1999 auf der
EUREKA-Konferenz in Brüssel eine Goldmedaille. Die Technologie ist in 21
Staaten mit über 60 Patenten abgesichert.
5.2.14 Speichern auf Tesafilm
An der Universität Mannheim haben Dr. Steffen Noehte und Mathias Gerspach
1999 herausgefunden, dass Tesafilm sich als Datenspeicher nutzen lässt. Dr. Noehte arbeitet inzwischen am EML (European Media Lab) in Heidelberg weiter an
dieser Technik.
Auf einer handelsüblichen Rolle von 10 Meter Länge und 19 mm Breite sollen
sich theoretisch 10 GByte Daten speichern lassen. Die Informationen können
durch die einzelnen Lagen der Rolle hindurch gelesen und geschrieben werden.
Das Schreiben der Daten erfolgt optisch mit einem gebündelten Halbleiterlaser.
Inzwischen gibt es ein eigenes Unternehmen namens tesa scribos, das sich um die
holographische Datenspeicherung auf Tesafilm kümmert. Ein Anwendungsgebiet
ist unter anderem das Schreiben von so genannten Holospots zum Aufkleben.
214
www.tecChannel.de
Zukünftige Speichertechnologien
Von der Rolle: Ein auf
Tesafilm geschriebenes Hologramm soll
als Sicherheitsmerkmal fungieren. (Quelle:
EML)
Dabei handelt es sich um ein Hologramm, das in modifizierten Tesafilm geschrieben wird. Mit Holospots sollen sich beispielsweise Produkte fälschungssicher
kennzeichnen lassen. Die in einem Holospot enthaltene Datenmenge ist zirka tausend Mal größer als die eines herkömmlichen Barcodes.
5.2.15 MRAM
Beim MRAM wird ein Bit als magnetische Polarität in Magnetschichten gespeichert. MRAM soll schneller sein als Flash und etwa sechs Mal schneller als
DRAM. Jedes Atom im MRAM ist ein kleiner Elektromagnet. Magnetische Domänen bestehen aus Bereichen, in denen die Nord-Süd-Ausrichtung der atomaren
Magnete gleich ist. Bei einer bestimmten Art von MRAM gibt es zwei Lagen von
ferro-magnetischem Material mit einer isolierenden Schicht dazwischen, wie
beim GMR. Die Richtung der atomaren Magnete in der unteren Lage (Domäne)
ist fest. Die magnetische Richtung in der oberen Lage lässt sich ändern. Null oder
Eins ergeben sich aus der gleichen oder gegensätzlichen Magnetrichtung. Beim
Lesen wird der elektrische Widerstand durch diese drei Lagen gemessen. Er ist
niedrig, wenn die obere und die untere Lage parallel ausgerichtet sind, und hoch,
wenn beide antiparallel sind. Dies wird auch als Tunneling Magneto-Resistance
(TMR) bezeichnet. Die Widerstandsdifferenz bei dieser Vorgehensweise liegt heute schon bei etwa 50 Prozent. Zum Schreiben werden die Strom- und damit Magnetrichtungen in den Bit- und Zeichenleitungen (über beziehungsweise unter diesen drei Schichten) entsprechend gewählt.
MRAM-Zellen behalten ihren Bitzustand nach dem Lesen. Sie sollten schneller
sein als herkömmliche DRAMs und weniger Platz benötigen. Schwierigkeiten
gibt es durch die Verunreinigung der CMOS-Materialien mit dem ferro-magnetischen Material. Die magnetische Isolationsschicht muss extrem dünn (etwa 1,5
nm) und gleichmäßig dick (etwa ein Prozent Variation) sein.
webcode: a1209
215
Technologien
Bit Line/Top Electrode
Ferromagnetic
Layers
Tunneling Insulator
Showing
Coupling Layer
Electron Spins
Antiferromagnet
© tecCHANNEL
Richtungsweisend: Die Speicherung der Informationen erfolgt in der obersten Schicht, je nach
magnetischer Richtung.
5.2.16 BMR
Mit Unterstützung durch die amerikanische National Science Foundation haben
zwei Forscher an der Staatsuniversität von New York in Buffalo eine besonders
empfindliche magneto-resistive Sensortechnik entwickelt. Das so genannte
BMR-Verfahren (Ballistic Magneto-Resistance) erzeugt einen Widerstandsunterschied von 3000 Prozent im Sensor beim Auslesen extrem kleiner Magnetzellen.
Zum Vergleich: Die heute in Festplatten eingesetzte GMR-Technik kommt auf einen Widerstandsunterschied von etwas weniger als 100 Prozent.
Bei der GMR-Technik macht man sich zu Nutze, dass sich der Widerstand von
bestimmten Materialien wie Nickel-Eisen-Verbindungen im Magnetfeld ändert.
Bei dem genannten BMR-Versuch kam gleichfalls Nickel zum Einsatz. Das bei
Raumtemperatur durchgeführte Ergebnis des Experiments ist erheblich besser als
alle bisher bekannten Verfahren. Dabei ist das BMR-Element nur einige Atomdurchmesser lang und breit. Mit BMR soll es möglich sein, Daten bis zu einer
Speicherdichte von 1 Tbit/in² auszulesen.
5.2.17 Moleküle an Kreuzungen
Stanley Williams und andere Forscher bei HP arbeiten mit Molekülen zwischen
gekreuzten Platindrähten als Speicherelemente. Ihnen ist es gelungen, in einem
Raster von einem Mikrometer 64 Speicherzellen unterzubringen. Etwa tausend
solcher 64-Bit-Elemente würden auf die Spitze eines menschlichen Haares passen. Beim Lesen wird nur ein schwacher Strom durch die gekreuzten Leitungen
geschickt, damit der Speicherzustand ohne Refresh erhalten bleibt.
216
www.tecChannel.de
Zukünftige Speichertechnologien
Die zur Speicherung genutzten Moleküle an den Kreuzungspunkten haben eine
Widerstandsänderung mit dem Faktor 10.000 zwischen dem Null- und dem EinsZustand. Das ist um Größenordnungen mehr als bei MRAMs. Die Silizium-Strukturen werden nicht in tage- oder wochenlangen Prozessschritten herausgeätzt,
sondern in ein paar Minuten eingestanzt, ähnlich wie beim Pressen von CDs oder
DVDs. In die eingepressten Gräben werden dann die Platindrähte eingelegt. Williams sieht noch mindestens fünf Jahre Forschungsarbeit vor sich, bevor kommerzielle Produkte denkbar sind.
5.2.18 Ausblick
Bei den hier beschriebenen Techniken macht es zu diesem frühen Zeitpunkt ihrer
Entwicklung wenig Sinn, darüber zu spekulieren, welche Technik billiger, einfacher herzustellen, schneller oder stabiler ist. Solche Parameter sind frühestens
dann interessant, wenn Produkte kommerziell angeboten werden. Einige der hier
vorgestellten Ansätze sind noch relativ weit von einer kommerziellen Verwertung
entfernt. Niemand sollte überrascht sein, wenn oft mehrere Jahre lang keine aufregenden Nachrichten über ein bestimmtes Verfahren an die Öffentlichkeit gelangen. Erreicht dann allerdings eine der Techniken die Serienreife, könnte sie unser
Leben entscheidend verändern. Zwischen Wunsch und Wirklichkeit klafft bei einigen der vorgestellten Projekte eine deutliche Kluft. Insbesondere wenn es um
den Zeitraum zwischen der Präsentation von Prototypen und Visionen bis hin zur
Einführung von marktreifen Produkten geht.
Hermann Strass und Malte Jeschke
tecCHANNEL-Links zum Thema
Webcode
Compact
Zukünftige Speichertechnologien, Teil 1
a1209
S.206
Zukünftige Speichertechnologien, Teil 2
a1210
–
Zukünftige Speichertechnologien, Teil 3
a1236
–
Holographische Speichertechnik
a1197
–
Technologie-Trends bei Festplatten & Co
a658
–
Grundlagen: Festplattentechnik
a641
–
Nanotechnik: IBM speichert 1 Tbit/in²
a947
–
Bandspeicher-Technologie im Überblick
a1149
–
Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de
ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren.
webcode: a1209
217
Glossar
Glossar
ALUs
DMZ
Arithmetical and Logical Unit: Rechenwerk. Funktionsblock des Prozessors, der arithmetische und logische
Funktionen ausführt.
Entmilitarisierte Zone, demilitarized
zone: Da bei befinden sich BastionHost, Informations-Server, ModemPools und andere Server im DMZNetz. Das DMZ-Netz agiert so als
kleines isoliertes Netzwerk zwischen
dem privaten Netz und dem Internet.
Assoziativ
Mehrdeutig. Der Speicher wird nicht
direkt adressiert, sondern über eine
Adresstabelle. Da aus Platzgründen
meistens lediglich ein Teil der Adresse
gespeichert wird, kann das Ergebnis
mehrdeutig sein, also auf mehrere Ziele zeigen.
Core
Prozessorkern. Als Core bezeichnete
man ursprünglich den eigentlichen
CPU-Block ohne Caches. Nachdem
der L1-, L2- und zunehmend auch der
L3-Cache auf das Die wandern, wird
die Bezeichnung Core auch für die gesamte Technik auf dem Siliziumplättchen verwendet.
DDR-SDRAM
DNS
Domain Name System (oder Service).
Ein Internet-Dienst, der Domain Namen wie www.tecChannel.de in die zugehörigen IP-Adressen umsetzt. Weiß
ein DNS-Server die IP-Adresse eines
Namens nicht, so fragt er bei einem anderen Server nach.
DSL
Digital Subscriber Line. Die Standleitung ins Internet für kleine Firmen und
Privatpersonen. DSL arbeitet mit denselben Kupferkabeln wie analoge Telefone und ISDN-Anschlüsse. Die Übertragungsgeräte sind aber aufwendiger.
Double Data Rate SDRAM: verdoppelt
die Bandbreite durch Nutzung beider
Taktflanken für die Datenübertragung.
ECC
DHCP
Fibre Channel
Dynamic Host Configuration Protocol.
Bei DHCP bezieht ein Arbeitsrechner
seine Konfiguration des IP-Netzwerks
von einem Server.
Serielles Interface nach einem offenen
Standard. Fibre Channel stellt ein
Transportsystem für Kommandos (im
Allgemeinen SCSI) dar. Es packt die
218
Error Correcting Code. Verfahren, das
Bitfehler erkennt und korrigiert.
www.tecChannel.de
Glossar
Daten in Frames und transportiert sie
unter Anwendung einer Fehlerkorrektur zum Bestimmungsort.
FPU
Floating Point Unit: Fließkommaeinheit. Funktionsblock des Prozessor, der
auf die Bearbeitung von Fließkommazahlen optimiert ist.
FSB
Front Side Bus. Der eigentliche Systembus auf dem Mainboard, der früher
auch den Speicherbus beinhaltete. Mittlerweile wird der Begriff FSB nur
noch für die Verbindung zwischen Prozessorsockel und Northbridge des
Chipsets verwendet.
GMR
Giant Magnetoresistive. Eine von IBM
entwickelte Technologie für Schreib-/
Leseköpfe bei Festplatten, die die
Quanteneffekte der Elektronen ausnutzt. Die Köpfe bestehen aus mehreren Schichten. Bei gleicher magnetischer Ausrichtung der Schichten können Elektronen mit positivem Spin die
Schichten passieren. Elektronen mit
negativem Spin tragen nicht zum
Stromfluss bei. Bei unterschiedlicher
Ausrichtung können keine Elektronen
die Schichten durchqueren.
ICH
I/O Controller Hub. Komponente des
Mainboard-Chipsatzes, an dem die Peripherie angeschlossen ist. Der Name
wurde von Intel mit dem 810er Chipsatz eingeführt, bei älteren Intel-Chip-
sätzen und beim Mitbewerb lautet er
noch Southbridge. Die NorthbridgeKomponente des Chipsatzes heißt bei
Intel MCH (Memory Controller Hub).
JBOD
Just a bunch of disks. Der Name ist eine
Bezeichnung für eine Organisationsform von Plattensubsystemen, bei der
die einzelnen Laufwerke unabhängig
voneinander angesprochen werden.
Wird auch für Spanning verwendet, das
Zusammenfassen mehrerer Platten zu
einem logischen Laufwerk ohne besondere Verwaltung der Datenzugriffe.
JEDEC
Joint Electron Device Engineering
Council: Komitee zur Normierung von
Halbleitertechniken. Momentan besteht die JEDEC aus ungefähr 300 Mitgliedsfirmen.
L1-Cache
Schneller Zwischenspeicher, um den
Zugriff auf häufig benutzte Daten zu
beschleunigen. Der L1-Cache ist auf
dem Prozessor-Die integriert und die
erste Instanz in der Cache-Hierarchie.
MAC
Media Access Control. Unterste Ebene
der Sicherungsschicht (Data Link Layer) im OSI-Referenzmodell. Die MACEbene steuert Vorgänge, die für bestimmte LAN-Typen spezifisch sind.
Darunter fallen beispielsweise die Algorithmen zur Kanalverwaltung, Frame-Aufbau oder Kollisions- und Fehlererkennung.
www.tecChannel.de
219
Glossar
MacroOPs
PCMCIA
Die auf dem Athlon-Kern basierenden
Prozessoren von AMD zerlegen die
komplexen x86-Befehle in einfach zu
handhabende Kommandos fester Länge. Ein MacroOP kann aus ein bis zwei
dieser OPs bestehen. Der zweite OP ist
immer ein Load/Store-OP. Intel nennt
diese RISC-ähnlichen Befehle bei seinen Prozessoren MicroOPs.
Personal Computer Memory Card International Association. Das Industriegremium definierte ab 1991 eine
Reihe gleichnamiger Standards für PCSpeicher- und Multifunktionskarten.
Obwohl der Standard bereits 1995 in
„PC Card“ umbenannt wurde, ist parallel noch immer das ältere Akronym
PCMCIA gebräuchlich.
Microcode
Portscan
Die Firmware einer CPU. Bei Intel verfügen seit dem Pentium Pro alle CPUs
über einen Microcode, den in der Regel
das BIOS beim Systemstart in den Prozessor lädt. Mit einem neuen Microcode lassen sich kleinere Fehler in der
CPU ausbügeln. Bei neuen Versionen
(Steppings) einer CPU muss das BIOS
den neuen Microcode enthalten, damit
der Prozessor schnell und stabil läuft.
Ein TCP-Port dient als Kommunikastionskanal für den Zugriff auf einen
Internet-Rechner über das TCP/IPProtokoll, ähnlich den Nebenstellen eines Telefonanschlusses. Jedes TCP/IPProgramm nutzt einen TCP-Port für die
Kommunikation mit anderen PCs.
NAT
Network Address Translation. NAT ist
ein Verfahren zur Abschottung des
LANs gegenüber dem Internet. Dabei
wird zum Internet hin immer nur eine
Adresse gemeldet, unabhängig von der
tatsächlichen IP-Adresse im LAN. Der
NAT-Router übernimmt dabei die Verteilung der IP-Pakete zu den richtigen
Empfängern.
PPPoE
Point-to-Point-Protocol over Ethernet.
Spezielles Protokoll, das Punkt-zuPunkt-Verbindungen über das Ethernet
ermöglicht.
RDRAM
Rambus Dynamic Random Access
Memory: Speichertechnologie der Firma Rambus. RDRAM kann durch sein
spezielles Design mit Frequenzen von
bis zu 600 MHz getaktet werden.
Out-of-Order
Registered DIMMs
Abschluss von Befehlen in einer Reihenfolge, die nicht der programmierten
Reihenfolge entspricht.
Speichermodul mit gesonderten Treiberbausteinen zur Signalverstärkung.
Durch die Register lassen sich auf einem DIMM mehr Speicherchips integrieren, ohne dass die Signalqualität
dabei leidet.
220
www.tecChannel.de
Glossar
SIMD
TDP
Single Instruction, Multiple Data.
Oberbegriff, der die Funktionsweise
von Multimedia-Erweiterungen wie
MMX, 3DNow! oder SSE in Prozessoren beschreibt.
Thermal Design Power. Maximale
Leistungsaufnahme eines Prozessors
unter Volllast. Der TDP-Wert der CPU
wird bei der Entwicklung von Lüftern
und Kühlmaßnahmen genutzt. Im normalen Betrieb erreichen Prozessoren
den TDP-Wert kaum.
SMP
Symmetrisches Multiprocessing. System, bei dem mehr als ein Prozessor zur
Ausführung von Programmen verwendet wird. Eine Komponente des Betriebssystems (Scheduler) ist für die
Verteilung der Aufgaben auf die einzelnen Prozessoren zuständig.
SOI
Silicon on Insulator: SOI-Technologien nutzen eine vergrabene Oxidschicht
für die vollständige dielektrische Isolation jedes einzelnen Bauelements in einer integrierten Schaltung. Bei diesem
Verfahren verringern sich die Leckströme, und die parasitären Kapazitäten
sinken deutlich.
Thread
Ein Thread besteht aus einer Abfolge
von Befehlen sowie dem Zustand der
Sequenz. Dieser wird durch Counter,
Call/Return-Stack sowie Thread-eigene Daten repräsentiert. Ein Task besteht
aus einem oder mehreren Threads.
TLBs
Translation Lookaside Buffer: Kleiner
Zwischenspeicher, der Informationen
zur Konvertierung von logischen in
physikalische Adressen enthält. Üblicherweise ein Bestandteil der MMU
oder AGU.
UHCI
SSE
Streaming SIMD Extensions. Intels
Marketing-Bezeichnung für einen erweiterten 3D- und Multimedia-Befehlssatz. SIMD steht für Single Instruction Multiple Data. Mit dem Pentium 4 wurde SSE2 eingeführt.
SSID
Shared System ID. Wird manchmal
auch als Shared Key bezeichnet. Gemeinsamer Schlüssel für den Zugriff
auf ein Wireless LAN nach dem IEEE802.11-Standard.
Universal Host Controller Interface:
Stellt das Hardware/Software-Interface zur Verfügung, damit USB- Hardware und -Treiber zusammenarbeiten
können.
VPN
Virtual Private Network. Beim VPN
lassen sich über ein öffentliches Datennetz, wie etwa das Internet, sichere private Verbindungen, beispielsweise in
das Firmennetz, aufbauen.
www.tecChannel.de
221
Index
Index
Symbole
3D-Speicher 210
64-Bit-Mode 73
802.1x 188
8B/10B-Kodierung 158
A
Advanced Branch Prediction 78
AGP 30
AGU 70
AIM Suite VII 167, 168
Akku-Laufzeit 124
Akku-Spannung 116
Akku-Technologien 97
Alderwood 17
ALS-Technologie 119
ALU 70, 88
Alviso 65
AMD64 68
AMD64-Architektur 162
AMD Quartet 165
Athens 128
Athlon 64 12, 62
Athlon 64 für Notebooks 68
Athlon 64 FX 13
Athlon XP 14
Athlon XP-M 63
ATI-Roadmap 24
Ausführungseinheiten 70, 88
B
Banias 64, 76
Blaulicht-DVD 197
Blei-Säure-Akku 100
BMR-Verfahren 216
Brennstoffzelle 112
C
Calexico 83
Cardbus-Schnittstelle 92
Centrino 64, 76
Compatibility Mode 73
Control Speculation 145
Core 86
Crusoe 86
222
D
dbench 167, 172
DDR2 17, 19, 50
DDR2-667 50
DDR266-SDRAM 19
DDR3 55
Deerfield 137
Dell PowerEdge 4600 164
DeltaChrome 25
DHCP-Server 186
DMZ-Host 186
Dothan 64
DRSL 58
DSL-Modem 183
Dynamic Translation 146
dynamisches DNS 184
E
EBL WG 117
Efficeon 66, 85
Egypt 129
Elektrische Leistungsverteilung 115
elektrochemische Spannungsquelle 99
Elektrolyt 98
Enhanced SpeedStep 80
EPIC 142
Even BankSet 58
Expander 156
ExpressCard 92
ExpressCard-Schnittstelle 95
F
Fanwood 131
FB-DIMM 56
FeRAM 211
Fibre Channel 157
Firewall 186
Flex-Phase-Technologie 58
Flush-Filter 71
FPU 70
FRAM 211
Front Side Bus 162
Fully Buffered DIMM 56
G
GeForceFX 24
Glueless Multiprocessing 162
GMR-Technik 216
Grantsdale 17
www.tecChannel.de
Index
H
Hints 143
Holographie 196
Hyper-CD-ROM 214
Hyper-Threading 40
HyperTransport 73, 162
I
IA 136
IA-32-Emulation 146
IA-32 Execution Layer 146
IA-64 136
IBM xSeries 225 164
Idle-Timer 184
Interconnects 49
IPSec 186
Itanium 135, 162
Itanium 2 131
Itanium Architecture 136
J
Jayhawk 130
JEDEC 19
JESD-79-2 19
K
Kapazität 98
Kupferverdrahtung 47
L
L1-Cache 71
L2-Cache 71
LAN 125
Lazy-Battery-Effekt 105
Legacy Mode 73
LGA775 16
Li-Ion-Akku 106
Lindenhurst 130
lmbench 167, 169
Longhorn 40
LongRun 90
Low-k 47
LTPS-Technologie 118
LV Pentium M 65
M
MAC-Adresse 184, 187
MAC-Clonen 185
MacroOPs 72
Madison 9M 131
Management 184
McKinley 135
Memory-Effekt 103
MicroOPs-Fusion 76
Millipede 208
Mobile Athlon 64 62
Mobile Pentium 4 65
Mobile Prescott 65
MRAM 215
MROM 72
MWAIT 42
N
Nanotubes 210
NAT 185, 186
Newcastle 13
Newisys 162
Nexus 41
NiCd-Akku 102
Nickel-Cadmium-Akku 102
NiMH-Akku 104
Nocona 130
Northbridge 89, 162
Northwood 38
Notebook-Laufzeit 115
NVIDIA-Roadmap 25
O
Oakville 63
Odd BankSet 58
Odessa 63
Off Chip Driver Calibration 52
Opteron 128
P
Paketfilterung 186
PC1066-RDRAM 21, 52
PC1200 20, 21
PC1200-RDRAM 52
PCI Express 29
PCMCIA-Konsortium 92
Pentium 4 Extreme Edition 15
Pentium M 76
PFRAM 213
Phase-Change-Technik 213
Pipeline 72, 88, 149
Port Address Translation 185
Potomac 130
Powermanagement-Funktionen 122
www.tecChannel.de
223
Index
PowerNow! 63, 69
PPPoE 183
Predication 140
Prefetch-Technologie 51
Prescott 15, 38
Primärelemente 97
T
Tanglewood 133
TCG 40
TCPA 40
TDP 63, 69
Teja 16
TeraHertz-Transistor 49
Threadsynchronisation 42
TKIP 188
TLB 71, 148
TM8000 85
tpmC 153
Translation Lookaside Buffer 148
Transmeta 62, 66, 85
Q
Q-Flash-Technik 210
QBM 53
Quad Band Memory 53
R
RAID-Controller 160
Ramtron 212
RDRAM 52
Register 74
Register Stack Engine 138
Rotation 138
S
U
SAS 155
SAS-Festplatte 156
SATA 155
SCSI-Kabel 157
SCSI Management Protocol 158
Separator 98
Serial Attached SCSI 155
Serial SCSI Protocol 158
Serial Tunneling Protocol 158
SIMD 41
Skew 45
SMP 158
Software Pipelining 139
SOI 63
SPEC 153
Speculation 145
SpeedStep 76
Speicherdichte 206
Sprungvorhersagen 78
SSE2 70
SSE3 41
SSID 188
SSP 158
stacked/rotating Register 138
Stateful Inspection 186
STP 158
Strained Silicon 45
SuSE Linux Enterprise Server 8 167
Switch 183
224
Ultra320-SCSI 155
ULV Pentium M 65
Unified Cache 148
unixbench 167, 170
UPnP 187
V
VCSEL 214
Venus 128
Very Long Instruction Word 142
Virtual Server 185
VLIW 86, 142
Volari 26
Voltaschen Spannungsreihe 98
VPN 184, 186, 188
W
Wake on LAN 187
WEP 187
Willamette 38
WLAN 125
WPA 187
X
XDIMM 58
XDR-RAM 19, 57
Xeon 130, 163
XGI 26
Z
Zink-Luft-Akku 108
www.tecChannel.de
[ U n e n t beh rli ch für I T - P ro fi s ]
Das tecCHANNEL-Abo
15% sparen + Geschenk!
Abonnieren Sie jetzt tecCHANNEL-Compact,
und wir schenken Ihnen das praktische Multi-Tool!
+
› SCHNELL:
■
ulti-Tool
Gratis! M
Sie
ön erhalten
› GÜNSTIGER:
■
ch
Als Dankes
-Tool
tische Multi
dieses prak
bo
-A
es
hr
im neuen Ja
dazu.
› RISIKOLOS:
■
15% Ersparnis
tecCHANNEL-Compact
kommt pünktlich und
versandkostenfrei
gegenüber dem Kioskpreis!
Sie können das Abo
jederzeit kündigen
› Gleich bestellen & Vorteile sichern!
■
›
› COUPON AN
■
tecCHANNEL Abobetreuung
Konrad-Zuse-Str. 16
74172 Neckarsulm
Fax: 07132 / 959166
› BESTELL-HOTLINE
■
018 05/9998 02
(12 Ct/Min)
› E-MAIL
■
[email protected]
› ONLINE BESTELLEN
■
www.tecChannel.de/shop
Verpackung inkl., im Abo zu. Ich kann diesen Service jederzeit kündigen. Geld für noch nicht gelieferte Ausgaben wird mir zurückerstattet. Das Geschenk erhalte ich nach bezahlter Rechnung.
ABSENDER:
Bitte heraustrennen und an tecCHANNEL schicken oder faxen
einfach ausfüllen und abschicken!
■ Ja, bitte senden Sie mir tecCHANNEL-Compact zum günstigen Jahresvorzugspreis von 49,95 Euro, Porto und
✗
✄
IHR BESTELLCOUPON
Name/Vorname
Straße/Postfach
PLZ, Ort
Telefonnummer
E-Mail
Ich wünsche folgende Zahlungsweise:
Bargeldlos und bequem ■ per Bankeinzug ■ per Rechnung
Bank
BLZ
Kto.-Nr.
✗
Datum/Unterschrift
5TCF044