Inhaltsverzeichnis
Transcription
Inhaltsverzeichnis
Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten Namen der Autoren: André Neuhaus, Bernd Köhler, Jens Weierstahl Titel der Arbeit: "Zukunft der verteilten Datenhaltung zur Vermeidung von Datenverlusten" Hochschule und Studienort: FOM Essen Inhaltsverzeichnis • 1 Abkürzungsverzeichnis • 2 Abbildungsverzeichnis • 3 Einleitung • 4 Grundlagen ♦ 4.1 Bedrohungsszenarien ♦ 4.2 Anforderungen an die Infrastruktur und die Topologie ♦ 4.3 Anforderungen an ein verteiltes Dateisystem ♦ 4.4 Replizierung ◊ 4.4.1 Synchrone Replizierung ◊ 4.4.2 Asynchrone Replizierung ⋅ 4.4.2.1 Serialisierung ⋅ 4.4.2.2 Zeitstempel • 5 Aktuelle Technologien und deren Zukunft ♦ 5.1 Datenspeicher ◊ 5.1.1 Redundant Arrays of Independent Disks (RAID) ◊ 5.1.2 Network Attached Storage (NAS) ◊ 5.1.3 Internet Small Computer Systems Interface (iSCSI) ♦ 5.2 Cloud Datenspeicher ◊ 5.2.1 Microsoft Live Mesh ◊ 5.2.2 ZumoDrive ♦ 5.3 Grid Systeme • 6 Technologien in der Entwicklung ♦ 6.1 Dateisysteme ◊ 6.1.1 NFS Dateissystem ⋅ 6.1.1.1 NFSv4.1 ⋅ 6.1.1.2 pNFS ◊ 6.1.2 XtreemFS ⋅ 6.1.2.1 Aufbau des XtreemFS ⋅ 6.1.2.2 Authentifizierung im XtreemFS ⋅ 6.1.2.3 Datenverteilung im XtreemFS ⋅ 6.1.2.4 Zugriffsrechte und Benutzerrechte für Dateizugriffe ♦ 6.2 Netzwerktechnologien Inhaltsverzeichnis 1 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten ◊ 6.2.1 LAN Verbindungen ◊ 6.2.2 WAN Anbindungen ♦ 6.3 Speichertechnologien ◊ 6.3.1 Flash ◊ 6.3.2 Hybrid Festplatten ◊ 6.3.3 Solid State Disks ◊ 6.3.4 Racetrack Memory ◊ 6.3.5 Phasenwechselspeicher ◊ 6.3.6 Nanoinseln als Datenspeicher ◊ 6.3.7 MRam • 7 Storage as a Service ♦ 7.1 Symantec Online Backup ♦ 7.2 EMC Atmos • 8 Fazit • 9 Fußnoten • 10 Literatur- und Quellenverzeichnis 1 Abkürzungsverzeichnis Abkürzung AES API Bit CD CIFS DIR DVD EDGE E-IDE eSATA FTP FTTH GB GPRS HHD HSCSD HSDPA HSUPA HTTP IDE IETF IFS ISDN Bedeutung Advanced Encryption Standard Application Programming Interface Binary Digit Compact Disc Common Internet File System Directory Service Digital Versatile Disc Enhanced Data Rates for GSM Evolution Enhanced Integrated Device Equipment external SATA File Transfer Protocol Fibre to the house Gigabyte General Packet Radio Service Hybrid Hard Drive High Speed Circuit Switched Data High Speed Downlink Packet Access High Speed Uplink Packet Access HyperText Transfer Protocol Integrated Device Equipment The Internet Engineering Task Force Common Internet File System Integrated Services Digital Network 1 Abkürzungsverzeichnis 2 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten I/O LTE JPG KB MB MFM MOSFET MRAM MRC NAND NAS NDMP NFS Nm NOR NTFS OSD PCI pNFS RAM REST RFC RPC SAN SaaS SATA SOAP SSD SSL TB TCP/IP UDP UMTS VFS WAN WIMAX XDR Ein-/Ausgabe Long Term Evolution Joint Photographics Expert Group Kilobyte Megabyte Modified Frequency Modulation Metall-Oxid-Feldeffekttransistor Magneto-Resistive Random Access Memory Metadaten und Replica-Katalog Not-And Network Attached Storage Network Data Management Protocol Network File System Nanometer Not-Or New Technology File System Object Storage Device Peripheral Component Interconnect paralle Network File System Random Access Memory Representational State Transfer Requests for Comments Remote Procedure Call Storage Area Network Storage as a Service Serial Advanced Technology Attachment Simple Object Access Protocol Solid State Disk Secure Sockets Layer Terabyte Transmission Control Protocol / Internet Protocol User Datagram Protocol Universal Mobile Telecommunications System Virtual File System Wide Area Network Worldwide Interoperability for Microwave Access eXternal Data Representation 2 Abbildungsverzeichnis Abb.-Nr. 2 Abbildungsverzeichnis Abbildung 3 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 LaCie Quadra Laufwerke[1] LaCie Quadra 4x4 mit Hostcontroller[1] RAID 0 [2] RAID 1 [2] RAID 5 [2] LaCie Netzwerkfestplatte [1] IBM N3600 NAS [3] Live Mesh Geräte[4] Live Mesh Dateifreigabe und Online-Nutzer[5] ZumoDrive: Schematischen Ablauf der Datensicherung[6] Der Aufbau eines Grids in Schichten[7] Schematischer Ablauf einer NFS Kommunikation[8] Kommunikationsablauf im pNFS[9] Ablauf eines Dateiaufrufs im XtreemFS[10] Flash Speicher[11] Funktionsweise Flash Speicher 1[12] Funktionsweise Flash Speicher 2[12] Eigenschaften von NOR- und NAND-Speichern im Vergleich[11] Solid State Disk[13] Racetrack Memory[14] Racetrack Memory 2[15] Zustände des Phasenwechselspeicher[16] Nano-Inseln unter dem Mikroskop betrachtet[17] Nano-Inseln[18] MRAM Schichten[19] MRAM Schreib- Lesevorgänge[20] MRAM Speicher 1[20] MRAM Speicher 2[20] MRAM Speicher 3[20] Verzeichnisbaum im Symantec-Online-Backup[21] Webseite für die Administration des Symantec-Online-Backup[22] Aufbau eines EMC Atmos[23] 3 Einleitung Seit Jahren ist die Informationstechnik auf dem Vormarsch. So schreibt der Bundesverband Informationswirtschaft und neue Medien e.V. (Bitkom) im Jahre 2007 ?PC-Ausstattung in Deutschland knackt erstmals 75 Prozent Marke? [24] und ?die Zahl der installierten PC wird im Jahr 2007 weiter zweistellig wachsen und die Marke von einer Milliarde überschreiten? [25]. Gleichzeitig mit der Verbreitung von PC, Handys, Digitalkameras, schnellen Breitbandnetzen und dem ?papierlosen Büro? in Form von Dokumentenmanagementsystemen wachsen auch die Datenmengen, sowohl privat als auch gewerblich. Die 3 Einleitung 4 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten Tatsache, dass viele Daten oft nur noch elektronisch vorliegen, so z. B. die Urlaubsbilder oder -videos der Digitalkamera im privaten Bereich, wie elektronisch übermittelte Dokumente im gewerblichen Umfeld, lässt der ausfallsicheren Datenhaltung eine immer größere Bedeutung zukommen. So müssen im gewerblichen Umfeld einige Daten, wie z. B. Rechnungen, per Gesetz über 10 Jahre hinweg aufbewahrt werden [26]. Bei Verlust von elektronisch gespeicherten Kunden- oder Bestelldaten ist ein Unternehmen innerhalb weniger Augenblicke nicht mehr handlungsfähig. Neben der reinen Speicherung von Daten eröffnen sich bei einer ?Verteilung? weitere Probleme: Wie kann sichergestellt werden, dass verteilte Daten nur an bestimmte Systeme verteilt werden und nicht an unerwünschte Empfänger gehen und diese die Daten mitlesen können? Wie kann sichergestellt werden, dass unternehmenskritische, vertrauliche und private Daten bei einer Verteilung geschützt bleiben? Weitere Probleme können der Datenabgleich und der administrative Aufwand bei mehreren verteilten Systemen sein. Wie dargestellt gibt es gravierende Unterschiede zwischen privaten und gewerblichen Anwendern: während im privaten Umfeld lieb gewonnene Digitalfotos in Verlust geraten oder die mühsam digitalisierte Musiksammlung, stellt sich ein Datenverlust in Unternehmen und Behörden oft mit gravierenden finanziellen, rechtlichen oder gar existenziellen Folgen dar. So unterscheidet sich auch der sinnvolle, technische und finanzielle Aufwand der Datenhaltung. Diese Studie stellt vor dem Hintergrund der Vermeidung von Datenverlusten verschiedene Möglichkeiten der verteilten Datenhaltung vor. Vor dem Oberthema ?Speichertechnologien? werden neben aktuellen, bereits bestehenden Technologien und deren momentanen Weiterentwicklungen bzw. Entwicklungspotenzialen neue Technologien vorgestellt. Des Weiteren wird auch auf Sicherungsmöglichkeiten der Systeme eingegangen. Zunächst aber die Klärung der Grundbegriffe zur verteilten Datenhaltung: Verteilte Systeme sind ?ein Zusammenschluss unabhängiger Computer, der sich für den Benutzer als ein einzelnes System präsentiert? [27]. Das Bundesamt für Sicherheit in der Informationstechnik (BSI) liefert bei der Definition des verteilten Betriebssystems direkt einen Vorteil mit: ?Ein verteiltes Betriebssystem läuft in der Regel auf mehreren, physisch autonomen Server-Rechnern ab, die jeweils wiederum mit mindestens einer CPU ausgestattet sind. Zwischen den Rechnern muss ein Verbindungsnetzwerk vorhanden sein, über das die Knotenrechner kommunizieren können ? Bei einem Ausfall eines physischen Rechners oder bei einem schwerwiegenden Fehler innerhalb eines Betriebssystems kann ein Anwender meist über einen anderen Rechner aus dem Verbund in transparenter Weise weiterarbeiten? [28]. ?Daten? sind gemäß DIN 44 300 als Zeichen oder kontinuierliche Funktionen definiert, auf Basis von Abmachungen, die Informationen darstellen [29]. So ist beispielsweise ?abgemacht?, dass die Digitalkamera ein Urlaubsbild als digitale Information im JPG-Format in Bits und Bytes speichert und dieses Bild so auch gelesen werden kann. Zu ?Datenhaltung? findet man nur schwer eine Definition. Meist wird der Begriff im Universitätsumfeld benutzt, und darunter Datenspeicherung, -sicherung und ?archivierung verstanden [30]. Datenhaltung erfordert auch die Wahl eines geeigneten Speichermediums und seine geeignete Lagerung. Zugriffsrechte sind ebenfalls Teil der Datenhaltung. Unter verteilter Datenhaltung lässt sich somit die Speicherung, Sicherung und Archivierung von Daten auf Computern herleiten die miteinander verbunden sind. Wie ein Daten?verlust? entstehen kann und wodurch Daten bedroht sind, stellt sich im folgenden Kapital dar. 4 Grundlagen 4 Grundlagen 5 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten 4.1 Bedrohungsszenarien Wie kann Datenverlust entstehen, wo durch sind Daten gefährdet? Grundbedrohungen in der Informationstechnik sind • Verlust der Verfügbarkeit • Verlust der Integrität • Verlust der Vertraulichkeit [31] Neben dieser abstrakten Grundbedrohung gibt es konkrete Umstände und Ereignisse, die IT-Systeme und somit auch die dort gelagerten Daten gefährden können: • Stromausfall • Ausfall der Klimaanlage • Sabotage an Geräten • Software-Fehler • Elektromagnetische Abstrahlung • Hardware-Fehlfunktion • Feuer • Wassereinbruch • Fehlbedienung • Unberechtigter Zugriff • Raubkopien • Manipulation von Programmen • Mangelndes Sicherheitsbewusstsein • Unberechtigter Zugang / Hacker / Virus / Trojanisches Pferd • Nutzung privater Hard- und Software • Wurm • Abhören von Leitungen • Erdbeben • unsachgemäße Entsorgung von Datenträgern • unmotivierte Mitarbeiter • Terroranschläge • Statische Aufladung • Hardware-Ausfall • Fehlerhafte Dateneingabe • Datenträgerdiebstahl • ungeschulte Benutzer (Auflistung angelehnt an Abb 1 BSI Sicherheitshandbuch) [31] Wie kann nun eine verteilte Datenhaltung (v. DH) dem Datenverlust vorbeugen? Eine v. DH kann ein Punkt in einem umfassenden Sicherheitspaket sein. V. DH kann mehrere Ausgestaltungen haben, wie z. B. die Verteilung von Daten auf mehrere Datenträger in einem System, Verteilung auf mehrere (verschiedene) Systeme in einem Gebäude, wie z. B. auf mehrere Brandabschnitte, Verteilung auf verschiedene Standorte oder Ähnliches. Unter ?Verteilung? lässt sich prinzipiell sowohl die Spiegelung von identischen Daten auf mehrere Systeme, als auch die Aufteilung von Daten auf mehrere Systeme verstehen, so dass auf einem System niemals alle Daten komplett vorhanden sind. Dies kann zum Zugriffsschutz, also aus Sicherheitsgründen sinnvoll sein: Selbst bei Diebstahl eines Systems hat der Angreifer nur einen Teil der Daten in der Hand. Durch v. DH wird die Vermeidung von Datenverlusten vor allem in der Verfügbarkeit unterstützt: Bei Ausfall eines Datenträgers, eines Servers oder eines Standorts sind die Daten auf anderen, gespiegelten Systemen nach wie vor verfügbar. Ein weiterer Sicherheitsgedanke ist die Datenintegrität. Unter Integrität versteht man die Tatsache, dass Informationen nur von Befugten in beabsichtigter Weise verändert und nicht unzulässig modifiziert werden dürfen. [31] Wenn nun Daten verändert, also verfälscht werden, ist bei einer gespiegelten Datenhaltung je nach Ausgestaltung selbiger nur ein System betroffen, so dass noch weitere Systeme mit den originalen, also unveränderten Daten verfügbar sind. Unter der Vertraulichkeit von Informationen versteht man die Tatsache, dass die Information nur Befugten zugänglich ist und kein unbefugter Informationsgewinn stattfinden kann [31]. Werden wichtige Daten nur gestückelt auf mehrere Standorte verteilt, ist ein potenzieller Spion (Angreifer) nicht in der Lage, alle 4.1 Bedrohungsszenarien 6 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten Informationen auf einmal zu bekommen. Durch die Ausbreitung von vernetzten Systemen wird dieser Aspekt jedoch hinfällig. Viele dieser Aspekte werden durch eine verteilte Datenhaltung, verbunden mit vernetzten Systemen, entschärft, da Daten mehrfach vorhanden sind: Bei Stromausfall an einem Standort übernimmt ein weiterer Standort, genauso bei einem möglichen Terroranschlag, bei einem Hardwareausfall, bei Ausfall der Klimatechnik, bei Feuer oder Wassereinbruch im Technikraum. Nach Wiederherstellung des Standorts findet ein Datenabgleich statt und beide Systeme stehen wieder zur Verfügung. Grenzen und Gefahren der v. DH: Nicht alle Aspekte werden durch eine v. DH aufgefangen, die Gefahr des Datenträgerdiebstahls oder der unsachgemäßen Datenträgerentsorgung steigt logischerweise mit der Anzahl der verteilten Datenträger. Bleiben Daten nicht im Haus, sondern werden zusätzlich zu anderen Standorten übertragen, steigt die Gefahr des Mithörens des Netzwerkverkehrs. Je mehr Systeme im Einsatz sind, desto mehr Systeme müssen administrativ verwaltet werden, dadurch steigt auch die Gefahr des unberechtigten Zugriffs und die der Fehlbedienung. Werden Daten zu externen Firmen ausgelagert, steigt die Gefahr des unberechtigten Zugriffs, der Manipulation und der Geheimhaltung. 4.2 Anforderungen an die Infrastruktur und die Topologie Geschwindigkeit: Um eine dezentrale Datenhaltung zu betreiben sind schnelle Datenverbindungen Vorraussetzung. Anwender erwarten heutzutage sofortige Datenverfügbarkeit. Nach verschiedenen Studien ist ein langsamer Seitenaufbau für viele Kunden ein Grund einen Onlineeinkauf abzubrechen. [32] Ähnliches darf daher für die Anwenderzufriedenheit beim langsamen Datenabruf in Anwendungen unterstellt werden. Im Idealfall sollte der Datenzugriff ähnlich schnell vonstatten gehen, als wenn die Daten direkt lokal vor Ort verfügbar wären. Dafür bedarf es schnelle und hochverfügbare Netzwerke. Je nach Ausprägung sind diese Datenverbindungen sowohl im Haus, um z. B. virtuelle Festplatten mittels iSCSI bereitzustellen, wie auch als externe WAN Anbindungen notwendig, um Daten auf verschiedene Standorte zu verteilen. iSCSI z. B. wird erst durch performante Netzwerke ermöglicht. Näheres dazu in Kapitel 3.1.3 Näheres zu aktuellen Netzwerktechnologien in Kapitel 4.2 Redundanz bei verteilter Datenhaltung: Je nach Verteilung liegen alle oder nur ein Teil der Daten redundant vor. Es muß sichergestellt werden, daß sich Daten abgleichen können, aber z. B. keine alten Datenbestände neue, geänderte Bestände überschreiben. Denn dies würde die Datenintegrität gefährden, vergl. BSI Grundbedrohungen Kapitel 5.1. Berechtigungen / Authentifzierung: Bei einer Datenhaltung muss sichergestellt werden, dass nur berechtigte User Zugriff auf die sensiblen Daten haben. Abgestufte Berechtigungskonzepte, z. B. bei NTFS oder Novell Netware müssen auch auf die verteilte Datenhaltung umgesetzt werden können. Es muß eine Authentifizierung der zugreifenden User erfolgen können, ggf. sind auch Logfiles der Zugriffe notwendig. Sicherungsmaßnahmen / Dateisicherungen: Für herkömmliche Server gibt es Sicherungsmaßnahmen in Form von redundanten Netzteilen, RAID Controller für Festplatten u.ä. Daneben gibt es eine Vielfalt von Sicherungsmöglichkeiten / Backupkonzepte mittels Streamer, Bandroboter, Plattenstapel oder ähnliches. Dieses muß auch bei einer verteilten Datenhaltung integriert werden können ? was nutzt es, wenn Daten zwar performant und verteilt gespeichert werden können, aber keine Archivierung möglich ist. 4.2 Anforderungen an die Infrastruktur und die Topologie 7 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten 4.3 Anforderungen an ein verteiltes Dateisystem Verteilte Dateisysteme wurden schon zu Beginn der 80ger Jahre entwickelt. Sie stammen vornehmlich aus dem Großrechnerumfeld und wurden für den Einsatz in Unternehmensnetzwerken konzipiert. Man unterscheidet in Netzwerkdateisysteme, wie z. B. Network File System NFS [33] , OpenAFS [34] oder das SMB/CIFS (Samba) [35], XtremeFS [36] Cluster Dateisysteme wie z. B. Lustre [37], OCFS2 [38] und globale Dateisysteme wie z. B. Google Filesystem (GFS) [39] oder Oceanstore [40]. Allen gemein ist das dezentrale Speichern großer Datenmengen auf einer Vielzahl von Datenspeichern, sowohl unternehmensweit als auch weltweit über Internetverbindungen. Sie versprechen eine flexible Skalierbarkeit der Speichergrößen und eine hohe Performance. Verteilte Dateisysteme ermöglichen es dem Benutzer, die Daten von jedem PC mit Internetanschluss aufzurufen. Global Dateisysteme wurden bis vor einigen Jahren hauptsächlich im Bereich der Forschung eingesetzt. Durch permanente Weiterentwicklung und vereinfachter Implementierung sind sie nun auch für kleinere Unternehmen immer interessanter geworden. Netzwerk basierte Filesysteme NFS, XtremeFS sind im eigentlichen Sinne keine Dateisysteme, sondern greifen über Protokolle, Applikationen auf ein vorhandenes Dateisystem zu und sind somit unabhängig von der Art des darunterliegenden Systems. Sowohl das Netzwerk "Dateisystem", als auch das Dateisystem auf dem Datenträger müssen Posix konform sein, damit ein Datenaustausch vollzogen werden kann. Das Portable Operating System Interface (Posix) stellt die Schnittstelle zwischen der Applikation und dem darunter liegenden Dateisystem zur Verfügung, die wiederum über eine RCP Schnittstelle mit dem Server kommuniziert. [41] Je nach Zweck werden einzelne Dateisysteme ohne aufwendige Zugriffsicherung eingesetzt, wie z. B. bei GFS. Solche Systeme werden als Dateiablage mit ausschließlich lesendem und schreibendem Zugriff benutzt, auf die jedermann zugreifen kann. 4.4 Replizierung In der verteilen Datenhaltung ist die Replizierung der Daten ein wesentlicher Faktor zur Erhöhung der Datensicherheit. Es wir unterschieden in synchrone und asynchrone Relpizierung, Serialisierung und Replizierung mit Zeitstempel. 4.4.1 Synchrone Replizierung Unter synchroner Replizierung versteht man das gleichzeitige Schreiben der Dateien auf verschiedene Speichersysteme. Diese Methode wir als spiegeln bezeichnet. Eine Spiegelung der Dateien kann im Server durch das Einrichten eines RAID erreicht werden oder bei zu überbrückenden Entfernungen durch Software- oder Hardwarelösungen, die die Replikation steuern. Die auf ein anderes System kopierte Datei wird als Replikat bezeichet. Wird eine Änderung an der Originaldatei vorgenommen, werden nach dem Read One Write All-Verfahren umgehend und fortlaufend alle Replikate aktualisiert. Voraussetzungen für einen reibungslosen Ablauf ist die gleiche Hardware, um schnelle Replizierung und konsistente Datenbestände zu gewährleisten und eine sehr hohe Bandbreite zwischen den Komponenten, wie sie z. B. FiberChannel oder iSCSI aufweist. Diese Breitbandverbindungen schränken jedoch die maximale Entfernung zwischen den Datenspeichern stark ein und machen diese Methode für die Überbrückung großer Entfernungen nur eingeschränkt verwendbar. Die Auslegung der Komponenten bestimmt nicht zuletzt die Geschwindigkeit des gesamten Systems, da ein Schreibvorgang erst abgeschlossen ist, wenn die Bestätigung erfolgt ist, dass das Replikat geschrieben wurde, dem sogenannten ?Two-Phase-Commit?. Dies kann bei großen Entfernungen zu Verzögerungen im Schreibvorgang führen. [42] [43] 4.3 Anforderungen an ein verteiltes Dateisystem 8 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten 4.4.2 Asynchrone Replizierung Bei der asynchronen Replizierung wird der Schreibvorgang des sekundären Standortes von dem des primären entkoppelt. Das Replikat wird erst nach einem definierten Zeitraum auf einen Datenspeicher des sekundären Standorts übertragen. Die am Original vorgenommenen Änderungen werden in eine lokale Warteschlange übernommen und asynchron auf ein Ziel an dem sekundären Standort geschrieben. Hierdurch wird der Schreibvorgang auf dem primären Datenspeicher mit lokaler Geschwindigkeit ausgeführt. Dies hat den Vorteil, dass für die Übertragung nicht so viel Bandbreite benötigt wird und die Distanzen zwischen den Datenspeichern um ein Vielfaches größer sein kann als dies bei der synchronen Replizierung der Fall ist. Das Entkoppeln der Schreibvorgänge birgt aber die Gefahr der Datenkorruption, weil alle Änderungen an den Replikaten in exakt derselben Reihenfolge ausgeführt werden müssen, wie dies von der Applikation am primären Standort definiert wurde. Wird diese Reihenfolge nicht eingehalten, z. B. durch Ausfall von Netzwerkkomponenten oder unterschiedlichen Latenzzeiten einzelner Komponenten, führt dies unweigerlich zur Dateninkonsistenz, was eine Wiederherstellung der betroffenen Daten erheblich erschwert oder sogar unmöglich macht. [42] [43] 4.4.2.1 Serialisierung Serialisierung ist eine Weiterentwicklung der asynchronen Replizierung. Es werden alle Schreibvorgänge in der Reihenfolge ihrer Ausführung protokolliert und anschließend einzeln über das Netzwerk übermittelt um sicherzustellen, dass alle Daten in der richtigen Reihenfolge auf dem sekundären Datenspeicher abgelegt werden. Die lokale Schreibgeschwindigkeit ist bei dieser Methode durch die verzögerte Replizierung etwas reduziert. Bei häufigen Schreibvorgängen kann die Protokollierung sehr umfangreich werden, was zusätzlich zu Geschwindigkeitseinbußen führt. [42] 4.4.2.2 Zeitstempel Die Replizierung durch Zeitstempel erzeugt einen Zeitstempel auf alle Schreibvorgänge aller durchlaufenen Datenspeicher. Dieser wird anschließend zur Neuordnung der Schreibvorgänge am sekundär Standort genutzt. [42] 5 Aktuelle Technologien und deren Zukunft 5.1 Datenspeicher Man unterscheidet magnetische Speicher wie Datenbänder, Disketten, Festplatten und optische Speicher wie CD, DVD, Bluray. Deneben gibt es Sonder- bzw. Mischformen wie die Magnetic-Optical-Disk (MO). Sind optische Speicher erst mit Einführung der CD Mitte der 80er Jahre relevant geworden, hält sich die Festplatte hingegen schon seit Jahrzehnten als beliebter Datenspeicher auf dem Markt. Als Anschlüsse haben sich MFM, SCSI, IDE, E-IDE und SATA die Hand gegeben. Die auf Festplatten speicherbaren Datenmengen und die Datendichte haben sich in den letzten 20 Jahren massiv erhöht. Doch wie können Festplatten zeitgemäß in eine IT-Umgebung eingebunden werden? Möglichkeiten dazu sind u.a. RAID-Verbünde, die Anbindung per iSCSI und direkt im Netzwerk als "Network attached Storage". 4.4.2 Asynchrone Replizierung 9 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten 5.1.1 Redundant Arrays of Independent Disks (RAID) Abb.-Nr. 1: LaCie Quadra Laufwerke Abb.-Nr. 2: LaCie Quadra 4x4 mit Hostcontroller RAID geht aus einer Studie aus dem Jahr 1988 hervor: "A Case für redundant Arrays of Inexpensive Disks (RAID)" [44]. Ein RAID bezeichnet einen Festplattenverbund, um mehr Speicher zur Verfügung zu stellen oder Speicher schneller oder sicherer zur Verfügung zu stellen. Es gibt verschiedene Ausprägungen, sogenannte RAID Level. Je nach Level werden Speichergröße, Schnelligkeit und Sicherheit unterschiedlich miteinander kombiniert. Man unterscheidet daneben auch zwischen Hardware- und Software-RAID. So bietet Microsoft Windows in den Serverversionen seit Jahren als Software RAID die Möglichkeit Festplatten zu spiegeln (RAID Level 1) sowie RAID Level 5 für mehrere Festplatten. Ein Hardware RAID erfordert einen seperaten RAID Controller. Seit einigen Jahren gibt es selbst auf Consumer-PC-Motherboards onboard RAID Controller. Übliche RAID Level sind 0, 1 und 5 (siehe Abb.-Nr. 3-5). Neuerdings gibt es auch weitere Kombinationen wie z. B. Matrix RAID, bei der verschiedene Partitionen auf einem Datenträgern unterschiedlich genutzt werden. Vorstellbar sind RAID Verbünde auch mit neuen Speicher-Technologien aus Kapitel 7.3. Aktuelle RAID Systeme werden als Subsystem z. B. von der Firma Lacie angeboten (siehe Abb.-Nr. 1 und 2) und stellen bis zu 32 TB Speicherplatz bereit. Das Lacie Quadra Bundle System wird mittels eSATA II PCI Express Card an einen Hostcomputer angeschlossen [45] [46]. 5.1.1 Redundant Arrays of Independent Disks (RAID) 10 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten Abb.-Nr. 3: RAID 0 Abb.-Nr. 4: RAID 1 Abb.-Nr. 5: RAID 5 5.1.2 Network Attached Storage (NAS) Abb.-Nr. 6: LaCie Netzwerkfestplatte mit RJ-45 Anschluß Abb.-Nr. 7: IBM N3600 NAS Unter NAS wird ein einfach im Netzwerk zu installierender Speicher verstanden. Da die Anbindung im Netzwerk erfolgt, geschieht die Kommunikation mit NAS-Systemen über IP. Oft werden die einfachen Consumer-Boxen auch als ?Netzwerkfestplatte? bezeichnet, da sie einfach mittels handelsüblichen, weit verbreitetem RJ-45 Netzwerkanschluß bestückt sind (siehe Abb.-Nr. 6). Es handelt sich dabei um Endgeräte mit eigenem Betriebssystem, diese ?Speicherboxen? werden meist mit Linux betrieben. Zur Datensicherung hat sich die Schnittstelle NDMP durchgesetzt. Die Kommunikation erfolgt bei Windows User über CIFS, bei Unix Usern über NFS, die Konfiguration erfolgt oft über eine Weboberfläche (HTTP) [47]. Bei einigen Geräten ist auch ein FTP-Zugriff möglich [48]. Die Geschwindigkeit hängt bei NAS System erstrangig vom angeschlossen Netzwerk ab. Auch einfache Consumer Geräte unterstützen meist 1 GBit Übertragungsrate, laufen aber auch abwärtskompatibel mit 10 und 100 Mbit/s. Bei Preisen von unter 200 ? für 1 TB für einfache ?Netzwerkfestplatten? eignen sich solche NAS Systeme auch für Heimanwender. Eine Betriebssicherheit in Form von RAID-Systemen, wie in Kapitel 3.1.1 beschrieben, ist bei den einfachen Geräten meist nicht vorhanden. Für 5.1.2 Network Attached Storage (NAS) 11 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten viele System gibt es darüber hinaus inzwischen ?Hacks?, um die von den Herstellern implementierten Funktionen zu erweitern, so z. B. die übergreifende Community nas-central.org [49]. Auch einige Modelle der Consumer Serie "Fritz!box", vom deutschen Hersteller AVM, ursprünglich nur ein DSL-Router, bieten die Möglichkeit, über einen USB-Anschluss, USB-Devices als Speicher im Netzwerk zur Verfügung zu stellen. [50] Dies zeigt, dass Speichern im Netzwerk aktuell auch für Privatanwender ein Thema ist. Als Freeware zum Aufbau von eigenen NAS Systemen ist hier FreeNAS auf Basis von der Linuxversion FreeBSD zu nennen. Es werden SCSI-, IDE-, SATA-, Compactflash- und USB-Drives als Netzwerkspeicher unterstützt. [51] Wie in der Einleitung beschrieben, gibt es bei der Datenhaltung erhebliche Unterschiede zwischen privaten und gewerblichen Anwendern. Im gewerblichen Umfeld gibt es professionelle Geräte, z. B. von IBM TotalStorage NAS (siehe Abb.-Nr. 7). Bei diesem System werden dann auch Backup und Recovery Lösungen angeboten. [52] 5.1.3 Internet Small Computer Systems Interface (iSCSI) Über das Netzwerkprotokoll TCP/IP lassen sich inzwischen nicht nur Festplatten (wie im vorherigen Kapitel beschrieben), sondern auch komplette Storage Area Netzwerke (SAN) ansprechen. Eine Möglichkeit ist seit 2004 die Anbindung über Internet Small Computer Systems Interface (iSCSI) [53]. War SCSI in diversen Ausführungen schon seit Jahren im Serverbereich als Anschluss für Festplatten, Band-Laufwerke und Medienwechsler üblich, so ermöglicht iSCSI nun als Erweiterung Speicher über das Netzwerk bereitzustellen. Mit iSCSI wurde SCSI auf das TCP/IP Protokoll gemappt. Inzwischen bringen IP Netzwerke mit z. B. bis zu 10Gbit/s die notwendige Performance, um eine solch schnelle Datenübertragung zu ermöglichen. Mittels iSCSI und entsprechenden Treibern lassen sich entfernte Datenspeicher logisch so im Server anbinden, als wäre der Speicher direkt physikalisch im Gerät verbaut. Der große Vorteil von iSCSI gegenüber Fibre Channel ist die Nutzung von vorhandener Netzwerkhardware. Es ist keine zusätzliche und teure Fibre Channel Hardware, wie ein spezieller Switch oder eine spezielle Steckkarte notwendig. [54] Allerdings muss die Netzwerkinfrastruktur, also die Verkabelung, der Ethernet-Switch und die Netzwerkkarten performant sein und sollte 10Gbit/s unterstützen, um einen Geschwindigkeitsvorteil gegenüber Fibre Channel mit 8Gbit/s zu erzielen. Auch Microsoft stellt mit ?iSCSI Software Target? passende Software für seine Systeme bereit. Bereits seit 2003 gibt es den ?Microsoft iSCSI Software Initiator? für Windows 2000 und aufwärts. Mittels dieser Software kann eine handelsübliche Ethernet-Karte als Anbindung für ein iSCSI-System genutzt werden. [55] 5.2 Cloud Datenspeicher Das Angebot für die Onlinespeicherung von Daten ist in den letzten Jahren unaufhörlich gewachsen. Es gibt mittlerweile eine ganze Reihe Anbieter die z. T. kostenlosen Cloud Datenspeicher zur Verfügung stellen. Bis auf wenige Ausnahmen synchronisieren sie die Dateien und Ordner zwischen der lokalen Festplatte und dem Cloud-Speicher. Diese verteilte Datenhaltung führt neben einer höheren Flexibilität beim Datenzugriff auch zu einer besseren Absicherung der Daten gegen Verlust. Durch einfache Handhabung und immer schnellere Internetzugänge werden diese Dienste auch für den Privatanwender immer attraktiver. 5.1.3 Internet Small Computer Systems Interface (iSCSI) 12 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten 5.2.1 Microsoft Live Mesh Microsoft bietet Live Mesh einen zur Zeit noch kostenlosen Online-Speicher im Internet an. Neben Windows Live Mesh wird My Phone, die mobile Version von Live Mesh angeboten. Beide Online-Datenspeicher befinden sich noch in der Betaphase und stellen auf Wunsch zusätzlich Windows-Live-Applikationen zur Verfügung, unter anderem das Microsoft Office Live Workspace. Windows Live Mesh ist ein von Microsoft betriebener Cloud-Datenspeicher. Über eine Mesh Software, die auf dem Rechner installiert wird, können Dateien zwischen mehreren PCs und einem 5 GB großen Online-Datenspeicher synchronisiert werden (siehe Abb.-Nr. 8). Die Software greift tief in das Betriebssystem ein, so dass man unter Windows im Abb.-Nr. 8: Live Mesh Geräte Kontextmenü einen neuen Eintrag findet, über den man einzelne Ordner für das Mesh freigeben kann. Wenn eine Datei oder ein Ordner für die Synchronisation freigegeben ist, wird jede Veränderung mit dem Mesh Speicher synchronisiert. Die Konfiguration des Mesh erfolgt über die so genannte Meshbar. Hier können die wesentlichen Teile der Konfiguration verändert werden, wie z. B. die Einstellung der Synchronisation, Ordner für andere Benutzer freigeben (siehe Abb.-Nr. 9) oder die Änderung der Zugriffsberechtigungen 5.2.1 Microsoft Live Mesh Abb.-Nr. 9: Live Mesh Dateifreigabe und Online Nutzer 13 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten auf einzelne Ordner und Dateien. Ein Zugang zum Mesh bekommt der Interessent nur über die von Microsoft an jeden Benutzer vergebene Mesh ID. Microsoft benutzt diese ID, um die Kommunikation und Rechtevergabe zwischen den einzelnen Teilnehmern abzuwickeln. [56] So kann über die Mesh ID ein anderer Teilnehmer eingeladen werden, sich ausgewählte Dateien auf dem Datenspeicher anzusehen. Alternativ kann der Benutzer seine Daten über den so genannten Live Desktop von jedem an das Internet angeschlossenen PC mit einem Web-Browser einsehen oder sie herunterladen. Microsoft verspricht eine weitestgehende Kompatibilität zu Macintosh Rechnern und einigen Mobiltelefonen. Microsoft My Phone ist der Online-Datenspeicher für das Mobiltelefon in dem Microsoft Cloud-Speicher. Die My Phone Anwendung wird auf dem Mobiltelefon installiert, diese synchronisiert automatisch die Daten wie Kontaktdaten, Fotos, Termine über das Internet mit dem von Microsoft betrieben Datenspeicher. Es können bis zu 200 MB gespeichert werden. Über eine Web-Anwendung lassen sich, wie auch bei Live Mesh, Zugriffsrechte und weitere Konfigurationen ändern, so dass es möglich ist, die Daten wie z. B. Fotos auch auf den heimischen PC zu laden. [57] 5.2.2 ZumoDrive Ein etwas anderes Konzept verfolgt der Cloud Speicher Anbieter ZumoDrive mit seiner skalierbaren HybridCloud Storage-Lösung. Bei dieser Art der Speicherung in einer Cloud werden die Daten nicht vollständig mit dem Datenspeicher synchronisiert, sondern selektiv einzelne Daten ausgesucht und in den Cloud-Datenspeicher geschrieben. Die ZumoDrive Clientsoftware wird zur Zeit für Windows XP, Vista, OS X Tiger, Leopard und das iPhone angeboten. Nachdem die ZumoDrive Software auf dem Rechner oder iPhone installiert wurde, erscheint ein neuer Laufwerksbuchstabe der in den Verzeichnisbaum eingebunden ist. Dieses Laufwerk ist über eine 128 Bit SSL Verschlüsselung mit dem Datenspeicher von ZumoDrive verbunden. Im Unterschied zu Live Mesh werden die Dateien nicht synchronisiert, also doppelt gehalten, sondern das Laufwerk wird wie ein lokales Festplattenlaufwerk behandelt. Die Dateien, die auf diesem Laufwerk gespeichert werden, sind im Cloud Datenspeicher gespeichert, belegen also auf dem lokalen System keinen Festplattenspeicher mehr. Dies hat den Vorteil, dass die Daten nicht auf der lokalen Festplatte gespeichert sind, sondern nur im Online-Datenspeicher, was den Client entlastet und eine höhere Datensicherheit gewährleistet. Es ist ferner möglich Dateien gleichzeitig, sowohl auf dem lokalen Rechner als auch in der Cloud zu speichern. Hierfür kann man im Kontextmenü die entsprechenden Dateien für den lokalen Rechner als verfügbar markieren. Bei der nächsten Verbindung mit dem Datenspeicher wird diese mit dem lokalen Rechner synchronisiert. Die Freigabe von Dateien an einen anderen Benutzter kann direkt im Dateisystem über ein Kontextmenü erfolgen. Der Link wird per Mail versandt und der Empfänger kann sich die Dateien ansehen. Über eine Webseite kann der entsprechende Datenspeicher administriert werden oder der Zugriff auf die Dateien von einem beliebigen PC aus erfolgen. 5.2.2 ZumoDrive 14 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten Abb.-Nr. 10: Schematischer Ablauf der Datensicherung Es können unter anderem Dateifreigaben erstellt oder gelöschte Dateien wiederhergestellt werden. Musikdateien, die z. B. in einer Musik Bibliothek gespeichert sind, können als Link aus dem Cloud Speicher aufgerufen werden und nehmen somit keinen lokalen Festplattenspeicher mehr in Anspruch. Dies ist besonders vorteilhaft bei Geräten mit geringer Festplattenkapazität wie z. B. einem Smartphone. Um eine ausreichende Sicherheit gegen Datenverlust zu gewährleisten, wird ein AES verschlüsseltes Backup auf drei verschiedenen physikalischen voneinander getrennten Orten im Amazon S3 Datencenter gespeichert (siehe Abb.-Nr. 10). [58] 5.3 Grid Systeme Gridsysteme, also die Verbindung aller angeschlossenen Resourcen über eine Grid-Software, umfassen nicht nur das geographisch verteilte Rechnen über das Internet, sondern auch die dezentrale, verteilte Datenhaltung. Einem Grid können folgende Eigenschaften zugerechnet werden: Gleichrangige Ressourcen, die dezentral kontrolliert werden, die offene standardisierte, allgemein gebräuchliche Protokolle und Schnittstellen benutzen und eine außerordentliche Qualität der Dienste anbieten. [59] Abb.-Nr. 11: Der Aufbau eines Grid in Schichten 5.3 Grid Systeme 15 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten Insofern unterscheidet sich das Grid-Computing vom Cloudcomputing, als dass es unabhängig von der darunter liegenden Hardware ist und keinen Provider benötigt, der diesen Dienst anbietet, da die Daten auf unterschiedlichsten Systemen und Orten innerhalb eines Namespace gespeichert werden. Das Grid virtualisiert und vereinheitlicht dabei den Zugang zu heterogenen Ressourcen. Ferner ist es möglich, ohne Weiteres einem Grid als neuer Benutzer beizutreten oder es zu verlassen. Das Daten-Grid soll große Datenmengen zuverlässig und ausfallsicher speichern, diese einfach wieder zugänglich machen und Methoden zur effizienten Suche zur Verfügung stellen. Der Aufbau eines Grid besteht neben den physischen Ressourcen auch aus der Middleware, die die eigentliche Funktionalität des Grids für den Anwender bereitstellt. Die Aufgabe der Grid-Middleware ist es, den Anwendungen bzw. Nutzern einen Zugang (z. B. mittels eines Browsers) zu den Grid-Ressourcen zur Verfügung zu stellen und eine koordinierte Verwendung der Ressourcen zu gewährleisten (siehe Abb.-Nr. 11). [60] Ein Grid ermöglicht es, Daten weltweit über viele Datenträger parallel verteilen zu können. Dabei ist für den Anwender nicht ersichtlich wo seine Daten lagern, ihm stellt sich das Daten-Grid als eine große Speicherressource dar. Ziel ist es, die Rechen- und Speicherresourcen in der virtuellen Organisation des Grids möglichst effizient zu nutzen, um das immer weiter steigende Datenvolumen bewältigen zu können. Die Nutzung eines Grid bei datenintensiven Anwendungen hat den Vorteil der Verteilung der Daten auf verschiedene Ressourcen. Die Parallelisierung des Zugriffs auf die Daten ermöglicht eine gesteigerte Geschwindigkeit und damit verbunden einen höheren Datendurchsatz bei datenintensiven Anwendungen. An datenorientierte Dienste, wie die eines Grids, werden hohe Anforderungen gestellt. Neben der Authentifizierung und Berechtigungsstruktur, müssen Datenreplika und unterschiedliche Datenstände auf unterschiedlichen Datenträgern verwaltet werden können, die schnelle Identifizierung der Datensätze muss möglich sein, Daten müssen schnell und effizient bewegt werden können. Ein Grid ist besonders für global agierende Unternehmen mit großem Datenvolumen oder die Anbindung mobiler Mitarbeiter an die Unternehmensdaten vorteilhaft. Es ermöglicht eine flexible Skalierung und schellen Zugriff auf die Unternehmensressourcen. [61] D-Grid Initiative Das D-Grid Projekt als Initiative der deutschen Wissenschaft und Wirtschaft, gefördert durch das Bundesministerium für Bildung und Forschung (BMBF), startete im September 2005 mit der Entwicklung einer verteilten, integrierten Ressourcenplattform für Hochleistungsrechnen, große Datenmengen und den für den Zugriff benötigten Dienstleistungen. [62] Bis 2010 soll die zweite Ausbaustufe des D-Grid vollendet sein, die neben Diensten für die Wissenschaft auch Dienste für die Industrie anbieten soll. Ein entferntes Ziel ist es, die Grid-Dienste kommerziell über ein Web-Portal modular anbieten zu können und je nach Nutzungsdauer und Umfang abzurechnen. Dazu wird eine Infrastruktur benötigt, die sowohl die notwendige Sicherheit bietet und garantiert, dass die Identität nicht gestohlen werden kann, als auch eine Technik vorhält, welche die Daten auf eine sichere Art speichert. Zurzeit gliedert sich das D-Grid in 20 Einzelprojekte, die hauptsächlich im wissenschaftlichen Bereich angesiedelt sind. Es gibt aber auch einige Projekte, die speziell auf die Industrie abzielen, u. a. die Finanzwirtschaft, Automobilindustrie und Bauwirtschaft. Neben der Möglichkeit fast unbegrenzte Datenmengen abspeichern zu können wird der Industrie auch Rechenkapazität für hochkomplexe Simulationsberechnungen zur Verfügung gestellt. Um die D-Grid Struktur auch kommerziell nutzen zu können sind in einem weiteren Schritt die Einführung professioneller Betriebskonzepte, Service-Level-Agreements für die Verhandlungen zwischen Nutzern und Betreibern von Ressourcen, eine Wissensschicht, dem Aufbau von virtuellen Kompetenzzentren, die Anbindung service-orientierter Architekturen der Industrie und die Bereitstellung von Grid-Ressourcen geplant. [63] 6 Technologien in der Entwicklung 6 Technologien in der Entwicklung 16 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten 6.1 Dateisysteme Ein Netzwerk Dateisystem ist eine bewährte Methode, Daten über eine grössere Anzahl Datenspeicher zu verteilen. Es gibt eine Vielzahl z.T. herstellerabhängige Dateisystemformate, die schon eine lange Entwicklungszeit hinter sich gebracht haben. Zwei neue Implementierungen sind im folgenden exemplarisch aufgeführt. 6.1.1 NFS Dateissystem Abb.-Nr. 12: Schematischer Ablauf einer NFS Kommunikation In den 80iger Jahren wurde von SUN-Microsystems das Network File-System NFS entwickelt und von der IETF (The Internet Engineering Task Force) standardisiert. Es erfreut sich zunehmender Beliebtheit. [64] Das NFS ist im eigentlichen Sinne kein Dateisystem, sondern eine Zusammenstellung mehrerer Protokolle, die in ihrer Summe den Clients einen Zugriff auf entfernte Dateisysteme erlauben und somit ein verteiltes Dateisystem zur Verfügung stellen.[27] Das NFS-Protokoll erlaubt einen transparenten Remotezugriff auf ein entferntes Dateisystem. Da es sich hierbei um ein Protokoll handelt, ist es unabhängig von dem jeweiligen Betriebssystemen, der Netzwerkstruktur sowie den Netzwerkprotokollen. [64] Dies wird ermöglicht durch das eXternal Data Representation (XDR), das die angeforderten Daten in einem plattformunabhängigem Format beschreibt und an die Remote Procedure Call (RPC) als Funktionsaufruf vom Client an den Server weitergibt (siehe Abb.-Nr. 12). [65] [66] Die NFS Version 2 und 3 werden von den meisten aktuellen Betriebssystemen, unter anderem auch Windows Betriebssystemen unterstützt. [67] Durch die Kombination von RPC und XDR in Verbindung mit TCP/IP und einer Clientsoftware ist es für den Client möglich, sich mit einem freigegebenen remote Dateisystem über das Netzwerk zu verbinden, den entfernten Verzeichnisbaum einzuhängen und die Daten so zu nutzen, als wenn sie lokal auf dem Rechner abgelegt wären. [64] 6.1 Dateisysteme 17 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten 6.1.1.1 NFSv4.1 Die Aktuelle Version NFSv4.1 ist eine Open Source Neuimplementierung und hat gegenüber den früheren Versionen einige wichtige Veränderungen mit sich gebracht. Neben der schon seit langem implementierten Unterstützung für Unix-Systeme wurden folgende Neuerungen hinzugefügt: • bessere Unterstützung von Windows, • starke AES verschlüsselte Kerberos V5 Authentifizierung, [68] • zeichenbasierte Identifikation, (z. B. [email protected]) • Zugriffserlaubnis wie bei Windows, • ausschließlich TCP/IP Protokoll Unterstützung, nicht wie in den Vorgängerversionen UDP Protokoll. • Implementierung einer Datenverschlüsselung, somit ist auch eine gesicherte Kommunikation über das Internet möglich. • Es ist nun möglich, ohne vorherigen Kontakt mit einem Server einen Client in der Lage zu versetzen, Daten aus einer Datei in einer Anfrage durch die Kombination der Befehle öffnen und lesen in einem einzigen Schritt über das RPC aufzurufen. • Eine Replikation und Migration auf eine anderes Dateisystem ist möglich. • Durch die Konzentration der Kommunikation auf den TCP/IP Port 2049 ist nun eine einfache Kommunikation durch Firewalls möglich, was zu einem besseren Schutz der Daten vor unbefugtem Zugriff beiträgt. [69] • Delegieren von Datei-Caching. Datei Caching bedeutet, dass der Client nun Dateien zwischenspeichern darf. Solange der Client Änderungen an der Datei vornimmt wird sie erst im Client Cache gespeichert und dann an den Server zurückgegeben bzw. vom Server zurückgefordert, wenn die Datei von einem anderen Client benötigt wird. Dies um die Netzwerklast und die I/O Last des Servers zu verringern. Das Cachen von Dateien setzt ein Client Server Konzept voraus, welches das zustandslose Konzept der Vorgängerversionen ablöst. Um die Datenkonsistenz bei Schreib- und Lesezugriffen durch mehrere Clients gewährleisten zu können, ist eine aufwendige Synchronisation zwischen Client und Datenspeicher notwendig. Alle Operationen werden in eine Transaktion zwischen Client und Dateispeicher zusammengefasst. Somit werden bei gleichzeitigen Zugriff mehrerer Clients die jeweiligen Client Operationen konsistent gehalten. Das Ergebnis ist so als wenn die Clients in einer beliebigen sequentiellen Reihenfolge auf den Dateispeicher geschrieben hätten. [27] Für die aktuelle Version NFSv4 wird zurzeit von der University of Michigan ein Open Source NFS-Client für Windows entwickelt, dieses Projekt wird von Microsoft finanziell unterstützt. [70] 6.1.1.2 pNFS Das Netzwerkdateisystem pNFS ist Bestandteil des NFSv4.1 Protokolls und kann optional genutzt werden. [71] Ende 2008 wurde der Entwurf an die IETF übergeben und soll innerhalb 2009 zu einem neuen Standard ernannt werden. Die überarbeitete Version wurde von den Firmen EMC, IBM, LSI, NetApp, Panasas, SUN und der Linuxgemeinde als Open Source Projekt vorangetrieben. Neben den grundlegenden Funktionen des NFSv4 wurden weitere Funktionen inplementiert. 6.1.1.1 NFSv4.1 18 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten Abb.-Nr. 13: Kommunikationsablauf im pNFS Das pNFS Protokoll ermöglicht es, den Clients Datenspeicher direkt und parallel von mehreren Servern gleichzeitig anzusprechen (siehe Abb.-Nr.13). Dieses bewirkt gegenüber der aktuellen Version NFSv4 eine bessere Verarbeitung von parallelen I/O Zugriffen, die zu einem schnelleren Dateiaufruf führen und eine bessere Skalierbarkeit der Datenspeicher ermöglichen. [72] Die Architektur sieht eine Trennung der Daten und der dazugehörigen Metadaten sowie die Auslagerung der Metadaten auf einen separaten Server vor. Der Aufbau innerhalb eines NFS Systems gestaltet sich folgendermaßen: Der Metadatenserver speichert die Metadaten, also den Speicherort und die Speicherart der einzelnen Dateien, das sogenante Layout. Unabhängig davon gibt es den eigentlichen Dateiserver oder Storage. Dieser speichert die Daten und stellt Lese- und Schreibzugriffe direkt auf die Dateien zur Verfügung. Diese Dateien können auf mehrere Speicher verteilt und durch die Informationen in den Metadaten mehreren Clients gleichzeitig zur Verfügung gestellt werden. Die Kommunikation innerhalb eines pNFS-Systems vollzieht sich wie folgt: Der Metaserver bedient die Anfragen der Clients nach Speicherort und der Speicherart der einzelnen Dateien. Einer oder mehrere Dateiserver führen direkt die Lese- und Schreibzugriffe der Clients durch. Ein oder mehrere Clients können mittels der von Metaserver zur Verfügung gestellten Informationen direkt auf die Daten zugreifen. Der Metadatenserver kann das Layout jederzeit von Client zurückfordern, um die Datei für andere Schreibzugriffe wieder freizugeben. Wenn der Client die Datei geändert hat wird sie an den Metaserver zurückgegeben und die Kommunikation ist beendet. Die Kommunikation zwischen Clients, Metadatenserver und Fileserver erfolgt über drei Protokolltypen: Das Kontrollprotokoll sorgt für die Synchronisation des Metadatenservers mit dem Datenserver, das pNFS Protokoll ist für die Kommunikation zwischen Client und Metaserver zuständig und eine Reihe von Speicherzugriffsprotokollen, mittels derer die Clients direkt auf Datenserver zugreifen können. Anhand dieser Protokolle kann pNFS sich diversen Speicher-Layout-Typen anpassen und verschiedene Arten von Storage-Infrastrukturen unterstützen. Die pNFS Spezifikation ist derzeit mit drei Kategorien von Storage-Protokollen einsetzbar: File-basierte, Block-basierte oder Objekt-basierte Protokolle. Unter Layouttypen versteht man den Aufbau des Speichertyps, z. B. SAN blockbasiertes oder NAS dateibasiertes Layout. Der Unterschied zwischen dem dateibasierten und dem block- oder objektbasierten Layout besteht in der Anzahl der möglichen Zugriffe durch einen Client. Während bei einem blockbasierten Layout nur ein Client auf einen bestimmten Dateibereich schreiben kann, können bei einem dateibasierten Layout zwei unterschiedliche Clients auf demselben logischen Bereich Lese- oder Schreiboperationen durchführen. [73] [74] [75] 6.1.1.2 pNFS 19 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten 6.1.2 XtreemFS XtreemFS mit Stand von 2009 ist ein neues, verteiltes und repliziertes Dateisystem, veröffentlicht unter der OpenSource Lizenz. Wie andere verteilte Dateisysteme speichert es Daten auf einer großen Anzahl Datenspeichern mit unterschiedlichster Hardware und ist unabhängig von dem Dateisystem des Client. Das XtreemFS wurde speziell für die Wide Area Network (WAN) Umgebung konzipiert und ermöglicht je nach Berechtigung des Anwenders direkten Zugriff auf das Dateisystem, von jedem Standort auch über das Internet. Wie viele andere auf Unix basierende Dateisysteme ist XtreemFS posixkonform. Das Portable Operating System Interface (Posix) stellt die Schnittstelle zwischen der Applikation und dem darunter liegenden Dateisystem zur Verfügung. Ein besonderer Geschwindigkeitszuwachs wird durch das Datei-Stipping erzielt. Dies ist eine Technik zum Aufteilen einer Datei auf mehrere Daten-Server und ermöglicht so einen parallelen Zugriff auf die einzelnen Dateiteile. [36] 6.1.2.1 Aufbau des XtreemFS Das XtreemFS setzt eine objektbasierte Datei-System-Architektur ein. Objektbasierte Datei-Systeme teilen Dateiinhalte in eine Reihe von Objekte mit fester Größe auf und speichern sie verteilt über ihre Datenserver. Die Metadaten einer Datei (alles was nicht Rohdaten sind, wie z. B. der Dateiname oder Datei-Größe) wird getrennt vom Inhalt der Datei auf einem Metadaten-Server gespeichert. Dieser Metadaten-Server organisiert Volumes als eine Reihe von Datensätzen die hierarchisch in einen Verzeichnisbaum eingehängt werden die wiederum Untermengen des gesamten Speichers enthalten. Ein XtreemFS Installation enthält drei Arten Server, die sich auf eine oder mehrere Maschinen verteilen und das Clientinterface mit dem der Clientzugriff bewerkstelligt wird. • DIR - Directory Service. Der Verzeichnisdienst ist die zentrale Registrierungsstelle für alle Dienste im XtreemFS. Die MRC verwendet ihn um den Datenserver zu finden. • MRC - Metadaten und Replica-Katalog. Der MRC speichert den Verzeichnisbaum und die Datei-Metadaten, wie Dateiname, Größe oder Änderungsdatum. Darüber hinaus authentifiziert die MRC den Benutzer und erlaubt den Zugriff auf die Dateien. • OSD - Object Storage Device. Ein OSD speichert beliebige Objekte (Teile) von Daten. Die Anwender lesen und schreiben Daten über das OSD (siehe Abb.-Nr. 14). Abb.-Nr. 14 Ablauf eines Dateiaufrufs im XtreemFS Der Zugriff auf eine Datei läuft in folgenden Schritten ab (siehe Abb.-Nr. 14): 6.1.2 XtreemFS 20 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten 1. Der Client bindet ein Volume von dem MRC in seinen lokalen Verzeichnisbaum. Dieser übersetzt die Dateianforderung des Client in eine RPC Anforderung. Der Client wird als ein Treiber auf Benutzerebene eingebunden und fungiert wie ein normaler Prozess. Er stellt die Verbindung zum Virtual File System (VFS) des Clientrechners her. 2. der Client stellt eine Anfrage an den Metadatenserver, er erhält die notwendigen Informationen über den Ort der Datei. 3. Der Client lädt die Datei über einen Access Demon des Datenspeichers auf die lokale Festplatte und öffnet sie. 4. Geänderte Daten werden auf den Datenspeicher geladen oder als Kopie registriert. 5. Die Dateiübertragung erfolgt über RPC und dem virtuellen Dateisystem an die Applikation. [36] [76] 6.1.2.2 Authentifizierung im XtreemFS In der Grundeinstellung gibt es keine Authentifizierung und keine Verschlüsselung für die Verbindung mit dem Metadatenserver und den Storage-Servern. Es besteht aber die Möglichkeit für alle Benutzer und Dienste eine SSL Verschlüsselung mit einem X.509 Zertifikat zu implementieren. Das Verhalten beim Speichern einer Datei wir über MRC-Richtlinien gesteuert. Diese bestimmen, wo die Datei gespeichert wird, z. B. im gleichen Subnet, um eine höhere Performance zu ermöglichen oder dort, wo noch mindestens 2GB Speicher frei ist.[36] 6.1.2.3 Datenverteilung im XtreemFS Das XtreemFS kann den Inhalt einer Datei auf mehrere Speichermedien (OSDs) verteilen. Das Teilen der Datei auf unterschiedlichen ODSs gewährleistet eine höhere Geschwindigkeit durch gleichzeitigen Zugriff. Je mehr OSDs genutzt werden, desto höher ist die Geschwindigkeit für den Lese- und Schreibezugriff. Die Zahl der OSDs wird als Striping-Breite bezeichnet.[36] 6.1.2.4 Zugriffsrechte und Benutzerrechte für Dateizugriffe Es gibt zwei Möglichkeiten sich an dem Dateisystem zu authentifizieren: Die erste ist die Unix Benutzer-ID und Gruppen-IDs, die von den Benutzer mit jeder Anfrage übergeben wird. Diese wird mit der Datenbank des MRC verglichen und die entsprechenden Rechte werden erteilt. Der Umfang der Benutzerrechte bestimmt die Geschwindigkeit des Dateizugriffs. Je mehr Benutzerrechte vergeben werden desto geringer ist die Geschwindigkeit, weil die Rechte erst verifiziert werden müssen. Je nach Konzept können keine Benutzerrechte vergeben werden oder über Posix ACLs eine fein gegliederte Zugriffskontrolle auf Benutzerbasis eingerichtet werden. Darüber hinaus kann die MRC die Informationen nutzen, welche in einem SSL-Zertifikat enthalten sind. [36] 6.2 Netzwerktechnologien Im Laufe der letzten Jahre haben sich nicht nur Endgeräte und Server, sondern auch die Netzwerktechnik weiterentwickelt. Für eine verteilte Datenhaltung werden je nach Ausprägung performante lokale Netze (LAN) wie auch Hochgeschwindigkeits-WAN-Zugänge notwendig. 6.2.1 LAN Verbindungen Waren Anfang der 90er Jahre noch 10Mbit BNC Netzwerke und Hubs Standard, haben sich inzwischen strukturierte Twistet-Pair Verkabelung (CAT5 oder besser) und Switches durchgesetzt. Hier sind die EN 50173-1 6.1.2.1 Aufbau des XtreemFS 21 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten und die nordamerikanische Norm TIA/EIA 568 zu nennen. Auch im Glasfaserbereich haben sich die Kabelqualitäten erheblich verbessert: bei Multimode ist z. B. die Kabelqualität OM4 in der Entwicklung, die höhere Geschwindigkeiten bzw. größere Längen zulässt [77]. Die Netzwerkgeschwindigkeit ist von 4/16 MBit (Token Ring) bzw. 10 Mbit (Ethernet) auf 100 bzw. sogar 1000Mbit bis zum Arbeitsplatz angestiegen. Somit müssen auch die Server, d.h. die Datenspeicher ihre Daten immer schneller zur Verfügung stellen. Im Backbone-Netzen sind zurzeit 10Gbit möglich und Geschwindigkeiten von 40GBit und 100Gbit in der Entwicklung. Obgleich der Standard 802.3ba nocht nicht verabschiedet ist, bringt die Fa. Juniper ganz aktuell als erster Hersteller 100GB Module heraus. Diese Module sind in CFM Technik ausgeführt und für seine T-Serie Core Router entwickelt [78]. Funknetzwerke, sogenannte WLANs, haben sich trotz Sicherheitsbedenken durchgesetzt. Auch bei dieser Netzwerktechnik hat sich die Geschwindigkeit stets gesteigert, von IEEE 802.11 mit max 2 Mbit/s zu IEEE 802.11n mit bis zu 600 Mbit/s [79]. Verbesserung der Sicherheit wurde neben MAC-Adressfiltern mit der Entwicklung von neuen Verschlüsselungssystemen wie Wi-Fi Protected Access (WPA) erzielt [80]. 6.2.2 WAN Anbindungen Waren in den 90er Jahren noch Modemwählverbindungen mit max. 56kbit/s (analog) im Privatbereich und Liegenschaften im Firmenumfeld noch mit 64kbit/s oder 128kbit/s (digital) angebunden, hat sich aktuell "DSL" in verschiedenen Ausprägungen selbst für Privathaushalte durchgesetzt. War schon ISDN eine "digital subscriber line" (DSL), meint man umgangssprachlich mit DSL das verbreitete ADSL mit ursprünglich 1024 Kbit/s Downstream. Das ursprüngliche ADSL hat sich zu ADSL2+ entwickelt und bietet inzwischen Geschwindigkeiten bis zu 16 Mbit/s Downstream. Daneben gibt es symmetrische DSL-Verbindungen (SDSL) mit bis zu 20 Mbit/s Up-/Down-Stream und "Very Highspeed DSL" mit bis zu 52 Mbit/s Downstream / 11 Mbit/s Upstream (VDSL1 sowie VDSL2, ehemals auch als VHDSL bezeichnet). Fiber to the house (FTTH) als schneller Zugang zu Breitbandnetzen auf Basis von Glasfaserverkabelung ist ebenfalls im Vormarsch [81]. Neben lokalen Funknetzwerken, den WLANs, gibt es flächendeckende Mobilfunknetze, die neben dem reinen Telefonieren eine Datenverbindung ermöglichen. Neben dem langsamen GSM Netz (9,6kBit/s) haben sich mehr oder weniger darauf aufsetzend in den letzten Jahren viele Standards entwickelt. So ist in diesem Bereich UMTS, sowie WiMAX (IEEE 802.16) und der Konkurrent LTE als UMTS Nachfolger zu nennen. Gerade ländliche Gebiete sollen so nach der Frequenzumstellung ab 2015 mit schnellen Breitbandzugang versorgt werden können[82]. Daneben gibt es zahlreiche GSM- bzw. UMTS-Erweiterungen wie GPRS, HSCSD, EDGE, HSDPA und HSUPA. Neben dem Mobilfunknetz gibt es vereinzelt Bestrebungen weltweit flächendeckende WLANs aufzubauen, hier ist z. B. die Initiative "FON" mit ihren Access-Points (AP) "LAFONERA" zu nennen. Wie eng diese beiden Bereiche WLAN und Mobilfunknetz zusammenliegen können, zeigt sich in der aktuellen Kooperation der E-Plus-Gruppe mit FON. So können seit 01.09.2009 E-Plus-Kunden an den FONERA Zugangspunkten kostenlos mit ihrem Mobiltelefon und anderen Geräten surfen, sowie vergünstigte FON WLAN-APs und WLAN-Router beziehen [83]. Mit einem schnellen Zugriff via einem mobilen Endgerät von quasi überall unterwegs auf Server in der Firma oder den PC zu Hause läßt sich nicht nur auf zentralisierte Daten zugreifen, sondern auch von überall aus Daten erzeugen, verändern oder herunterladen. 6.2.1 LAN Verbindungen 22 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten 6.3 Speichertechnologien In Zukunft werden die Hersteller von Speichertechnologien immer weiter versuchen den zurzeit üblichen volatilen (flüchtigen) Speicher, wie z. B. RAM Speicher, durch non volatilen (nicht flüchtigen) Speicher zu ersetzen. Dies hätte zum einen den Effekt, dass z. B. Betriebssysteme auf Knopfdruck sofort zur Verfügung ständen, da sie ihre Einstellungen speichern und nicht mehr nach dem Einschalten gebootet werden müssten. Ebenso wird der Speicher durch die fortlaufende Entwicklung immer kleiner miniaturisiert bis in den atomaren Bereich. Durch diese Techniken entfallen bewegliche (mechanische) Teile in den Komponenten und die Speicher werden gegenüber Umwelteinflüssen immer unempfindlicher, wodurch einem möglichen Datenverlust vorgebeugt wird. Einige vielversprechende, zukunftsweisende Techniken werden im folgenden vorgestellt. 6.3.1 Flash Flash Speicher (siehe Abb.-Nr. 15) ist ein sich immer weiter durchsetzender nicht flüchtiger Speicher der seine Daten bis zu 10 Jahren speichern kann und in der Regel aus nur einem Baustein, einem sogenannten EEPROM (Electrically Erasable Programmable Read Only Memory ? elektrisch löschbarer, programmierbarer ?Nur-Lese-Speicher?) besteht. Früher kamen lediglich EPROMs (ohne E wie Electrically - also Erasable Programmable Read Only Memory) zum Einsatz welche nur mit speziellen Lösch- und Schreibgeräten gelöscht werden konnten. Heutige EEPROMs wie sie in Flash Speichern verwendet werden, können allerdings mit höheren elektrischen Stromimpulsen gelöscht werden. Bei einem Flash Speicher sind in einem speziellen Transistor Elektronen eingesperrt. Legt man an einen solchen Transistor (Schalter) eine Spannung an, können die Elektronen entweder fließen (logisch 1) oder eben nicht (logisch 0). Auch Flash Speicher bestehen wie fast alle Halbleiterbauelemente aus unterschiedlich dotierten Siliziumbereichen. Ein solcher Abb.-Nr. 15: Bereich wird mit Atomen gespickt (dotiert), die mehr oder weniger freie Flash Speicher Valenzelektronen mitbringen als das Trägermaterial (Substrat). An den Grenzen solcher Gebiete treten dann Halbleitereffekte auf, die man sich zunutze macht, um bestimmte Schaltungselemente wie Dioden (Einbahnstraßen für Elektronen) oder Transistoren (Schalter) zu realisieren. [84] [85] Eine einzelne Flash-Zelle ähnelt dem Metall-Oxid-Feldeffekttransistor (MOSFET), der aus drei Siliziumflächen, den Elektronen Gate (Tor), Drain (Abfluss) und Source (Quelle) besteht. (siehe Abb.-Nr. 16) ?Bei einem n-Kanal-MOSFET trennt ein schwach positiv-dotiertes (p) Substrat die beiden stark negativ-dotierten (n) Elektroden Drain und Source. Es entsteht ein npn-Übergang, der erst einmal ? wie bei einem npn-Transistor ohne Basisstrom ? nicht leitet, da die freien Ladungsträger an den Übergängen miteinander rekombinieren und nicht mehr für den Ladungstransport zur Verfügung stehen. Das Gate liegt direkt über der n-Zone und wird durch eine sehr dünne Oxidschicht isoliert. Es bildet mit einem unter dem Substrat liegenden und mit Source verbundenen Bulk-Anschluss einen kleinen Kondensator. Wird dieser Kondensator nun über eine Gate-Source-Spannung aufgeladen, entsteht ein elektrisches Feld. Dieses bewegt Ladungsträger aus dem Substrat zur Grenzschicht. Dort rekombinieren sie zuerst mit den dort vorhandenen Ladungsträgern. Erreicht die Spannung eine bestimmte Grenze (Threshold), entsteht in dem ursprünglichen p-Bereich ein dünner n-leitender Kanal mit 6.3 Speichertechnologien 23 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten Elektronenüberschuss. Durch diesen kann nun ein großer Strom nahezu ungehindert zwischen Drain und Source fließen.? [86] ?Der größte Unterschied zwischen MOSFET und einem klassischen bipolaren Transistor besteht darin, dass zwischen Gate und Source kein Strom mehr fließt, sobald der Transistor einen stabilen Zustand erreicht hat. Es wird nur ein Strom benötigt, um den Kondensator zu laden oder zu entladen. Ein MOSFET behält also ? einmal geladen ? ohne einen (statischen) Strom seinen Zustand (leitend/nicht leitend) bei. Da an der Gate-Elektrode eines MOSFET jedoch immer weitere Schaltungsteile hängen, entlädt sich das Gate, sobald die Schaltung nicht mehr mit Energie versorgt wird. (?) Daher platziert man bei einer Flash-Zelle zwischen Gate (Control Gate) und Substrat mitten in die nicht leitende Isolierschicht eine weitere Elektrode: das Floating Gate. Diese besitzt keinen Anschluss nach außen und arbeitet als Ladungsfalle.? [86] ?Gelingt es, Ladungsträger auf das Floating Gate zu bringen, bleiben sie dort. Der Kondensator kann sich nicht mehr entladen und der Zustand der Flash-Zelle bleibt auch nach dem Ausschalten erhalten. Da das Floating Gate keinen Anschluss nach außen besitzt, erfolgt eine Ladungsänderung über den quantenmechanischen Effekt des Fowler-Nordheim-Tunnels: Legt man an das Control Gate eine hohe Spannung (10 bis 13 Volt) an, tunneln einige Elektronen aus dem Source Gate durch die dünne Isolierschicht (meist Siliziumoxid) hindurch in das Floating Gate. Diese Elektronen bleiben dort so lange gefangen, bis man sie mit einer hohen negativen Spannung wieder austreibt. Das Schreiben erfolgt selektiv für jede einzelne Zelle. Beim Löschen werden hingegen immer ganze Speicherblöcke wieder zurückgesetzt. Oder anders ausgedrückt: Beim Löschvorgang wird ein ganzer Block von Zellen (256 Bytes bis 128 KByte) auf einmal in den Ursprungszustand (beispielsweise logisch 0) versetzt. Beim Schreiben kann man dann jede einzelne Zelle in den anderen Zustand, aber nicht wieder einzeln zurück versetzen.? [86] Es gibt zwei verschiedene Arten von Flash Speicher: NOR- und NAND-Schaltungen. (siehe Abb.-Nr. 17 und 18) Bei NOR-Flash sind die Zellen parallel (OR) in einem Gitter aus Word- und Bit-Lines und lassen sich direkt auslesen. Sie eignen sich daher für Programmspeicher von Mikroprozessoren, haben aber den Nachteil, dass sie sehr teuer sind und keine hohe Speicherdichte haben. NAND-Flash besitzt eine deutlich höhere Speicherdichte, da viele Transistoren in Reihe (AND) geschaltet sind. Will man eine einzelne Zelle auslesen, muss man die anderen erst auf leitend schalten (maskieren), da ein direktes Auslesen nicht möglich ist. Sie werden daher blockweise über interne Register, die sich um die Adressierungsdetails kümmern, angesprochen. Diese Registrierschnittstelle ist weitgehend standardisiert und unabhängig von der internen Organisation der Zellen. Die Zugriffszeiten liegen bei etwa 100 µs, die Lesegeschwindigkeit liegt bei über 50 MB/s. [86] [87] 6.3.1 Flash Abb.-Nr. 16: Funktionsweise Flash Speicher 1 Abb.-Nr. 17: Funktionsweise Flash Speicher 2 24 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten Moderne NAND-Flash-Zellen, so genannte Multi Level Cells (MLC), speichern nicht nur ein Bit, sondern gleich zwei oder vier Bit pro Zelle, wodurch die Speicherdichte nochmals erhöht wird. Hierbei gibt es diverse Techniken, bei denen entweder durch die Stärke des Stroms die Zustände kodiert werden oder man mehrere Floating Gates in einer Zelle platziert. Dadurch unterscheiden sie sich auch beim Auslesen und Schreiben vom klassischen NAND-Speicher. [86] Flash Speicher Zellen sind durch ihren speziellen Aufbau mit verschiedenen Schichten nicht lange haltbar. Nach einiger Zeit treten Schäden in den Oxidschichten zwischen Control-, Floating Gate und Substrat auf (Degradation). Diese Schäden führen dazu, dass die Schicht nicht mehr richtig isoliert und die Ladungsträger vom Floating Gate abfließen können. Von den Herstellern werden bei NOR Speicher 10.000 Löschzyklen angegeben und bei NAND 100.000, wobei die Zellen im Durchschnitt das Zehnfache schaffen können. Die Blockgröße ist bei NAND Speicher deutlich kleiner als bei NOR, wodurch der einzelne Block seltener gelöscht werden muss. Ein Defektmanagement ist dennoch unerlässlich, da defekte Blöcke markiert und diese in Reserveblöcke ausgelagert werden müssen. Zudem muss es dafür sorgen, dass nicht immer dieselben Blöcke beschrieben und gelöscht werden, sondern eine gute Verteilung stattfindet. Die Blöcke enthalten Prüfsummen, mit denen Abb.-Nr. 18: Eigenschaften von NOR- und sich Bitfehler rekonstruieren lassen, um bei Feststellung eines NAND-Speichern im Vergleich solchen Fehlers die verlorenen Bits aus den Prüfsummen wiederherstellen zu können und die Daten in intakte Reserveblöcke zu transferieren. Die defekten Blöcke werden ab diesem Zeitpunkt nicht mehr eingesetzt. Dies geschieht alles einzig im Flash Speicher selbst, so dass das System, welches den Flash-Speicher nutzt, davon nichts mitbekommt und sogar das Dateisystem selbst wählen kann. [86] 6.3.2 Hybrid Festplatten Hybrid bedeutet immer eine Kombination aus zwei oder mehreren veschiedenen Techniken. Dies gilt auch für Hybrid Festplatten (HHD) welche eine Kombination aus der derzeitig aktuellen Festplattentechnologie mit routierenden Datenscheiben und Flashspeicher darstellt. Zusammen erbringen sie den Vorteil geringerer Zugriffszeiten, da Flash wesentlich schneller arbeitet als die herkömmliche Festplattentechnik. Der Flashspeicher einer Hybridfestplatte wird als Zwischenpuffer solange mit Daten gefüllt, bis er voll ist. Erst dann werden Daten auf die Festplatte geschrieben, was dazu führt, dass die Datenscheiben sowie die Schreib-/Leseköpfe in der übrigen Zeit stillstehen. Dadurch wird weniger Energie benötigt, es entsteht weniger Wärme und das Arbeiten ist geräuschärmer als bei herkömmlichen Festplatten. Nachteil ist, dass eine Hybridfestplatte vom Betriebssystem unterstützt werden muss (derzeit nur durch Windows Vista unterstützt) und sich durch den Dauereinsatz, der Flashspeicher schnell abnutzt. Daher sind Hybridfestplatten auch nicht für die Serverwelt geeignet. Sie stellen allerdings einen wichtigen Schritt in die richtige Richtung dar, der durch weitere Forschung und Entwicklung auch in Kombination mit anderen Speichertechnologien in diesem Gebiet schnell zu einem neuen Standard der Festplattentechnik führen kann. [88] 6.3.2 Hybrid Festplatten 25 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten 6.3.3 Solid State Disks Abb.-Nr. 19: Solid State Disk Bei Solid State Disks (SSD ? siehe Abb.-Nr. 19) sind viele Flash Speicherzellen in größeren Gruppen hintereinander geschaltet. Verwendet werden hier die sogenannten NAND-Chips, da dieser Speichertyp weniger Platz benötigt und deutlich mehr Lösch-Schreib-Zyklen zulässt als bei NOR-Chips. SSD`s gibt es in den gängigen Formfaktorgrößen 3,5-, 2,5- und 1,8-Zoll mit Kapazitäten zwischen 30 und 256 GB. Zudem sind Formfaktorgrößen im 1,0 Zoll Format z. B. für Kompakt-Notebooks oder Smartphones geplant, bei denen Hersteller herkömmlicher Festplatten wegen der vorhandenen Mechanik an ihre Grenzen stoßen. Die größten Vorteile gegenüber herkömmlichen Festplatten sind schnelle Zugriffszeiten, eine kompakte Größe, geringer Stromverbrauch und Robustheit z. B. gegenüber Erschütterungen. Dem gegenüber stehen Nachteile von zurzeit noch geringen Kapazitäten, einer beschränkten Zahl an Schreibzugriffen, noch höheren Preisen und niedrigen Datentransferraten. [89] [90] Geeignet sind SSD vorallem aufgrund ihrer kompakten Bauweise daher besonders für den mobilen Einsatz, da sie vor allem weniger Energie benötigen, robuster und geräuschärmer sind als herkömmliche Festplatten. Wenn die Preise weiterhin fallen, werden SSD-Festplatten laut Sun Manager John Fowler auch für den Serverbereich immer interessanter, da sie deutlich schnellere Zugriffszeiten beim Lesen und Schreiben sowie geringeren Stromverbrauch gewährleisten. Angekündigt ist bereits eine 1,6 TB SSD im 3,5 Zoll Format mit über 200 MB/s an Datentransferraten, allerdings vorerst nur für militärische und industrielle Zwecke. [90] In Zukunft wird daran gearbeitet die Flash Technik noch weiter zu miniaturisieren. Aktuelle Fertigungsverfahren erlauben momentane Strukturbreiten von 65 beziehungsweise 45 Nanometern. Ein erst kürzlich gefertigter 34-Nm-Baustein werde das Speichervolumen von SSD noch weiter verdoppeln. Auf einer Fläche von 172 Quadratmillimetern bietet der 32 Gigabit-Chip 4 GB an Daten Platz. Mit den neuen Flash-Bausteinen könnten schon bald 1,8-Zoll-SSD mit einem Speichervolumen jenseits der 256-GB-Grenze möglich sein. Da die Entwicklung immer dünnerer Strukturbreiten allerdings aufgrund von Materialproblemen und Leckströmen (Ströme die unbeabsichtigt abfließen) allmählich an die physikalischen Grenzen stößt und zudem aufwändige Fertigungsverfahren erfordert, wird auch nach anderen Wegen gesucht, die Flash-Leistung zu verbessern. [90] Flash-Speicher dürften wohl kaum aufzuhalten sein, ob SSD allerdings in den kommenden Jahren die bewährte Festplattentechnik komplett ablösen wird, ist fraglich. In speziellen Anwendungsbereichen, wie beispielsweise für mobile Rechner oder Smartphones, dürfte sich der neue Speichertyp aufgrund der kompakten Bauweise, sowie weiteren Vorteilen in Sachen Gewicht und Stromverbrauch, jedoch zügig durchsetzen. Für eine breitere Akzeptanz der SSD-Technik müssten die Preise allerdings weiter sinken. [90] 6.3.4 Racetrack Memory 6.3.3 Solid State Disks 26 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten Ebenfalls mehr Leistung und Kapazität sowie niedrigere Kosten und geringeren Stromverbrauch verspricht der Racetrack Memory. IBM hat mit dem Racetrack eine alte Technik des Speicherns neu erfunden. Speichern in Nanogröße nach dem Tonbandprinzip mit Hilfe von Nanofäden. (siehe Abb.-Nr. 20 und 21) Nanofäden oder auch Nanodrähte genannt, sind eindimensionale Drähte gemessen Abb.-Nr. 20: Racetrack Memory in Nanometern. Das heißt, ihr Durchmesser beträgt nicht mehr als nur ein paar 0,000000001 Meter (0,000000001 Meter entspricht 1 Nanometer ist etwa ein Tausendstel von einem einzigen Strang des menschlichen Haares). [91] [92] [93] Bei diesem Prinzip werden kleine Nanofäden der Länge nach waagerecht oder senkrecht in Form einer Schleife (Racetrack) auf einer Siliziumfläche angebracht. Durch Anlegen präziser Stromimpulse im Nanosekundenbereich werden dann nicht die Fäden oder das Silizium bewegt, sondern die magnetischen Domain Walls in den Fäden. [94] Eine Domain Wall stellt die Begrenzung zwischen den gegensätzlich gepolten magnetisierten Regionen in magnetischen Nanodrähten dar, wobei jede Domäne ein Bit repräsentiert. In jedem Racetrack werden viele Domain Walls gespeichert und ermöglichen so eine hohe Speicherdichte. [94] Ziel wird es sein, viele Tausende dieser Nanodraht-Speicher, die zwischen 10 und 100 Bits speichern können, dicht auf einer Fläche anzuordnen. Dabei wird durch die senkrechte Anordnung eine ganz neuartige Anordnungsmöglichkeit eröffnet, nämlich die im Gegensatz zur 6.3.4 Racetrack Memory Abb.-Nr. 21: Racetrack Memory 2 27 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten bisherigen zweidimensionalen, auch eine dreidimensionale Architektur. [94] [91] [95] Der Racetrack Memory ist ein nicht flüchtiger Speicher mit hoher Leistung. Da 16 Bits gleichzeitig statt 1, 2 oder 4 Bits gelesen werden können, ist er 100.000-mal schneller als aktuelle Flashmodule. Gerade einmal einige 10 Nanosekunden werden für den Schreib- und Verschiebezyklus benötigt. Da keine beweglichen Teile verbaut sind, ist er nahezu unverwüstlich. Der Energieverbrauch ist dabei sehr gering, wodurch auch weniger Hitze entsteht. Laut IBM soll diese neue Technik in spätestens fünf Jahren serienreif sein und dann gleich die Flash-Speicherkarte sowie die Festplatte beerben. [91] [96] 6.3.5 Phasenwechselspeicher Phasenwechselspeicher (Phase-Change-Memory - PCM) wird zurzeit u.a. von Ovonyx, Intel, einer Forschungsallianz rund um IBM, Macronix und Qimonda, Samsung Electronics und einigen anderen erforscht bzw. entwickelt. Diese Firmen sind der Ansicht, dass diese Speichertechnik eines Tages den Flash-Speicher ersetzen wird. [97] [98] [99] Phase-Change-Memory ist im Gegensatz zu Flash-Speicher schneller (mehr als 500-mal schnellere Schaltung), ist nicht flüchtig, benötigt beim Schreiben weniger als die Hälfte des Stroms und ist in der Baugröße beträchtlich kleiner. Flash-Speicher wird voraussichtlich nur Strukturgrößen bis zu 45 Nanometer erreichen können, während Phase-Change-Memory wahrscheinlich die 22 Nanometer Marke erreichen kann. Als Werkstoff dient eine komplexe Germanium-Antimon-Legierung mit kleinen Beimengungen anderer Elemente, die der Legierung zugesetzt werden. [97] [100] Abb.-Nr. 22: Zustände des Phasenwechselspeicher Technisch funktioniert der Phase-Change-Memory nach dem Prinzip der Unterscheidung von unterschiedlichen Materialzuständen und den dadurch resultierenden Widerstandsveränderungen. Im Innern des Speichers befindet sich eine Halbleiterlegierung, in der sich die Atome durch Zusetzen eines Stromstoßes mit unterschiedlicher Amplitude und Dauer schnell in eine amorphe oder kristalline Form versetzen lassen. (siehe Abb.-Nr. 22) Der Strom, der lediglich einen Volt beträgt ? bei Flash hohe Spannungen, erhitzt das Material bis knapp über den Schmelzpunkt, wodurch den Atomen die Möglichkeit gegeben wird sich zufällig anzuordnen. Es liegt ein hoher Widerstand vor. Wird nun der Strom plötzlich unterbrochen, verharren die Atome sofort in ihrer willkürlichen Form. Wird der Strom allerdings langsam über 10 Nanosekunden gesenkt, bleibt den Atomen genug Zeit sich wieder zu einer geordneten kristallinen Struktur zu sortieren. Es liegt ein niedriger Widerstand vor. [97] [98] Das Material kann beim Phase-Change-Memory etwa doppelt so viele Speicherzyklen realisieren wie der Flash-Speicher und sie müssen nicht blockweise gelöscht werden. In Lizenz wird die Technik des Speichers bereits heute von allen wiederbeschreibbaren DVD-Varianten eingesetzt. Dort werden allerdings die Reflektionen zwischen den zwei unterschiedlichen Zuständen des Materials gemessen und nicht dessen Widerstände. [98] 6.3.5 Phasenwechselspeicher 28 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten 6.3.6 Nanoinseln als Datenspeicher Eine zuvor auf nur wenige Nanometer ultraglatt polierte Fläche mit einer Aluminium-/Eisen-Legierung, wird durch einen sehr fein gebündelten Ionenstrahl (Strahl aus schnellen geladenen Atomen) strukturiert, wodurch sogenannte Nanoinseln mit gerade mal einhundert Atomen entstehen, die sich als superflache einkristalline Strukturen von rund 20 mal 20 Nanometer zum Quadrat darstellen (siehe Abb.-Nr. 23). [101] [102] Mit Hilfe eines spinpolarisierten Rastertunnelmikroskops, bei dem durch Verwendung einer metallischen Sondenspitze mittels Tunnelstrom berührungsfrei eine magnetische Oberfläche lokal untersucht werden kann, können diese Nanoinseln nun durch Spinströme (ein Strom elektrischer Ladungen) gezielt und berührungsfrei in die Bitzustände ?0? und ?1? geschaltet werden (siehe Abb.-Nr. 23: Abb.-Nr. 24). [103] Nano-Inseln unter dem Mikroskop betrachtet Welchen magnetischen Zustand die Nanoinsel gerade hat, kann man an der unterschiedlichen Färbung in Abb.-Nr. 9 erkennen. Ein dunkles oder helles Signal auf den Inseln repräsentiert jeweils eine magnetische Ausrichtung zur magnetischen Spitze. Streifen tauchen auf kleinen Inseln (z. B. im Einsatz) auf, weil sie ihre magnetische Lage häufig ändern. [104] Abb.-Nr. 24: Nano-Inseln Im Gegensatz zur konventionellen Technik wird hierbei komplett auf magnetische Felder verzichtet, wodurch wesentlich mehr Daten auf kleinstem Raum geschrieben werden können und das Schreiben von Informationen nicht mehr über magnetische Felder realisiert werden muss. Wurde die Datendichte bei konventioneller Technik bisher zu hoch, beeinflusste das Magnetfeld beim Schreiben eines Bits auch benachbarte Bits, was unweigerlich zu Datenverlusten führte. [103] ?Daher könnte (strominduziertes Schalten der Magnetisierung) in absehbarer Zukunft das Speichern und Auslesen von Informationen in einzelne magnetische Atome ermöglichen und zu neuen, revolutionären Festplattentechnologien führen, deren Speicherdichte bis zu zehntausendfach höher ist als die heutiger Festplatten.? [105] 6.3.6 Nanoinseln als Datenspeicher 29 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten 6.3.7 MRam Abb.-Nr. 25: MRAM Schichten Neben dem Racetrack Memory, dem Phasenwechselspeicher und den Nanoinseln, wird sich auch von dem MRAM eine große Zukunft versprochen, die zu einer Ablösung des billigen NAND-Flash-Speichechips führen könnte. MRAM steht für Magneto-resistive Random Access Memory und nutzt magnetische statt elektrische Ladungselemente. Es werden die Informationen 0 und 1 durch die Ausrichtung von Magnetpaaren dargestellt. Dabei ist jedes Atom im MRAM ein kleiner Elektromagnet. Diese Atome stecken in drei verschiedenen Schichten, zwei aus ferro-magnetischem Material und dazwischen eine dünne Isolierschicht (siehe Abb.-Nr. 25). Die Richtung der atomaren Magnete ist in der untersten Schicht (Domäne) fest. Die Atommagneten in der oberen Schicht lassen sich ändern. Dabei sind sie entweder in dieselbe Richtung oder entgegen der Richtung ausgerichtet. [106] [107] Beim Lesen wird nun eine Spannung angelegt, wodurch einige Elektronen die dünne Isolierschicht durchdringen können und ein sogenannter Tunnelstrom fließt. Die Stärke des Tunnelstroms hängt dabei von der Orientierung der beiden Magnetfelder ab. Wenn die obere und untere Lage parallel ausgerichtet sind, ist der Widerstand gering und wenn sie antiparallel ausgerichtet sind, ist der Widerstand hoch. Abb.-Nr. 26: MRAM Schreib- Lesevorgänge Zum Schreiben (siehe Abb.-Nr. 26) werden entsprechend die Magnetrichtungen in den Bit- und Zeichenleitungen zwischen diesen Schichten entsprechend gewählt. [106] [107] MRAM-Zellen behalten ihren Bitzustand nach dem Lesen, sind daher nicht flüchtig und somit besonders stromsparend. Zudem kann man in einer MRAM Zelle bis zu 1 Million Mal öfter Informationen speichern als bei Flash-Bausteinen. [106] [108] Zurzeit kämpfen Unternehmen wie Infineon, Philips, Motorola oder NEC um eine mögliche Vormachtstellung im 6.3.7 MRam 30 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten MRAM-Markt. Infineon stellte allerdings kürzlich in Zusammenarbeit mit IBM nach eigenen Angaben den bisher kleinsten MRAM-Chip vor, der etwa 1000mal schneller sein soll als Flash-Speicher (siehe Abb.-Nr. 27-29). [107] Abb.-Nr. 27: MRAM Speicher 1 Abb.-Nr. 28: MRAM Speicher 2 Abb.-Nr. 29: MRAM Speicher 3 7 Storage as a Service Storage as a Service ist mittlerweile zu einem verstärkten Trend geworden und stellt eine einfache Möglichkeit zur verteilten Datenhaltung dar. Unter Storage as a Service wird die Auslagerung von Dateien bei einem externen Dienstleister verstanden. Es umfasst heute nicht mehr nur die reine Speicherung von Dateien, der Kunde kann neben dem Speicherangebot auch eine Vielzahl weiterer Funktionen kostenfrei nutzen oder hinzubuchen. Die Angebote sind vielfältig und gehen von reinem Datenspeicher bis hin zu Datenspeicher kombiniert mit Softwarelösungen für z. B. Online-Backups. Grundsätzlich ist es möglich alle Daten des Unternehmens auf einen externen Datenspeicher auszulagern. Hier sollte man aber die UnternehmHensprozesse, Sicherheitsvorgaben, die Haftung des Unternehmens bei Verlust von personenbezogenen Daten und das rechtliche Umfeld der teilweise im Ausland befindlichen Datenspeicher nicht unberücksichtigt lassen. Hierzu ist es wichtig, dass die Daten, obwohl sie auf unbekannten Datenträgern gespeichert sind, nur dem Unternehmen zugänglich sind und die Löschung der Dateien in einem zertifizierten Verfahren vorgenommen wird. Ferner sollten alle Dateien sowohl während der Übertragung als auch auf dem Datenträger selbst verschlüsselt werden können. Durch die Verschlüsselung der Daten während der Kommunikation und dem damit verbundenen Geschwindigkeitsverlust ist das Unternehmen auf eine entsprechende, möglichst redundante, Breitband Standleitung zum externen Rechenzentrum angewiesen. Die hierdurch entstehenden Kosten sollte man bei der Entscheidung für eine Auslagerung berücksichtigen. Interessant ist SaaS schon heute für die längerfristige Auslagerung und Archivierung von Dateien oder die Sicherung der eigenen Datenbestände, da in diesen Fällen nur ein sporadischer Zugriff auf die Daten erfolgt und die Bandbreite der Leitung nicht so ausschlaggebend ist.[109] [110] 7.1 Symantec Online Backup Symantec bietet im Rahmen seines Norton Online Backup Produktes für kleine Unternehmen und Heimanwender einen Cloud basierten Speicher Service für PC und einzelne Server an. Die Daten werden in der ersten Sicherung als Fullbackup, alle weiteren inkrementell gesichert und über eine Internetverbindung auf einem Cloud Storage von Symantec gespeichert. Benutzer können sich von jedem Rechner, der an das Internet angeschlossen ist, an einem Webportal anmelden und das Backup von bis zu fünf PC administrieren. Hier können die gängigen Backupfunktionen wie Einstellungen für die Sicherung und die Wiederherstellung der Dateien für jeden einzelnen PC konfiguriert werden (siehe Abb.-Nr. 30 und 31). Die Sicherung kann während vordefinierter Zeiten oder bei Inaktivität des PC durchgeführt werden. Hierfür werden die Daten lokal komprimiert, während des Transfers mit einer 128 Bit AES Schlüssel verschlüsselt und auf dem Cloud-Storage mit einer 258 Bit AES Verschlüsselung abgelegt. Das Backup wird mehrfach kopiert und an weiteren Stellen für ein disaster recovery hinterlegt. Die 7 Storage as a Service 31 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten Backupdateien können je nach Servicelevel bis zu 7 Jahre aufbewahrt werden. Für Backup Exec dem Enterprise Sicherungsprogramm von Symantec gibt es nun auch eine Online Sicherung. Das Verfahren gleicht der Online-Sicherung für kleinere Systeme, es wird aber über einen im Unternehmen befindlichen Sicherungsserver eine Kopie der Backupdateien in dem Cloud-Datenspeicher abgelegt.[111] [112] Ein ähnliches Produkt mit gleichem Konzept bietet F-Secure, McAfee in Zusammenarbeit mit EMC und Iron Mountain Digital für den Microsoft System Center Data Protection Manager 2007 an.[113] bb.-Nr. 30: Verzeichnisbaum im Symantec-Online-Backup Abb.-Nr. 31: Webseite für die Administration des Symantec-Online-Backup 7.2 EMC Atmos EMC bietet speziell für Unternehmen, einen online Datenspeicher zur Auslagerung großer Datenmengen an. Atmos onLine ist zurzeit noch in der Betaphase. Die Besonderheit an diesem Cloud basierten Dienst besteht in der Möglichkeit, flexibel zusätzlichen Speicherplatz hinzu buchen zu können, um Spitzen in der Produktion abzufangen und nach Bedarf über eine Funktion "EMC Atmos internal to external Federation" Daten gesichert vom Unternehmensserver, in dem Online-Speicher nach belieben hin und her zu bewegen. Hierdurch kann das Unternehmen selber entscheiden, ob es sensible Daten weiterhin im Unternehmen belässt oder in der Cloud speichert.[114] Grundlage ist die EMCs Multi-Petabyte-Lösung Atmos. Sie ermöglicht eine global vernetzte Speicherung und Verteilung von Informationen. Die Atmos-Lösung ist eine vorkonfigurierte Storageeinheit, die in Kapazitäten von 120, 240 und 360 Terabyte auf dem Markt ist. Sie lässt sich durch eine Management Software wahlweise zu großen Datenspeichern miteinander verbinden. 7.1 Symantec Online Backup 32 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten Abb.-Nr. 32: Aufbau eines EMC Atmos Diese lassen sich nicht nur in einem Rechenzentrum vorhalten, sondern weltweit miteinander vernetzten, was das mögliche Datenvolumen noch einmal erheblich vergrößert. Die Datenablage geschieht über eine regelbasierte und automatisierte Informationsverteilung. Diese schreibt vor, wie, wann und wo Informationen gespeichert werden. Atmos onLine wird über eine Web Service-API oder über CIFS/NFS/IFS angesprochen und kann somit auch durch eigene Applikationen Verwendung finden (siehe Abb.-Nr. 32). Atmos onLine bietet eine umfangreiche Anzahl von Funktionen: • Globaler Zugang zum Datenspeicher • Regelbasierte automatische Informationsverteilung. Diese schreibt vor, wie, wann und wo Informationen gespeichert werden. • Verwendung von Objekt-Metadaten, um die Content-Verteilung und Aufbewahrungsregeln zu verfeinern, Suchläufe zu optimieren oder individuelle Abfragen für Cloud-basierte Dienste zu erstellen. • Replikation, Komprimierung, Deduplizierung, Versionen verwalten • Einheitlicher Namespace, um einen standortunabhängigen Dauerzugriff sicherzustellen und die Komplexität zu verringern. • Partionierung der Datenbereiche je nach Funktion, um unerlaubten Zugriff vorzubeugen • Zugriffsmechanismen über eine Web Service-API (REST/SOAP) für Internet-basierte Anwendungen oder Legacy-Protokolle (CIFS/NFS/IFS) für dateibasierte Systeme. • browserbasierte Administration.[115] [116] 8 Fazit Verteilte Datenhaltung wird zukünftig nicht nur in Unternehmen, sondern auch für die Privatpersonen zu einem wichtigen Aspekt bei der Vermeidung von Datenverlusten. Sie ist ein Zusammenspiel vieler Komponenten der IT-Infrastruktur. Neben reiner Software, wie z. B. Netzwerk Dateisysteme, erlangen die Hardwarekomponenten, wie Netzwerke und schnelle Datenspeicher, eine immer größere Bedeutung bei der Bewältigung großer Datenmengen. Grundlage der verteilten Datenhaltung ist ein schnelles, hochverfügbares Netzwerk für die reibungslose Kommunikation der einzelnen Komponenten. Die neuen Internetanbindungen, wie Glasfaser bis zum Haus (FTTH), Mobilfunk in jetziger DSL-Geschwindigkeit und WLAN, das bis zu 600 MBit/s schnell ist, werden zum Standard für Privatanwender werden und auch bei mobilen Geräten eine verteilte Datenhaltung ermöglichen. Im Bereich der Unternehmen werden bis zu 100 GBit schnelle Backbone Netzwerke eine weitere 7.2 EMC Atmos 33 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten Verbreitung finden. Für ein immer weiter anwachsendes Volumen der Datenbestände werden Techniken zur Herstellung immer leistungsfähigerer Datenträger gesucht. Einige Ansatzpunkte sind der Flash Speicher, der schon in Hybridfestplatten oder immer häufiger in reinen Flash-Festplatten (Solid-State-Disks) zu finden ist. Das Resultat sind immer schnellere und gegen Umwelteinflüsse unempfindlichere Datenspeicher. Diese können zu widerstandsfähigen Speichereinheiten zusammengefasst werden. Auf dieser Technologie aufbauend, geht der Trend zu einer immer stärkeren Miniaturisierung der Speichereinheiten, bis hin zur Datenspeicherung auf atomarer Ebene, wie bei der Racetrack Memory Technik, dem Phasenwechselspeicher und den Nanoinseln. Hier liegt auch das größte Potential zum Ausbau der Speicherkapazitäten. Einfache Technologien zur verteilten Datenhaltung sind hauptsächlich Weiterentwicklungen und Zusammenfassungen schon existierender Techniken. Hier ist im Besonderen das iSCSI zu nennen, welches eine Anbindung von netzwerkbasierten Speichern wie NAS und somit eine dezentrale Datenhaltung ermöglicht. Ein großes Potential für die verteilte Datenhaltung zur Vermeidung von Datenverlusten bietet das Cloud-Computing wie z. B. Microsoft Live Mesh. Cloud-Computing ist noch in den Anfängen, hat aber das Potential zu einem neuen Standard in der verteilten Datenhaltung zu werden. Neben einer Breitbandanbindung an die Cloud sollte der Benutzer besonderes Augenmerk auf die Datensicherheit, Zugriffsberechtigungen und die rechtlichen Anforderungen an die Datenhaltung legen, da der Speicherort der Dateien unbekannt ist und sich in einem anderen Rechtsgebiet befinden kann. In Zukunft wird neben dem Cloud-Speicher auch der häufig zusätzlich angebotene Storage as a Service an Bedeutung gewinnen. Neben Diensten für Online-Backup und Office-Applikationen, werden Möglichkeiten zur dauerhaften Archivierung der Daten angeboten. Auch hierbei sind die rechtlichen Grundlagen und die technische Realisierung zu prüfen. Sind die Daten nur dem autorisierten Nutzer zugänglich, welche Sicherungsmaßnahmen gegen Datenverlust werden angeboten, kann der Anbieter gewährleisten, dass die rechtliche Grundlage mit dem innerdeutschen Recht konform ist. Alle diese Aspekte tragen zu einer verteilten Datenhaltung zur Vermeidung von Datenverlust bei und sind in vielen Fällen voneinander abhängig. Ohne Breitbandanbindung ist Storage as a Service nur eingeschrängt zu nutzen, ohne große Datenträgerkapazitäten ist eine Cloud nur ein "Wölkchen". 9 Fußnoten 1. ? 1,0 1,1 1,2 entnommen LaCie (2009) 2. ? 2,0 2,1 2,2 entnommen pc-erfahrung (2009) 3. ? entnommen IBM (2009) 4. ? entnommen Microsoft (2009 c) 5. ? entnommen Microsoft (2009 c) 6. ? entnommen ZumoDrive (2009) 7. ? entnommen Neuroth, Kerzel, Gentzsch (2007) 8. ? entnommen Neuroth, Kerzel, Gentzsch (2007) 9. ? entnommen pNFS.org (2009) 10. ? entnommen Kolbeck (2009) 11. ? 11,0 11,1 entnommen ITWissen 12. ? 12,0 12,1 entnommen Benz, Benjamin (2006) 13. ? entnommen Computerwoche (2008) 14. ? entnommen Searchstorage (2007a) 15. ? entnommen Searchstorage (2008) 16. ? entnommen Tecchannel (2003 a) 17. ? entnommen Science (2007) 18. ? entnommen Sonderforschungsbereich 668 (2009) 19. ? entnommen Tecchannel (2003 b) 20. ? 20,0 20,1 20,2 20,3 entnommen IBM-Research News 21. ? entnommen Symantec Corporation (2008) 22. ? entnommen Symantec Corporation (2008) 8 Fazit 34 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten 23. ? entnommen EMC Corporation (2009 a) 24. ? vgl. bitkom (2007) 25. ? vgl. bitkom (2008) 26. ? UStG § 14b IV (1) 27. ? 27,0 27,1 27,2 vgl. Tanenbaum, Steen (2007) 28. ? vgl. BSI HV-Kompendium 29. ? vgl. DIN 44 300 30. ? vgl. Uni Heidelberg 31. ? 31,0 31,1 31,2 31,3 vgl. BSI (2009 a) 32. ? vgl. FAZ-Institut (2004 33. ? vgl. Baker, Faibish et al. (2008) 34. ? vgl. OpenAFS.org (2009) 35. ? vgl. Herte (2001) 36. ? 36,0 36,1 36,2 36,3 36,4 36,5 vgl. Kolbeck, Stender et al. (2009) 37. ? vgl. Sun Microsystems (2008) 38. ? vgl. Oracle (2009) 39. ? vgl. Ghemawat, Gobioff, Shun-Tak (2003) 40. ? vgl. Hildrum (2002) 41. ? vgl. Josey (2006) 42. ? 42,0 42,1 42,2 42,3 vgl. NetApp (2006) 43. ? 43,0 43,1 vgl. Bunn (2006) 44. ? vgl. Patterson (1988) 45. ? vgl. LaCie (2009 b) 46. ? vgl. LaCie (2009) 47. ? vgl. NetApp (2009) 48. ? vgl. IBM (2009 b) 49. ? vgl. NAS-Central.org (2009) 50. ? vgl. AVM (2009) 51. ? vgl. FreeNAS.org (2009) 52. ? vgl. IBM (2009 c) 53. ? vgl. Satran, Meth et al. (2004) 54. ? vgl. Microsoft (2009 a) 55. ? vgl. Microsoft (2009 b) 56. ? vgl. Microsoft (2009 c) 57. ? vgl. Microsoft (2009 d) 58. ? vgl. ZumoDrive (2009) 59. ? vgl. Forster (2003) 60. ? vgl. Subramaniam, Nakata et al. (2009) 61. ? vgl. Müller-Pfeferkorn, Nagel (2007) 62. ? vgl. D-Grid Initiative (2009) 63. ? vgl. Neuroth, Kerzel, Gentzsch (2007) 64. ? 64,0 64,1 64,2 vgl. Sun Microsystems (1989) 65. ? vgl. Eisler (2006) 66. ? vgl. Thurlow (2009) 67. ? vgl. Microsoft (2008) 68. ? vgl. Reaburn (2005) 69. ? vgl. Beame, Callaghan et al.(2003) 70. ? vgl. Arbor (2009) 71. ? vgl. Baker, Faibish, Fields (2008) 72. ? vgl. pNFS.com(2009) 73. ? vgl. Eisler, Konkle (2008) 9 Fußnoten 35 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten 74. ? vgl. Haynes (2009) 75. ? vgl. Halevy (2009) 76. ? vgl. Kolbeck (2009) 77. ? vgl. Draka (2008) 78. ? vgl. Juniper (2009) 79. ? vgl. Heise Verlag Netz (2009b) 80. ? vgl. Microsoft (2008b) 81. ? vgl. GTN 82. ? vgl. Bundesnetzagentur (2009) 83. ? vgl. FON (2009) 84. ? vgl. Benz, Benjamin (2006) 85. ? vgl. Comptech-Info (2007) 86. ? 86,0 86,1 86,2 86,3 86,4 86,5 Benz, Benjamin (2006) 87. ? vgl. ITWissen 88. ? vgl. Afib-It (2007) 89. ? vgl. Tecchannel (2008) 90. ? 90,0 90,1 90,2 90,3 vgl. Computerwoche (2008) 91. ? 91,0 91,1 91,2 vgl. Searchstorage (2007a) 92. ? vgl. Tech-Faq 93. ? vgl. IBM (2008 a) 94. ? 94,0 94,1 94,2 vgl. IBM (2008 b) 95. ? vgl. Searchstorage (2008) 96. ? vgl. Winfuture (2008) 97. ? 97,0 97,1 97,2 vgl. Golem (2006 a) 98. ? 98,0 98,1 98,2 vgl. Tecchannel (2003 a) 99. ? vgl. Aixtron (2009) 100. ? vgl. Qimonda (2006) 101. ? vgl. FZD (2009) 102. ? vgl. Deutschlandfunk (2009) 103. ? 103,0 103,1 vgl. Sonderforschungsbereich 668 (2009) 104. ? vgl. Science (2007) 105. ? Sonderforschungsbereich 668 (2009) 106. ? 106,0 106,1 106,2 vgl. Tecchannel (2003 b) 107. ? 107,0 107,1 107,2 vgl. mram-memory.eu 108. ? vgl. Golem (2004) 109. ? vgl. Giebel (2009) 110. ? vgl. Tecchannel (2009 a) 111. ? vgl. Mearian (2009) 112. ? vgl. Symantec Corporation (2008) 113. ? vgl. Tecchannel (2009 b) 114. ? vgl. EMC Corporation (2009 a) 115. ? vgl. EMC Corporation (2009 b) 116. ? vgl. Heise Verlag Netz (2009) 10 Literatur- und Quellenverzeichnis Buchquellen: 10 Literatur- und Quellenverzeichnis 36 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten Tanenbaum, Steen (2007) Tanenbaum, Andrew S.; van Steen, Maarten: Verteilte Systeme. 2., aktualisierte Auflage, Pears BSI (2009 a) Sicherheitshandbuch, download unter http://www.bsi.de/literat/sichhandbuch/sichhandbuch.zip, Patterson (1988) Patterson, David A; Gibson, Garth and Katz, Randy H: ?A Case for redundant Arrays of Inexpe Zeitschriftenquellen: Benz, Benjamin (2006) Bunn, Frank (2006) Internetquellen: Afib-It (2007) Aixtron (2009) Arbor (2009) AVM (2009) Backer, Faibish, Fields (2008) Beame, Callaghan et al.(2003) Bitkom (2007) Bitkom (2008) Bundesnetzagentur (2009) Computerwoche (2008) Comptech-Info (2007) Deutschlandfunk (2009) Draka (2008) D-Grid Initiative (2009) Eisler (2006) Eisler, Konkle (2008) Emc Corporation (2009 a) Emc Corporation (2009 b) FAZ-Institut (2004) FON (2009) FreeNAS (2009) Forster (2003) FZD (2009) Ghemawat, Gobioff, Leung (2003) Giebel (2009) Golem (2004) Golem (2006 a) GTN Haynes (2009) Benz, Benjamin: Erinnerungskarten, Die Technik der Flash-Speicherkarten, c't 23, Heise Verlag Bunn, Frank: Daten im Spiegel, Replikation und Mirroring-Sicherheit mal zwei, iX extra 08, He N.N.: Ausbildungsverbund Fachinformatik Berlin, Hybrid Festplatten, der Nachfolger von S-AT N.N.: AIXTRON AG und Ovonyx entwickeln gemeinsam Depositionstechnologie für moderne Abor, Ann: U-M researchers to develop Network File System client for Microsoft, 2009, http://w N.N.: Handbuch Fritzbox 7270, 2009, download unter http://www.avm.de/de/Service/Handbuec Baker, Bill; Faibish, Sorin; Fields, Bruce: pNFS BOF, 2008, http://www.pnfs.com/docs/sc08_pn Beame,C.; Callaghan B.; Eisler, M.; Shepler, S.; Callaghan, B.; Thurlow, R.; Noveck, D.: Netw N.N.: PC-Ausstattung in Deutschland knackt erstmals 75-Prozent-Marke, 2007, http://www.bitk N.N.: Weltweite Informationsinfrastrukturen, Mobilfunk bringt vielen Regionen neue Entwicklu N.N.: 1. Ermöglichung des drahtlosen Netzzugangs, http://www.bundesnetzagentur.de/media/ar Bayer, Martin: Flash als Festplattenersatz: Was Sie schon immer über Solid State Drives wissen Franz, Holger: Flash Speicher - was ist das?, 2007, http://www.comptech-info.de/component/co N.N.: Deutschlandfunk: Nano-Inseln für mehr Kapazität, 2009, http://www.dradio.de/dlf/sendun Kuyt, Gerard (Draka): OM4 multimode fiber standardisation, 2008, www.ieee802.org/3/ba/pub N.N.: Die Deutsche Grid-Initiative, 2009, http://www.d-grid.de/index.php?id=1, Abruf vom 16. Eisler, M.: XDR: External Data Representation Standard, 2006, http://tools.ietf.org/html/rfc450 Eisler, Mike; Konkle, Joshua: Beschleunigter Zugriff auf gemeinsam genutzte Daten für Rechne N.N.: EMC Atmos: Regelbasiertes Informationsmanagement für Cloud-Storage-Infrastrukturen N.N.: Datenblatt EMC Atmos, 2009, http://germany.emc.com/collateral/software/data-sheet/h57 N.N.: Studie "Kundenkompass Onlineshopping" des F.A.Z.-Instituts und der novomind AG, 20 N.N.: E-Plus Gruppe und FON starten Kooperation . kostenlos an über 400.000 FON Spots wel N.N.: ?FreeNAS Setup and User Guide?, 2009, www.freenas.org, Abruf vom 07.06.2009 Forster, Iran: What is the Grid? A Three Point Checklist, 2003, http://www.mcs.anl.gov/~itf/Art N.N.: Forschungszentrum Dresden-Rossendorf (FZD): Neues Konzept zur Herstellung von mag Ghemawat, Sanjay; Gobioff, Howard; Leung, Shun-Tak: The Google File System, 2003, http://l Giebel, Frank: Der Mittelstand wird mit Mietspeicher-Angeboten umworben, SearchStorage, 20 N.N.: Golem - Erster 16-MBit-MRAM-Prototyp, 2004, http://www.golem.de/0406/31882.html, N.N.: Golem - Phase-Change-Speicher soll Flash-Speicher ablösen, http://www.golem.de/0612/ Beck, Martin (GTN) FTTH Standards, http://www.kabelkongress.de/web/documents/FTTHStan Haynes, T.: Network File System (NFS) version 4 Protocol draft-ietf-nfsv4-rfc3530bis-00.txt, 2 10 Literatur- und Quellenverzeichnis 37 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten Halevy (2009) Heise Verlag Netz (2009) Heise Verlag Netz (2009b) Herte (2001) Hildrum (2002) HP (2009) IBM (2008 a) IBM (2008 b) IBM (2009 b) IBM (2009 c) IBM-Research News ITWissen Josey (2006) Juniper (2009) Koleck, Stender et al. (2009) Koleck (2009) LaCie (2009) LaCie (2009 b) Lanline (2009) NAS-Central.org (2009) NetApp (2006) Mearian (2009) Microsoft (2008) Microsoft (2008b) Microsoft (2009 a) Microsoft (2009 b) Microsoft (2009 c) Microsoft (2009 d) Mram-memory.eu Müller-Pfefferkorn, Nagel (2007) NetApp (2009) Neuroth, Kerzel, Gentzsch (2007) OpenAFS.org (2009) Oracle (2009) pNFS.com (2009) Qimonda (2006) Halevy, Benny: objekt-based pNFS in Linux , 2009, http://www.haifa.ibm.com/conferences/sys N.N.: Online-Speicher für SAN und Server, 2009, http://www.heise.de/netze/Online-Speicher-f N.N.: 600Mbit/s per WLAN, 2009, http://www.heise.de/netze/600-MBit-s-per-WLAN--/news/m Herte, Chris: Samba: An Introduction, 2001, http://us6.samba.org/samba/docs/SambaIntro.html Hildrum, Kris: The OceanStore Project, Project Overview, 2002, http://oceanstore.cs.berkeley.e N.N.: HP StorageWorks X3000 Network Storage Systems - Overview and Features, http://h100 N.N.: IBM- Zusammenarbeit zur Weiterentwicklung des Solid State-Hauptspeichers, 2008, http N.N.: IBM- Revolutionäre Speicherteichnologie, 2008, http://www-05.ibm.com/de/pressroom/p N.N.: Network attached storage, http://www-03.ibm.com/systems/storage/network/interophome N.N.: Network attached storage (NAS) & iSCSI, http://www-01.ibm.com/support/docview.wss?rs=573&context=STSTMW&context=STSTTF& Abruf vom 07.06.2009 N.N.: IBM- Research News, http://www.research.ibm.com/resources/news/20001207_mramima N.N.: ITWissen, Flash-Speicher, 2009, http://www.itwissen.info/definition/lexikon/Flash-Speic Josey, Andrew: Posix 1003.1 Frequently Asked Questions (FAQ Version 1.12), 2006, http://ww N.N.: Juniper Networks Introduces Breakthrough 100 Gigabit Ethernet Interface for T Series Ro Kolbeck, Björn; Stender, Jan; Gordon, Minor; Hupfeld, Felix; Gonzales, Juan: The XtreemFS In Kolbeck, Björn: XtreemFS ? data management in XtreemOS, 2009, ftp://ftp.cordis.europa.eu/pu N.N.: Network Space, 2009, http://www.lacie.com/de/products/product.htm?pid=11089, Abruf N.N.: 4x4 Quadra Bundle, 2009, http://www.lacie.com/de/products/product.htm?pid=11263, Ab Lackner, Hans: "Highspeed-Standards für Kabel und Funknetze", in lanline, 2009, http://www.l N.N.: Welcome to Buffalo @ NAS-Central, http://buffalo.nas-central.org/index.php/Main_Page N.N.: NetApp Whitepaper: Datenreplizierung und Recovery über beliebeige Entfernung bei 100 Mearian, Lucas: Symantec launches cloud-based storage service for the masses, Computerworld N.N.: Schrittweise Anleitung für Dienste für NFS unter Windows Server 2008, 2008, http://tech N.N.: Microsoft Knowledgebase, Übersicht über das WPA-Sicherheitsupdate (Wi-Fi Protected N.N.: Simple SAN, 2005, http://www.microsoft.com/windowsserversystem/storage/simplesan.m N.N.: Microsoft Storage Technologies - iSCSI, http://www.microsoft.com/windowsserver2003/ N.N.: What?s inside Live Mesh?, 2009, https://www.mesh.com/Welcome/features/features.aspx N.N.: Weitere Informationen zu Microsoft® My Phone, 2009, http://sn1-p1.myphone.microsoft N.N.: MRAM\SSD\Speicher News und Infos, Was ist MRAM?, http://www.mram-memory.eu/ Müller-Pfefferkorn, Ralph; Nagel, Wolfgang E.: Grid Computing, 2007, http://rcswww.urz.tu-d N.N.: NetApp Technical Report TR3014, Multiprotocol Data Access: NFS, cIFS, and HTTP, 20 Neuroth, Heike; Kerzel, Martina; Gentzsch, Wolfgang: Die D-Grid Initiative, Universitätsverlag N.N.: Welcome to the home of OpenAFS, 2009, http://www.openafs.org/, Abruf vom 16.05.200 N.N.: Project: OCFS2, 2009, http://oss.oracle.com/projects/ocfs2/, Abruf vom 21.05.2009 N.N.: Your information resource for parallel NFS, 2009, http://www.pnfs.com/, Abruf vom 24.0 N.N.: Qimonda, Promising new memory chip technology demonstrated by IBM, Macronix & Q 10 Literatur- und Quellenverzeichnis 38 Zukunft_der_verteilten_Datenhaltung_zur_Vermeidung_von_Datenverlusten Raeburn (2005) Satran, Meth et al. (2004) Searchstorage (2007a) Searchstorage (2008) Sonderforschungsbereich 668 (2009) Subramaniam, Callaghan et al. (2003) Sun Microsystems (1989) Sun Microsystems (2008) Symantec Corporation (2008) Tecchannel.de (2003 a) Tecchannel.de (2003 b) Tecchannel.de (2008) Tecchannel.de (2009 a) Tecchannel.de (2009 b) Tech-Faq Thurlow (2009) Winfuture (2008) ZumoDrive (2009) Reaburn, K.: Advanced Encryption Standard (AES) Encryption for Kerberos 5, 2007, http://too Satran j.; Meth, K.; Sapuntzakis C.; Chadalapaka, M.; Zeidner, E.: Internet Small Computer Sys Schöne, Bernd: Searchstorage: Der Racetrack-Memory-Effekt, 2007, http://www.searchstorage. Graefen, Rainer: Searchstorage: Nanofadenspeicher könnte Paradigmenwechsel in der Speicher N.N.: Sonderforschungsbereich 668, 2009, http://www.sfb668.de/aktuelles/presse/2007-09-13.s Subramaniam, Ravi; Nakata, Toshiyuki; Itoh, Satoshi; Oyanagi, Yoshio; Takefusa,Atsuko; Anz v1.0, 2009, http://www.ogf.org/documents/GFD.145.pdf, Abruf vom 28.05.2009 N.N.: NFS: Network File System Protocol Specification, 1989, http://tools.ietf.org/html/rfc1094 N.N.: Lustre Networking: High-Performance Features and Flexible Support for a Wide Array of N.N.: Best Practices for Using Symantec Online Storage for Backup Exec, 2008, http://eval.sym Strass, Hermann: Tecchannel: Zukünftige Speichertechnologien, Teil 2, 2003, http://www.tecch Strass, Hermann: Tecchannel: Zukünftige Speichertechnologien, Teil 3, 2003, http://www.tecch Bayer, Martin: Tecchannel: Flash-Disks als Konkurrenz zu Festplatte, SSD: Solid State Disks fo N.N.: Online-Backup-Services auf dem Vormarsch, 2009, http://www.tecchannel.de/storage/new N.N.: Cloud-basierter Backup-Dienst über Microsoft Data Protection Manager, 2009, http://ww N.N.: Tech-Faq, Was ist ein Nanodraht?, http://de.tech-faq.com/nanowire.shtml&prev=hp, Abru Thurlow, R.: RPC: Remote Procedure Call Protocol Specification Version 2, 2009, http://tools.i Quandt, Roland: Winfuture, 2008, http://winfuture.de/news,38674.html, Abruf vom 28.05.2009 N.N.: ZumoDrive, 2009, http://www.zumodrive.com/technology , Abruf vom 27.05.2009 10 Literatur- und Quellenverzeichnis 39