RTB Nord – P5.1: „Online-Dokumente“
Transcription
RTB Nord – P5.1: „Online-Dokumente“
Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ RTB Nord – P5.1: „Online-Dokumente“ Abschlußbericht Version 1.0, 4. April 1997 Regionales Rechenzentrum für Niedersachsen (RRZN) / Lehrgebiet Rechnernetze und Verteilte Systeme (RVS) Prof. Dr.-Ing. Helmut Pralle Universität Hannover 1 2 3 4 5 6 Inhalt Bezeichnung des Projektes Beschreibung des Projektes 2.1 Motivation 2.2 Projektziel Durchführung des Projektes 3.1 Personal 3.2 Investitionen 3.3 Aufträge 3.4 Studien- und Diplomarbeiten 3.5 Vorträge, Veröffentlichungen, DFN-Arbeitskreis 3.6 Video-Konferenzen 3.7 Nutzung existierender Basisdienste und Software-Tools Ergebnisse des Projektes 4.1 Methoden und Werkzeuge 4.1.1 PaperMaker 4.1.2 DocShow 4.1.3 Integration relationaler Datenbanken ins WWW 4.2 Anwendungsszenarien 4.2.1 Elektronisierte Tageszeitung: Neue Hannoversche Presse 4.2.2 Elektronische Zeitschrift mit Mehrwertdiensten: DFN-Mitteilungen 4.2.3 Abbildungen wertvoller Unikate: Virtuelle Galerie Kö 24, Codex Madrid I 4.2.4 Virtuelle 3D-Welten: Stadtspaziergang Hannover 4.3 Studien Zusammenfassung und Ausblick Anhang Zur Diskrepanz der Auflösung verschiedener Präsentationsmedien Urheberrechtliche Probleme im Internet 2 2 2 3 4 4 4 5 5 6 6 7 8 8 8 14 20 21 21 26 32 33 35 36 37 Das Vorhaben wurde aus Mitteln des Bundesministeriums für Bildung, Wissenschaft, Forschung und Technologie (BMBF) durch den Verein zur Förderung eines Deutschen Forschungsnetzes e. V. (DFNVerein) finanziert. 1 Abschlußbericht 1 RTB Nord – P5.1: „Online-Dokumente“ Bezeichnung des Projektes Projekttitel: Online-Dokumente Kurztitel: RTB Nord – P5.1 Ansprechpartner: Stephan Olbrich Regionales Rechenzentrum für Niedersachsen (RRZN)/ Lehrgebiet Rechnernetze und Verteilte Systeme (RVS), Universität Hannover (Leiter: Prof. Dr.-Ing. Helmut Pralle) Teilnehmende Einrichtungen: RRZN/RVS, Universität Hannover 2 2.1 Kooperationen: Deutsches Klimarechenzentrum (DKRZ), Hamburg Springer-Verlag, Heidelberg Verein zur Förderung eines Deutschen Forschungsnetzes e. V. (DFN), Berlin Verlagsgesellschaft Madsack (VGM), Hannover Projektlaufzeit: 27 Monate (01.10.1994 – 31.12.1996) Beschreibung des Projektes Motivation Weite Bereiche der heutigen Gesellschaft stützen sich auf die Grundprinzipien Konkurrenz und Kooperation, welche besonders für marktwirtschaftliche Prozesse, aber auch im Wissenschaftsbereich, relevant sind. Als notwendige Basis hierfür wird die ausreichende Verfügbarkeit aktueller Informationen sowie komfortabler Kommunikationssysteme angesehen. Ursprünglich aus dem Wissenschaftsbereich sind Infrastruktur und Werkzeuge entstanden, welche geeignet sind, derartige Anforderungen mit Hilfe verteilter elektronischer Informationssysteme zu erfüllen. Dazu stehen auf den jeweils betroffenen Schichten verschiedene Ausprägungen für eine breite Nutzung bereit: • • • • Netz-Infrastruktur: Internet, Deutsches Wissenschaftsnetz und weitere Provider Protokolle: IP (Internet Protocol) bzw. aufsetzende, z. B. TCP/UDP Dienste: z. B. WWW-Server für verteilte Multimedia-Informationssysteme Anwendungen: z. B. WWW-Browser Das einfache, aber komfortable generische Konzept, die breite Verfügbarkeit sowie die stark zunehmende Verbreitung des World Wide Web (WWW) haben bereits bei Antragstellung des Projekts die strategische Bedeutung WWW-basierter multimedialer Informationssysteme erkennen lassen. Diese auf Internet-Standards aufbauende Technologie wurde daher als wesentliche Grundlage für die Erörterung der offensichtlich vorliegenden vielfältigen Probleme des Online-Publishings betrachtet. Diese betreffen beispielsweise Aspekte • • • • • technischer, organisatorischer, rechtlicher, ökonomischer und gestalterischer Art. Voraussetzung für eine qualitativ hochwertige Präsentation entfernt gespeicherter Multimedia-Dokumente ist jedoch aufgrund relativ hoher Datenvolumina und der Forderung möglichst kurzer Reaktionszeiten eine breitbandige Netzinfrastruktur. Daher wurde die Erprobung einer derartige Anwendung im Weitverkehrsbereich erst durch den Aufbau der Regionalen Testbeds im DFN (RTBs) bzw. dem letztlich daraus entstehenden Breitband-Wissenschaftsnetz (B-WiN) möglich. Bezeichnung des Projektes 2 Abschlußbericht 2.2 RTB Nord – P5.1: „Online-Dokumente“ Projektziel Mit dem Projekt sollte ein Beitrag zum Zugang und zur Gestaltung von Informationsangeboten in Breitbandnetzen – i. w. für den Wissenschaftsbereich – geleistet werden. Um dieses globale Ziel aus technischer Sicht zu erreichen, mußten pilothafte Szenarien entwickelt und in entsprechenden exemplarischen Anwendungen erprobt werden. Aufgrund der bei Projektplanung vorliegenden Aussagen der Verlage, das Layout dürfe bei einer Online-Präsentation nicht verändert werden, wurde besonderer Wert auf die Berücksichtigung des „Buch-Paradigmas“ gelegt. Die Behandlung von Fragestellungen nicht-technischer Art war mittels separater Studien beabsichtigt. Im einzelnen handelte es sich um die folgenden Bereiche: • Exemplarische Anwendungen – „Elektronisierte“ Tageszeitung: Neue Hannoversche Presse, in Kooperation mit der Verlagsgesellschaft Madsack (Hannover) – Elektronische Zeitschriften: DFN-Mitteilungen, in Kooperation mit dem DFN-Verein (Berlin); wissenschaftliche Zeitschriften, in Kooperation mit dem Springer-Verlag (Heidelberg) – Online-Präsentation von Unikat-Abbildungen: Virtuelle Galerie Kö 24, in Kooperation mit dem Galeristen Robert Simon (Hannover) sowie der Fachhochschule Hannover, Fachbereich Kunst und Design; Leonardo da Vinci, Codex Madrid I, in Kooperation mit der Technischen Informationsbibliothek (TIB, Universität Hannover) Virtueller Stadtrundgang durch Hannover, in Kooperation mit dem Fotografen Hassan Mahramzadeh (Hannover) • (Weiter-)Entwicklung von Werkzeugen, um in den o. g. Anwendungen eingesetzt zu werden – DocShow: Client/Server-System zur Betrachtung von Rasterbildern und virtuellen 3D-Objekten – PaperMaker: Automatische Aufbereitung von Dokumenten im PostScript- bzw. PDF-Format in WWW- bzw. DocShow-orientierten Seitenaufbau – Integration relationaler Datenbanken ins WWW • Studien – Urheberrechtliche Probleme im Internet – Diskrepanz der Bildauflösung verschiedener Präsentationsmedien – Internet-Dienste für den kommerziellen Einsatz – Anwendung des SGML-Standards im WWW-Kontext • Gewinn an Erkenntnissen und Erfahrungen auf den Gebieten – Prozeßketten zur Verarbeitung und Online-Bereitstellung multimedialer Objekte – Integration relationaler Datenbanken ins WWW – Mehrwertdienste für WWW-basierte Dokumente – Anwendungsgesichtspunkte zur Gestaltung virtueller Welten im Internet Beschreibung des Projektes 3 Abschlußbericht 3 3.1 RTB Nord – P5.1: „Online-Dokumente“ Durchführung des Projektes Personal An dem Projekt waren die folgenden Personen beteiligt: • Projektleitung – Prof. Dr.-Ing. Helmut Pralle • Wissenschaftliche Mitarbeiter – Dipl.-Ing. Alexander von Berg – Dipl.-Ing. Bernd Böker – Dipl.-Ing. Christian Grimm – Dipl.-Ing. Lutz Grüneberg – Dipl.-Ing. Steffen Heinze – Dr.-Ing. Fritz Hüsemann – Dipl.-Ing. Stephan Olbrich (Projektleitung) – Dipl.-Math. Gerd Schramme • Designerin – Dipl.-Des. (FH) Yvonne Scherzer • Wissenschaftliche Hilfskräfte – Arndt Grutke – Christoph Nocula 3.2 Investitionen Zur Durchführung des Projektes wurden die folgenden Investitionen getätigt: Hardware 1. WWW- und Datenbank-Server (UNIX): Silicon Graphics (SGI) Challenge L, 2 Prozessoren 200 MHz R4400, ATM-Interface, 512 MB Hauptspeicher, 2 GB Systemdisk, CDROM- und DATLaufwerke, 12 x 9 GB Festplattenerweiterung, Varsity Development Software. 2. Arbeitsplatzrechner (UNIX-Workstation): Silicon Graphics (SGI) Indy 133 MHz R4600, 24bitGraphik, 20“-Farbmonitor, 64 MB Hauptspeicher, 1 GB Systemdisk, Varsity Development Software. 3. Scan-Arbeitsplatz (PowerMac): Apple PowerPC 7500/100, 20“-Farbmonitor, 72 MB Hauptspeicher, 500 MB Systemdisk, 4 GB Festplattenerweiterung, Kleinbild-Diascanner Nikon Supercoolscan LS 1000 incl. Feeder. Software 1. Adobe Illustrator und Photoshop für SGI IRIX und Apple PowerMac 2. Adobe Acrobat für Apple PowerMac 3. QuarkXPress für Apple PowerMac 4. Softimage für SGI IRIX 5. ORACLE-Datenbank für SGI IRIX 6. Rogue Wave DBTOOLS.H++ Datenbank-Klassenbibliothek für SGI IRIX Durchführung des Projektes 4 Abschlußbericht 3.3 RTB Nord – P5.1: „Online-Dokumente“ Aufträge 1. Herr Dipl.-Ing. Hassan Mahramzadeh (Hannover) wurde beauftragt, Kunstobjekte aus dem Privatbesitz des Galeristen Robert Simon (Hannover) zu photographieren. 2. Firma Gauditz (Hannover) wurde beauftragt, im Mittelformat (60mm x 70mm) vorliegende Diapositive auf einem Trommelscanner einzuscannen. 3. Frau Maja Leuchtenberger (Berlin) wurde beauftragt, ein Einstiegslayout für die Präsentation auf der CeBIT 1995 zu entwerfen. 4. Frau Dipl.-Des. Yvonne Scherzer (Hannover) wurde beauftragt, Oberflächenentwürfe zur Gestaltung von WWW-Einstiegsseiten zu erstellen. 5. Herr Dr. Andreas Wiebe (Hannover) wurde beauftragt, die Studie „Urheberrechtliche Probleme im Internet“ – ein unveröffentlichtes Manuskript des Vortrags auf der Sitzung des DFN-Arbeitskreises „Informationsdienste“ am 22.04.1996 in Berlin – zu erstellen. 3.4 Studien- und Diplomarbeiten Im Rahmen des Projektes wurde eine Reihe von Studien- und Diplomarbeiten angefertigt: • Studienarbeiten – Grutke, A.: „Kö 24 – Eine Virtuelle Galerie“, Fachhochschule Hannover, Fachbereich Kunst und Design, 1996. (http://www.rtb-nord.uni-hannover.de/onlinedokumente/projekte/T-StudieKoe24.html) – Leonhardt, C.: „Datenbank-basierte Mehrwertdienste im Online-Publishing“, RRZN/RVS, 1996. (http://www.rvs.uni-hannover.de/arbeiten/studien/sa-cleonhardt.html) – Nebel, M.: „Diskussion eines Konzepts zur Online-Bereitstellung von Dokumenten“, RRZN/RVS, 1995. (http://www.rvs.uni-hannover.de/arbeiten/studien/sa-mnebel.html) – Wolpers, M.: „Aufbereitung von SGML-Dokumenten für das Online-Publishing“, RRZN/ RVS, 1995. (http://www.rvs.uni-hannover.de/arbeiten/studien/sa-mwolpers.html) – Schütte, L.: „Kommerzielle Dienste und elektronisches Geld: Eine aktuelle Übersicht“, RRZN/RVS, 1995. (http://www.rvs.uni-hannover.de/arbeiten/studien/sa-lschuette.html) • Diplomarbeiten – Gsuck, T.: „Online Publishing: Modellierung und Bewertung von Konzepten für die Bereitstellung von hypermedialen Dokumenten“, RRZN/RVS, 1995. (http://www.rvs.uni-hannover.de/arbeiten/diplom/da-tgsuck.html) – Schütte, L.: „Modellierung eines Multimedia-Document Delivery Systems“, RRZN/RVS, 1996. (http://www.rvs.uni-hannover.de/arbeiten/diplom/da-lschuette.html) Durchführung des Projektes 5 Abschlußbericht 3.5 RTB Nord – P5.1: „Online-Dokumente“ Vorträge, Veröffentlichungen, DFN-Arbeitskreis Teilergebnisse des Projekts wurden wie folgt präsentiert: Vorträge • Olbrich, S.: P5.1-Zwischenberichte auf den RTB-Nord-Treffen. • Olbrich, S.: „RTB Nord: P5.1 – Onlinedokumente“, 1. Treffen des DFN-Arbeitskreises Informationsdienste im Rahmen des HDN-Symposiums, 06.12.1995, Berlin. (http://www.rtb-nord.uni-hannover.de/veroeffentlichungen/HDN-Symposium.html) • Olbrich, S.: „Virtuelle Welten im Internet“, CeBIT 1996, „Treffpunkt 22 – Wirtschaft trifft Forschung“, 19.03.1996. (http://www.rtb-nord.uni-hannover.de/veroeffentlichungen/CeBIT96.html) • Pralle, H.: „Aspekte des elektronischen Publizierens – Network Publishing“, 9. DFN-Fachtagung über Rechnernetze, 1995, Bad Honnef. Veröffentlichungen • Olbrich, S., Pralle, H., Grüneberg, L.: „Anforderungen an eine Client/Server-Konfiguration für das ‚Online-Publishing‘“, Tagungsband zur 3. GI/ITG-Fachtagung „Arbeitsplatz-Rechensysteme“, Mai 1995, Hannover. (http://www.rtb-nord.uni-hannover.de/onlinedokumente/articles/APS95/) • Olbrich, S., Pralle, H.: „Multimedia-Dokumente – Online-Dokumente im RTB Nord“, DFN-Mitteilungen 39, November 1995. (http://www.rtb-nord.uni-hannover.de/dfn/mitteilungen/html/heft41/S9/S9.html) • Scherzer, Y.: „Virtuelle Welten – Navigation in virtuellen Räumen“, DFN-Mitteilungen 41, Juni 1996. (http://www.rtb-nord.uni-hannover.de/dfn/mitteilungen/html/heft39/A2/A2.html) CeBIT 1995 • RRZN/RVS-Präsentation auf dem Gemeinschaftsstand der Niedersächsischen Hochschulen: „Online-Dokumente“. CeBIT 1996 • RRZN/RVS-Präsentation auf den Ständen des DFN-Vereins und des BMBF: – „Online-Publikation von Zeitungen und Zeitschriften im Internet“ (Neue Hannoversche Presse, DFN-Mitteilungen, etc.) – „Virtuelle Welten im Internet“ (Galerie Kö24, Stadtspaziergang Hannover, etc., incl. Vortrag) – „Upload und Abfrage von attributierten Bilddaten“ (Ablage auf einem WWW-Server mittels ORACLE-Datenbank – erste Schritte auf dem Weg zu einer Agentur für Multimedia-Dienste im Internet) DFN-Arbeitskreis • Das Sprecheramt des am 06.12.1995 in Berlin initiierten DFN-Arbeitskreises „Informationsdienste“ wurde von einem Projektmitarbeiter übernommen. 3.6 Video-Konferenzen In Zusammenarbeit mit dem RTB-Nord-Projekt P6 „Multimediale Zusammenarbeit in der Klimaforschung“ wurden ca. alle zwei Wochen Videokonferenzen auf der Basis der MBONE-Werkzeuge durchgeführt, um die Kooperation mit dem RTB-Projektpartner DKRZ zu fördern. Durchführung des Projektes 6 Abschlußbericht 3.7 RTB Nord – P5.1: „Online-Dokumente“ Nutzung existierender Basisdienste und Software-Tools Es wurden u. a. folgende Komponenten eingesetzt: • Basisdienste – FTP-Client/Server – WWW-Clients: Netscape Navigator, Microsoft Explorer und Mosaic – WWW-Server: NCSA-httpd und Apache-httpd, incl. PHP/FI-Modul • Public-Domain-Software (zuletzt verwendete Version) – Aladdin Ghostscript (4.03) – ImageMagick (3.7.2) – Netpbm-Tools (1mar1994) – Independent JPEG Group‘s JPEG-Software (6) – Sam Leffler‘s TIFF-Tools (3.4beta018) – Mapedit (2.24) • Kommerzielle Software – Adobe: Photoshop, Illustrator, Acrobat – ORACLE-Datenbank – QuarkXPress – Rogue Wave DBTOOLS.H++; generische Klassenbibliothek als Interface zu ORACLE – Silicon Graphics WebSpaceAuthor; VRML-Modellierer und -Konverter – Softimage; Modellierungs- und Renderingsoftware • RRZN/RVS-Entwicklungen – PaperMaker (siehe Kap. 4.1.1) – DocShow/DocServ (siehe Kap. 4.1.2) – ORACLE-Interface für PHP/FI als Apache-Modul (siehe Kap. 4.1.3) Durchführung des Projektes 7 Abschlußbericht 4 RTB Nord – P5.1: „Online-Dokumente“ Ergebnisse des Projektes 4.1 4.1.1 Methoden und Werkzeuge PaperMaker Ein interaktives Werkzeug zur Erzeugung von WWW-Präsentationen aus PostScript- und PDF-Dateien 4.1.1.1 Einleitung PaperMaker ist ein System zur Generierung von HTML-Präsentationen aus Postscript- und PDFDateien. Das Postscript- oder PDF-Dokument wird von PaperMaker seitenweise in Rasterbilder umgewandelt. Diese Rasterbilder werden einzeln auf HTML-Seiten zusammen mit Schaltflächen zur Navigation dargestellt. Die Steuerung übernimmt ein CGI-Skript, das von PaperMaker automatisch erzeugt wird. Der Betrachter dieser Präsentation kann sich Seite für Seite durch das Dokument klicken oder gezielt eine Seite auswählen. Die Rasterbilder sind mit sensitiven Flächen belegt, so daß auch direktes Anklicken der Seitenränder ein Umblättern bewirkt. Die Auflösung und die Größe der Rasterbilder können vom Benutzer gewählt werden. PaperMaker ist ein Produkt der Arbeiten zum Projekt P5.1 „Online-Dokumente“ des RTB Nord1. Ein Arbeitspunkt dieses Projekts ist die Untersuchung und Entwicklung von Produktionsketten zur automatischen Erzeugung von Hyper-Dokumenten. Der Umwandlung von Postscript- und PDF- in HyperDokumente kommt hierbei besondere Bedeutung zu, da diese beiden Formate weit verbreitet sind. 4.1.1.2 Motivation, Vor- und Nachteile Die Darstellung von Dokumentseiten als Rasterbilder ist für Online-Archive als Ergänzung zur Hypertext-/Hypermedia-Version sinnvoll, um das Erscheinungsbild der Druckausgabe zu präsentieren. Den gleichen Zweck können Postscript- und PDF-Versionen der Druckausgabe erfüllen, doch die Rasterbild-Variante hat einige Vorteile, weshalb Raster- und Vektorformate gemeinsam angeboten werden sollten. So ist bei Darstellung einer Postscript-Seite am Bildschirm ohnehin eine Rasterung notwendig. Diese kann also schon vorher erfolgen. Ein Rasterbild kann in der Regel auf jedem Zielsystem dargestellt werden, während ein Postscript-Interpreter nicht immer zur Verfügung steht. Zusätzlich sind bei Postscript noch die Schriften erforderlich. Diese müssen entweder mitgeliefert werden oder auf jedem Zielsystem vorhanden sein. Daher können Rasterbilder erheblich schneller zur Anzeige gebracht werden. Wichtig für das Echtzeitverhalten der Präsentation ist, daß beim Blättern eine Obergrenze der Reaktionszeit eingehalten wird. Dies ist bei Postscript und PDF nicht der Fall, da der Zeitbedarf für die Rasterung vom Inhalt der Seite abhängig ist. Rasterbilder mit derselben Pixelgröße und Farbtiefe dagegen können immer innerhalb einer festen maximalen Zeitspanne auf dem Bildschirm angezeigt werden. Die Nachteile der Rasterdarstellung sind allerdings, daß die Seiten nicht skalierbar sind und daß die Textinformationen und damit die Möglichkeit, nach Begriffen zu suchen, verloren gehen. Tabelle 1 faßt die Vor- und Nachteile zusammen. Eigenschaft PS PDF Rasterbild Zeitbedarf für Bildaufbau hoch/nicht konstant geringa/nicht konstant gering/konstant Verbreitung von Software zur Bildschirmdarstellung gering gering hoch Tabelle 1: Vor- und Nachteile unterschiedlicher Formate 1. URL: http://www.rtb-nord.uni-hannover.de/ Ergebnisse des Projektes 8 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ Eigenschaft PS PDF Rasterbild Bild skalierbar ja ja nein Textsuche möglich nein ja nein Hyper-Links nein ja bedingtb Tabelle 1: Vor- und Nachteile unterschiedlicher Formate a.bei hohem Textanteil, bzw. bei auflösungsreduzierten Bildern b.bei Darstellung in HTML-Dokumenten durch Imagemaps realisierbar 4.1.1.3 Anforderungen Ziel ist die Erstellung von Online-Dokumenten. Die Rasterbilder stehen also nicht für sich, sondern bilden ein Dokument. Das Online-Dokument soll der Druckausgabe qualitativ möglichst nahekommen, um beim Benutzer eine hohe Akzeptanz zu erreichen. Die entstehende Präsentation muß aus diesem Grund ähnliche Eigenschaften aufweisen wie ein herkömmliches gedrucktes Dokument. Diese Eigenschaften betreffen sowohl Inhalt und Darstellung der Präsentation, als auch die Funktionalität und die Bedienung. Die Forderung nach identischen Inhalten ist am leichtesten zu erfüllen. Eine äquivalente Darstellung der Seiten auf dem Bildschirm bedingt eine hinreichend hohe Auflösung bei der Rasterung zur Vermeidung von Aliasing-Effekten (siehe „Zwischenprodukt Echtfarb-PPM / Antialiasing“ auf Seite 12). Zu den wichtigsten funktionalen Eigenschaften gehören die Möglichkeiten, seitenweise in Echtzeit zu blättern und zu einer bestimmten Seite sowie zum Anfang, bzw. Ende des Dokuments zu springen. Die Summe dieser aller Anforderungen läßt sich unter dem Begriff „BuchParadigma“ zusammenfassen1. 4.1.1.4 Systemarchitektur PaperMaker besteht aus einem WWW-Interface, das auf HTML-Forms basiert, und zwei Skripten. Das CGI-Skript papermaker.cgi steuert den Gesamtablauf, interpretiert die Form-Befehle und berechnet Anfangswerte. Das Skript pdfps2html nimmt die eigentliche Umwandlung der Eingangsdaten vor und generiert das Steuerskript paper.cgi für die Präsentation, siehe Bild 1. Für jede Seite des Eingangsdokuments werden je eine TIFF- und zwei GIF-Dateien, eine im Originalformat, eine im IconFormat, erzeugt. Die TIFF-Dateien können mittels des Image-Viewers DocShow betrachtet werden. Die GIF-Dateien im Originalformat werden für die HTML-Präsentation verwendet, die GIF-Dateien im Icon-Format für die Seitenübersicht. Zusätzlich zu den Skripten sind verschiedene externe Programme notwendig, z. B. ein PostscriptInterpreter und Bildverarbeitungsprogramme zur Konvertierung und Skalierung der Bilddaten. Die gesamte Verarbeitung findet auf dem WWW-Server statt. Es ist nicht möglich, Postscript-Dateien auf entfernten Rechnern zu bearbeiten. Die Bedienung von PaperMaker ist jedoch durch das WWW-Interface von beliebigen Rechnern aus möglich. Da mit PaperMaker ein Zugriff auf das lokale Dateisystem des Web-Servers möglich ist, ist die Benutzung durch ein Paßwort geschützt. 4.1.1.5 Implementierung und eingesetzte Software Bei den Skripten handelt es sich um Shell-Skripte. Zur Konvertierung und Bearbeitung der Bilddateien werden folgende Programme eingesetzt: • • • • Aladdin Ghostscript (Version 3.33 bis Version 4.03) mit Postscript-Schriften (Type1) ImageMagick-Tools (Version 3.6.5): convert, identify Netpbm-Tools (Version 1mar1994): pnmscale Mapedit 1. RTB Nord Projekt P5.1 „Online-Dokumente“ – Feinspezifikation, Version 3.3, Prof. Dr.-Ing. H. Pralle, Universität Hannover, Juli 1994. Ergebnisse des Projektes 9 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ papermaker.cgi PDF/PS-Datei ruft auf ruft auf ruft auf paper.cgi pdfps2html page.*.icon.gif erzeugt page.*.gif Browser page.*.tiff HTML-Präsentation Bild 1: Systemarchitektur von PaperMaker 4.1.1.6 Betrieb PaperMaker wird über ein WWW-Interface gesteuert. Nach Aufruf der URL erscheint ein Dialog mit einem File-Browser. Im erstem Schritt ist eine Postscript- oder PDF-Datei auszuwählen. Vor der Verarbeitung des gesamten Dokuments kann durch Drücken der Preview-Taste eine Vorschau der ersten Seite erzeugt werden. Anhand des Ergebnisses können Feineinstellungen der Auflösung und des Overscans vorgenommen werden (Standardwerte sind 95 dpi und zweifacher Overscan). Im Setup-Dialog (Bild 2) können folgende Parameter vor der Verarbeitung eingestellt werden: • • • • • • • • • • • Zielverzeichnis für die fertige HTML-Präsentation Titel der fertigen HTML-Präsentation (HTML-Tag <TITLE>) Anzahl der Seiten Index-/Inhaltsverzeichnis-Seite Bounding-Box Auflösung Overscan Skalierung Orientierung (Portrait oder Landscape) Drehung um 180 Grad optionale Erzeugung von TIFF-Dateien Während der Verarbeitung werden in regelmäßigen Abständen Zwischenergebnisse angezeigt, d. h. die Icon-Version jeder konvertierten Seite wird dargestellt. So können Fehler bei der Konvertierung frühzeitig erkannt werden. Nach erfolgreicher Bearbeitung kann die erzeugte Präsentation über paper.cgi mit einem Web-Browser angesehen werden. Bild 3 zeigt exemplarisch eine Seite einer solchen Präsentation. Links oben und rechts unten sind Schaltflächen zur Navigation angeordnet. Die Seiten erhalten zunächst mit Hilfe von Client-Side-Maps sensitive Bereiche zum seitenweisen Blättern und zum Springen auf die Inhaltsverzeichnisseite. Auf der Inhaltsverzeichnisseite können mit dem Programm mapedit zusätzliche sensitive Bereiche für die Einträge des Inhaltsverzeichnisses Ergebnisse des Projektes 10 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ Bild 2: Setup-Dialog von PaperMaker Bild 3: Hyper-Dokument, erstellt mit PaperMaker angelegt werden, so daß ein direktes Verzweigen zu allen Kapiteln möglich wird. Dieser Arbeitsschritt läßt sich bisher nicht automatisieren, ist aber auch nicht für jedes Dokument erforderlich. 4.1.1.7 Erfahrungen bei der Postscript/Raster-Konvertierung Interpreter Als Postscript-Interpreter kommt Aladdin Ghostscript zum Einsatz. Die aktuelle Version ist 4.03. Ghostscript wurde nach Vergleichen mit anderen Interpretern (z. B. Freedom of Press, Impressario) ausgewählt, da Ghostscript folgende Vorteile aufweist: Ergebnisse des Projektes 11 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ • Unterstützung aller Plattformen • Freie Verfügbarkeit im Quelltext • Offene Programmier- und Datei-Schnittstellen für Erweiterungen (z. B. für Fonts und AusgabeTreiber) • Stabilität und Funktionalität • Verarbeitung von PDF (ab Version 3.33) • Erzeugung von PDF (ab Version 4.00) Als Nachteil fiel bei Ghostscript zunächst die schlechte Schriftqualität auf. Dieser Nachteil ist jedoch durch ausschließliche Verwendung von Type1-Schriften (Postscript, ASCII und binär) vollständig zu beheben, so daß einer Nutzung von Ghostscript nichts im Wege steht. Mittlerweile werden auch Type1-Schriften zur freien Verwendung mitgeliefert. Zwischenprodukt Echtfarb-PPM / Antialiasing Die Wahl der Auflösung des gerasterten Bildes ist abhängig von der Auflösung des Bildschirms. Heute übliche 20-Zoll-Bildschirme haben eine Auflösung von ca. 95 dpi. Für eine Darstellung in Originalgröße muß das Bild also mit 95 dpi gerastert werden. Bild 4 (links) zeigt jedoch, daß bei einfacher Rasterung mit Ghostscript, insbesondere bei Text, Treppenstufen entstehen. Bild 5 (oben) macht deutlich, daß durch diesen Effekt gerade kleine Schriften unlesbar werden. Um dies zu verhindern, wurde ein mehrstufiges Rasterverfahren mit Overscan gewählt. 95 dpi, kein Overscan 95 dpi, 2-facher O.S. 95 dpi, 3-facher O.S. Bild 4: Auswirkung des Overscans, vergrößerte Darstellungm (24-pt-Schrift) Ghostscript erzeugt zunächst mit dem Ausgabe-Device ppmraw eine PPM-Datei mit mehrfacher Auflösung entsprechend dem Overscan-Faktor. Dieses Bild wird mit pnmscale wieder auf die gewünschte Auflösung reduziert. Dabei wird der Farbwert eines neuen Bildpunkts entsprechend dem Gesamtfarbwert der ursprünglichen Bildpunkte gewählt. Bei zweifachem Overscan (entspricht doppelter Auflösung in x- und in y-Richtung) stehen pnmscale also für jeden neuen Bildpunkt vier ursprüngliche Bildpunkte zur Verfügung (bei dreifachem Overscan 9), aus denen der Farbwert berechnet wird. Dadurch wird die Darstellungsqualität erheblich verbessert, wie Bild 4 (Mitte und rechts) vergrößert und Bild 5 (Mitte und unten) zeigen. Dieses Verfahren bringt jedoch den Nachteil mit sich, daß große Schriften und gerade (senkrechte und waagerechte) Linien und Kanten unscharf wirken. Ein weiterer Nachteil ist der höhere Zeitaufwand für die Konvertierung. Das nach diesen beiden Schritten entstandene Bild ist ein PPM-Bild mit 24 bit Farbtiefe. Aus diesem PPM-Bild werden nun mit Hilfe des ImageMagick-Tools convert Bilder im TIFF- und GIF-Format erzeugt. 4.1.1.8 Erfahrungen bei der PDF/Raster-Konvertierung Grundsätzlich besteht im Ablauf der Konvertierung von PDF-Dateien in Rasterbilder kein Unterschied zur Konvertierung von Postscript-Dateien. Ghostscript verarbeitet ab der Version 3.33 auch PDFDateien. Zu beachten ist bei PDF-Dateien, daß die Qualität der eingebundenen Bilder in der Regel geringer ist, da bei der PDF-Erzeugung Bilddaten bereits in der Auflösung reduziert werden können (z. B. Default bei Adobe Acrobat Distiller). Ergebnisse des Projektes 12 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ 95 dpi, kein Overscan 95 dpi, 2-facher O.S. 95 dpi, 3-facher O.S. Bild 5: Auswirkung des Overscans, Schriften in Originalgröße 4.1.1.9 Bewertung Die Postscript/Raster-Konvertierung und anschließende Generierung von Hyper-Dokumenten ist zu einem hohen Grad automatisierbar. Lediglich zu Beginn sind bei Bedarf Parameter einzustellen bzw. anzupassen. Das Ergebnis ist ein Verzeichnis mit Dateien, das ohne Änderungen in einen Web-Server integriert werden kann. Die entstehenden Hyper-Dokumente sind nach dem „Buch-Paradigma“ aufgebaut. Es kann seitenweise vor und zurück geblättert werden, es kann zu einer bestimmten Seite gesprungen werden, es gibt eine Seitenübersicht, und eine beliebige Seite kann als Inhaltsverzeichnisseite deklariert werden. Die Verwendung von sensitiven Bereichen auf den Seiten zum Blättern ist eine wichtige Maßnahme, um dem Benutzer die Navigation im Hyper-Dokument zu erleichtern. Wegen der fehlenden Textsuchmöglichkeit in den Rasterbildern ist diese Art von Hyper-Dokumenten nur zu empfehlen, wenn der Textanteil im Dokument nicht zu hoch ist. Besonders für Vortragsfolien ist dieses Verfahren sehr geeignet, da hier in der Regel ein geringer Text- und eine hoher Bildanteil vorhanden ist. Auf dem Web-Server des RTB Nord sind einige Beispiele für Hyper-Dokumente, die mit PaperMaker erzeugt wurden, abrufbar: • http://www.rtb-nord.uni-hannover.de/veroeffentlichungen/CeBIT96.html • http://www.rtb-nord.uni-hannover.de/veroeffentlichungen/HDN-Symposium.html Ergebnisse des Projektes 13 Abschlußbericht 4.1.2 RTB Nord – P5.1: „Online-Dokumente“ DocShow Ein effizientes Client/Server-System zur Betrachtung von Rasterbildern und 3D-Objekten 4.1.2.1 Einleitung Das aus den Komponenten DocShow, DocServ und DocMess bestehendende Programmpaket wurde ursprünglich vom RRZN/RVS entwickelt, um einen anwendungsnahen Benchmark für breitbandige Netze bereitzustellen. Es handelt sich dabei um ein Client/Server-System, welches auf Client-Seite (DocShow) ein Nutzer-Interface zur Betrachtung von Rasterbildern bzw. 3D-Objekten anbietet, deren Repräsentationen auf Server-Seite (DocServ) gespeichert sind. Eine Instrumentierung gestattet die Messung verschiedener Leistungsparameter, die über das Meß-Interface DocMess angezeigt und abgespeichert werden können. Vor Projektbeginn wurde die Software auf einer Silicon-Graphics-Workstation unter dem IRIXBetriebssystem mit X11/Motif-Oberfläche – optional mit Nutzung der IrisGL-Graphikschnittstelle – als Prototyp mit Rasterbild-Funktionalität entwickelt. 4.1.2.2 Weiterentwicklung Im Rahmen des Projektes wurde dieser Prototyp auf mehrere weitere UNIX-Plattformen portiert – HP/ UX, Linux, Solaris und SunOS, jeweils in verschiedenen Versionen – sowie an die in der Praxis auftretenden Anforderungen angepaßt. Dabei wurden bekannte Fehler behoben sowie Verbesserungen in bezug auf Leistungsfähigkeit und Funktionalität durchgeführt. Zu letzteren gehören: • Unterstützung weiterer Rasterbild-Dateiformate und Codierungsvarianten – SEQ-Format aus dem AVS-Animator: „None“, „Runlength“, „Color Cell“ Compression. – PBMPLUS-Formate: PBM (Bitmap), PGM (Graymap), PPM (Pixmap). – TIFF-Formate, incl. LZW- (mit Predictor-Codierung) und JPEG-Kompression auf der Basis der frei verfügbaren Bibliotheken „Sam Leffler‘s TIFF-Tools“ (Version 3.4beta018) und „Independent JPEG Group‘s JPEG-Software“ (Version 6). • Verbesserungen an der Nutzer-Oberfläche – Vermeidung von Blockierungssituationen, z. B. während längerer Transfer-Phasen durch Nutzung entsprechender X11/Xt-Schnittstellen zur Unterstützung von kooperativem Multitasking in der Applikation. – Unterstützung des OpenGL-APIs, um eine breitere Plattform für die effizienten RasterbildAnzeige- bzw. die 3D-Rendering-Funktionen (s. u.) zu ermöglichen. – Animations- bzw. „Blättern“-Funktion mittels entsprechender Buttons. – „Save As“-Funktionen für Session-Liste als spezielle Scriptdatei und Einzelbilder als TIFF. – Wahlmöglichkeiten zur Gestaltung der Oberfläche. – Weitere Optionen bezüglich der Verwendung verschiendener Graphik-Schnittstellen (z. B. X11 vs. IrisGL/OpenGL, Visuals: Pseudocolor/Truecolor, Dithering-Einstellungen) und Zeitkonstanten für den progressiven Bildaufbau bzw. die Anzeige des Transfer-Fortschritts. – Zusätzliche Kommandozeilen-Optionen. • Optimierungsarbeiten – Verbesserung des Interfaces zum WWW-Browser (z. B. Netscape): es wird jetzt nicht mehr für jedes Dokument ein neuer DocShow-Prozeß gestartet, sondern die DocShow-Dokument-Adresse an ein bereits laufendes DocShow übergeben, welches dann seine SessionListe entsprechend erweitert und das angeforderte Dokument öffnet und zur Anzeige bringt. – Erhöhung des Durchsatzes bei bestimmten Dateiformaten. – Implementierung eines Cache mit LRU-Charakteristik. – Implementierung einer Prefetch-Strategie, d. h. gemäß einer Vorhersage über die voraussichtlich als nächstes vom Benutzer angefragte Seite fordert DocShow diese optional spekulativ bereits im Hintergrund von DocServ an und überträgt diese in einen entsprechenden Pufferbereich. Ergebnisse des Projektes 14 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ • Erste Ansätze zur Unterstützung von 3D-Präsentationsmethoden – Definition eines Dateiformats zur Codierung virtueller 3D-Szenen, das – im Gegensatz zum Internet-Standard „Virtual Reality Modeling Language“ (VRML) – auf eine effiziente Verarbeitung und hohen Komfort im Kontext relativ hoher Bitraten und Leistungsfähigkeit der Endgeräte ausgelegt ist. – Konverter zur Generierung des o. g. Formats aus dem Viewperf1-Mesh-Format sowie einer Teilmenge des Wavefront-OBJ-Formats. – Effiziente Rendering-Funktion für Display-Listen gemäß o. g. Format. – Unterstützung des Scene-Antialiasing mittels Multisampling zur Erzielung einer besseren Bildqualität auf Maschinen, die dies unterstützen – z. B. Silicon Graphics Reality Engine2. – DocShow-Navigationsfunktion für 3D-Szenen des o. g. Formats, die sowohl über eine Maus, als auch mittels SpaceBall – bzw. kompatibler Geräte – bedient werden kann. – „Stereo-View“-Funktionalität, d. h. 3D-Präsentation von Bildpaaren – z. B. aus je zwei Photographien oder durch zwei Sichten auf eine virtuelle 3D-Szene (s. o.) – durch quasisimultane Darstellung auf Bildschirm oder Projektionssystem und Separierung mittels LCDShutterbrille. Die Implementierung dieser Funktionalität wurde zunächst auf der Basis von IrisGL auf Silicon-Graphics-Workstations vorgenommen. 4.1.2.3 Anwendungen Innerhalb des Projektes wurden mehrere Anwendungen von DocShow erprobt, und zwar aus den folgenden Bereichen: • Präsentation einer Tageszeitung – Neuen Hannoverschen Presse (siehe Kap. 4.2.1) • Präsentation einer Zeitschrift – DFN-Mitteilungen (siehe Kap. 4.2.2) • Abbildungen wertvoller Unikate – Leonardo da Vinci: „Codex Madrid I“ (siehe Kap. 4.2.3) – Virtuelle Galerie: „Galerie Simon“2 bzw. „Kö 24“ (siehe Anhang) Die jeweils aktuelle Version von DocShow/DocServ/DocMess wurde in Form von Binaries über den RTB-Nord-WWW-Server mit Hilfe eines auszufüllenden Formulars3 verteilt. 4.1.2.4 Leistungsmessungen im lokalen Netz und im B-WiN Mit DocShow/DocServ/DocMess (Version 1.37) wurden zwischen verschiedenen Client- und ServerMaschinen Leistungsmessungen durchgeführt. Die verwendeteten Rechner und an den Clients getesteten Graphikschnittstellen waren (A) atmgate.dkrz.de (FDDI-Interface, DKRZ) Sun Sparc 10, Solaris 2.5 (B) rtb-www.rrzn.uni-hannover.de (ATM-Interface, RRZN/RVS) SGI Challenge L (2xR4400, 200 MHz), IRIX 6.2 (C) rtb-video.rrzn.uni-hannover.de (ATM-Interface, RRZN/RVS) Sun Sparc 20/612, Solaris 2.4, 8bit-X-Display (D) sgi210o.rrzn.uni-hannover.de (Ethernet-Interface, RRZN/RVS) SGI Indigo2 Extreme (R4000, 100 MHz), IRIX 5.3, 24bit-GL-/8bit-X-Display (E) atlantis-atm.rvs.uni-hannover.de (ATM-Interface, RRZN/RVS) SGI Indigo2 Extreme (R4000, 100 MHz), IRIX 5.3, 24bit-GL-/8bit-X-Display (F) onyx-atm.rrzn.uni-hannover.de (ATM-Interface, RRZN/RVS) SGI Onyx Reality Engine2 (2xR4400, 200 MHz), IRIX 5.3, 24bit-GL-/8bit-X-Display 1. Viewperf ist ein OpenGL-Performance-Benchmark (siehe http://www.specbench.org/gpc/opc.static/). Für Leistungsmessungen werden 3D-Szenen aus typischen Anwendungen verwendet, die dazu in sogenannten „Viewsets“ u. a. in einem speziellen Triangle-Mesh-Format codiert bereitgestellt werden. 2. Siehe auch http://cebit95.rvs.uni-hannover.de/galerie_simon/ 3. http://www.rtb-nord.uni-hannover.de/onlinedokumente/dist/docshow/ Ergebnisse des Projektes 15 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ Als Bildmaterial wurden mehrere Rasterbilder verwendet, die durch Scannen mit einem 400-dpiFlachbettscanner HP Deskscan II cx an einer SGI Indigo2 aus einem Facsimile-Druck von Leonardo da Vincis „Codex Madrid I“ erzeugt wurden (siehe auch Kap. 4.2.3). Bei den im folgenden dargestellten Messungen wurde die Ausgangsdatei 11(Kettenarten).tiff verwendet. Diese wurde mit Hilfe der Rasterbild-Konvertierer aus netpbm-1mar1994 (pnmscale, pnmtotiff, ppmtopgm, pgmtopbm) und tiff-v3.4beta018 (tiffcp) auf 72 dpi (898x612 Pixel) skaliert und in verschiedene Zielformate konvertiert. In Bild 6 und Tabelle 2 sind Abbildungen und Eigenschaften der verwendeten TIFF-Dateien dargestellt. Bild 6: Abbildungen der verwendeten TIFF-Bilddateien Nr. Farbtiefe [bit/pixel] Dateigröße [bytes] Transfervolumen [bytes] Kompression Rows/Strip G4 72 20418 20199 G4 612 (d. h. 1 Strip) 20071 19862 3 – 72 69446 69228 4 – 612 (d. h. 1 Strip) 69373 69164 5 JPEG 16 96336 95466 JPEG 612 (d. h. 1 Strip) 94580 93718 7 – 3 1650584 1650360 8 – 612 (d. h. 1 Strip) 1648951 1648736 1 2 1 6 24 Tabelle 2: Eigenschaften der verwendeten TIFF-Bilddateien DocShow wurde für die Messungen wie folgt konfiguriert: ExposeInterval=2500, UpdatePageNumber=No, DisplayStatus=No, DoubleBuffer=No, XImageInterface=Socket, Dithering=Yes, GL-TrueColor-Depth=32 bit (ABGR), Gamma=1.0 auf SGI- bzw. Gamma=1.7 auf Sun-Plattformen. Es wurden Messungen in den Server-Client-Kombinationen A-C, A-D, A-E, A-F, B-C, B-D, B-E und BF durchgeführt. In Tabelle 3 sind einige typische Ergebnisse für A-F und B-F aufgeführt, die unter günstigen Bedingungen – bzgl. des Netzverkehrs und der Last auf den beteiligten Rechnern – erzielt wurden. Ergebnisse des Projektes 16 Abschlußbericht Client RTB Nord – P5.1: „Online-Dokumente“ Server Sequ. Convert Farbtiefe Typ [bit/pixel] Startup [s] Transport [s] [Mbps] Decode, Convert [s] [Mbps] 1 0.010 0.076 2.12 2 0.010 0.052 1.94 3 0.009 0.042 13.00 4 0.011 0.045 12.39 5 0.012 0.646 1.18 6 0.014 0.648 1.16 7 0.010 0.834 15.82 A 8 0.010 0.942 14.00 (atmgate, DKRZ) 1 0.011 0.016 9.81 0.063 2.57 2 0.010 0.015 10.53 0.062 2.54 3 0.010 0.041 13.38 0.005 118.26 4 0.009 0.040 13.71 0.005 119.45 5 0.013 0.059 12.91 0.665 1.15 6 0.012 0.051 14.82 0.660 1.14 7 0.010 0.823 16.12 0.155 85.16 8 0.010 0.822 16.05 0.150 87.82 1 0.003 0.068 2.39 2 0.003 0.069 2.32 3 0.003 0.013 43.43 4 0.003 0.016 33.64 5 0.003 0.651 1.18 6 0.003 0.638 1.18 7 0.003 0.272 48.61 8 0.003 0.288 45.73 1 0.003 0.005 30.02 0.061 2.67 2 0.003 0.005 35.17 0.062 2.57 3 0.003 0.010 55.38 0.003 206.65 4 0.003 0.011 50.27 0.003 207.78 5 0.003 0.019 40.17 0.625 1.22 6 0.003 0.014 54.11 0.616 1.22 7 0.003 0.220 59.94 0.097 120.72 8 0.003 0.184 71.74 0.111 119.11 1 nein 24 Entfällt,da Decodierung und Konvertierung während des Transfers durchgeführt wird. 1 Display GL [s] 0.056 0.019 0.056 ja 24 F (onyx-atm, RRZN/ RVS) 0.019 1 nein 24 B (rtb-www, RRZN/ RVS) Entfällt,da Decodierung und Konvertierung während des Transfers durchgeführt wird. 1 0.056 0.019 0.056 ja 24 0.019 Tabelle 3: Einige DocShow/DocServ-Meßergebnisse für die Verkehrsbeziehungen A-F und B-F Das Minimum für komprimierte/unkomprimierte bzw. 1bit/24bit-Darstellungen ist grau hinterlegt Ergebnisse des Projektes 17 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ Diskussion der Meßergebnisse Zunächst kann festgestellt werden, daß Abhängigkeiten bestehen zwischen der „Sequential Convert“Funktionalität, bei der erst nach der Übertragung sämtlicher „Strips“ die Konvertierung durchgeführt wird, und der Stripanzahl, d. h. der Aufteilung des jeweiligen Bildes in Blöcke. Bilder mit mehreren Strips werden mit ausgeschaltetem „Sequential Convert“ in der Regel effizienter übertragen und dargestellt, da jeweils während einer Dekodierungs- und Konvertierungsphase bereits die nächsten Daten übertragen und über Betriebssystem-interne Puffer beim nächsten read-Systemcall relativ schnell bereitgestellt werden können. Dies konnte bei entsprechenden Tests über Ethernet-Strecken noch deutlicher gezeigt werden. Weiterhin wird auf die im Vergleich zur Echtfarb-Darstellung relativ langsame Bitmap-Darstellung im RGB-Modus der GL hingewiesen. Die Anzeige von Bitmaps in X-Windows ist – insbesondere für Pseudocolor-Visuals – schneller, dagegen sind RGB-Displays über die GL-Schnittstelle wesentlich schneller als über X-Windows. Daher sind hier nur die GL-basierten Werte aufgeführt. Tabelle 4 stellt für die verwendeten Formate jeweils die minimalen Gesamtzeiten, d. h. Summe aus Startup, Transport, Decodierung und Konvertierung in die Bildschirmdarstellung (hier: ABGR-PixelAnordnung), dar. Kompressionsmethode RRZN – RRZN (B-F) DKRZ – RRZN (A-F) 1 bit/pixel 24 bit/pixel 1 bit/pixel 24 bit/pixel FAX/G4 bzw. JPEG 0.069 0.633 0.062 0.658 unkomprimiert 0.016 0.275 0.051 0.844 Tabelle 4: Minimale Gesamtzeiten (Transport, Decode, Convert) aus Tabelle 3 (in Sekunden) Minimum je Spalte: grau hinterlegt Aus dem hier betrachteten Szenario – relativ hohe verfügbare Bitraten, Dekompression in Software – läßt sich schließen, daß der Einsatz von Kompressionsverfahren ab einer bestimmten Übertragungsdatenrate nicht mehr vorteilhaft ist. Zur Ermittlung dieser Grenzrate r G wird vom Ansatz ausgegangen, daß sich die jeweilige gesamte Zeitdauer T S ergibt aus der Summe aus Transportzeit und Decodier- und Konvertier-Zeit (da Startup- und Display-Zeiten jeweils konstant sind): TS = TT + TD i i bzw. mit dem Datenvolumen N i , der Transferrate r T und der Decodierrate r Di Ni Ni T S = ------ + -------- mit i=0 (ohne Kompression) bzw. i=1 (mit Kompression). rT rD i i Ni TD i Ni r D = ---------TD i i Ohne Kompression: i=0 Mit Kompression (JPEG): i=1 1.650.360 Bytes 95.466 Bytes 0,097 s 0,616 s 120,72 Mbit/s 1,22 Mbit/s Tabelle 5: Charakteristische Konstanten für das verwendete Farb-Rasterbild Ergebnisse des Projektes 18 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ Aus den vorangegangen Tabellen ergeben sich für den vorliegenden Datensatz und dem hier verwendeten Client-Rechner die in Tabelle 5 aufgeführten charakteristischen Konstanten. Der Zusammenhang zwischen Transferrate r T und Gesamtzeit T S und dieser Randbedingung ist in Bild 7 i graphisch dargestellt. 0.5 Kompressionsverfahren JPEG-Kompression ohne Kompression Gesamtzeit TS [s] -> 0.4 0.3 0.2 0.1 0.0 0 10 20 30 40 50 Transferrate rT [Mbps] -> Bild 7: Gesamtzeit (Transport, Decodierung, Konvertierung) in Abhängigkeit von der Transferrate Die Grenzrate r G , also der Schnittpunkte der beiden Kurven in Bild 7, kann durch den Ansatz T S = T S als r T bzw. r T ermittelt werden. 0 1 0 1 Durch Gleichungsumformung ergibt sich: N0 – N1 r G = --------------------------N1 N0 ---------- – ---------r rD 1 D0 N0 bzw. mit dem Kompressionsfaktor k = ------- : N1 k–1 r G = --------------------------- . k 1 ---------- – ---------rD rD 0 1 Mit den Werten aus Tabelle 5 beträgt die Grenzrate im vorliegenden Szenario: rG = 24,1 Mbit/s. Da diese Rate im lokalen Netz (B-F) überschritten wurde, konnten für Farbbilder ohne Kompression kürzere Reaktionszeiten erzielt werden. Dagegen wurde bei der Kommunikation im Weitverkehrsnetz (A-F) durch den Einsatz der JPEG-Kompression ein besseres Reaktionsverhalten festgestellt. Für Bilevel-Bilder ergibt sich aufgrund anderer Charakteristika (Kompressionsfaktor, Dekodier- und Konvertier-Raten) eine niedrigere Grenzrate, so daß auch im Fall der Kommunikationsbeziehung A-F die unkomprimierte Version, z. B. zum „Blättern“ in einem mehrseitigen Rasterbild-Dokument, vorzuziehen ist. Ergebnisse des Projektes 19 Abschlußbericht 4.1.3 RTB Nord – P5.1: „Online-Dokumente“ Integration relationaler Datenbanken ins WWW Zur Integration einer relationalen Datenbank (hier: Oracle) ins WWW wurden drei verschiedene Wege erprobt. 1. Die einfachste Möglichkeit besteht darin, ein Shell-Skript als CGI-Programm aufzurufen, welches mit SQL-Befehlen (sqlplus) den Datenbank-Zugriff ausführt und das Ergebnis als HTMLSeite darstellt. Diese Methode hat jedoch die Nachteile, daß bei komplexen Abfragen das Skript unübersichtlich wird und daß die Performance niedrig ist, da für jeden Zugriff eine neue Verbindung zur Datenbank aufgebaut werden muß. 2. Die zweite Möglichkeit ist die Nutzung eines speziell erstellten CGI-Programms zum Datenbank-Zugriff. Hier wurde ein C++-Programm geschrieben, das mit Hilfe der Klassenbibliothek DB-Tools.h++ von der Firma RogueWave spezielle Datenbankzugriffe durchführt. Die Verwendung einer objektorientierten Programmiersprache bringt vor allem bei komplexen Anfragen deutliche Vorteile in bezug auf Übersichtlichtkeit und Flexibilität der Lösung. Allerdings ist die Performance nicht wesentlich besser als bei der sqlplus-basierten Lösung, da auch hier für jeden Zugriff eine Verbindung zur Datenbank aufgebaut werden muß. 3. Bei der dritten Lösung wurde dieses Problem vermieden. Die Anbindung der Datenbank erfolgt nicht durch ein CGI-Programm, sondern durch ein Modul, das in den Web-Server integriert wird. Der Web-Server Apache bietet diese Möglichkeit an. Der zuletzt genannte Ansatz wurde für die Anwendungen • Mehrwertdienste für DFN-Mitteilungen (siehe Kap. 4.2.2) • Bilddatenbank „Leonardo da Vinci – Codex Madrid I“ (siehe Kap. 4.2.3) • Umfrage zur Akzeptanz der im Projekt erarbeiteten Anwendungen1 implementiert. Als Basis für das Modul wurde die freiverfügbare Software PHP/FI2 verwendet. Dabei handelt es sich um einen Interpreter der Skript-Sprache PHP, die in HTML eingebettet und serverseitig abgearbeitet wird, um damit die Gestaltung dynamischer WWW-Seiten zu ermöglichen. Die Ausgabe eines solchen Skripts ist wiederum eine HTML-Seite, die an den Browser geschickt wird. PHP/FI verfügt über Befehle zum Zugriff auf Postgres- und MSQL-Datenbanken. Diese Befehle wurden für den Zugriff auf Oracle-Datenbanken mit Hilfe der Klassenbibliothek DB-Tools.h++ angepaßt und erweitert, so daß eine Verbindung zur Datenbank nach der Anfrage offengehalten und bei der nächsten Anfrage wiederverwendet wird. Dadurch können unnötige Performance-Einbußen vermieden werden. Damit ergibt sich das in Bild 8 dargestellte Software-Architektur-Modell. Apache WWW-Server PHP/FI RVS Glue Code DBTools.h++ Oracle RDBMS Bild 8: Software-Architektur-Modell der ORACLE-Datenbank-Integration Die Skriptsprache PHP bietet nicht die Flexibilität einer höheren Programmiersprache, ist jedoch für kleine und mittlere Projekte ausreichend. Das so implementierte System hat sich als außerordentlich flexibel und stabil erwiesen. Neben der einfachen Nutzbarkeit dieser Datenbankanbindung ist vor allem die hohe Performance hervorzuheben. 1. Siehe http://www.rtb-nord.uni-hannover.de/onlinedokumente/projekte/umfrage/ 2. Siehe http://www.vex.net/php/ Ergebnisse des Projektes 20 Abschlußbericht 4.2 RTB Nord – P5.1: „Online-Dokumente“ Anwendungsszenarien Technologie-Studien – Prototypische exemplarische Anwendungen zur Demonstration von Methoden zur Online-Publikation multimedialer Objekte 4.2.1 Elektronisierte Tageszeitung: Neue Hannoversche Presse Aufgabenstellung Der Projektplan sah die Zusammenarbeit mit einem lokalen Zeitungsverlag zur Bereitstellung von Postscript-Ausgaben einer aktuellen Tageszeitung vor. Auf der Basis dieser Postscript-Daten sollte im weiteren Verlauf eine Hypermedia-Version dieser Tageszeitung analog zu den DFN-Mitteilungen entwickelt werden. Ausgangsposition Eine Zusammenarbeit kam mit der hannoverschen Verlagsgesellschaft Madsack (VGM) zustande. Es wurde vereinbart, täglich die aktuelle Ausgabe der Neuen Presse im WWW zu präsentieren. Als Basis konnte der Verlag die Zeitung im PDF-Format zur Verfügung stellen. Um die PDF-Daten ins RRZN/ RVS zu übertragen, wurde im RRZN/RVS ein Apple-Macintosh-Rechner mit Leonardo-SP-Karte und Filerouter- sowie FTP-Server-Software installiert. Auf diesen wurde jede Nacht die aktuelle Ausgabe der Neuen Presse per ISDN übertragen. Die PDF-Daten wurden mit Hilfe der zur Postscript/RasterKonvertierung erarbeiteten Verfahren (PaperMaker) in Hyper-Dokumente umgewandelt und auf dem Web-Server des RTB Nord ausgestellt. Für eine weitergehende Konvertierung, etwa in reine HTML/Text-Daten, erwiesen sich die PDF-Daten als ungeeignet, da sie lediglich Layout-, aber keine Strukturinformationen enthielten, die eine Automatisierung ermöglicht hätten. Wegen des unverhältnismäßig hohen Personalaufwands, der für eine solche Konvertierung notwendig gewesen wäre, wurde darauf verzichtet. Zeitlicher Überblick Die regelmäßige Übertragung der Neuen Presse an das RRZN/RVS begann am 26. September 1995 und endete am 3. Juli 1996. Bis zum 29. Februar 1996 wurden die Seiten der Neuen Presse täglich in zwei PDF-Dateien übertragen, vom 1. bis 6. März als Einzeldateien im PDF-Format und vom 7. März bis 3. Juli als Einzeldateien im EPS-Format. Am 3. Juli 1996 wurde die Übertragung vom Verlag Madsack aus innerbetrieblichen Gründen eingestellt. Angebotene Datenformate Innerhalb dieser Zeitspanne wurde die Neue Presse in vier Formaten angeboten. Die Rasterbilder der Seiten wurden im TIFF- und im GIF-Format erzeugt. Die GIF-Dateien wurden für die HTML-Präsentation (PaperMaker) verwendet, die TIFF-Dateien wurden mit dem im Rahmen des Projekts entwikkelten Browser DocShow dargestellt. Zusätzlich zu den rasterbildbasierten Hyper-Dokumenten wurde die Neue Presse auch im Postscriptund PDF-Format zur Verfügung gestellt. Da die Umwandlung von Postscript in PDF bis heute nicht automatisch (im Batch-Betrieb) durchgeführt werden kann, sind nicht alle Formate für jeden Tag erzeugt worden. Insbesondere nach dem 7. März 1996 wurden für längere Zeit nur die Rasterformate angeboten. Produktionskette Die Produktionskette für eine Ausgabe der Neuen Presse bestand aus folgenden Schritten: 1. Transport der PDF/PS-Dateien per Filerouter-Software über ISDN auf den Apple-Rechner im RRZN/RVS Ergebnisse des Projektes 21 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ Bild 9: Rasterbild-Version der Neuen Presse Bild 10: DocShow-Version der Neuen Presse Ergebnisse des Projektes 22 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ Bild 11: PDF-Version der Neuen Presse 2. Transport der PDF/PS-Dateien per FTP auf den Web-Server des RTB Nord 3. Erzeugung der Rasterbilder im TIFF- und GIF-Format und des Skripts paper.cgi (analog zu Papermaker) 4. Erzeugung der Setup-Dateien für die DocShow-Präsentation des Neuen Presse 5. Eintragen der Links auf die neue Ausgabe im Web-Server Die Produktionskette für die Erstellung der Rasterbild-Version ließ sich auf RRZN/RVS-Seite vollständig automatisieren. Probleme ergaben sich dadurch, daß auf Seiten des Verlags einige Male die Datei-Namen der PDF-Dateien geändert wurden, ohne daß dies angekündigt wurde. Desweiteren wurden im späteren Verlauf des Projekts statt der PDF-Daten EPS-Daten geliefert. Die Produktionskette ließ sich aber ohne Schwierigkeiten anpassen. Datenvolumen und Verarbeitungszeit Das Datenvolumen einer Tagesausgabe der NP betrug im PDF-Format ca. 2,5 - 4 MByte, im Postscript-Format, d.h. nach dem 7. März 1996, ca. 35 - 50 MByte. Das geringere Volumen der PDFDateien ist dadurch begründet, daß Bilder im PDF-Format in der Regel in der Auflösung reduziert und zusätzlich JPEG- oder LZW-komprimiert werden. Die entstandenen Rasterbilder haben pro Seite eine Größe von ca. 700 kByte - 6 MByte im TIFF-Format und ca. 200 kByte - 1,5 MByte im GIF-Format. Eine graphische Darstellung der Datenvolumina zeigen Bild 12 und Bild 13. Die Transferzeit der Daten vom Verlag zum Web-Server im RRZN/RVS wurde im wesentlichen durch die Übertragungszeit auf der ISDN-Strecke bestimmt. Bei einer Brutto-Datentransferrate von 128 kBit (Kanalbündelung) auf der ISDN-Strecke ist die Übertragungszeit auf der Ethernet-Verbindung zwischen Apple-Rechner und Web-Server vernachlässigbar. Bei einer angenommenen Netto-Datenrate von 85% und einem mittleren Datenvolumen von 3,3 MByte ergibt sich eine Übertragungszeit von 248 Sekunden, also etwa 4 Minuten. Dagegen ist die Verarbeitungszeit der Daten erheblich größer. In Tabelle 6 ist der Zeitbedarf der vier wichtigsten Verarbeitungsschritte am Beispiel einer Ausgabe daufgeführt. Diese vier Schritte sind die Ergebnisse des Projektes 23 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ Eingangsdatenvolumen pro Seite (PDF und EPS) 6. 3. 96 2.5 Datenformat PDF EPS Größe [in MB] 2.0 Marken 1.5 1.0 0.5 0.0 Okt Nov Dez Jan Feb Mar Apr Mai Jun Zeitraum (27. Sept. 1995 - 3. Juli 1996) Bild 12: Eingangsdatenvolumina der Neuen Presse pro Seite (PDF und EPS) Ausgangsdatenvolumen pro Seite (TIFF und GIF) 6. 3. 96 3.0 Datenformat TIFF GIF 2.5 Größe [in MB] Marken 2.0 1.5 1.0 0.5 0.0 Okt Nov Dez Jan Feb Mar Apr Mai Jun Zeitraum (27. Sept. 1995 - 3. Juli 1996) Bild 13: Ausgangsdatenvolumina der Neuen Presse pro Seite (TIFF und GIF) Rasterung der PDF/PS-Daten, die Skalierung auf die gewünschte Auflösung mit Antialiasing, die Konvertierung ins TIFF-Format und die Konvertierung ins GIF-Format. Gegenüber dem Zeitbedarf dieser vier Schritte ist die restliche Verarbeitungszeit vernachlässigbar. Die Zahlen zeigen, daß die Zeit für die Skalierung mit pnmscale unabhängig vom Bildinhalt konstant ist, während die übrigen drei Schritte eine starke Abhängigkeit vom Bildinhalt aufweisen. Genaue Voraussagen für den Zeitbedarf einer derartigen Produktionskette lassen sich also nicht treffen. Die Zeiten schwanken mit der Anzahl Ergebnisse des Projektes 24 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ Seite Rasterung Skalierung TIFF GIF Gesamt 01 19,46 30,22 14,28 31,37 95,33 02 13,82 30,24 29,29 05,33 78,68 03 10,18 30,23 13,59 33,38 87,38 04 08,39 30,15 19,85 04,98 63,37 05 13,50 30,16 15,55 38,87 98,08 06 08,06 30,15 17,83 04,85 60,89 07 11,47 30,19 27,83 06,09 75,58 08 11,55 30,11 13,59 27,42 82,67 10 17,02 30,11 13,80 30,40 91,33 11 06,54 30,29 13,27 04,29 54,39 12 12,23 30,18 15,21 23,35 80,97 13 36,25 30,12 25,27 05,09 96,73 14 23,98 30,12 12,33 19,44 85,87 15 12,92 30,50 14,81 34,86 93,09 16 11,41 30,34 21,59 05,40 68,74 17 15,94 30,24 13,38 25,59 85,15 18 09,06 30,26 22,12 04,67 66,11 19 08,68 30,23 09,70 13,18 61,79 20 05,37 30,12 11,40 04,00 50,89 24 06,21 30,15 13,81 04,11 54,28 26 06,20 30,11 11,91 04,09 52,31 28 16,44 30,11 16,80 43,70 107,05 Ges. 284,68 664,33 367,21 374,46 1690,68 Tabelle 6: Verarbeitungszeit einer Ausgabe der NP (alle Werte in Sekunden) der Seiten einer Ausgabe, mit der Anzahl der Größe und dem Inhalt der Bilder auf der Seite. Der Gesamtzeitbedarf für die hier bespielhaft betrachtete Ausgabe liegt bei 39 Minuten und 27 Sekunden. Bewertung Die Produktionskette zur Erzeugung der Online-Versionen arbeitete über einen langen Zeitraum zufriedenstellend. Fehlfunktionen traten nur auf, wenn die Eingangsdaten nicht korrekt waren. Das Ergebnis der Produktionskette ist aber als elektronische Tageszeitung nur bedingt sinnvoll. Die Zeitungsseiten im Rasterformat sind selbst auf 20-Zoll-Bildschirmen nur schwer lesbar, obwohl die Seiten hier bereits in Originalgröße angezeigt werden. Bei geringerer Bildschirmgröße als 1280 * 1024 Pixel wird der betrachtete Ausschnitt der Seite immer kleiner, so daß mehr gescrollt werden muß. Eine akzeptable Ganzseitendarstellung einer Tageszeitung ist mit den heute üblichen Moni- Ergebnisse des Projektes 25 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ toren nicht möglich. Der größte Nachteil der Rasterbild-Versionen sind die fehlenden Strukturinformationen. Dadurch sind Mehrwertdienste wie Suchfunktionen, Nachrichten-Archive, usw. nicht realisierbar. Diese Mehrwertdienste sind aber gerade die Stärke der interaktiven, elektronischen Medien im Vergleich zu herkömmlichen Medien. Eine sinnvolle Hypertext-Version kann nur mit Hilfe von Strukturinformationen zu jedem Artikel erstellt werden. Diese Strukturinformationen müßten vom Verlag als Eingangsdaten für die Produktionskette mitgeliefert werden. Zu beachten ist hier, daß von Seiten des Verlags die Bedingung gestellt wurde, daß die Zeitung im WWW ausschließlich als originalgetreues Abbild der Druckausgabe erscheinen müsse. Diese Forderung stand einer sinnvolleren Gestaltung der Online-Version als Hyper-Dokument im Weg. Wünschenswert wäre eine Hyper-Media-Version der Zeitung auf HTML-Basis mit Mehrwertdiensten ergänzt um eine Originaldarstellung der Druckausgabe. Mittlerweile hat im Verlag in diesem Punkt ein Umdenken eingesetzt. Seit dem 28. August 1996 bietet der Verlag einen eigenen Online-Informationsdienst1 im WWW an, der auch Nachrichten im Hypertext-Format mit Suchfunktionen enthält. Eine Möglichkeit, originalgetreue Darstellung und Mehrwertdienste zu vereinen, bietet das neuere Datenformat PDF. Mit Hilfe des PDF-Browsers Acrobat Reader können PDF-Dokumente am Bildschirm betrachtet und dabei beliebig skaliert werden. Es kann nach Zeichenketten gesucht werden und es können Links in den Text eingefügt werden, so daß auch PDF-Hyper-Dokumente möglich sind. Leider sind Software-Werkzeuge zur Erzeugung und Bearbeitung von PDF-Dokumenten erst seit kurzer Zeit auf dem Markt und noch nicht für alle Plattformen verfügbar. Im Rahmen des Projekts standen die Werkzeuge Acrobat PDF-Writer und Acrobat Distiller auf dem Apple PowerMac zur Verfügung. Mit diesen ist jedoch keine Batch-Verarbeitung möglich, so daß nach dem 6. März 1996 nur noch für wenige Ausgaben zu Testzwecken PDF-Versionen der Neuen Presse erstellt werden konnten. Dennoch bietet die PDF-Version der Neuen Presse die meisten Vorteile gegenüber der Postscript- und den Rasterbild-Versionen. Die Rasterung von PDF-Dokumenten am Bildschirm mit dem Acrobat Reader erfolgt wesentlich schneller als die von Postscript-Dokumenten. Der Acrobat Reader ist frei verfügbar für die meisten Plattformen und auch als Plug-In für Netscape vorhanden. 4.2.2 Elektronische Zeitschrift mit Mehrwertdiensten: DFN-Mitteilungen 4.2.2.1 Aufgabenstellung Der Projektplan sah die automatische Erstellung elektronischer Versionen der DFN-Mitteilungen vor, zunächst im Postscript-Format, dann als rasterbildbasierte Versionen (PaperMaker: siehe Kap. 4.1.1, DocShow: siehe Kap. 4.1.2), später als reines HTML-Dokument. Die HTML-Version war durch Mehrwertdienste (Hyper-Links, Suchfunktionen) zu erweitern. 4.2.2.2 Ausgangsposition Die DFN-Mitteilungen werden mit Hilfe des Desktop-Publishing-Systems QuarkXPress auf einem Apple-Macintosh-Rechner beim DFN-Verein gesetzt. Eine Ausgabe umfaßt eine QuarkXPress-Datei für die Titelseite, eine für die übrigen Seiten und die Dateien für die Bilder. Die Bilder liegen im TIFFoder im EPS-Format vor. Der Transport der Daten vom DFN-Verein zum RRZN/RVS erfolgte per Wechselfestplatte auf dem Postweg. 4.2.2.3 Zeitlicher Überblick Die DFN-Mitteilungen erscheinen dreimal jährlich im März, im Juni und im November. Es wurden die Ausgaben der Jahrgänge 1994–1996 bearbeitet, von Heft 34 bis Heft 42. Hypertext-Versionen im HTML-Format wurden für alle diese Ausgaben bis auf Heft 34 erzeugt. Für die Jahrgänge 1995 und 1996 sind auch die Mehrwertdienste verfügbar, wobei diese rückwirkend für die älteren Ausgaben erstellt wurden. 1996 wurden ebenfalls rückwirkend für alle 9 Ausgaben PDF-Versionen erstellt. 1. MOL - Madsack On Line, http://www.niedersachsen.com/ Ergebnisse des Projektes 26 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ 4.2.2.4 Angebotene Datenformate Die DFN-Mitteilungen werden in fünf Versionen angeboten: 1. Postscript-Version 2. PDF-Version 3. Rasterbild-Version (PaperMaker) 4. DocShow-Version 5. HTML-Version Bild 14 zeigt die HTML-Version, Bild 15 die Rasterbild-Version eines Artikels. Bild 14: HTML-Version der DFN-Mitteilungen 4.2.2.5 Mehrwertdienste Die Mehrwertdienste wurden im Rahmen einer Studienarbeit [LEON] entwickelt. Sie basieren auf einer Oracle-Datenbank, in der Metainformationen zu den Artikeln der DFN-Mitteilungen gespeichert werden. Die Speicherung der Metainformationen erfolgt im Anschluß an die Erzeugung der HTMLVersion. Die Metainformationen umfassen für jeden Artikel die Ausgabe, in der er steht, die Überschrift, die Rubrik, den Autor samt Zusatzinformationen, die Bilder und den gesamten unformatierten Text für die Volltextsuche. Als Mehrwertdienste werden neben der Volltextsuche (Bild 16) ein flexible spezifische Suche, eine Autorenübersicht, eine nach Rubriken geordnete Artikelübersicht und eine Statistik angeboten. Bild 17 zeigt das Ergebnis einer Anfrage nach dem Begriff „Multimedia“ in den Überschriften der Artikel. 4.2.2.6 Produktionskette Die Produktionskette für die DFN-Mitteilungen besteht aus zwei unabhängigen Teilen, der Erzeugung der HTML-Version einerseits und der Erzeugung der übrigen Versionen andererseits. Bild 18 stellt die Produktionskette schematisch dar. Zunächst wird aus den QuarkXPress-Dateien eine Postscript-Datei der DFN-Mitteilungen generiert. Dazu werden die Titelseite und die übrigen Seiten zusammengefügt und mit einem Postscript-Drukkertreiber in eine Datei gedruckt. Ergebnisse des Projektes 27 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ Bild 15: Rasterbild-Version der DFN-Mitteilungen Bild 16: Volltextsuche in den DFN-Mitteilungen Ergebnisse des Projektes 28 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ Bild 17: Ergebnis einer Abfrage nach dem Begriff „Multimedia“ Die Postscript-Version enthält alle Seiten mit Bildern in hoher Qualität und dient im wesentlichen als Quelle für die übrigen Formate. So wird daraus mit dem Adobe Acrobat Distiller eine PDF-Version erzeugt, in der die Bilder auf 72 dpi reduziert und LZW-codiert sind. Mit Hilfe der Postscript/RasterKonvertierung (siehe PaperMaker) werden aus der Postscript-Datei ebenfalls die Rasterbild-Version und die TIFF-Dateien für die DocShow-Version gewonnen. Dazu dient eine leicht modifizierte Version des PaperMaker-Skripts pdfps2html. Die so entstandenen vier Versionen können einfach in den Web-Server integriert werden. Der Ablauf für die HTML-Version ist aufwendiger. Als Quelle dient hier nicht die Postscript-Datei, sondern die QuarkXPress-Datei. Das Verfahren wurde im Rahmen einer Studienarbeit [NEBEL] entwickelt. Es basiert auf einem am MIT entwickelten Konverter qt2www von QuarkXPress nach HTML. Dieser wurde erweitert und den speziellen Bedürfnissen für die DFN-Mitteilungen angepaßt. Das Ergebnis der Konvertierung ist ein einfacher Verzeichnisbaum mit einem Verzeichnis für jeden Artikel, das die HTML- und die Bilddateien enthält. Die Bilder, die zunächst im TIFF oder EPS-Format vorliegen, werden im Laufe der Konvertierung mit den in PaperMaker eingesetzten Verfahren in GIF- Ergebnisse des Projektes 29 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ QuarkXPress qt2www, gs, convert, pnmscale Druckertreiber PS Acrobat Distiller PDF HTML & TIFF,GIF pdfps2html TIFF & GIF Bild 18: Produktionskette der DFN-Mitteilungen Bilder umgewandelt. Es wird sowohl eine Version in Originalgröße erzeugt, als auch eine verkleinerte Version der Bilder. Die verkleinerte Version wird auf der HTML-Seite sofort angezeigt, die Version in Originalgröße ist über einen Hyper-Link erreichbar. Mit Hilfe eines SED-Skripts werden alle URLs in den Artikeln in Hyper-Links umgewandelt, ebenso erhalten alle EMail-Adressen den HTML-Tag <MAILTO>. Ein weiteres Skript fügt HTML-Tags für Server-Side-Includes ein, durch die ein einheitliches Layout, z. B. Hintergrund, und eine Fußleiste mit Hyper-Links zu den Mehrwertdiensten erzeugt werden. Im letzten Schritt werden die Metadaten zu den Artikeln aus den HTML-Dateien extrahiert und in der Datenbank gespeichert. Dazu dienen die im Rahmen der Studienarbeit [LEON] zu den Mehrwertdiensten entwickelten Programme dfngen und dfndb. Die Umwandlung erfolgt in zwei Stufen, da sich nicht in jedem Fall die Strukturinformationen aus den HTML-Dateien gewinnen lassen. Zum Beispiel ist keine automatische Trennung von Vor- und Nachnamen und Nameszusätzen eines Autors möglich. Daher parst zunächst das Programm dfngen die HTML-Dateien und schreibt die Metadaten strukturiert in eine Textdatei. Diese wird von Hand überprüft und gegebenenfalls korrigiert. Das Programm dfndb liest die geprüfte Textdatei und speichert die Daten in der Datenbank. 4.2.2.7 Datenvolumen und Verarbeitungszeit Die erzeugten Datenvolumina aller fünf Versionen sind in Tabelle 7 für alle Ausgaben aufgeführt. Für die Rasterbild- und DocShow-Versionen ist jeweils das Datenvolumen aller GIF- bzw. TIFF-Bilder angegeben, für die HTML-Version die Summe aller relevanten Dateien, sowohl HTML- wie auch Bild-Dateien. Die komplette Bearbeitung einer Ausgabe der DFN-Mitteilungen benötigt in der Regel zwei Mitarbeitertage. Dies ist zurückzuführen auf den hohen interaktiven Bearbeitungsaufwand für die HTML-Version, sowohl vor der eigentlichen Konvertierung als auch in der Nachbearbeitung der HTML-Seiten. Manuelle Überprüfung und Korrektur ist hier bisher unerläßlich. 4.2.2.8 Bewertung Projektziel war die automatisierte Erstellung einer „elektronischen Zeitschrift“ aus den QuarkXPressVorlagen der DFN-Mitteilungen. Dieses Ziel ließ sich nur bedingt erreichen. Der zur Verfügung stehende Konverter erfordert zunächst eine interaktive Vorbearbeitung der QuarkXPress-Dateien. Aus den vorbearbeiteten QuarkXPress-Dateien lassen sich damit automatisch HTML-Dateien und BildDateien erzeugen. Im Anschluß daran ist aber noch eine manuelle Nachbearbeitung erforderlich. Ebenso erfordert die Generierung der Metadaten für die Datenbank manuelle Korrekturen. Ergebnisse des Projektes 30 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ Ausgabe PS PDF TIFF GIF HTML 34 5.261.305 701.960 3.612.672 2.879.488 0 35 5.811.263 558.958 2.813.952 2.326.528 2.637.824 36 18.843.095 1.057.622 4.931.584 2.908.160 3.919.872 37 16.026.335 866.718 3.780.608 2.420.736 1.748.992 38 30.303.717 1.423.499 5.783.552 2.654.208 6.389.760 39 63.043.053 1.264.529 6.053.888 3.284.992 10.907.648 40 51.161.305 1.501.201 6.926.336 3.362.816 2.834.432 41 62.797.394 7.957.095 6.324.224 2.781.184 3.366.912 42 61.211.374 2.668.185 6.246.400 2.953.216 3.301.376 Tabelle 7: Datenvolumen der DFN-Mitteilungen (in Bytes) Die Notwendigkeit manueller Eingriffe in die Produktionskette ist in den fehlenden Strukturinformationen in den Eingangsdaten begründet. Die QuarkXPress-Vorlagen enthalten Format-, d. h. Layoutinformationen, aber kaum verläßliche Informationen zur inhaltlichen Struktur des Dokuments. Die fehlenden Strukturinformationen müssen manuell ergänzt werden. Dennoch ist das Endprodukt der Produktionskette eine im Sinne der Aufgabenstellung „elektronische Zeitschrift“ im HTML-Format mit (teils datenbankbasierten) Mehrwertdiensten, wie Hypertext-Links, Suchfunktionen und Autorenübersicht. Begleitet wird diese Hypertext-Version von vier weiteren Versionen, insbesondere der Postscript- und der PDF-Version als Druckvorlagen. Insofern konnte das Projektziel erreicht werden. Die Produktionskette konnte im Laufe des Projekts ständig verbessert und vereinfacht werden, z. B. durch weiterentwickelte Versionen der verwendeten Konvertierungssoftware. Der Umfang der manuellen Nachbesserungen ließ sich somit reduzieren, wenn auch nicht ganz beseitigen. Durch die neu erstellte Metadatenbank wurden die Voraussetzungen geschaffen, die HTML-Version der DFN-Mitteilungen zukünftig komplett datenbankbasiert zu generieren. Dies hätte eine weitere Reduzierung des manuellen Arbeitsaufwandes zur Folge. Eine derartige Weiterentwicklung der Produktionskette sollte im Rahmen eines Folgeprojekts vorgesehen werden. Von Seiten des DFN-Vereins und der Benutzer kamen während der Projektlaufzeit positive Kommentare zu der „elektronischen Zeitschrift“. Der DFN-Verein hat ein Interesse an der Fortsetzung der Zusammenarbeit mit dem RRZN/RVS signalisiert. 4.2.2.9 Literaturhinweise [LEON] Claus Leonhardt, „Datenbank-basierte Mehrwertdienste im Online-Publishing“, Studienarbeit am Lehrgebiet Rechnernetze und Verteilte Systeme (RVS), Universität Hannover, 1996 [NEBEL] Michael Nebel, „Diskussion eines Konzepts zur Online-Bereitstellung von Dokumenten“, Studienarbeit am Lehrgebiet Rechnernetze und Verteilte Systeme (RVS), Universität Hannover, 1995 [WOLPERS] Martin Wolpers, „Aufbereitung von SGML-Dokumenten für das Online-Publishing“, Studienarbeit am Lehrgebiet Rechnernetze und Verteilte Systeme (RVS), Universität Hannover, 1996 Ergebnisse des Projektes 31 Abschlußbericht 4.2.3 RTB Nord – P5.1: „Online-Dokumente“ Abbildungen wertvoller Unikate: Virtuelle Galerie Kö 24, Codex Madrid I Als Beispielanwendungen mit hohem Bandbreitenbedarf wurden Online-Präsentationen von photographischen Abbildungen erarbeitet: • Virtuelle Galerie Kö 24 • Leonardo da Vinci: Codex Madrid I Es wurden verschiedene Gesichtspunkte berücksichtigt. Bei der virtuellen Galerie wurde besonderer Wert auf die hochwertige Gestaltung, d. h. das Oberflächendesign, gelegt. Im Rahmen einer vom Projekt-Team betreuten Studienarbeit (siehe auch Anhang) an der Fachhochschule Hannover, Fachbereich Kunst und Design, wurden statische WWW-Seiten erstellt. Dabei wurden zum jeweiligen Zeitpunkt aktuelle HTML-Elemente, wie z. B. Frames und Client-Side-Imagemaps, verwendet. Als Bildmaterial, d. h. Inline-Images, dienten gescannte Dias, welche durch Nachbearbeitung in die letztlich präsentierte Form gebracht wurden. Vom „Codex Madrid I“, einer historischen Handschrift von Leonardo da Vinci, wurden ebenfalls digitale Bilder durch Scannen erzeugt und diese im WWW, aber auch mit DocShow, präsentiert. Die WWW-Seiten bieten interaktive Schnittstellen zur Suche mittels Metadaten aus einer ORACLEDatenbank sowie auch zur nachträglichen Attributierung. Virtuelle Galerie Kö 24 Der hannoversche Galerist Robert Simon besitzt eine private Sammlung von Gemälden und Plastiken verschiedener Künstler. Eine Auswahl von ca. 20 Exponaten wurden auf Mittelformat-Diafilm (60 x 70 mm) photographiert und mit einer Auflösung von 1270 dpi auf einem Trommelscanner im Rahmen eines Fremdauftrages digitalisiert. Die daraus resultierenden TIFF-Bilddateien (je ca. 30 MByte) stellen für den Druck im DIN-A4-Format eine ausreichende Auflösung zur Verfügung. Für die Bildschirm-Präsentation wurden Dateien mit entsprechend geringerer Auflösung durch Konvertierung der hochauflösenden Bilddaten generiert. Dadurch werden in gewissem Maße auch qualitativ hochwertige Ausschnittvergrößerungen der Bildschirmdarstellung ermöglicht. Der Zugriff erfolgte zur CeBIT 1995 in einer relativ einfachen Form über WWW1 und DocShow2, zur CeBIT 1996 über ausgestaltete WWW-Seiten3 (siehe Bild 19). Bild 19: Ein Beispiel aus der virtuellen „Galerie Kö 24“ 1. http://cebit95.rvs.uni-hannover.de/galerie_simon 2. http://cebit95.rvs.uni-hannover.de/galerie_simon/simon.dvs 3. http://www.rtb-nord.uni-hannover.de/onlinedokumente/projekte/T-StudieKoe24.html Ergebnisse des Projektes 32 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ Leonardo da Vinci: Codex Madrid I Die Faksimile-Ausgabe (Gesamtauflage: 1500) dieser historischen Handschrift steht in Deutschland nur an zwei Standorten (unter gewissen Voraussetzungen leihweise) zur Verfügung. Auf einem Flachbettscanner (HP Scanjet II cx) wurden sämtliche 188 Doppelseiten mit einer Auflösung von 400 dpi digitalisiert. Eine Doppelseite hat ca. DIN-A4-Format, daraus folgt ein Datenvolumen von ca. 50 MByte je Doppelseite im TIFF-RGB-Format, also ca. 10 GByte insgesamt. Wie bei der virtuellen Galerie (s. o.) wurden dann daraus Bilder mit verschiedenen geringeren Auflösungen und Dateiformaten errechnet und wahlweise über WWW – mit datenbankbasierten Mehrwertdiensten (siehe auch Kap. 4.1.3), d. h. Retrieval- und Attributierungsfunktionalität (siehe Bild 20) – und DocShow zur Verfügung gestellt1. Bild 20: Suchergebnis in Leonardo da Vinci‘s „Codex Madrid I“ 4.2.4 Virtuelle Welten: Stadtspaziergang Hannover Der hannoversche Photograph Hassan Mahramzadeh (mehrere Buch-Veröffentlichungen liegen vor) stellte für das Projekt eine größere Anzahl von Aufnahmen zu Verfügung. Dies sind im wesentlichen Kleinbild-Dias, z. T. auch Mittelformat-Dias (60 x 70 mm). Es wurde erwogen, gewisse Objekte – wie z. B. auch die o. g. Kunstobjekte – mit Hilfe der Digitalen Photographie (siehe Bild 21) neu zu erfassen. Aufgrund der hohen Kosten und der bislang noch relativ geringen resultierenden Bildauflösung wurde dann schließlich eine Entscheidung zu Gunsten der herkömmlichen Verfahrenskette getroffen – Scannen von herkömmlichen Photographien. 1. http://www.rtb-nord.uni-hannover.de/onlinedokumente/projekte/Leonardo/ Ergebnisse des Projektes 33 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ Zum Scannen einer größeren Anzahl von Kleinbild-Dias wurde aus Projektmitteln ein DiascannerArbeitsplatz beschafft. Um andere Medien (z. B. größere Diaformate) erfassen bzw. höhere Bildqualitäten (z. B. bzgl. der Auflösung) erzielen zu können, wäre ein Trommelscanner erforderlich. Neben den wesentlich höheren Beschaffungkosten stellt die Bedienung eines solchen Geräts jedoch besondere Anforderungen. 1. Scannen von herkömmlichen Photographien (Dias), z. B.: „Galerie Simon“ Herkömmliche Kamera Objekt Dia TrommelScanner BildDatei Digitale Kamera 2. Digitale Photographie Bild 21: Scannen von herkömmlichen Photographien vs. Digitale Photographie Die Photographien wurden in einen gestalteten Gesamtzusammenhang gebracht, um letztlich im WWW einen „virtuellen Stadtrundgang“ zu ermöglichen (siehe Bild 22). Bild 22: Einstiegsseite in den „Stadtspaziergang Hannover“ Ergebnisse des Projektes 34 Abschlußbericht RTB Nord – P5.1: „Online-Dokumente“ Über die damit gebotenen Navigationsmöglichkeiten über textuelle Hyperlinks und Imagemaps hinaus wurden 3D-Prototypen – z. B. Stadtrundgang, Posterausstellung (RTB Nord) – erstellt, um Erfahrungen in der Modellierung, Konvertierung und Online-Präsentation von virtuellen 3D-Objekten zu gewinnen (siehe Bild 23). Dazu wurden Verarbeitungsprozesse auf der Basis mehrerer Werkzeuge – einem professionellen Modellierungs- und Animationswerkzeug (Softimage), WebSpaceAuthor, mehrerer Konvertierer und VRML-Viewer – erarbeitet und erprobt. Bild 23: Hannover als abstraktes virtuelles 3D-Modell (VRML-Viewer) 4.3 Studien Die Ausarbeitungen der Studien • „Zur Diskrepanz der Bildauflösung verschiedener Präsentationsmedien“ und • „Urheberrechtliche Probleme im Internet“ sind im Anhang zu finden. Zu den Themenkomplexen • „Internet-Dienste für den kommerziellen Einsatz“ und • „Anwendung des SGML-Standards im WWW-Kontext“ wird auf die von Projekt-Mitarbeitern betreuten Studien- und Diplomarbeiten von L. Schütte und M. Wolpers (siehe Kap. 3.4) verwiesen. Ergebnisse des Projektes 35 Abschlußbericht 5 RTB Nord – P5.1: „Online-Dokumente“ Zusammenfassung und Ausblick Ausgangspunkt des Projekts „Online-Dokumente“ war ein Testszenario für Leistungsmessungen an Hochleistungs-Kommunikationsnetzen auf der Basis von SDH. Als besondere Anforderung sollte das “Buch-Paradigma” dienen. Es war beabsichtigt, hochaufgelöste Farbbilder von Buchdruck-Unikaten in einer Client/Server-Umgebung zu übertragen und das von Wissenschaftlern geschätzte „Blättern“ in einem elektronischen Buch zu realisieren. Das ursprüngliche Projekt konnte nicht durchgeführt werden, da die Telekom die benötigten SDH-Strecken nicht zur Verfügung stellen konnte. Das Regionale Testbed Nord des DFN mit seiner leistungsfähigen Infrastruktur konnte jedoch zu einer erweiterten Zielstellung genutzt werden. Schon bei Antragstellung war klar, daß in dem Projekt eine Reihe technischer, organisatorischer und rechtlicher Probleme zu behandeln war. Aus diesem Grunde war das Projekt in Form einer Studie zur Problematik des elektronischen Publizierens angelegt. Die Ausgangslage wurde auch im Rahmen einer DFN-Fachtagung umfassend beschrieben1. In der Projektlaufzeit von zwei Jahren konnte ein deutlicher Fortschritt bei der Problematik des elektronischen Publizierens beobachtet werden. Zu Beginn der Diskussion mit Verlagsunternehmen bestand wenig Bereitschaft der Verlage, auf ihre gewachsenen Layout- und Formatstrukturen zu verzichten. Aus diesem Grund wurde z. B. die Tageszeitung „Neue Hannoversche Presse“ in unveränderter Form als „elektronisierte“ Zeitung (Rasterbild) angeboten. Inzwischen hat sich generell die Erkenntnis durchgesetzt, daß in elektronischen Medien spezifische Layout- und Formatstrukturen benutzt werden müssen. Mehrere Technologiestudien des Projekts haben hier zu einem besseren Verständnis der Mechanismen des elektronischen Publizierens beigetragen. Von großer Bedeutung ist die gestalterische Aufbereitung elektronischer Dokumente. Hier hat sich der Einsatz einer Fachkraft für Layout und Design im Projekt als geradezu beispielgebend erwiesen. Es ist mittlerweile völlig klar, daß das „Elektronische Paradigma“ eigene Gestaltungsnotwendigkeiten besitzt. Unverändert hart stellt sich die rechtliche Problematik des elektronischen Publizierens dar. Im Projekt konnten grundlegende Probleme identifiziert werden. Es ist zu hoffen, daß die notwendige Gesetzgebung hier in Kürze Klarheit schafft. Gleichermaflen hart ist die Barriere der derzeit unzureichenden Bildschirmtechnologie. Hierzu sind im Bericht, Kapitel 6, grundlegende Aussagen enthalten. Generell hat das Projekt dazu beigetragen, die Produktionsketten des elektronischen Publizierens transparent zu machen, dies ist u. a. am Beispiel der DFN-Mitteilungen besonders deutlich geworden. Besonders die sog. „Mehrwertdienste“, d. h. Recherchemöglichkeiten in elektronischen Dokumenten, bilden einen Schlüssel zu besseren Informationsdiensten im Wissenschaftsbereich. Hier liegen die eigentlichen Vorteile des Online-Dokuments gegenüber dem klassischen Buch- oder ZeitschriftenParadigma. Das Projekt „Online-Dokumente“ hat wesentlich zur Bildung von entsprechender Fachkompetenz im DFN beigetragen. Der vorliegende Bericht weist dies deutlich aus. Die gewonnenen Erkenntnisse sind u. a. inzwischen auch in weitreichenden Vorhaben, z. B. der „Internet Expo“, und auch kommerziellen Entwicklungen berücksichtigt worden. Die am RRZN/RVS vorhandene Kompetenz soll nun im Rahmen von Folgeprojekten, besonders der „DFN-Expo“, genutzt werden. Dabei sollen neue Technologien erprobt werden. 1. Pralle, H.: Aspekte des elektronischen Publizierens – Network Publishing – 9. DFN-Fachtagung über Rechnernetze, 1995, Bad Honnef Zusammenfassung und Ausblick 36