PDF-Skript

Transcription

PDF-Skript
Grundlagen der WWW-Nutzung und
WWW-Programmierung
Alfred Wassermann
Inhaltsverzeichnis
4 Vorlesung
4.1 Der Einstieg in das World Wide Web
4.1.1 Suchmaschinen . . . . . . . .
4.2 Die Sprache des WWW: HTML . . .
4.2.1 SGML . . . . . . . . . . . . .
4.2.2 HTML . . . . . . . . . . . . .
4.2.3 Rückschläge . . . . . . . . . .
4.3 Tags (Auszeichnungen) in HTML . .
4.4 Das Grundgerüst einer HTML-Datei
4.5 Unsere ersten Formatierungsbefehle .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
3
4
4
5
7
7
8
8
Kapitel 4
Vorlesung
Übungsblatt 03:
4.1
Der Einstieg in das World Wide Web
Meist hält die Organisation, die die Einwahl ins WWW ermöglicht, Einstiegsseiten bereit, die eine erste Orientierungsmöglichkeit im Netz für Anfänger bieten.
Diese Seiten werden Web-Portals genannt.
Typische Beispiele:
• http://www.netscape.com
• http://www.aol.com
• http://www.t-online.de
• http://www.uni-bayreuth.de
Eine weitere Einstiegsmöglichkeit bieten sogenannte Web-Kataloge, das heißt
redaktionell bearbeitete Seiten, die nach Themen geordnet sind.
Der Marktführer in dieser Hinsicht ist
• http://www.yahoo.com
Im deutschen Bereich sind (neben vielen anderen)
• http://www.yahoo.de
• http://www.dino-online.de
zu nennen.
Die Problematik bei diesen Seiten liegt in der Aktualität der Links.
2
4.1.1
Suchmaschinen
Eine Möglichkeit, Information im WWW zu finden, bieten sogenannte Suchmaschinen.
Eine sehr ausführliche Beschreibung von Suchmaschinen ist bei http://www.suchfibel.de
zu finden.
Suchmaschinen bestehen üblicherweise aus drei Komponenten:
• Der Informationssammler, auch Robot, Spider oder Crawler genannt.
Dieses Programm surft vollautomatisch durch das Internet und schickt
eine gewaltige Datenmenge an die Verwaltung“.
”
• Die Indizierungssoftware strukturiert die eingehenden Daten und füllt
damit eine Datenbank.
• Die Abfragesoftware wertet Suchanfragen aus, verknüpft logische Operatoren (das ist ein vornehmer Ausdruck für kombinierte Abfragen: z.B.
sollen alle Dateien ausgegeben werden, die die Wörter email und Bild
enthalten, aber nicht das Wort Computer), und schickt die Anfrage an den
Datenserver, um von dort aus die Ergebnisse zu präsentieren.
Häufig zu findende Eingabemöglichkeiten:
• Ein Pluszeichen (+) oder AND verknüpft zwei Wörter. Beide Begriffe
müssen im Ergebnisdokument vorkommen.
• Ein Minuszeichen (−) oder NOT schließt das nachfolgende Wort aus. Das
Ergebnis darf das Wort nicht enthalten.
• Mehrere Worte lassen sich mit Anführungszeichen zu einer Phrase verbinden.
Anmerkungen: Soll verhindert werden, daß ein Informationssammler ein Verzeichnis durchsucht, so sollte dieses Verzeichnis eine (möglicherweise leere) Datei robots.txt enthalten. Es gibt eine Konvention unter den Betreibern von
Suchmaschinen, daß Verzeichnisse, die eine Datei namens robots.txt enthalten, nicht durchsucht werden. Genausowenig können normalerweise Word- oder
PDF-Dateien katalogisiert werdn.
Zu beachten ist bei der Verwendung von Suchmaschinen jedoch, daß ein Großteil
der vorhandenen Information nicht von Suchmaschinen automatisch katalogisiert werden kann. Beispiele hierfür sind Bilder, Töne, Filme und Information
aus Datenbanken.
Ein weiteres Problem ist, daß neue Information erst mit einiger Verzögerung
von den Suchmaschinen erfaßt wird.
Weitere Suchmöglichkeiten:
• Nachdem die Zahl der Suchmaschinen ständig wächst, bieten sogenannte
Meta-Suchmaschinen ihre Dienste an: Sie leiten die Anfrage des Benutzers an mehrere Suchmaschinen weiter und zeigen deren Ergebnisse
an.
• Spezialsuchmaschinen:
– Aktuelle Nachrichten (Paperboy, Paperball), http://www.paperazzi.de
http://www.paperball.de
3
– Jobbörsen,
– Email-Suchmaschinen. http://mesa.rrzn.uni-hannover.de/
4.2
Die Sprache des WWW: HTML
Im Jahr 1989/90 schlägt Tim Berners-Lee in
Information Management: A Proposal“
”
eine Hypertext-Sprache vor: HTML oder
Hypertext-Markup-Language.
HTML basiert auf einer bereits existierenden Sprache SGML:
Standard Generalized Markup Language,
standardisiert durch ISO-Norm 8879.
Markup Language oder auch Auszeichnungssprache bedeutet: die logischen Bestandteile eines Dokumentes wie Überschriften, Kapitel, Aufzählungen sind im
Dokument durch spezielle Befehle markiert.
Im Gegensatz dazu stehen WYSIWYG-Systeme ( What you see is what you
”
get“): Der Autor rückt am Bildschirm das Dokument zurecht. Die Druckausgabe
entspricht genau dem Entwurf am Bildschirm. Beispielhafte Vertreter dieser Art
von Dokumenten sind PDF, PostScript, MS-Word.
4.2.1
SGML
Die Auszeichnungssprache SGML, ursprünglich nur GML, entstand 1969/70
im Rahmen eines Projektes bei IBM. Geplant war die Automatisierung von
Abläufen in Anwaltskanzleien. Der Zugriff auf und die Weiterverarbeitbarkeit
von
• Gesetzestexten,
• Urteilen,
• Kommentaren,
• Laufender Korrespondenz
soll ermöglicht werden.
Der Name GML wurde wegen der 3 Projektmitglieder
C. Goldfarb — E. Mosher — R. Lorie
gewählt.
SGML wird bei der Verwaltung von sehr großen Dokumenten verwendet, insbesondere:
• Herstellerangaben zur Flugzeugwartung (Boeing)
• Telekommunikationsfirmen
• Halbleiterhersteller.
4
4.2.2
HTML
Berners-Lee verwendete für HTML eine kleine Untermenge von SGML. Der
zukünftige WWW-Standard XML ist ebenfalls eine Untermenge von SGML.
HTML geht von einer hierarchischen Gliederung aus, beschreibt die Struktur
eines Dokumentes.
• Es werden globale Dokumenteigenschaften festgelegt, wie Titel, Hintergrundfarbe, . . .
• Der Inhalt wird in Elemente aufgeteilt: z.B. Überschrift 1. Ordnung, Überschrift 2. Ordnung, Absatz, hervorgehobene Textstellen, Aufzählung: Punkt
1, Punkt 2, . . .
Der Text enthält Auszeichnungen“, die den Beginn eines Text-Elementes und
”
das Ende eines Elementes anzeigen.
Diese Auszeichnungen“ sind im Text sichtbar enthalten: HTML ist ein soge”
nanntes Klartext-Format.
5
6
Dies hat zur Folge, daß HTML-Dateien mit jedem beliebigen Editor erstellt werden können. Der Autor ist nicht an ein kommerzielles Software-Paket gebunden.
Die Klartext-Befehle von HTML sind für Maschine und Mensch gedacht. Mittlerweile gibt es eine nahezu unüberschaubare Vielfalt von HTML-Editoren, die
auch Anfängern das Erzeugen von HTML-Dateien ermöglichen.
Die Klartext-Befehle haben einen weiteren Vorteil: Es ist nicht schwer, Programme zu schreiben, die HTML-Text erzeugen. Dies erleichtert das Generieren von
HTML-Seiten aufgrund einer Benutzeranfrage.
4.2.3
Rückschläge
Natürlich wurde HTML seit der Einführung durch Tim Berners-Lee weiterentwickelt. Der kommerzielle Druck veranlaßte die beiden großen Hersteller von
Browsern
• Microsoft
• Netscape
eigene Sprachelemente zu HTML hinzuzufügen.
Diese Browser-spezifischen Auszeichnungen sind nicht immer kompatibel. Es
existiert eine Kommission beim W3-Consortium http://www.w3.org die einen
HTML-Standard definiert. Leider halten sich die Hersteller der Browser nicht
immer daran.
Der momentan aktuelle Standard ist HTML 4.0.
Da dieser Standard jedoch nur sehr unzureichend implementiert ist, werden wir
uns in etwa an HTML 3, 3.1 orientieren.
4.3
Tags (Auszeichnungen) in HTML
Die HTML-Datei:
• HTML-Dateien bestehen aus ASCII-Text
• Der Dateiname sollte die Endung .html oder .htm haben.
• HTML-Tags (Auszeichnungen) werden durch < und > eingeklammert.
Das heißt, alle Zeichen, die zwischen < und dem nächsten > stehen, werden
vom Browser als HTML-Befehl interpretiert.
• Browser sind im allgemeinen recht gutmütig“: Wird ein HTML-Befehl
”
nicht erkannt, oder steht er an der falschen Stelle, wird er vom Browser
möglichst ignoriert.
• Fast alle HTML-Befehle bestehen aus 2 Tags: einem einleitenden und einem abschließenden Tag.
• Der abschließende Tag sieht genauso aus wie der einleitende Tag, es wird
lediglich ein / hinzugefügt.
Ein Beispiel:
Dieses Wort wird <b>fett</b> geschrieben. Der gesamte Text, der zwischen <b> und </b> enthalten ist, wird fettgedruckt wiedergegeben.
7
Wir probieren es gleich aus:
Kurzübung
• Klein-/Großschreibung wird bei Tags nicht unterschieden. In Hinblick auf
zukünftige Entwicklungen ist aber Kleinschreibung zu empfehlen.
• Tags können ineinander verschachtelt werden: <i><b>Text...</b></i>.
Ausprobieren:
Kurzübung
• Tags können zusätzliche Angaben, sogenannte Attribute enthalten:
<p align=center>...</p>.
Streng genommen, sollte man <p align="center">...</p> schreiben,
dabei dürfen keine Leerzeichen vor und nach dem =-Zeichen stehen.
Kurzübung
• Die Browser ignorieren sogenannten whitespace“, d.h. mehrere aufein”
anderfolgende Leerzeichen, Zeilenumbrüche, Tabulatoren werden als ein
Leerzeichen interpretiert. Insbesondere Zeilenumbrüche werden vom Browser in Abhängigkeit von der Fensterbreite selbst eingefügt.
Kurzübung
4.4
Das Grundgerüst einer HTML-Datei
Eine sauber geschriebene HTML-Datei sollte aus folgendem Grundgerüst bestehen:
<html>
<head>
<title>...</title>
...
</head>
<body>
...
</body>
</html>
Der header, d.h. der Bereich von <head> bis </head>, enthält allgemeine Information zur Datei, z.B. den Titel, aber auch Schlüsselwörter, die speziell für
die Suchmaschinen gedacht sind.
Der body, d.h. der Bereich von <body> bis </body> enthält den eigentlichen
(sichtbaren) Text.
Markieren Sie einige Worte als fettgedruckt im folgenden Grundgerüst:
Kurzübung
4.5
Unsere ersten Formatierungsbefehle
Wir wollen mit einigen Tags zur physischen Schriftauszeichnung beginnen:
• <b>: fettgedruckt
8
• <i>: kursiv
• <u>: unterstrichen
• <tt>: nichtproportional – Schreibmaschinenschrift
• <blink>: Raten Sie selbst.
Bitte sofort ausprobieren: Markieren Sie die Wörter mit den richtigen HTMLBefehlen.
Kurzübung
Befehle zur logischen Schriftauszeichnung:
• <em>: betonter“ Text
”
• <strong>: stark betonter“ Text
”
• <code>: wird als Quellcode“ interpretiert
”
• <cite>: Zitat
• <blockquote>: Zitat in eigenem Abschnitt
• <address>: Formatierung von email-Adressen (etwas veraltet)
In der Übung sehen Sie, daß das Ergebnis nicht unbedingt zu erwarten ist:
Kurzübung
Es werden 6 Überschriften unterschieden:
• <h1>...</h1>, <h2>...</h2>, . . . , <h6>...</h6>.
Kurzübung
Absätze werden durch <p> eingefügt, der End-Tag </p> ist dabei nicht zwingend
notwendig.
Zeilenumbrüche können mit <br> vom Autor erzwungen werden. Hier ist ein
End-Tag ebensowenig nötig wie bei einer horizontalen Linie: <hr>.
Kurzübung
9
Literaturverzeichnis
[1] Born, Günter: Referenzhandbuch Dateiformate, Addison-Wesley (1996).
[2] Bruns, B., Gajewski, P.: Multimediales Lernen im Netz, Springer-Verlag
(1999).
[3] Bush, Vannevar: As we may think, in The Atlantic Monthly, July 1945,
siehe http://www.w3.org/History/1945/vbush/
[4] Haaß, Wolf-Dieter: Handbuch der Kommunikationsnetze, Springer-Verlag
(1997).
[5] Hauben,
Michael:
History
of
ARPANET,
http://www.dei.isep.ipp.pt/docs/arpa-Contents.html
siehe
[6] Klau, Peter: Das Internet, Thomson Publishing (1995).
[7] Krol, Ed: Die Welt des Internet, O’Reilly-Verlag (1995).
[8] Levine, John, Young, Margaret: More Internet für Dummies, Thomson Publishing (1996).
[9] Stefan
Münz:
SELFHTML,
http://www.teamone.de/selfhtml
erhältlich
bei
[10] Rost, Martin, Schack, Michael (Hrsg.): Der Internet Praktiker (1995),
Heise-Verlag.
[11] Schulmeister, Rolf: Grundlagen hypermedialer Lernsysteme, AddisonWesley (1996).
10