Suchmaschinenoptimierung mit Content Management Systemen
Transcription
Suchmaschinenoptimierung mit Content Management Systemen
Suchmaschinenoptimierung mit Content Management Systemen Stefanie Poltschak DIPLOMARBEIT eingereicht am Fachhochschul-Masterstudiengang Digitale Medien in Hagenberg im Juni 2006 c Copyright 2006 Stefanie Poltschak ° Alle Rechte vorbehalten ii Erklärung Hiermit erkläre ich an Eides statt, dass ich die vorliegende Arbeit selbstständig und ohne fremde Hilfe verfasst, andere als die angegebenen Quellen und Hilfsmittel nicht benutzt und die aus anderen Quellen entnommenen Stellen als solche gekennzeichnet habe. Hagenberg, am 21. Juni 2006 Stefanie Poltschak iii Inhaltsverzeichnis Erklärung iii Vorwort ix Kurzfassung x Abstract xi 1 Einleitung 1.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Warum Suchmaschinenoptimierung? . . . . . . . . . . . . . . 1.3 Suchmaschinenoptimierung in Kombination mit Content Management Systemen . . . . . . . . . . . . . . 1 1 1 2 Suchdienste: Der Schlüssel zum Web 2.1 Grundtypen und Formen von Suchdiensten . . . . . . . 2.1.1 Webkataloge . . . . . . . . . . . . . . . . . . . . 2.1.2 Suchmaschinen . . . . . . . . . . . . . . . . . . . 2.1.3 Metasuchmaschinen . . . . . . . . . . . . . . . . 2.1.4 Weblog-Suchmaschinen . . . . . . . . . . . . . . 2.2 Grundlegende Arbeits- und Funktionsweise von Suchmaschinen . . . . . . . . . . . . . . . . . . . . . 2.2.1 Datenbeschaffung . . . . . . . . . . . . . . . . . . 2.2.2 Analyse und Indexaufbau . . . . . . . . . . . . . 2.2.3 Verarbeitung von Suchanfragen . . . . . . . . . . 2.3 Rankingverfahren . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Seiteninterne Parameter zur Relevanzbewertung 2.3.2 Seitenexterne Parameter zur Relevanzbewertung 2.4 Aufnahme in die Suchmaschine . . . . . . . . . . . . . . 2.4.1 Manuelle Eintragung . . . . . . . . . . . . . . . . 2.4.2 Automatische Eintragung . . . . . . . . . . . . . 2.4.3 Aufnahmedauer . . . . . . . . . . . . . . . . . . . 2.5 Bezahlte Plätze im Suchergebnis . . . . . . . . . . . . . iv 3 . . . . . . . . . . . . . . . 5 5 6 7 8 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 10 11 12 12 14 17 18 18 18 19 INHALTSVERZEICHNIS v 3 Methoden der Suchmaschinenoptimierung 3.1 OnPage-Optimierung . . . . . . . . . . . . . . 3.1.1 Konzeptionelle Vorbereitungen . . . . 3.1.2 Standardkonformität . . . . . . . . . . 3.1.3 Einsatz von Cascading Style Sheets . . 3.1.4 Seitenstruktur . . . . . . . . . . . . . 3.1.5 Suchmaschinenfreundliche URLs . . . 3.1.6 Optimierung durch Tags . . . . . . . . 3.2 OffPage-Optimierung . . . . . . . . . . . . . . 3.2.1 Wahl des Domainnamen . . . . . . . . 3.2.2 Steigerung der Linkpopularität . . . . 3.2.3 Backlink Analyse . . . . . . . . . . . . 3.3 Suchmaschinen-Spamming . . . . . . . . . . . 3.3.1 Doorway Pages . . . . . . . . . . . . . 3.3.2 Cloaking . . . . . . . . . . . . . . . . . 3.3.3 Keyword Stuffing . . . . . . . . . . . . 3.3.4 Domain und Content Dubletten . . . . 3.3.5 Linkfarmen und Linklisten . . . . . . 3.3.6 Kreuzverlinkung . . . . . . . . . . . . 3.3.7 Kampf gegen Kommentar-Spam . . . 3.3.8 Weitere Manipulationstechniken . . . 3.4 Suchmaschinenoptimierung als Dienstleistung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 22 22 23 24 25 26 27 32 32 32 33 35 35 36 36 36 37 37 37 38 39 4 Aufbereitung der Inhalte 4.1 Contentorientierte Suchmaschinenoptimierung 4.2 Schlüsselwörter finden und optimieren . . . . 4.2.1 Ideensammlung . . . . . . . . . . . . . 4.2.2 Suchbegriffe der Zielgruppe nutzen . . 4.2.3 Logfiles und Webstatistiken auswerten 4.2.4 Die Konkurrenz als Inspiration . . . . 4.2.5 Einsatz von Keyword Tools . . . . . . 4.2.6 Realistisches Ziel verfolgen . . . . . . 4.2.7 Begriffskombinationen . . . . . . . . . 4.2.8 Eigenschaften von Schlüsselwörtern . . 4.2.9 Endgültige Auswahl . . . . . . . . . . 4.3 Verwendung der Schlüsselwörter im Content . 4.3.1 Keyword-Dichte . . . . . . . . . . . . 4.3.2 Position der Schlüsselwörter im Text . 4.4 Textgestaltung . . . . . . . . . . . . . . . . . 4.4.1 Gliederung . . . . . . . . . . . . . . . 4.4.2 Strukturierung eines Webtextes . . . . 4.4.3 Auszeichnungen im Text . . . . . . . . 4.5 Interesse wecken . . . . . . . . . . . . . . . . 4.5.1 Informationswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 42 43 43 44 44 44 45 46 47 48 50 51 51 51 52 52 52 54 55 55 INHALTSVERZEICHNIS 4.6 4.5.2 Aktualität . . . . . . . 4.5.3 Extravaganz . . . . . . 4.5.4 Kostenlose Downloads Inhalte im Internet verbreiten 4.6.1 Content Hosting . . . 4.6.2 Artikel-Verzeichnisse . vi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Gegenüberstellung von Content Management Bezug auf Suchmaschinenoptimierung 5.1 Web Content Management Systeme . . . . . . 5.1.1 Weblog Publishing Systeme . . . . . . . 5.2 Suchmaschinenoptimierung mit Content Management Systemen . . . . . . . . . . . . . . 5.3 Suchmaschinenoptimierung mit Typo3 . . . . . 5.3.1 Valider Quellcode . . . . . . . . . . . . . 5.3.2 Suchmaschinenfreundliche URLs . . . . 5.3.3 Seitentitel . . . . . . . . . . . . . . . . . 5.3.4 Meta Tags . . . . . . . . . . . . . . . . . 5.3.5 Alt, Title Attribut . . . . . . . . . . . . 5.3.6 SEO Erweiterungen für Typo3 . . . . . 5.3.7 Weblogs in Typo3 . . . . . . . . . . . . 5.3.8 RSS/Atom-Feed Import und Export . . 5.3.9 Fazit . . . . . . . . . . . . . . . . . . . . 5.4 Suchmaschinenoptimierung mit Joomla! . . . . 5.4.1 Valider Quellcode . . . . . . . . . . . . . 5.4.2 Suchmaschinenfreundliche URLs . . . . 5.4.3 Seitentitel . . . . . . . . . . . . . . . . . 5.4.4 Meta Tags . . . . . . . . . . . . . . . . . 5.4.5 Alt, Title Attribut . . . . . . . . . . . . 5.4.6 Joomla SEF Patch . . . . . . . . . . . . 5.4.7 OpenSEF . . . . . . . . . . . . . . . . . 5.4.8 Weblogs in Joomla! . . . . . . . . . . . . 5.4.9 RSS/Atom-Feed Import und Export . . 5.4.10 Fazit . . . . . . . . . . . . . . . . . . . . 5.5 Suchmaschinenoptimierung mit WordPress . . 5.5.1 Valider Quellcode . . . . . . . . . . . . . 5.5.2 Suchmaschinenfreundliche URLs . . . . 5.5.3 Seitentitel . . . . . . . . . . . . . . . . . 5.5.4 Meta Tags . . . . . . . . . . . . . . . . . 5.5.5 Technorati Tags . . . . . . . . . . . . . 5.5.6 Alt, Title Attribut . . . . . . . . . . . . 5.5.7 SEO Erweiterungen für WordPress . . . 5.5.8 RSS/Atom-Feed Import und Export . . 5.5.9 Track- und Pingbacks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 58 59 59 59 59 Systemen in 61 . . . . . . . . 62 . . . . . . . . 63 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 66 67 69 70 71 72 73 74 75 76 77 77 77 78 79 79 79 80 82 83 83 84 84 84 85 86 87 88 88 90 91 INHALTSVERZEICHNIS vii 5.5.10 Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 6 SenoCMS, Content Management System für suchmaschinen93 optimierten Webseitenaufbau 6.1 Struktureller Aufbau, Templategenerierung . . . . . . . . . . 94 6.1.1 Strukturen . . . . . . . . . . . . . . . . . . . . . . . . 94 6.1.2 Templates . . . . . . . . . . . . . . . . . . . . . . . . . 96 6.1.3 Cascading Stylesheets . . . . . . . . . . . . . . . . . . 96 6.2 Suchmaschinenfreundliche URLs . . . . . . . . . . . . . . . . 97 6.2.1 URL Aufbau . . . . . . . . . . . . . . . . . . . . . . . 97 6.3 Optimierung durch Tags . . . . . . . . . . . . . . . . . . . . . 97 6.3.1 Title Tag . . . . . . . . . . . . . . . . . . . . . . . . . 97 6.3.2 Meta Tags . . . . . . . . . . . . . . . . . . . . . . . . . 98 6.3.3 Link Title Attribut . . . . . . . . . . . . . . . . . . . . 99 6.4 Inhaltspflege . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 6.4.1 FCKeditor . . . . . . . . . . . . . . . . . . . . . . . . 99 6.4.2 Standardkonformität . . . . . . . . . . . . . . . . . . . 99 6.4.3 Alt und Title Attribut als Pflichtfeld . . . . . . . . . . 100 6.5 SEO Report . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 6.5.1 Potenzielle Keywords finden und überwachen . . . . . 100 6.5.2 Google PageRank . . . . . . . . . . . . . . . . . . . . 105 6.5.3 Kontrolle der Linkpopularität . . . . . . . . . . . . . . 105 6.5.4 Eintrag im Verzeichnis DMoz . . . . . . . . . . . . . . 106 6.6 Seitengenerierung . . . . . . . . . . . . . . . . . . . . . . . . . 107 7 Schlussbemerkungen A SenoCMS Systemdokumentation A.1 Systemanforderungen . . . . . . . . . . . . . . A.1.1 Webserver . . . . . . . . . . . . . . . . A.1.2 Browser . . . . . . . . . . . . . . . . . A.1.3 Einstellungen . . . . . . . . . . . . . . A.2 Systemkomponenten . . . . . . . . . . . . . . A.2.1 PHP5 . . . . . . . . . . . . . . . . . . A.2.2 Smarty Template Engine, SmartyDoc A.2.3 ADOdb Database Abstraction Library A.2.4 Ajax, Xajax . . . . . . . . . . . . . . . A.2.5 FCKeditor . . . . . . . . . . . . . . . A.3 Architektur . . . . . . . . . . . . . . . . . . . A.3.1 Package seno . . . . . . . . . . . . . . A.3.2 Package site . . . . . . . . . . . . . . . A.4 Umsetzung, CMS Grundfunktionalitäten . . . A.4.1 Installation SenoCMS . . . . . . . . . A.4.2 Superadministration . . . . . . . . . . 111 . . . . . . . . . . . . . . for . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . PHP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 . 113 . 113 . 113 . 113 . 113 . 113 . 114 . 114 . 114 . 116 . 116 . 117 . 117 . 118 . 118 . 118 INHALTSVERZEICHNIS viii A.4.3 Anlegen einer Site . . . . . . . . . . . . . . . . . . . A.4.4 Konfiguration . . . . . . . . . . . . . . . . . . . . . . A.4.5 Sprachen . . . . . . . . . . . . . . . . . . . . . . . . A.4.6 Session Management . . . . . . . . . . . . . . . . . . A.4.7 Nested Set Modell, Abbildung von Baumstrukturen A.5 Administrationsoberfläche . . . . . . . . . . . . . . . . . . . A.5.1 Icons . . . . . . . . . . . . . . . . . . . . . . . . . . . A.5.2 SenoCMS Logo . . . . . . . . . . . . . . . . . . . . . A.5.3 JSCookMenu . . . . . . . . . . . . . . . . . . . . . . A.5.4 OverLIB . . . . . . . . . . . . . . . . . . . . . . . . . A.5.5 Browserkompatibilität . . . . . . . . . . . . . . . . . B Inhalt der CD-ROM B.1 Diplomarbeit . . . . . B.2 SenoCMS . . . . . . . B.2.1 Package seno . B.2.2 Package site . . B.2.3 Dokumentation B.3 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 119 119 119 120 122 122 122 122 122 122 . . . . . . 124 124 124 124 124 125 125 AbkürzungsverzeichnisABC 128 Literaturverzeichnis 130 Vorwort Hinter dem kompakt gewählten Titel Suchmaschinenoptimierung mit Content Management Systemen verbirgt sich ein weit umfangreicheres, komplexverwinkeltes und nicht allgemein einsichtiges Themengebiet, als man vielleicht erwarten würde. Gerade diese Tatsache, die Information nicht direkt serviert zu bekommen, machte es für mich besonders interessant, sich dem Thema, das mit wachsendem Datenbestand im Internet eine immer größere Rolle spielen wird, vertiefend zu widmen. Bedingt durch die Schnellläufigkeit und Aktualität der Thematik erwies sich das Internet für mich als wichtige Informationsquelle. Ohne intensive Online- Recherche wäre es mir nicht möglich gewesen, das Thema von so vielen Seiten zu betrachten, die unterschiedlichste Sichtweisen berücksichtigen. Um Aktualität bemüht sind ebenso, die in der vorliegenden Arbeit vorgestellten Methoden, Ideen und Anwendungen, die allesamt auf den neuesten Erkenntnissen zum Zeitpunkt des Erscheinens, beruhen. Mein spezieller Dank gilt Herrn Mag. Dipl.-Ing. Dr. Andreas Stöckl für die Betreuung und die zahlreichen bereichernden Diskussionen und wertvollen Hinweise, die mir eine große Hilfe waren. Bedanken möchte ich mich an dieser Stelle bei meinen Eltern, die mir mein Studium ermöglicht und mir stets unterstützend zur Seite gestanden sind. Im Weiteren geht mein Dank, insbesondere für den anregenden Ideenaustausch, an meine Geschwister, meinen Freund Martin, sowie meine Studienkollegen und Freunde. ix Kurzfassung Der Wert von Suchmaschinen als Wegweiser im World Wide Web (WWW) ist in den letzten Jahren, vor allem durch die unermessliche Datenflut, der man sich im Internet gegenübersieht, enorm gestiegen. Die Möglichkeit, Suchmaschinen zur Vermarktung der eigenen Webpräsenz zu nutzen, und so die Besucherzahlen steigern zu können, blieb nicht lange unentdeckt, ebenso wie die Tatsache, dass im Speziellen die ersten Treffer einer Suchanfrage auf sich aufmerksam machen. Unter dem Begriff Suchmaschinenoptimierung entstanden und entstehen durch neue Überlegungen laufend Methoden, wie durch entsprechende Aufbereitung von Webseiten diese zu gezielten Suchbegriffen top plaziert gefunden werden können. War es ursprünglich den Webautoren weitgehend selbst möglich, den Dokumenten über Metaangaben eine inhaltliche Zusammenfassung mitzugeben, die zur Seitenbewertung von Suchmaschinen genutzt wurde, so haben sich die Ranking- und Optimierungsmethoden mittlerweile zu einer eigenen Wissenschaft entwickelt. Als interessant und zukunftsträchtig erweist sich die Thematik rund um optimalen Webseitenaufbau für Suchmaschinen im Besonderen in Kombination mit Content Management Systemen (CMS). Suchmaschinenoptimierung ist ein kontinuierlicher Prozess, der optimaler Weise von Beginn der Entwicklung an verfolgt wird. Die Überlegung liegt daher nahe, die konsequente Optimierung über das CMS zu überwachen und den Entwickler weitmöglichst automatisiert zu unterstützen. Die Ausarbeitung, welche Aspekte ausschlaggebend für eine gute Platzierung bei Suchmaschinen sein können, und wie weit sich der Prozess der Suchmaschinenoptimierung in CMS integrieren lässt, ist Ziel dieser Arbeit. Dazu wird beleuchtet, welche Möglichkeiten bestehende Systeme bieten und wo noch Verbesserungspotenzial besteht. Anhand des als Praxisbeispiel implementierten Content Management System SenoCMS wird gezeigt, wie optimale Aufbereitung der Webseiten für Suchmaschinen unter Einsatz eines CMS erreicht werden kann. x Abstract Due to the incalculable amount of data one is faced with on the Internet, the value of search engines has increased enormously. The possibility of using search engines as a marketing tool to boost the number of visitors did not remain undiscovered for very long in addition to the fact that the first shown search results seem to be most attractive. For search engine optimization purposes, a number of methods to optimally prepare webpages exist, and they are increasing even more in number day by day. While primarily the metadata was set by the web authors to deliver a summery of the contents to search engines, which were used for ranking, nowadays ranking and optimization methods have developed into their own science. The topic surrounding the optimization of webpages for search engines in combination with Content Management Systems (CMS) proves to be an interesting and promising field of activity. Search engine optimization is a continuous process that is, in the best case, started at the very beginning of development. Taking this into account, a consistent optimization controlled by the CMS which tries to support the developer as much as possible is self-evident. The main goal of this thesis is to show the aspects which can be crucial for a good placement, as well as how far the process of search engine optimization can be integrated within the CMS. For this reason the possibilities offered by existing systems are highlighted. The Content Management System SenoCMS, implemented as a practical example, shows how webpages can be prepared optimally using a CMS. xi Kapitel 1 Einleitung 1.1 Zielsetzung Ziel der Diplomarbeit ist es zu zeigen, welche Faktoren dafür ausschlaggebend sind, mit einer Website eine gute Platzierung bei Suchmaschinen erreichen zu können. Im Zentrum stehen dabei zwei Fragen: • Wie können Webseiten optimal für Suchmaschinen aufgebaut werden? • Wie kann dieser Prozess möglichst automatisiert ablaufen? Besonders beleuchtet wird die Rolle der Suchmaschinenoptimierung beim Einsatz von Content Management Systemen (CMS). Welche Unterstützung sich Entwickler von bestehenden Systemen erwarten können und welche Kenntnisse für eine konsequente Optimierung notwendig sind, soll durch einen Vergleich verdeutlicht werden. Als praktischer Teil der Arbeit zeigt das speziell auf Suchmaschinenoptimierung ausgelegte Content Management System SenoCMS, wie optimaler Webseitenaufbau mittels CMS erreicht werden kann. 1.2 Warum Suchmaschinenoptimierung? Search engines are the most important avenue for driving visitors to your site. Dieser Vergleich aus [7] verdeutlicht wie wichtig Suchmaschinen sind, um möglichst viele Menschen auf den eigenen Webauftritt aufmerksam zu machen und auf eine Seite zu leiten. Immerhin sind Suchmaschinen für rund 80% aller Anwender Ausgangspunkt der Informationsbeschaffung im Internet. Erscheint also der eigene Webauftritt in den vorderen Plätzen der Ergebnisseiten, englisch kurz Search Engine Result Pages (SERP), so wird der Benutzer mit hoher Wahrscheinlichkeit auf das Angebot neugierig werden. Und genau das ist es, was Suchmaschinenoptimierung erreichen will. 1 KAPITEL 1. EINLEITUNG 2 Eine im März 2005 im Auftrag von Enquiro1 , Did-it2 und Eyetools3 durchgeführte Studie zeigt deutlich, welche Suchergebnisse besondere Aufmerksamkeit des Informationssuchenden erfahren. Dabei wurde mittels spezieller Eye-Tracking-Tools verfolgt, wohin sich die Augen eines Benutzers auf einer Ergebnisseite der Suchmaschine Google wenden. Wie Abbildung 1.1 zeigt, konzentriert sich die Aufmerksamkeit auf die ersten drei bis vier Suchergebnisse. Aufgrund der Form des Bereichs des maximalen Interesses wird dieser auch als Goldenes Dreieck“ bezeichnet. Auch die von Google ” seitlich rechts platzierten bezahlten Suchanzeigen gehören laut dieser Studie zu den Blickfängern, jedoch wesentlich unbedeutender als die Ergebnisse aus dem Index der Suchmaschine. Weitere detailliertere Ergebnisse der Studie sind der Pressemitteilung aus [19] zu entnehmen. Abbildung 1.1: Ergebnis einer Eye-Tracking-Studie, welche Suchergebnisse besondere Aufmerksamkeit erhalten. Zur Vermarktung des eigenen Webauftritts eignen sich Suchmaschinen sehr gut als Marketing-Instrument, potenzielle Kunden folgen den Links der Suchmaschinen-Ergebnisseite freiwillig und aus eigenem Interesse. Darum sollte jede Website soweit optimiert sein, dass sie mit relevanten und angemessenen Suchbegriffen auch gefunden wird. 1 http://www.enquiro.com http://www.did-it.com 3 http://www.eyetools.com 2 KAPITEL 1. EINLEITUNG 3 Eine gute Suchmaschinen-Position erhöht den Bekanntheitsgrad, unterstützt Branding und baut Vertrauen auf. Bei vielen Produkten und Dienstleistungen lässt sich sogar eine Korrelation zwischen der Position bei Suchmaschinen und dem Umsatz erkennen. Zusätzlich kann die Position am Markt gegenüber Mitbewerbern verbessert werden, wenn die eigene Site öfter als die der Konkurrenz gefunden wird. Ein Kochrezept anzubieten, nach dem Suchmaschinenoptimierung immer funktioniert, wäre ein falscher Ansatz. Optimierung bedeutet das Bestmöglichste herauszuholen. Dieses Unterfangen ist durchaus komplex und mit einigem Zeitaufwand verbunden. Suchmaschinen verwenden zahlreiche unterschiedliche Ranking-Verfahren, um eine Webseite zu bewerten. Viele davon sind bekannt, jedoch kennt niemand den genauen Algorithmus bzw. welcher Rankingfaktor welche Rolle in der Gewichtung spielt. Außerdem darf nicht außer Acht gelassen werden, dass Google&Co ihre Algorithmen in gewissen Abständen ändern, um Manipulationen entgegen zu wirken und natürlich, um ständig bessere Suchergebnisse liefern zu können. Dennoch gibt es eine Reihe von Grundregeln zur Aufbereitung von Webseiten so, dass Crawler von Suchmaschinen den Inhalt der Seite richtig erkennen und Suchanfragen korrekt zuordnen können. Dies soll jetzt allerdings keinesfalls den Sinn einer Website, als Instrument der Kommunikation und Präsentation, trüben. Webseiten werden für Benutzer gemacht, nicht für Suchmaschinen. Wer die Arbeitsweise der Suchmaschinen, sowie auch die Ausdrucksweise der Suchenden berücksichtigt, wird mit einer guten Platzierung belohnt werden und sich über erhöhte Zugriffszahlen freuen dürfen. Hintergrundwissen zum Grundverständnis der Arbeitsweise von Suchdiensten, sowie Methoden und Vorgangsweisen zur konkreten Suchmaschinenoptimierung, versucht diese Arbeit zu vermitteln. 1.3 Suchmaschinenoptimierung in Kombination mit Content Management Systemen Immer häufiger machen sich Betreiber einer Website Gedanken, ihren Webauftritt so zu optimieren, dass ein Benutzer, der mittels Suchmaschine nach einem Begriff sucht, zu dem die Website relevante Inhalte bietet, er diese auch findet. Die klassische Vorgangsweise ist dabei, die Aufgabe an eines der zahlreichen spezialisierten Unternehmen weiterzugeben, die Suchmaschinenoptimierung als Dienstleistung anbieten. Der wichtigste Experte auf diesem Gebiet ist jedoch der Sitebetreiber selbst, dessen Ziele und Absichten sich schwer delegieren lassen. Es wird auch niemand anderer ein größeres Interesse haben, die Optimierung konsequent durchzuführen, um nicht nur flüchtige sondern qualifizierte Besucher, potenzielle Kunden auf sich aufmerksam zu machen. Daher liegt es nahe, den Prozess der Suchmaschinenoptimierung von Beginn an in die Entwicklung zu integrieren. KAPITEL 1. EINLEITUNG 4 Content Management Systeme werden verbreitet dazu eingesetzt Webseiten zu verwalten und Inhalte bequem ohne Programmierkenntnisse zu warten. Ein optimales Szenario wäre es also für den Betreiber einer Website, ohne großes Expertenwissen, vom CMS in der Optimierung unterstützt zu werden. Die Optimierung einer Seite endet nicht mit dessen Aufbau, sondern ist ein kontinuierlicher Prozess. Neben dem strukturell sauberen Aufbau spielt auch die Aufbereitung der Inhalte eine nicht zu unterschätzende Rolle für Suchmaschinen, worauf in einem eigenen Kapitel gezielt eingegangen wird. Welche Möglichkeiten der Suchmaschinenoptimierung bestehende Systeme bieten, welche Unterstützung sich ein Entwickler erwarten kann und wie optimale Aufbereitung für Suchmaschinen beim Einsatz eines Content Management Systems aussehen kann, wird diese Arbeit behandeln. Kapitel 2 Suchdienste: Der Schlüssel zum Web Suchdienste im Internet werden richtigerweise häufig als Schlüssel zum Web bezeichnet. Eine Großzahl an Benutzern benutzt Suchhilfen tagtäglich um Information zu einem gewünschten Thema, Dienstleistungen oder Produkte zu finden. Die Nutzung von Suchdiensten ist häufig die einzige Möglichkeit, schnell und effektiv Informationen auffinden zu können, und so auch in den ständig wachsenden Informationsmengen des Internets Orientierung bewahren zu können. Dieses Kapitel gibt eine Übersicht über das Angebot an Suchdiensten, vermittelt deren grundlegende Funktionsweise und stellt Verfahren zur Relevanzbewertung vor. Außerdem wird auf den Aufnahmeprozess in den Suchmaschinenindex, sowie die Möglichkeit, bezahlte Anzeigen in den Ergebnislisten zu schalten, eingegangen. 2.1 Grundtypen und Formen von Suchdiensten Die hohe Bedeutung, Mechanismen zu schaffen, die dafür sorgen Struktur in den Datenbestand des Webs zu bringen, um den Suchenden schnell ein möglichst befriedigendes Ergebnis liefern zu können, führte zur Entwicklung von Diensten, die weitläufig als Suchmaschinen“ bezeichnet werden, aller” dings in ihrer Konzeption und Funktion sehr unterschiedlich sein können. Je nach Arbeitsweise, Art des Datenbestandaufbaus, dessen Verwaltung und Archivierung, lassen sich diese Dienste in die beiden Grundtypen, Webkatalog und Suchmaschine, unterteilen, die im Folgenden hier näher beschrieben werden. 5 KAPITEL 2. SUCHDIENSTE: DER SCHLÜSSEL ZUM WEB 2.1.1 6 Webkataloge Webkataloge, häufig auch als Verzeichnisse bezeichnet, sind gemeinsam mit Suchmaschinen die entscheidenden Navigationshilfen im Internet. Es handelt sich hierbei um Sammlungen von Websites, die nach bestimmten Themen sortiert und katalogisiert sind. Die meisten bekannten, großen Webkataloge sind redaktionell betreut. Alle Einträge werden also vor der Aufnahme in den Datenbestand von Editoren manuell gesichtet, bewertet und nach Kategorien unterteilt. Die Redakteure von Webkatalogen leisten durch ihre Tätigkeit der Informationssammlung, Sichtung und der Entwicklung von Taxonomien sowie der Katalogisierung das, was Bibliotheken für Print-Medien übernehmen. Sie erstellen eigene Beschreibungen für die Sites und definieren geeignete Suchwörter. Dies bringt den Vorteil mit sich, dass ein Treffer zu einem solchen Suchwort auch tatsächlich Information dazu beinhalten wird, es sei denn die Inhalte der Site haben sich seit der letzten manuellen Überprüfung geändert. Durch ihre redaktionelle Kontrolle erreichen Webverzeichnisse im Durchschnitt eine höhere Qualität, wobei die Qualität natürlich stark von ihren Redaktionen abhängig ist. Problematisch ist der hohe Aufwand und der damit verbundene große Bedarf an Mitarbeitern, um die Aktualität eines umfassendenden Verzeichnisses gewährleisten zu können. Zusätzlich wird es bei großen Datenbeständen schwierig, relevante Webseiten in der Menge auch zu finden. Die Gefahr, dass nicht mehr existierende Webseiten referenziert werden, ist ein weiterer unter den Mängeln, die moderne Verzeichnisse dazu veranlasst hat ihren Dienst mit verschiedenen erweiterten, teilweise automatisierten Mechanismen auszustatten. Diese beinhalten beispielsweise manuelle wie automatische Bewertungssysteme, die Auswertung des Klickverhaltens der Benutzer, sowie den Einsatz von Robots zur Überprüfung der Links. Technische Optimierung der Seiten ist nicht nötig, um in Verzeichnissen aufgenommen und gelistet zu werden. Auch Tricks, die Suchmaschinenoptimierer für ein besseres Ranking häufig anwenden, sind hier irrelevant, können höchstens Schaden anrichten, wenn sie von Redakteuren entdeckt werden. Entscheidend ist weit mehr, die Qualität und Relevanz des Angebots. Für das Ranking in Suchmaschinen ist es bedeutsam bei großen Webkatalogen wie Yahoo!1 und vor allem dem Open-Directory Webkatalog2 gelistet zu sein. Das Open-Directory Projekt, oder DMoz (für Directory at Mozil” la“) ist das umfangreichste von Menschen erstellte Webverzeichnis, das auf eine Gemeinschaft von über 70.000 freiwilligen Editoren aufbaut, die für die Bewertung und Aktualisierung zuständig ist. Auch hinter dem von Google angebotenen Link zum Verzeichnis verbirgt sich das Open-Directory Projekt. 1 2 http://www.yahoo.com http://dmoz.org KAPITEL 2. SUCHDIENSTE: DER SCHLÜSSEL ZUM WEB 7 Ein Eintrag im Open-Directory Webkatalog kann bei einigen Suchmaschinen (wie z. B. Google) zu einem bedeutenden Rankingschub verhelfen. Als Grund dafür gilt die hohe Vertrauenswürdigkeit der manuellen Bewertungen von seriösen Verzeichnissen. Auf eine Anmeldung der eigenen Site bei bedeutenden Webverzeichnissen darf also nicht vergessen werden, wenn das Ziel eines guten Rankings bei Suchmaschinen erreicht werden will. Yahoo! ist ein Klassiker unter den Webkatalogen, und mit 13 länderspezifischen Webkatalogen weltweit vertreten. Motiviert durch den Erfolg der konkurrienden Suchmaschine Google, versucht nun auch Yahoo! sich am Suchmaschinenmarkt zu etablieren. Aus diesem Anlass kaufte Yahoo! verstärkt existierende Suchmaschinen, so wie 2003 Overture und Inktomi. Die Bedeutung des Yahoo! Verzeichnisses ist stark in den Hintergrund gedrängt worden, woran auch die Aktualität der Einträge leidet. Während Befürworter von Webkatalogen, deren präzise, auf intellektueller Bewertung beruhenden, Suchergebnisse loben, gibt es auch genügend Kritiker. Hauptkritikpunkt ist, mit in Handarbeit erstellen Linklisten, nicht mit der Geschwindigkeit, in der der Datenbestand des WWW wächst, mithalten zu können. 2.1.2 Suchmaschinen Als Suchmaschinen bezeichnet man indexbasierte Softwareprogramme, die ihren Datenbestand automatisch aktualisieren und erweitern. Dies geschieht mittels so genannten Crawlern die das Internet beständig nach neuen oder aktualisierten Inhalten absuchen, indem jedem Link, den sie finden können, gefolgt wird. Dabei werden, die von diesen Programmen lesbaren Inhalte von Websites registriert, und an die Suchmaschine zurückgesendet, um in den Index aufgenommen werden zu können. Die Seiten werden, anders wie bei Webkatalogen, automatisch erfasst und bewertet, wodurch ein weit größerer Umfang an Websites erreicht werden kann. Zudem werden einzelne Webseiten, also nicht nur jede Site als ein Eintrag, wie bei Verzeichnissen üblich, in den Index aufgenommen. Suchmaschinen folgen bei der Bewertung der Einträge einem strikten Muster. Um der eigenen Seite auf eine Spitzenposition zu verhelfen, ist es ganz entscheidend, die Faktoren für Gewichtung und Relevanz zu kennen und diese in der Seitenoptimierung auszunutzen. Wie schon einleitend erwähnt, werden die eingesetzten Algorithmen von den Suchmaschinenbetreuern weitgehend geheimgehalten und auch immer wieder abgeändert. Damit kann es auch nie eine hundertprozentige Erfolgsgarantie, selbst bei gezielter Optimierung, geben. Die weltweit wohl bekannteste und meist genutzte Suchmaschine ist Google3 , mit einer unglaublichen Anzahl von 150 Millionen Suchanfragen 3 http://www.google.com KAPITEL 2. SUCHDIENSTE: DER SCHLÜSSEL ZUM WEB 8 pro Tag, heftig diskutiert in [12]. Anfangs als Geheimtipp gehandelt, ist Google seit Anfang 2001 zum unangefochtenen Spitzenreiter aufgestiegen. Der Webseitenindex von Google ist der größte der Welt und umfasst über 8 Milliarden Webseiten. Um sich diese enorme Anzahl zu verdeutlichen verwendet [15] den Vergleich, dass alle diese Webseiten ausgedruckt eine ca. 400 km hohen Papierstapel ausmachen würden. Zu den Großen Drei“ unter den Suchmaschinen zählen neben Google ” auch Yahoo! und MSN Search4 . 2.1.3 Metasuchmaschinen Metasuchmaschinen stellen eine weitere Form von Suchhilfen im Internet dar. Sie kennzeichnen sich dadurch, dass sie über keinen eigenen Datenbestand verfügen, sondern gezielt auf Daten anderer Suchmaschinen und Webkataloge zugreifen. Dabei bieten diese Recherche-Tools eigene Benutzeroberflächen, senden jedoch die Suchanfragen parallel an mehrere verschiedene Suchdienste weiter. Die Ergebnisse werden wieder in eigenen Suchergebnislisten dargestellt, in denen doppelte Ergebnisse eliminiert werden. Zur Bestimmung der Rangreihenfolge wenden Metasuchmaschinen meist ihre eigenen Kriterien an. Problematisch ist es, die Relevanzbeurteilungen der zuliefernden Suchdienste zu übernehmen, da deren Verfahren sehr unterschiedlich sein können und so keinesfalls vergleichbar sind. Zur klaren Definition wann sich ein Dienst als Metasuchmaschine bezeichnen darf, existieren sieben Kriterien, die in [9, S. 27–28] nachgelesen werden können. Große internationale Metasuchmaschinen sind MetaCrawler5 oder Dogpile6 . 2.1.4 Weblog-Suchmaschinen Aufgrund der immer größer werdenden Verbreitung von Weblogs7 sind Weblog-Suchmaschinen speziell für Weblog-Inhalte entstanden. Weblog-Suchmaschinen sind eine spezielle Art von Suchmaschinen, die nicht mit Webcrawler-Systemen arbeiten, sondern durch Anpingen von Weblogs über kürzlich aktualisierte Einträge informiert werden und diese binnen kürzester Zeit in den Index aufnehmen. Damit sind aktuelle Inhalte von Weblogs nur wenige Minuten nach Liveschaltung bereits über Weblog-Suchmaschinen auffindbar. Technorati8 ist eine der größten Echtzeit-Weblog-Suchmaschinen. Ende Mai 2006 betrug der Datenbestand im Index von Technorati etwa 42 Millionen Sites und 2,5 Milliarden Links. Nach eigenen Angaben kommen täglich 4 http://search.msn.com http://www.metacrawler.com 6 http://www.dogpile.com 7 Websites, die aus einer Mischung von periodisch neuer Einträge und Kommentaren bestehen und interessierte Leser regelmäßig über Neuigkeiten informieren 8 http://www.technorati.com 5 KAPITEL 2. SUCHDIENSTE: DER SCHLÜSSEL ZUM WEB 9 etwa 70.000 neue Weblogs hinzu. Zur Relevanzermittlung wird ähnlich dem Google PageRank-Verfahren (siehe Abschnitt 2.3.2) die Anzahl der Links, die auf eine Seite verweisen, bestimmt. Die von Technorati indexierten Weblogs samt Postings werden in einem thematisch unterteilten Verzeichnis katalogisiert und können auch über so genannte Tags, die ein Themengebiet repräsentieren, durchsucht werden. Diese Tags, die Weblog-Einträge klassifizieren, können vom Autor eines Weblogs durch das zusätzliche Attribut rel="tag" eines Links vordefiniert werden. Neben der Weblog-Suchmaschine Technorati bietet auch Google eine Blog-Suche9 in Beta-Version, genauso wie sich auch z. B. Feedster10 , Plazoo11 oder IceRocket12 auf die Indexierung von Weblogs, präziser ausgedrückt der Newsfeeds, spezialisiert haben. 2.2 Grundlegende Arbeits- und Funktionsweise von Suchmaschinen Eine Suchmaschine durch Abschicken einer Suchanfrage dazu zu bewegen, Milliarden von Webseiten live zu durchsuchen, ist natürlich ein Irrglaube. Tatsächlich wird im erstellten Index der Suchmaschinen nach möglichen, zur Anfrage passenden Dokumenten gesucht, womit eine möglichst kurze Antwortzeit gewährleistet werden kann. Logischerweise muss dieser Datenbestand erst gewonnen und die bestehenden Dokumente aus dem Bestand regelmäßig auf Neuerungen überprüft werden. Suchmaschinen decken im Allgemeinen drei grundlegende Funktionen, beginnend bei der Beschaffung der Daten, über deren Analyse und Indexaufbau, bis hin zur Verarbeitung von Suchanfragen der Anwender, ab. Die genaue Systemzusammenstellung wird verständlicherweise von den Suchmaschinenbetreibern weitgehend geheimgehalten, um der Konkurrenz keine wertvolle Information zukommen zu lassen. Im Folgenden wird die prinzipielle Funktionsweise überblicksmäßig beschrieben, eine Übersicht bietet auch Abbildung 2.1. Weiterführende Information ist [9, S. 65 ff.] zu entnehmen. Ein grundlegendes Wissen um die Arbeitsweise von Suchmaschinen ist in jedem Fall gewinnbringend für das Verständnis im Optimierungsprozess. 2.2.1 Datenbeschaffung Zum Aufbau und zur Pflege des Datenbestands werden so genannte Crawler, häufig auch als Spider, Agents, Robots oder Bots bezeichnet, eingesetzt. Diese Programme machen nicht viel anderes, als automatisch Webseiten 9 http://blogsearch.google.com http://www.feedster.com 11 http://www.plazoo.com 12 http://www.icerocket.com 10 KAPITEL 2. SUCHDIENSTE: DER SCHLÜSSEL ZUM WEB 10 Abbildung 2.1: Grundlegende Funktionsweise von Suchmaschinen. zu besuchen und eine Kopie im Datenbestand der Suchmaschine abzulegen. Teilweise werden auch andere Dokumenttypen als HTML erfasst. So nimmt die Suchmaschine Google neben PDF-Dokumenten auch PostscriptDateien (.ps) sowie Microsoft Word (.doc), Excel (.xls) und PowerpointDateien (.ppt) in ihren Index auf. Die zu besuchenden Seiten werden auf Listen mit abzuarbeitenden URLs von der Suchmaschinen verwaltet. Wird auf einer Seite ein der Suchmaschine unbekannter Link gefunden, so wird diese Adresse ebenfalls der Liste hinzugefügt. Damit ist die überwiegende Zahl der anzufragenden URLs selbstständig aus dem Web akquiriert. In der Praxis werden, um die Datenflut überhaupt bewältigen zu können, verteilte Rechensysteme (Cluster) mit vielen einzelnen Crawlern eingesetzt. Web-Crawler stehen als einzige Komponente der Suchmaschine in direktem Kontakt mit Servern im WWW. 2.2.2 Analyse und Indexaufbau Im nächsten Schritt werden die bereits erfassten Daten analysiert und eine durchsuchbare Datenstruktur aufgebaut, wobei nicht verwertbare Bestandteile, wie JavaScript oder Multimedia-Elemente, bereits im Vorhinein gefiltert und ausgeschlossen werden. Außerdem gibt es Beschränkungen bzgl. der Größe zu analysierender Dokumente, so untersucht z. B. Google nur die ersten 101 Kilobyte. KAPITEL 2. SUCHDIENSTE: DER SCHLÜSSEL ZUM WEB 11 Die auf rein textuelle Information reduzierten Dokumente stellen für den Computer zu Beginn der Analyse nichts anderes als eine Aneinanderreihung von Buchstaben dar. Die Information muss erst wiedergewonnen werden, womit sich so genannte Information Retrieval Systeme (deutsch: Informationswiedergewinnung) beschäftigen. Gemäß dem systeminternen Modell werden die vorliegenden Dokumente in eine für die Verarbeitung günstige Form, die als Dokumentenrepräsentation bezeichnet wird, umgewandelt. Mittels bestimmter Gewichtungsmodelle lassen sich daraus Relevanzwerte für jedes Dokument erheben, und sich auf diese Art Schlagwörter (Deskriptoren) ermitteln. Auszeichnungen, wie als Überschrift gekennzeichneter Text oder sonstige Hervorhebungen, werden erkannt und gesondert markiert. Voraussetzung ist ein valider Code, da die Parser oft weniger fehlertolerant als viele gängige Browser sind. Die extrahierten, den Inhalt repräsentierenden Stichwörter werden zudem mit weiteren statistischen Informationen, wie unter anderem der Position des Begriffs innerhalb des Dokuments versehen, dessen Ansammlung auch Hitlist genannt wird. Danach wird die Information endgültig abgespeichert. Den Dokumenten zugehörig werden Schlüsselwörter und Hitlists, resultierend aus der Datenanalyse, im direkten Index abgelegt. Um die Daten dabei möglichst effizient abzulegen werden diese codiert. Speicherkapazität wird so gespart und die Systemperformance nicht unnötig verschlechtert. Da Suchanfragen jedoch nicht nach Dokumenten, sondern nach Schlüsselwörtern ausgerichtet sind, wird eine weitere Struktur benötigt, die als invertierter Index, oder einfach nur als Index bezeichnet wird. Für die Konvertierung in einen nach Schlüsselwörter sortierten Index ist eine eigene Systemkomponente zuständig. Erst das Anlegen eines Eintrags im invertierten Index wird, streng genommen, als Indexierung bezeichnet. 2.2.3 Verarbeitung von Suchanfragen Die Verarbeitung von Suchanfragen ist für einen typischen Benutzer nach außen hin gesehen die einzige Funktionalität einer Suchmaschine. Welche aufwendigen, komplexen Prozesse zur Datengewinnung und Analyse laufend durchgeführt werden, ist weitläufig nicht bekannt, da sie im Hintergrund ablaufen. Ebenso wie nur wenigen bewusst ist, welche Unmengen an Speicherplatz und Rechenleistung benötigt werden, um eine konkurrenzfähige Suchmaschine betreiben zu können. Jene Funktion, die erwartet wird, nämlich Suchanfragen stellen zu können, deckt der Query-Prozessor oder Searcher, ab. Anhand des über das Webinterface eingegebenen Suchbegriffs wird innerhalb eines Bruchteils einer Sekunde aus dem Index, der Verweise auf die betreffenden Dokumente hat, eine gewichtete Ergebnisliste mit Einträgen erzeugt und dem Suchenden bereitgestellt. KAPITEL 2. SUCHDIENSTE: DER SCHLÜSSEL ZUM WEB 2.3 12 Rankingverfahren Die Reihung, in der die Suchergebnisse dem Informationssuchenden präsentiert werden, ist bestimmt durch unterschiedliche, suchmaschinenspezifische Rankingverfahren. Im Allgemeinen werden die den Verfahren zu Grunde liegenden Algorithmen geheimgehalten, ebenso wie deren Einsatz und Bedeutung für das Ranking. Wäre dem nicht so, hätte kein Suchmaschinenbetreiber mehr eine Möglichkeit, sich gegen Manipulationen zur Wehr zu setzen. Je nach Suchmaschine werden unterschiedlichste statistische Verfahren angewandt, ebenso wie die Bedeutung gewisser Parameter teilweise sehr verschieden ausgelegt wird. Grundlegend wichtige Parameter für die Bewertung der Relevanz einer Seite bezogen auf einen bestimmten Suchbegriff, sind bekannt so wie auch vereinzelt konkrete Verfahren, wie das von Google eingesetzte Konzept des PageRank. Da es als höchstes Ziel der Suchmaschinenoptimierung gilt zu bestimmten Begriffen in den vorderen Plätzen gelistet zu werden, ist die Kenntnis der Bewertungskriterien essentiell. Die meisten, der in Kapitel 3 vorgestellten Methoden der Optimierung, beziehen sich auf diese Parameter der Relevanzbewertung, wobei Relevanz in diesem Sinne die Ähnlichkeit des Dokuments zur Suchanfrage bedeutet. 2.3.1 Seiteninterne Parameter zur Relevanzbewertung Die Gewichtung einzelner Terme in einem Dokument zur Ermittlung der Relevanz und Repräsentativität der Wörter für den Inhalt des Gesamtdokuments, basiert beim Information Retrieval auf den beiden Verfahren der Termfrequenz und der Inversen Dokumenthäufigkeit. Termfrequenz Eine einfache Art der Wortgewichtung ist die Ermittlung der Termfrequenz (TF), die sich auf die Auftrittshäufigkeit eines Terms in einem Dokument bezieht. Als Maßeinheit für das Gewicht eines Wortes in einem Dokument gilt die relative Worthäufigkeit, deren Wert Auskunft darüber geben soll, wie repräsentativ ein Wort für den Inhalt des Gesamtdokuments ist. Die Idee dahinter ist jene, dass ein vermehrt auftretender Term in einem Dokument eine bedeutendere Rolle spielen wird, als selten genannte Begriffe. Ermitteln lässt sich die Termfrequenz mit folgender einfachen Formel: TF= Häufigkeit eines Terms im Dokument . Gesamtanzahl der Terme im Dokument Die ermittelten Gewichtungsergebnisse für die einzelnen Wörter eines Dokumentes dienen als Entscheidungshilfe, ob ein Wort als Deskriptor geeignet KAPITEL 2. SUCHDIENSTE: DER SCHLÜSSEL ZUM WEB 13 ist. In der Regel ist dies der Fall, wenn der Wert innerhalb bestimmter Schwellwerte liegt. Inverse Dokumenthäufigkeit Die Inverse Dokumenthäufigkeit (IDF) berücksichtigt die Auftrittshäufigkeit eines Terms in einer Sammlung von Dokumenten, betrachtet die Dokumente also nicht isoliert. Das Gewicht eines Terms ist dann besonders hoch, wenn es nur wenige Dokumente gibt, in denen er oft auftaucht. Geringe Gewichtungswerte erhalten Wörter, die in vielen Dokumenten oder nur sehr selten auftreten. Berechnen lässt sich die inverse Dokumenthäufigkeit mittels folgender Formel, wobei die Addition mit Eins lediglich für positive Ergebnisse sorgen soll: IDF= log(1 + Anzahl der Dokumente ). Anzahl der Dokumente, in denen der Term auftritt Als Verfahren zur Gewichtung der Terme setzen die meisten Suchmaschinen eine Verknüpfung der Termfrequenz und der inverse Dokumenthäufigkeit ein. Die beiden Annahmen, dass geeignete Schlagwörter bezogen auf die Dokumentlänge relativ häufig auftreten und zudem in der Sammlung an Dokumenten eher selten vorkommen, werden kombiniert. Das Produkt der errechneten Werte für Termfrequenz und inverse Dokumenthäufigkeit wird dazu häufig zur Berechnung eingesetzt, wie auch in [9, S. 118–120] nachzulesen. Hervorhebungen und Position im Text In die Relevanzbewertung zusätzlich einbezogen werden Auszeichnung und Lage der einzelnen Terme. So werden Termfrequenz und inverse Dokumenthäufigkeit für einzelne Teilbereiche, wie z. B. den Title-Tag gesondert berechnet und in bestimmtem Verhältnis zueinander aufgerechnet. Als Überschrift gekennzeichnete Textabschnitte werden gleichsam wie alle logisch ausgezeichneten Hervorhebungen und sonstigen Textauszeichnungen gesondert behandelt, um darin enthaltenen Wörtern eine höhere Gewichtung zuweisen zu können. Dem Beginn eines Dokumentes wird, seitens der Gewichtung, eine besonders hohe Bedeutung beigemessen. Dies beruht darauf, dass in der Einleitung eines Textes vermehrt inhaltsrelevante Begriffen platziert sind, dem sich auch Kapitel 4, Abschnitt 4.3.2 widmet. Bedeutung der URL Unter den dokumentbezogenen Daten hat die Auswertung der Wörter innerhalb der URL einen besonders hohen Stellenwert in der Relevanzbewertung. KAPITEL 2. SUCHDIENSTE: DER SCHLÜSSEL ZUM WEB 14 Wie häufig an den Treffern in der Ergebnisliste zu erkennen, wird jenen Seiten ein speziell hoher Stellenwert zugesprochen, die den Suchbegriff in der Adresse der Webseite beinhalten. Die bei der Analyse aus der URL extrahierten Wörter werden speziell bewertet und tragen nicht selten entscheidend zur endgültige Gewichtung bei. 2.3.2 Seitenexterne Parameter zur Relevanzbewertung Eine hohe Bedeutung in der Relevanzbewertung kommt seitenexternen Faktoren zu. Diese Parameter lassen sich vom Sitebetreiber selbst nicht direkt beeinflussen, weshalb sie weniger anfällig auf Manipulationsversuche sind und von den Suchmaschinen als vertrauenswürdiger eingestuft werden. Linkpopularität Linkpopularität bezeichnet die Menge an Links kommend von externen Webseiten, die auf die eigene Webseite verweisen. Diese so genannten Backlinks, oder Inbound Links, sind ein wichtiges Kriterium zur Bestimmung der Linkpopularität, des Google PageRank bzw. des Yahoo! WebRank. Suchmaschinen sehen Links als Empfehlung. Wer also einen Link setzt, gibt eine Empfehlung zur verlinkten Seite, die einen positiven Einfluss auf das Ranking bewirkt. Grundannahme dabei ist, dass eine Webseite, auf die viele andere verlinken, relevant sein muss. Zusätzlich bewertet wird, ob im Linktext der Suchbegriff vorkommt, der das Hauptthema der verweisenden Seite enthält und ob Webseiten aus dem gleichem Themenkreis verweisen. Hier steigt die Relevanz dadurch, dass Betreiber thematisch verwandter Seiten Fachleute sind und somit am besten beurteilen können, ob eine Seite empfehlenswert ist. Aber nicht nur die Quantität, sondern viel mehr die Qualität der Links ist von entscheidender Bedeutung. Backlinks mit höherer Qualität tragen gewichtiger zu einer guten Platzierung bei, allerdings vor allem dann, wenn auch Themenrelevanz gegeben ist. Die Qualität der Links wird dabei gleichfalls anhand von externen Verlinkungen die auf die Seite verweisen, deren Themenverwandtheit, sowie Ähnlichkeit der Schlüsselbegriffe und deren Popularität laut gesonderter Algorithmen wie dem Google PageRank bestimmt. Auch die Nachbarschaft der Links wird ausgewertet. Wird von einer schlecht angesehenen Seite verlinkt, so wird das, in Bezug auf Google, als BadRank bezeichnet, der nicht zur Steigerung der Popularität beiträgt. Google PageRank Google verdankt seine Marktführerschaft zu großen Teilen der hohen Qualität der Suchergebnisse. Diese Qualität beruht ganz wesentlich auf dem PageRank Verfahren, das den Namen seinem Entwickler, Lawrence Page, verdankt. Gemeinsam mit seinem Kollegen Sergey Brin entwickelte er an KAPITEL 2. SUCHDIENSTE: DER SCHLÜSSEL ZUM WEB 15 der Stanford University im Jahre 1998 den Algorithmus, der später auch patentiert wurde und dem von Brin und Page gegründeten Unternehmen Google als Grundlage diente. Die dazu verfasste wissenschaftliche Arbeit, siehe [4], beschreibt das Konzept, das auch nach den in den letzten Jahren durchgeführten Änderungen, Anpassungen und Modifikationen immer noch Gültigkeit hat. Aufbauend auf dem Grundprinzip der Linkpopularität nutzt das PageRank-Konzept nicht bloß die Anzahl der eingehenden Links, sondern bewertet vor allem deren Relevanz. Die Relevanz eines Dokumentes definiert sich dabei stets rekursiv aus der Bedeutsamkeit, der darauf verlinkenden Seiten. Ziel des Konzepts soll es sein, relevante von irrelevanten Dokumenten unterscheiden zu können und somit möglichst hochwertige Suchergebnisse liefern zu können. Neu eingerichtete Sites, auf die noch nicht oder nur selten von außen verlinkt wird, haben es vor allem, wenn sie sich einem Thema mit hohem Wettbewerb widmen, aufgrund des PageRank Algorithmus schwer, sich gegenüber etablierten Präsenzen behaupten zu können. Das Bestreben nach möglichst hochwertigen Verlinkungen auf die eigene Site ist daher von Betreibern einer neuen Site besonders hoch, um eine Chance zu haben, bei Google gefunden zu werden. Mit dem PageRank Decoder13 bietet Search-This Search Engine Solutions ein interessantes Werkzeug, um sich visuell zu veranschaulichen, aus welchen Faktoren sich die Ermittlung des Google PageRank zusammensetzt. Durch die Anzeige des PageRank in der Google-Toolbar, einem BrowserPlugin, das dem Benutzer Erleichterungen bei einer Suche mit Google bietet, erlangte der PageRank großen Bekanntheitsgrad. Der PageRank einer Seite wird dabei auf einer Skala von 0 bis 10 mittels einem grünen Balken angezeigt und lässt fälschlicherweise vermuten, dass sich die Werte in diesem Bereich abspielen. Tatsächlich kann der PageRank theoretisch einen maximalen Wert von dN+(1-d) annehmen, wobei N in diesem Fall für die Anzahl aller Seiten im Internet steht und der Dämpfungsfaktor d auf 0.85 gesetzt ist. Um die Werte auf ein vergleichbares Maß bringen zu können, müssen diese also skaliert werden, wobei hier keine lineare, sondern eine logarithmische Skalierung erfolgt. Bei einer angenommenen logarithmischen Basis von 6 und dem üblicherweise auf 0.85 gesetzten Dämpfungsfaktor ergibt sich eine Skalierung, wie in Tabelle 2.1 dargestellt. Vermutlich erfolgt keine mathematisch strikte logarithmische Skalierung, sondern eine manuelle Skalierung, die einem logarithmischen Schema folgt. Eine logarithmische Basis von 6 bis 7 kann dahinter jedoch vermutet werden. Weitreichende Informationen zum Google PageRank, dessen Algorithmus und Implementierung bietet [33]. 13 http://www.search-this.com/pagerank decoder KAPITEL 2. SUCHDIENSTE: DER SCHLÜSSEL ZUM WEB Skalierter PageRank 0/10 1/10 2/10 3/10 4/10 5/10 6/10 7/10 8/10 9/10 10/10 16 Tatsächlicher PageRank 0,15 - 0,9 0,9 - 5,4 5,4 - 32,4 32,4 - 194,4 194,4 - 1.166,4 1.166,4 - 6.998,4 6.998,4 - 41.990,4 41.990,4 - 251.942,4 251.942,4 - 1.511.654,4 1.511.654,4 - 9.069.926,4 9.069.926,4 - 0,85 × N + 0,15 Tabelle 2.1: Gegenüberstellung des angezeigten PageRanks und dessen vermuteten, tatsächlichen Wert bei einer logarithmischen Basis von 6. Yahoo! WebRank Das Gegenstück zum Google PageRank stellt bei Yahoo! der so genannte WebRank dar, der ebenso auf einer Skala von 0 bis 10 die Relevanz einer Webseite ausdrückt. Der dahinter liegende Algorithmus ist allerdings nicht dokumentiert und damit schwer nachvollziehbar, weshalb die Meinungen zu dem im Jahr 2004 eingeführten Bewertungskriterium überwiegend abwertend formuliert sind. Unklar ist, ob sich der Yahoo! WebRank noch in der Beta-Phase der Entwicklung befindet und welche Kriterien zur Zeit in die Bewertung miteinbezogen werden. Die Spekulationen rund um das Thema, ausgehend von der Theorie, es handle sich nur um einen neuen Namen für einen bestehenden Algorithmus, um mit Google mithalten zu können, sind weitreichend, worauf auch [6] hinweist. Zumindest eine Teilbewertung der Linkpopularität durch Backlinks liegt dem nicht so stark ausgereiften Ranking-Algorithmus jedenfalls zu Grunde. Domainpopularität Die viel zitierte Linkpopularität verliert gegenüber dem inzwischen bedeutend wichtigeren Begriff, der Domainpopularität, immer mehr an Bedeutung. Als Domainpopularität bezeichnet man alle Backlinks, die von verschiedenen Domains auf die eigene Site verweisen. In den meisten Fällen ist dieser Wert viel geringer als die Linkpopularität, da solche Links, die auf mehreren oder gar allen Seiten einer Domain untergebracht sind, zwar die Linkpopularität steigern, für die Domainpopularität aber nur als ein Link gewertet werden. Die von Google eingesetzten Algorithmen beziehen z. B. die Domainpopularität als bedeutenden Faktor für die Platzierung mit ein. KAPITEL 2. SUCHDIENSTE: DER SCHLÜSSEL ZUM WEB 17 IP-Popularität Die Anzahl der Backlinks von verschiedenen IP-Adressen wird als IP-Popularität bezeichnet. Links von Domains mit unterschiedlichen IP-Adressen sind ein wichtiges Kriterium für die Platzierung einer Website in den Suchmaschinen. Neben anderer Domain und IP-Adresse zeichnen sich optimale Links zusätzlich dadurch aus, dass sie aus einem anderen Class-C Netz kommen. Darunter versteht man Links, die aus einem anderen Rechenzentrum stammen. Im Normalfall bekommt ein Rechenzentrum ein ganzes Class-C-Netz zugewiesen, was bedeutet, dass die IP-Adressen bis auf die letzte Stelle gleich sind. Ein Class-C-Netz umfasst maximal 255 Rechner, die ersten drei Zahlenblöcke der IP-Adresse bestimmen das C-Netz, der letzte Zahlenblock die Nummerierung der verfügbaren Rechner. Aktiv miteinander verknüpfte Projekte sollten im Sinne der Suchmaschinenoptimierung im besten Fall auf verschiedenen IP-Adressen und noch besser auch in unterschiedlichen ClassC-Netzen platziert sein. Klickpopularität Bei der Klickpopularität handelt es sich um ein Zusatzkriterium zur Bestimmung der Ergebnisrangfolge bei Suchmaschinen. Dabei wird die Beobachtung des Benutzerverhaltens miteinbezogen, indem ausgewertet wird, auf welche Treffer geklickt wird, und wie lange sich ein Benutzer auf der Zielwebseite aufhält. Da dieses Kriterium von außen beeinflussbar und daher für Manipulationen anfällig ist, wird es von Suchmaschinen nur als kleiner Teil in der Gesamtbewertung berücksichtigt, oder, so wie von Google, gar nicht zur Berechnung herangezogen. 2.4 Aufnahme in die Suchmaschine Um eine Webseite per Suchanfrage überhaupt finden zu können, muss diese natürlich im Index der Suchmaschine vorhanden sein. Dies ist nicht automatisch der Fall. So ist der per Internetrecherche über Suchmaschinen nicht auffindbare Bereich des Internet, auch als Deep Web bezeichnet, schätzungsweise ein Vielfaches größer als der über Suchmaschinen zugängliche Teil. Nicht selten stolpert man über das Angebot einer Suchmaschineneintragung bei über 500 oder mehr Suchmaschinen. Natürlich ist es nicht schlecht, möglichst überall gefunden zu werden, wirklich Sinn macht es allerdings nicht, eine Webseite bei kleinen Suchdiensten anzumelden, die vielleicht gerade fünf Suchanfragen pro Tag registrieren. Konzentration ist jenen drei Suchmaschinen zu schenken, die zusammen 95% aller Suchanfragen behandeln: Google, Yahoo! und MSN Search. Dazu kommt, dass hinter vielen Suchmaschinen, mangels ausreichend guter Suchalgorithmen, gar keine wirklich eigene Datenbasis steht, sondern diese von anderen Diensten bezogen wird. KAPITEL 2. SUCHDIENSTE: DER SCHLÜSSEL ZUM WEB 2.4.1 18 Manuelle Eintragung Selbst aktiv dafür zu sorgen gelistet zu werden, ist schwierig. Die einzige Möglichkeit, die bleibt, ist Suchmaschinen auf ein Angebot aufmerksam zu machen. Dies garantiert aber keinesfalls eine Aufnahme in den Index und selbst die Beschleunigung eines Besuchs durch einen Crawler ist durch dieses Vorgehen fragwürdig. Generell ist eine direkte Anmeldung per WebFormular nicht notwendig. Der Großteil, der im Suchindex einer Suchmaschine enthaltenen Webseiten, besteht aus Ergebnissen, die durch freies Crawling aufgenommen wurden. Die großen Suchmaschinen Google14 , Yahoo!15 und MSN Search16 bieten auf ihren Websites die Möglichkeit einer kostenlosen Anmeldung einer Webseite an. Yahoo! setzt dafür eine Registrierung voraus. Dabei stellt sich die Frage, welche Seiten einer Website angemeldet werden sollen. Besonders empfehlenswert sind zwei Seiten: die Homepage, als Ausgangspunkt der Struktur, und die Sitemap, die Verweise auf alle verfügbaren Seiten bietet. Zu viele oder in zu kurzer Zeit zu häufig übermittelte URLs werden als Spam interpretiert, was bis zum Ignorieren der Einträge oder der ganzen Domain führen kann. 2.4.2 Automatische Eintragung Von Software, die eine automatische Eintragung mit nur einem Klick in zahlreiche Suchmaschinen verspricht, sollte Abstand gehalten werden. Die Software simuliert den Versand der Daten an die entsprechenden Web-Formulare der Suchmaschinen, die diese Art von automatischer Anmeldung keineswegs begrüßen. Neben der Problematik, dass die Eintragungen häufig aufgrund veralteter Versionen, die nicht mit den aktuellen Formularen abgestimmt sind, fehlschlagen, schicken einige Programme eine Kennung mit, die die Vorgangsweise für Suchmaschinen leicht erkennbar macht. 2.4.3 Aufnahmedauer Die Dauer, bis eine Webseite im Index aufgenommen und gelistet wird, kann von knapp einem Tag bis zu mehreren Wochen betragen. Eine generell gültige Angabe ist schwer zu treffen. Für die Suchmaschine Google beschreibt [5] die Wichtigkeit der Verlinkungen für eine möglichst schnelle Aufnahme in den Index. So soll bereits eine Webseite mit PageRank 5 dazu verhelfen können, binnen drei Tagen aufgenommen zu sein, während eine mit PageRank 6 bewertete Seite sogar zur Indexierung innerhalb der nächsten 24 Stunden verhelfen soll. 14 http://www.google.at/addurl http://de.search.yahoo.com/free/submit 16 http://search.msn.com/docs/submit.aspx 15 KAPITEL 2. SUCHDIENSTE: DER SCHLÜSSEL ZUM WEB 2.5 19 Bezahlte Plätze im Suchergebnis Hinter dem Angebot an Suchmaschinen stehen Unternehmen, die nicht wohltätig für die Menschheit arbeiten, indem sie ihren Dienst kostenlos zur Verfügung stellen, sondern genauso wie jeder Betrieb auf Gewinnmaximierung ausgelegt sind. Die Finanzierung basiert zu großen Teilen auf den Einnahmen, die durch angebotene Programme für zahlungswillige Kunden erzielt werden. Darüber wird im Folgenden ein Überblick gegeben, wobei zu beachten ist, dass die meisten Suchmaschinen nur ein oder zwei unterschiedliche Programme anbieten. Paid Submission: Paid Submission bedeutet, dass eine Anmeldung bei einer Suchmaschine oder einem Verzeichnis nur gegen Bezahlung möglich ist. Dies beinhaltet allerdings noch keine garantierte Aufnahme in die Datenbank. Yahoo! bietet für sein Verzeichnis ein solches Programm an, wozu weitere Informationen [11] zu entnehmen sind. Paid Inclusion: Eine garantierte Aufnahme in den Datenbestand einer Suchmaschine erreicht man über das Paid Inclusion-Programm. Der Vorteil liegt in der beschleunigten Aufnahme und der gesteigerten Wiederbesuchsfrequenz von Crawlern. Eine direkte positive Auswirkung auf das Ranking ist damit allerdings nicht verbunden. Paid Placement: Paid Placement, oder auch Pay-Per-Click (PPC) bezeichnet ein Verfahren, das zu definierten Suchbegriffen bezahlte, und als solches gekennzeichnete, Anzeigen in separaten Bereichen der Ergebnisliste schaltet. Die Möglichkeit, garantiert und mit selbst erstelltem Text zu nach eigenem Wunsch definierten Schlüsselbegriffen angezeigt zu werden, gilt als Hauptbeweggrund bezahlte Anzeigen zu schalten. Dabei zahlt ein Kunde für jeden Klick auf seine Schaltung. Die Kosten pro Klick sind für ein Schlüsselwort selbst definierbar. Dabei ist die oberste Position in der Liste jenem Anbieter sicher, der mehr zahlt. Ist ein selbst definiertes Kontingent an Klicks verbraucht, so wird der Eintrag nicht mehr gelistet. Ein prominentes Beispiel dieses Verfahrens ist das Google AdWords-Programm17 . Abbildung 2.2 zeigt die Anzeige bezahlter Anzeigen, oberhalb und seitlich rechts der regulären Suchergebnisse, bei Google. Werbung: Traditionelle Online-Werbung in Form von Bannern wird vereinzelt auf Ergebnisseiten zu Zwecken der Finanzierung geschalten. Generell sind kostenlos erzielte Topplatzierungen wertvoller, als gekaufte Positionen, was auch eine Studie von iProspect (siehe [20]) bestätigt. Die Studie belegt, dass so genannten natürlichen Einträgen in den Ergebnisseiten der Suchmaschinen eher vertraut wird und diese häufiger angeklickt werden. 17 http://adwords.google.com KAPITEL 2. SUCHDIENSTE: DER SCHLÜSSEL ZUM WEB Abbildung 2.2: Oberhalb und seitlich der Suchergebnisse gekennzeichnet geschaltene bezahlte Anzeigen bei Google. 20 Kapitel 3 Methoden der Suchmaschinenoptimierung Suchmaschinenoptimierung bezeichnet keine einmalige Tätigkeit, um Webseiten eine vordere Platzierung in den Ergebnislisten von Suchmaschinen zu verschaffen, sondern ist vielmehr ein Prozess, der von Beginn der Entwicklung an immer verfolgt werden muss, und der sowohl Techniker als auch Redakteure und Marketingfachleute miteinbezieht. Wie erfolgreich eine Optimierungsstrategie ist, kann nicht daran gesehen werden, wie schnell man gut gereiht und gefunden wird, sondern wie dauerhaft die Ergebnisse sind. Konkrete Regeln, nach denen Suchmaschinenoptimierung immer funktioniert, kann es schon alleine aufgrund der zahlreichen unterschiedlichen und nur teilweise bekannten Rankingverfahren nicht geben. Drei Grundsätze sollten für eine erfolgreiche Optimierung, sowie generell für einen professionellen Aufbau einer Website, unbedingt verfolgt werden: • Standardkonformer Aufbau in (X)HTML • Relevante und aktuelle Inhalte • Optimale Verlinkungen Die wichtigsten Punkte, deren Einhaltung bei der Erstellung von Webseiten den wesentlichen Schritt einer Optimierung darstellen, sind im Folgenden detailliert angeführt. Dabei wird auf so genannte ethisch einwandfreie Suchmaschinenoptimierung (englisch: White Hat Search Engine Optimization) gesetzt, die bewusst auf den Einsatz nicht erwünschter Manipulationspraktiken verzichtet. 21 KAPITEL 3. OPTIMIERUNGSMETHODEN 3.1 22 OnPage-Optimierung Die OnPage-Optimierung beinhaltet sämtliche Maßnahmen die den Quellcode der (X)HTML-Dokumente betreffen, um diese für die Suchdienste relevant und kompatibel zu machen. Dazu gehört auch die Entwicklung einer Strategie für Schlüsselwörter, sowie die optimale Aufbereitung der Seiteninhalte, die vertiefend in Kapitel 4 behandelt werden. Diesbezügliche Methoden sind nicht als reine Aufbereitung für Suchmaschinen zu sehen, sondern vor allem als Verbesserung für den Benutzer. 3.1.1 Konzeptionelle Vorbereitungen Bevor mit der Umsetzung begonnen werden kann, sollte ein Konzept erstellt, und somit die Zielsetzung der zu entwickelnden Site geklärt sein. Im Weiteren wird davon ausgegangen, als Hauptkriterium zu verfolgen, dass die Site in den Ergebnislisten der Suchmaschinen zu speziellen Suchbegriffen top platziert gefunden wird. Gestaltung Ein nicht zu vernachlässigender Faktor ist neben aller technischer Optimierung die Gestaltung einer Website. Was nützt es durch Suchmaschinen leicht gefunden zu werden, wenn die Besucher und potenziellen Kunden nicht auf der Webseite bleiben, um ihr Angebot wahrzunehmen. Entscheidend sind hier die ersten 50 Millisekunden, wie eine von der englischen Fachzeitschrift Behaviour and Information Technology veröffentlichte Studie aufzeigt, nachzulesen in [32, S. 20]. Nur Seiten, die einen seriösen, interessanten Eindruck erwecken, haben die Chance ihre Aussage auch vermitteln zu können. Bei aller Optimierung darf nicht vergessen werden, dass eine Seite für Menschen und nicht für Maschinen gemacht ist und der Erfolg weniger an Topplatzierungen in den Ergebnislisten der Suchmaschinen, als mit konkreten Besucherzahlen und deren Verweildauer auf einer Seite zu messen ist. Grafiken und Multimedia Bewusst vermieden werden sollte ein übermäßiger Einsatz von Grafiken oder Multimedia-Elementen zur Informationsvermittlung. Texte, die in Grafiken oder in Flash-Animationen enthalten sind, können zwar optisch ansprechend wirken, Webcrawler können jedoch nur jenen Inhalt lesen und verarbeiten, der in maschinen- und systemneutraler, textueller Form vorliegt. Frames Framebasierte Webauftritte machen, entgegegen der weit verbreiteten Ansicht, den meisten Suchmaschinen keine ernsthaften Probleme mehr. Aller- KAPITEL 3. OPTIMIERUNGSMETHODEN 23 dings enthalten Framesets selber keine eigentliche Information, womit solche Seiten ohne verwertbaren Text als uninteressant eingestuft werden. In einem solchen Fall ist es zumindest ratsam, den NoFrames Bereich mit Information über den Inhalt der Website zu füllen. Problematisch ist allerdings, dass die das Set ausmachenden Einzelseiten und somit nicht die vollständige Seite gefunden werden. Dies gibt dem Benutzer schnell das Gefühl, in einer Sackgasse gelandet zu sein, wenn beispielsweise in diesem Teilbereich des Framesets keine Navigation vorhanden ist. Ob es, angesichts der gewissen Tücken, die die Technologie mit sich bringt, Sinn macht, Frames einzusetzen, ist schon im Vorfeld gut zu überlegen. 3.1.2 Standardkonformität Die Grundvoraussetzung für eine erfolgreiche Optimierung und eine er” folgreiche Website überhaupt, ist der korrekte Umgang mit den zugrunde liegenden Webtechnologien HTML und Cascading Style Sheets (CSS).“ Diese Aussage aus [9, S. 172] beschreibt exakt den ersten der zuvor genannten Grundsätze. Standardkonformität oder Validität meint, dass sowohl das verwendete HTML oder XHTML, als auch das zur Gestaltung eingesetzte CSS den aktuellen Standards des World Wide Web Consortium (W3C) entsprechen. Die Einhaltung dieser Standards soll eine korrekte, plattformübergreifende und zukunftssichere Darstellung garantieren. Für Webcrawler-Systeme ist es von besonders großer Bedeutung, dass der Quellcode keine syntaktischen Fehler enthält, da diese oftmals nicht so fehlertolerant wie so mancher Webbrowser sind. Sind Teile im Quelltext des Dokuments fehlerhaft ausgezeichnet, kann es durchaus passieren, dass diese falsch interpretiert oder überhaupt nicht extrahiert werden können. Darum empfiehlt es sich, die Seiten zu validieren, um sicherzugehen, dass die Dokumente auch nach den Spezifikationen entworfen wurden. Das W3C bietet zu diesem Zweck online einen entsprechenden Validierungsdienst1 an. Der Einsatz der Seitenbeschreibungssprache XHTML sollte unbedingt berücksichtigt werden. XHTML ist die Neuformulierung von HTML in ” XML-Syntax“ und wird mittelfristig HTML als Beschreibungssprache des Internets ablösen. Im Gegensatz zu HTML müssen in XHTML verfasste Dokumente strengere Regeln befolgen, sind dadurch aber für unterschiedlichste Endgeräte geeignet und, soweit voraussagbar, zukunftssicher. Die genaue Spezifikation des W3C zu XHTML 1.0 ist in [37] nachzulesen. Ein sauber strukturierter und möglichst schlanker Quellcode wird zudem als qualitatives Merkmal für die Professionalität des Programmierers sprechen. 1 http://validator.w3.org KAPITEL 3. OPTIMIERUNGSMETHODEN 24 Semantischer Code In diesem Zusammenhang fällt häufig der Ausdruck von semantischem Code. Der Definition nach ist Semantik die Lehre der Bedeutung, einfach ausgedrückt bedeutet dies also nichts anderes als bedeutungsvolles (X)HTML. Gemeint ist damit, dass (X)HTML-Elemente in semantischem Code ausschließlich übermitteln, welche Bedeutung oder Funktion sie haben, nicht aber wie die Inhalte auszusehen haben. Damit dient der Code lediglich dazu, Inhalte zu gliedern, Strukturen zu schaffen, logische Beziehungen herzustellen sowie Bedeutungen zu markieren. So werden Überschriften, Listen, Zitate, Definitionen etc. lediglich logisch markiert, und dabei kein Gedanke an die optische Aufbereitung verschwendet. Die Gestaltung wird per CSS kontrolliert. Struktur und Präsentation sind somit sauber voneinander getrennt. Neben der globalen Steuerung und somit einfachen Anpassung der Layoutierung per CSS bietet semantischer Code den Vorteil, dass logisch markierte Abschnitte auch von Maschinen wie Crawlern erkannt werden, für die das Aussehen keine Rolle spielt. 3.1.3 Einsatz von Cascading Style Sheets Cascading Style Sheets erlauben nicht nur vielfältige Möglichkeiten der Formatierung, sondern auch zur Gestaltung von Webseiten und sind eine unmittelbare Ergänzung zu (X)HTML. Inhalt und deren Darstellung im Browser können komplett getrennt werden und so zu übersichtlichem, schlankem Quellcode ohne jede Layoutanweisung beitragen. Ein wichtiger Grund, eine konsequent durchgesetzte Layoutgestaltung mit CSS durchzuführen, ist, dass Suchmaschinen eine Website umso höher bewerten, je höher die für Suchmaschinen relevanten Inhalte im Quelltext stehen. Was mit Tabellenlayouts nicht erreicht werden kann, bietet hier CSS, nämlich die Möglichkeit, Inhalte nach Belieben im Quelltext zu positionieren. So können mit CSS, Bereiche, die von Suchmaschinen als sehr wichtig bewertet werden sollen, im Quelltext oben notiert sein, tatsächlich auf der Webseite aber weiter unten gezeigt werden. Die Präsentation des Quelltexts kann also für die Suchmaschine in einer anderen Reihenfolge erfolgen als für einen Besucher. Zusätzlich können von Suchmaschinen hoch bewertete Tags, wie Überschriften oder Texthervorhebungen, mittels CSS neu formatiert werden, um deren Aussehen anzupassen, ohne deren Relevanz zu vermindern. Als positiven Zusatzeffekt bietet CSS sehr gute Möglichkeiten, barrierefreie Webseiten zu erstellen. Websites, die keine Benachteiligungen für unterschiedlichste Benutzergruppen beeinhalten, sind in der Regel auch für Crawler von Suchmaschinen leichter zugänglich. Die Tatsache, dass bislang keine bedeutende Suchmaschine CSS interpretiert, bringt natürlich die Möglichkeit mit sich, CSS für Tricks zur Steigerung der Bedeutung einzusetzen. So findet man per CSS für Benutzer versteck- KAPITEL 3. OPTIMIERUNGSMETHODEN 25 te aber für Suchmaschinen lesbare Inhalte im Quellcode, die nicht selten mit Schlüsselwörtern überfüllt sind. Dabei handelt es sich ganz klar um Täuschungsversuche, die allerdings schwer erkannt werden können, solange Suchmaschinen CSS nicht berücksichtigen. 3.1.4 Seitenstruktur Eine gut organisierte Seitenstruktur wird es nicht nur menschlichen Besuchern leichter machen sich zu orientieren, sondern auch Crawlern von Suchmaschinen. Suchmaschinen beziehen zudem die Tiefe einer Seite innerhalb der Struktur in ihre Bewertung mit ein. Dokumenten auf vierter oder fünfter Ebene wird verständlicher Weise weniger Relevanz beigemessen werden. Daher gilt die Bemühung die Seitenstruktur so flach wie möglich zu halten, zwei bis maximal drei Ebenen reichen in den meisten Fällen vollkommen aus. Da Suchmaschinen rein textbasiert arbeiten, ist eine Navigation bestehend aus Text-Links von Vorteil, damit die Verweis-Texte auch extrahiert werden können. Breadcrumb-Navigation Zur Orientierungssteigerung werden vermehrt so genannte Breadcrumb Navigationen angeboten, die einen Überblick aller höher gelegenen Ebenen zeigen und so eine praktische Navigationshilfe sind. Neben verbesserter Übersicht und Usability sind damit zusätzliche wertvolle interne Verlinkungen geschaffen, die Benutzer und Suchmaschinen zu gleichen Teilen erfreuen. Sitemap Für umfangreiche Sites unerlässlich ist eine Übersicht über das Angebot einer Site in Form einer Sitemap. Wichtig dabei ist, dass die Verlinkungen in einem Format umgesetzt sind, das von Crawlern gelesen und verwertet werden kann. Seit Juni 2005 bietet Google eine noch in der Betaphase befindliche Dienstleistung namens Google Sitemaps an. Damit können Informationen über die Seiten der Website mithilfe einer Sitemapdatei im XMLFormat an Google übermittelt werden. Zusätzlich zur URL der Dokumente sind auch Informationen wie das letzte Änderungsdatum, die Priorität des Dokuments in der Website und die Häufigkeit der Änderungen enthalten. So können z. B. auch Informationen über Webseiten, die dynamischen Inhalt enthalten und die durch Verfolgen von Links nicht so leicht gefunden werden, mittels einer Sitemapdatei angegeben werden, um Crawler über deren Verfügbarkeit zu informieren. Zur Erzeugung dieser Listen werden häufig Sitemap-Generatoren eingesetzt. Mehr zu diesem Angebot findet man auf der Website der Google Sitemaps2 . 2 https://www.google.com/webmasters/sitemaps/docs/de/about.html KAPITEL 3. OPTIMIERUNGSMETHODEN 3.1.5 26 Suchmaschinenfreundliche URLs Problematisch für die Indexierung bei Suchmaschinen erweisen sich dynamisch generierte Seiten, die mit Inhalten einer Datenbank befüllt werden. Genau genommen geht es nicht um die Tatsache, dass solche, vermehrt von Content Management Systemen erstellte, Seiten dynamisch generiert sind, sondern um die Syntax der URL. Häufig werden an die Adresse der Site Parameter angehängt, der Aufbau ist dann an einer Form wie http://www.mysite.com/index.php?id=28 erkennbar. Suchmaschinen reagieren unterschiedlich auf solche Seiten. Zwar indexieren manche, wie beispielsweise Google, mittlerweile auch dynamische Dokumente, allerdings nur, wenn diese eine ausreichende Zahl qualitativer Links auf sich vereinen. Einige Suchmaschinen spidern auch URLs mit angehängten Parametern, schneiden jedoch alles nach dem Fragezeichen ab und indexieren nur diesen Inhalt. Viele ignorieren aber auch Adressen, die nach Dynamik“ ausschauen, komplett, vor allem wenn als Parameter ei” ne SessionID mitübergeben ist. Der Grund dafür liegt darin, dass es für Suchmaschinen wenig Sinn macht, Inhalte zu indexieren bei denen zu einem späteren Zeitpunkt der Inhalt der Seite nicht mehr nachvollziehbar ist. Dadurch könnten schnell Widersprüche zwischen dem von der Suchmaschine angezeigten und dem tatsächlichen Inhalt entstehen. Statische Seiten Als einfachste Lösung bietet es sich an, statische Seiten aus der Datenbank zu generieren, die dann durch ihre Endung .html oder .htm und ohne angehängte Parameter von allen Suchmaschinen bedenkenlos aufgenommen werden. Ein weiterer positiver Nebeneffekt ist die schnellere Übermittlung, da dynamische Seiten meist etwas länger brauchen, bevor sie an den Browser geschickt werden. Allerdings ist diese Variante nicht immer praktikabel, weshalb es eine Reihe von Tricks“ gibt, wie dynamische Seiten zur Laufzeit ” statisch simuliert werden können. Apache Modul mod rewrite Sind Webseiten auf einem Apache Webserver3 gehostet, so kann die URL mittels des Moduls mod rewrite in Laufzeit neu geschrieben werden, auf eine Weise, die für Crawler keine Probleme in der Erfassung mehr darstellen. Dazu wird eine .htaccess Datei4 eingesetzt, die eine solche Umschreibung anhand von definierten Regeln veranlasst. Basierend auf einem Parser für reguläre Ausdrücke wird die URL manipuliert. Diese Methode kann z. B. die Umschreibung einer Adresse wie http://www.site.com/index.php?artikel=263 3 4 http://httpd.apache.org Konfigurationsdatei, des Apache Webservers. KAPITEL 3. OPTIMIERUNGSMETHODEN 27 in eine benutzerfreundliche Form ähnlich http://www.site.com/features.html veranlassen. Weitere Informationen zur Funktionsweise und Umsetzung bietet die deutsche Plattform zu URL-Rewriting mit dem Apache Modul5 . Apache ForceType Direktive Eine weitere elegante Methode zum URL-Rewrite bietet Apache auch mit der ForceType Direktive. Dabei wird per .htaccess Datei einer Datei explizit ein MIME-Typ (Medientyp) zugewiesen. Der Inhalt folgender .htaccess Datei würde bspw. einem Script namens web (ohne Endung) den Typ PHP zuweisen, das Auftreten von web in einer URL (z. B. http://www.site.com/pages/Information/) also als Aufruf einer Datei web vom Dateityp PHP interpretiert werden: <Files web> ForceType application/x-httpd-php </Files> Das in diesem Fall aufgerufene PHP-Script kümmert sich weiter um die Analyse der Pfades und die somit eindeutige Identifikation, welche Seite und somit welche Inhalte dargestellt werden sollen. Die Information in der URL, die dem Scriptnamen (hier: web) folgt, stellt also keine tatsächliche Verzeichnisstruktur dar. Alle Suchmaschinen indexieren eine solche Seite problemlos, weil kein Unterschied zu statischen HTML-Seiten mehr vorhanden ist. Die Vorgehensweise zum Erstellen suchmaschinenfreundlicher URLs mit der Apache ForceType Direktive und PHP beschreibt auch [27]. Trotz der verlockenden Möglichkeiten des URL-Rewriting sollte beachtet werden, dass es nur wirklich Sinn macht, wenn sich die Inhalte der dynamischen Seiten nicht ständig, und vor allem nicht grundlegend, ändern. Anderenfalls könnten schnell Inkonsistenzen zwischen von Suchmaschinen indexierten und den tatsächlichen Inhalten einer Webseite entstehen. 3.1.6 Optimierung durch Tags Auch HTML-Elemente selbst bieten Eigenschaften, die bei richtiger Verwendung zur Suchmaschinenfreundlichkeit der Seiten erheblich beitragen können. Title-Tag Eine nicht zu unterschätzende Bedeutung ist dem Title-Tag in Head-Bereich jedes Dokuments beizumessen. Dieser, den Inhalt der Seite kurz und prägnant beschreibende, Text wird nicht nur hoch bewertet sondern dessen Attraktivität hängt auch eng damit zusammen, ob der Titel in den Ergebnislisten auch angeklickt wird. Bei der Wahl dieser Wortfolge ist nun einerseits 5 http://www.modrewrite.de KAPITEL 3. OPTIMIERUNGSMETHODEN 28 zu beachten, dass für Suchmaschinen relevante Schlüsselwörter vorkommen, andererseits sollte der Text auch den Benutzer ansprechen und beschreiben, was von dieser Seite erwartet werden kann. Immerhin wird diese Kurzbeschreibung als Überschrift in der Ergebnisliste von Suchmaschinen, sowie in der Titelzeile des Browsers und in der Taskleiste gezeigt, ebenso wie sie als Vorlage für die Bezeichnung eines Lesezeichens genutzt wird. Google zeigt die ersten 66 Zeichen (inkl. Leerzeichen) des Title Textes als verlinkte Überschrift in der Liste der Suchergebnisse an, längere Ausführungen machen somit wenig Sinn. Vor allem ist aber dabei darauf zu achten, dass diese kurze Wortfolge durch ihre Formulierung den Suchenden in Sekundenschnelle überzeugen kann, eine für ihn relevante Seite gefunden zu haben. Meta-Tags Meta-Tags wurden ursprünglich als Hilfsmittel zur Seitenbewertung eingeführt. Die Idee dahinter war es, einem Dokument Metadaten mitzugeben, die eine inhaltliche Zusammenfassung bieten, und von Suchmaschinen genutzt werden können. Allerdings führte diese Methode, den Autoren selbst diese Informationen verfassen zu lassen, schnell zu Missbrauch. Aus diesem Grund haben Meta-Informationen heute nur noch eine geringe Bedeutung für das Ranking, von den meisten Suchmaschinen werden sie einfach ignoriert. Zur suchmaschinengerechten Aufbereitung von Webseiten sind sie allerdings immer noch eine nützliche Ergänzung. Vor allem die beiden MetaTags Description und Keywords sollten also dennoch auf jeder Seite einer Site gesetzt sein. Meta-Tag Description“: Der Description-Tag beinhaltet einen Beschrei” bungstext, der als Zusammenfassung des Seiteninhalts zu verstehen ist. Dieser Text wird teilweise immer noch als Textauszug zur Beschreibung eines Suchergebnisses genutzt. Immer mehr Suchmaschinen, wie z. B. Google, zeigen aber auch hier eigene Auszüge der Seite an. Die optimale Länge des Textes sollte zwischen 150 und 250 Zeichen betragen, zu lange Ausführungen werden abgeschnitten. <meta name="description" content="SenoCMS ist ein Open Source Web-Content Management System das gezielt auf die Optimierung der Seiten für Suchmaschinen ausgelegt ist." /> Meta-Tag Keywords“: Zur Übermittlung von seitenrelevanten Schlüssel” wörtern dient der Keyword-Tag. Die wenigsten Suchmaschinen schenken diesen Schlüsselwörtern in der Berechnung des Rankings noch Bedeutung. Jedenfalls sollte die Angabe eine Länge von 1000 Zeichen nicht überschreiten, wobei bereits mehr als 25 Wörter erfahrungsgemäß zu viel sind, wie auch in [9, S. 41] nachzulesen ist. KAPITEL 3. OPTIMIERUNGSMETHODEN 29 <meta name="keywords" content="Suchmaschinenoptimierung, CMS, Content Management System, Suchmaschine, Optimierung, SenoCMS, Open Source, suchmaschinenoptimiert" /> Meta-Tag Language“: Obwohl die meisten Suchmaschinen eigene Spra” cherkennungsverfahren verwenden, kann auch der Meta-Tag Language dazu verwendet werden, um die Sprache des Dokuments auszuzeichnen. Dies hat zwar keinen direkten Einfluss auf das Ranking, ist aber zur leichteren Identifizierung der Sprache hilfreich. <meta name="language" content="de" /> Meta-Tag Robots“: Möchte man, dass einzelne Seiten nicht von Such” maschinen indexiert werden, so kann dies unter Verwendung des MetaTags Robots erreicht werden. Dieser bietet die Möglichkeit, dem Crawler mitzuteilen, welche gefundenen Links nicht verfolgt werden dürfen und wird von allen Suchmaschinen beachtet, wenngleich das nicht bedeutet, dass es alle Suchmaschinen als zwingende Anweisung betrachten. Im Gegenzug könnte man mit den Werten index und follow die Anweisung geben, die Seite zu indexieren und alle gefundenen Links zu verfolgen. Dies ist allerdings standardmäßig ohnedies der Fall und wird somit prinzipiell nicht benötigt. <meta name="robots" content="noindex, nofollow" /> An dieser Stelle sollte auch gleich eine effizientere Methode erwählt werden, mit der kontrolliert werden kann, welche Seiten indexiert werden sollen. Das Robots Exclusion Protocol (REP) stellt mit der Datei robots.txt eine Möglichkeit zur Verfügung, global in einer Datei im Root-Verzeichnis der Website alle Restriktionen zu definieren. Die Datei wird von Webcrawlern vor Besuch einer Seite standardmäßig angefordert und deren Inhalt analysiert. Meta-Tag Googlebot“: Mit dem Meta-Tag Googlebot bietet der Such” maschinenbetreiber Google eine Variante, nur Google-Robots ansprechen zu können. Alle anderen Webcrawler ignorieren diese Meta Information vollständig. Möchte man das Indexieren einer Seite also explizit für Google-Robots verhindern, so kommt folgender Tag zum Einsatz: <meta name="googlebot" content="noindex, nofollow" /> Google erstellt automatisch eine Cacheversion jeder indexierten Seite, die genauso angezeigt wird, wie die Seite dargestellt wurde, als Google sie zum letzten Mal besucht hat. Die Anzeige eines Links zur CacheSeite eines Suchergebnisses kann bei Google wie folgt unterbunden werden: <meta name="googlebot" content="noarchive" /> KAPITEL 3. OPTIMIERUNGSMETHODEN 30 Außerdem kann Google auch daran gehindert werden, einen Textauszug zu den Suchergebnissen einer Seite anzuzeigen. Die Einträge erscheinen dann gänzlich ohne Beschreibung und wirken unvollständig, weshalb von dieser Methode dringend abzuraten ist. Folgender MetaTag müsste im Head-Bereich der Seite platziert werden, um die Anzeige eines Beschreibungstextes zu verhindern: <meta name="googlebot" content="nosnippet" /> Hinweise zum Entfernen von Seiten aus dem Google-Index findet man unter den Google-Informationen für Webmaster6 . Weitere existierende Meta-Tags hier im Detail anzuführen macht, wegen deren verschwindend geringen Bedeutung für Suchmaschinen, in diesem Zusammenhang keinen Sinn. Auch die nach dem Dublin Core (DC)7 MetadatenSchema standardisierten Meta-Tags, zur Beschreibung von Dokumenten und anderen Objekten im Internet, werden von Suchmaschinen bislang noch nicht verarbeitet. Überschriften Überschriften, die auch in HTML als solche gekennzeichnet sind, sind ein bedeutender Faktor für das Ranking. Dabei sind Überschriften durch die vorgesehenen Tags <h1>,<h2>,<h3>,<h4>,<h5> oder <h6> auszuzeichnen, wobei der <h1> Tag die höchste Ebene, also die Hauptüberschriften darstellt. Um nicht mit den typografisch eher unschönen Formatierungen Vorlieb nehmen zu müssen, kann mittels CSS das Aussehen dieser Elemente beliebig angepasst werden. Hyperlinks Besonders hoch gewichtet werden Linktexte, weshalb hier ganz bewusst Schlüsselbegriffe des Dokuments, auf das der Verweis zeigt, unterzubringen sind. Weist der Linktext korrekt auf das zu erwartenden Thema hin, so trägt dies speziell zur Erhöhung der Linkpopularität bei. Ebenso wird die Seite, die den Link enthält höher gewichtet, wie in [9, S. 226–228] ausführlich beschrieben. Linktexte wie Klicken Sie hier“ oder der häufig zu beobachtende ” mehr“-Link sind für Suchmaschinen aus genannten Gründen nichtssagend ” und tragen natürlich auch zu keiner höheren Gewichtung bei. Dienen Grafiken als Links, ist eine alternative textuelle Beschreibung unerlässlich. Um Informationen über das Linkziel zu bieten, sind entsprechende Schlüsselwörter in den Alt- und Title-Attributen der Grafiken zu platzieren. 6 7 http://www.google.com/webmasters/remove.html Dublin Core Metadata Initiative, http://dublincore.org KAPITEL 3. OPTIMIERUNGSMETHODEN 31 Aufzähllisten Zur übersichtlichen Darstellung und somit zur besseren Lesbarkeit eignen sich als Aufzähllisten formatierte Bereiche innerhalb des Quellcodes. Solche Abschnitte werden auch von Suchmaschinen erkannt und die darin auftretenden Punkte (in den <li>-Tags) höher als im reinen Fließtext bewertet. Texthervorhebungen Nicht nur, um es Suchmaschinen leichter zu machen die Schlüsselwörter in einem Fließtext zu finden, sondern auch, um die Aufmerksamkeit des Lesers zu lenken, bietet sich die Hervorhebung von einzelnen Wörtern oder Phrasen an. Eine höhere Gewichtung wird für Textpassagen erreicht, die durch Tags ausgezeichnet sind, von denen Tabelle 3.1 einige wichtige Elemente zeigt. Um den optischen Ansprüchen gerecht werden zu können, kann mittels Neuformatierung der Tags per CSS das Aussehen verändert werden. So können Wörter zwar im Quellcode und somit für Suchmaschinen hervorgehoben sein, müssen allerdings durch deren Formatierung im Fließtext gar nicht auffallen. HTML-Tag <h> <strong> <em> <dfn> <cite> <blockquote> Bedeutung Überschriften h1, h2, h3, h4, h5 und h6 fett hervorgehoben betonte Textpassage (kursiv) Darstellung einer Definition kurzes Inline-Zitat ausführliches Zitat Tabelle 3.1: Semantische Elemente zur Texthervorhebung. Auch Abschnitten, die mittels der nicht semantischen Elemente <b>, <i>, <u> gekennzeichnet sind, wird von nahezu allen Suchmaschinen eine höhere Bedeutung zugeordnet. Auf deren Einsatz ist zu verzichten, da diese Präsentations-Elemente ausschließlich Informationen zur Bildschirmdarstellung enthalten, und damit nicht unabhängig vom Ausgabegerät zu verwenden sind. Alt, Title Attribut Schlüsselbegriffe sollten auch immer bei Alt- und Title-Attributen von Grafiken Verwendung finden. Alternativer Text dient dazu über Inhalte zu berichten, selbst wenn diese nicht zu sehen sind. Davon profitieren nicht nur Suchmaschinen, die immer noch textbasierte Systeme sind, also keine Inhalte von bildlichen Darstellungen erkennen. Einerseits ist alternativer Text, KAPITEL 3. OPTIMIERUNGSMETHODEN 32 neben einem passend gewählten Dateinamen, die einzige Chance, die Inhalte der Bilder zu identifizieren, um bei einer Bildsuche gefunden zu werden, andererseits steigt die Gewichtung der Schlüsselwörter. 3.2 OffPage-Optimierung Das Pendant zur OnPage-Optimierung ist die OffPage-Optimierung. Dieser Bereich bezeichnet jene Maßnahmen, die zum Zweck der Optimierung außerhalb der Seiten des Internetauftrittes getroffen werden. Die moderne Suchmaschinenoptimierung konzentriert sich häufig auf diese Faktoren, da OffPage-Kriterien auch seitens der Suchmaschinen eine hohe Bedeutung beigemessen wird. Weniger beeinflussbaren Methoden wird somit zur Rankingermittlung mehr Gewichtung gegeben, und so eine Gegenmaßnahme gegen steigende Manipulationsversuche gesetzt. Die wichtigste zugehörige Maßnahme ist jene zur Steigerung der Link- bzw. Domainpopularität (siehe Kapitel 2, Abschnitt 2.3.2). 3.2.1 Wahl des Domainnamen Neben den Kriterien, den Domainnamen möglichst kurz und einprägsam zu halten, spielt die Entscheidung der Wahl des Namens auch eine Rolle hinsichtlich konsequenter Website-Optimierung für Suchmaschinen. Schlüsselwörter werden nicht bloß aus den Dokumenten, sondern auch aus möglichst vielen anderen Quellen, wie dem Domainnamen, bezogen. Sind die wichtigsten Schlüsselbegriffe, die für die Site am bedeutendsten sind, im Namen der URL integriert, so trägt dies entscheidend für ein gutes Ranking bei. Dabei sind Begriffe zu wählen, die das Hauptthema einer Site widerspiegeln und somit für die ganze Website passend sind. Die Entscheidung, ob Bindestriche oder Unterstriche die einzelnen Wörter im Domainnamen trennen, oder ob man alles in ein zusammengeschriebenes Wort verpackt ist hinsichtlich dem Indexierungsverhalten von Suchmaschinen leicht zu fällen. Bindestriche werden als Trennzeichen interpretiert, die einzelnen Wörter also getrennt voneinander als Schlüsselwörter gesehen. Hingegen sorgen Unterstriche nur für eine optische Worttrennung und werden wie zusammengeschriebene Domainnamen nur als ein Schlüsselwort indexiert. Die Domain seno-cms.at enthält also die zwei Schlüsselwörter seno“ ” und cms“, während seno cms.at oder senocms.at nur einen sehr spezifischen ” Begriff nämlich senocms“ beinhalten. ” 3.2.2 Steigerung der Linkpopularität Um die Linkpopularität zu steigern, gilt es möglichst viele bedeutende externe Seiten dazu zu bewegen, auf die eigene Seite zu verlinken. Im besten Fall KAPITEL 3. OPTIMIERUNGSMETHODEN 33 passiert dies freiwillig. Wie dies durch Publizierung entsprechend aufbereiteter Inhalte erreicht werden kann, darüber mehr in Kapitel 4. Ansonsten bleiben, abgesehen von weniger legitimen Methoden, wie der softwaregestützen automatischen Generierung von Links, nur Mittel, wie Verantwortliche von thematisch gleich gelagerten Webseiten anzuschreiben und um einen Verweis zu bitten, oder über (teilweise kommerziell betriebene) Tauschbörsen Linkpartner zu finden. Um ideale Verlinkungen erzielen zu können, empfiehlt es sich, auch zu analysieren, woher auf konkurrierenden Sites bedeutende eingehende Links stammen, wie ausführlich in [14] behandelt. Obwohl nach den Richtlinien der Suchmaschinen unerwünscht, erfreuen sich Linktausch sowie auch Linkmiete oder Linkkauf, großer Beliebtheit. Ohne Beschaffung zusätzlicher Links ist es oft schwer in Ergebnislisten von Suchanfragen top gelistet zu werden. Zu diesem Zwecke werden Links getauscht, aber auch für einen einmaligen Betrag gekauft oder gegen eine monatliche oder jährliche Gebühr gemietet. Sofern man auf die Art der Verlinkung Einfluss hat, sollte man darauf achten, dass es sich um textuelle Links, also nicht um Verlinkungen von Bildern handelt und auch darauf, dass dieser Text mindestens eines der wichtigsten Schlüsselwörter beinhaltet. Außerdem ist für Abwechslung im Linktext zu sorgen. Seit Februar 2005 werden Seiten von Google entwertet, deren eingehende Links zum größten Teil den gleichen Linktext tragen, wie [8] zu entnehmen. 3.2.3 Backlink Analyse Im Rahmen des Prozesses der Suchmaschinenoptimierung ist es immer wieder sinnvoll, bestehende Verlinkungen auf die eigene Site zu überprüfen. Zu diesem Zweck bieten die meisten, vor allem größeren Suchdienste, eine Möglichkeit an zu überprüfen, welche Seiten einen Link auf eine gesuchte Seite gesetzt haben. Der Befehl link:www.site.com bei Google, link:http://www.site.com bei Yahoo! (funktioniert nur mit http://) oder MSN liefert eine Auflistung dieser Seiten. Die daraus ermittelten Backlinks können, vor allem bei Google, hinsichtlich der Vollständigkeit nicht als zuverlässig angesehen werden. Die von Google angezeigte Anzahl an Treffern ist bedeutend geringer als die anderer Suchmaschinen. Bis Juni 2004 galt als Begründung dafür, dass nur Seiten mit einem Mindest-PageRank von 4 gelistet werden, so auch in [13]. Die häufige Verwendung des Befehls führte dazu, dass Google heute nur noch einen Bruchteil der Links anführt, die in der Datenbank vorhanden sind. Eine Linkabfrage bei Google zeigt also nicht alle Backlinks, sondern nur eine nicht weiter definierte Teilmenge an. Manipulationsversuche und dabei vor allem die Möglichkeit herauszufinden, woher Backlinks auf bedeutende Seiten stammen, um diese Kenntnisse zur Verbesserung der eigenen Situation einzusetzen, sollen auf diese Weise möglichst unterbunden werden. KAPITEL 3. OPTIMIERUNGSMETHODEN 34 Auch eine Linkabfrage bei Yahoo! findet nicht alle Backlinks. Dahinter verbirgt sich allerdings nicht eine zufallsmäßige Anzeige einer Teilmenge wie von Google praktiziert, sondern die Tatsache, dass sich Yahoo!Crawler weniger tief in der Sitestruktur bewegen. Mit dem Kommando linkdomain:www.site.com (hier ohne http://) bietet Yahoo! zusätzlich die Möglichkeit, Links zu einer Site anzuzeigen, unabhängig auf welche Seite die Links verweisen. Weitere Möglichkeiten der zielgenauen Abfrage sind in [13] geschildert. MSN bietet ebenfalls den Befehl linkdomain: an, und liefert insgesamt die meisten Treffer. Die genaue Anzahl an Backlinks lässt sich jedoch über eine Backlinkrecherche bei allen drei großen Suchmaschinen nicht ermitteln. Die Ergebnisse können dennoch zur ungefähren Einschätzung verwendet werden. Backlink Analyse Tools Zur Überprüfung existieren neben kommerziellen auch kostenlose Tools, die Backlinks auflisten und auswerten. Eines dieser kostenlosen Tools, der Backlink Spider der Firma Sario Marketing GmbH8 , sucht Google, Yahoo! und MSN Backlinks und listet diese auf. Dabei geht die, unter Windows lauffähige Software, Seite für Seite der Suchergebnislisten durch und protokolliert alle Treffer, die einen Link auf die gesuchte Seite gesetzt haben. Da Suchmaschinen, wie zuvor geschildert, nicht alle Seiten aus ihrem Index ausliefern, die der Suchanfrage entsprechen, hält diese Methode sicherlich nicht wissenschaftlichen Ansprüchen stand. Die Ergebnisse sind dennoch ausreichend, um den Stellenwert von Sites vergleichen zu können. Als weiteres Qualitätsmerkmal ermöglicht das Tool die Anzeige des Google PageRanks der entsprechenden Seite und zeigt den Linktext an, mit dem verlinkt wurde. Die Google-interne Einschätzung der Wichtigkeit der Seiten gleicht in vielen Punkten der Rankingmethoden von anderen Suchmaschinen und kann somit zur groben Klassifizierung herangezogen werden. Die erstellten Reports lassen sich wahlweise als CSV oder als HTML-Dokument abspeichern. Abbildung 3.1 zeigt die Benutzeroberfläche des Backlink Spiders. Einen Ausschnitt des erstellten Reports stellt Abbildung 3.2 dar. Dabei wird, neben der detaillierten Auflistung aller Links mit zugehöriger IP-Adresse und Google PageRank, eine Statistik der Anzahl der Backlinks, mit Aufschlüsselung der verschiedenen Domains und IP-Adressen sowie bezogen auf die Funde in den Suchmaschinen Google, Yahoo! und MSN, gezeigt. Im Weiteren zeigt der Bericht die Anzahl der Backlinks zu einem bestimmten Google PageRank und den Linktext gereiht in der Häufigkeit der Verwendung. Die Analyse wurde am Beispiel der Homepage der Site http://www.cyberhouse.at durchgeführt. 8 http://www.suchmaschinenberatung.de KAPITEL 3. OPTIMIERUNGSMETHODEN 35 Abbildung 3.1: Benutzeroberfläche des Backlink Spiders. 3.3 Suchmaschinen-Spamming Unter Suchmaschinen-Spamming (in englisch auch häufig als Spamdexing oder Black Hat Search Engine Optimization bezeichnet) versteht man alle Praktiken, die nicht relevante Webseiten auf vordere Plätze der Ergebnisseiten von Suchmaschinen bringen. Spammer setzen dazu eine Vielzahl unterschiedlichster Manipulationstechniken ein, um Mitbewerber auszustechen und selber besser positioniert zu werden. Die durch solche Vorgangsweisen bewusste Verletzung der Richtlinien von Suchmaschinen wird dabei in Kauf genommen, ebenso wie das Risiko, aus dem Suchindex verbannt und somit überhaupt nicht mehr gefunden zu werden. Auf einige häufig eingesetzte massive Spamming-Praktiken wird hier kurz eingegangen: 3.3.1 Doorway Pages Doorway Pages sind ausschließlich für Suchmaschinen konstruierte Seiten, die der eigentlichen Site vorgeschaltet sind. Diese hochoptimierten Seiten zielen darauf ab, durch eine gute Suchmaschinen-Position Besucher auf eine Website zu locken. Die Sites, auf die verwiesen, oder in manchen Fällen automatisch weitergeleitet wird, müssen dann gar nicht optimiert sein. Ein- KAPITEL 3. OPTIMIERUNGSMETHODEN 36 satzgebiet dieser Methode sind auch häufig dynamische Webseiten, die von Suchmaschinen nicht erfasst werden. Sinnvoller wäre es, die Optimierungsanstrengungen auf der eigentlichen Site anzuwenden, da der Aufwand zur Entwicklung einer guten Doorway Page auch nicht unterschätzt werden darf. 3.3.2 Cloaking Ein ähnliches Ziel wie die Doorway Pages verfolgt auch Cloaking. Abhängig vom anfragenden Client wird eine unterschiedliche Präsentation der Seite vom Webserver zur Verfügung gestellt. Webcrawler sehen also eine andere Version als menschliche Besucher. Im Extremfall kann es also sein, dass die Inhalte einer Website, die von einer Suchmaschine erfasst wurden, überhaupt nichts mit dem zu tun haben, was man im Endeffekt vorfindet. 3.3.3 Keyword Stuffing Um mit einem bestimmten Begriff eine gute Platzierung zu erreichen, wird immer wieder ein exzessives Wiederholen von Schlüsselwörtern innerhalb eines Dokuments versucht. Tricks, wie eine unsichtbar platzierte übermäßige Nennung eines Begriffes, oder das Überfüllen von Alt- und Title- Attributen zur Manipulation der Keyword-Dichte, werden von Suchmaschinen erkannt und als Spam gestraft. 3.3.4 Domain und Content Dubletten Wenn sich häufiges Auftreten von Schlüsselwörtern positiv auf das Ranking einer Seite auswirkt, liegt die Überlegung nahe, diese Seite oder überhaupt die komplette Site, zu duplizieren, also die identischen Inhalte mehrfach unter verschiedenen Domains anzubieten. Mit solchen so genannten Spiegelseiten (englisch: Mirror-Pages) kann zudem bewirkt werden, mehrere Einträge in den Ergebnislisten zu erzielen, um so die ersten Plätze der Suchergebnisse dominieren zu können. Dies widerspricht dem Grundprinzip der Suchmaschinenbetreiber, die bemüht sind, den Datenbestand möglichst gering zu halten, also Doppelungen, die keinen Mehrwert an Information bieten, auszuschließen. Dubletten sind, aus Sicht der Suchmaschinen, nicht nur tatsächliche Kopien einer Datei, sondern auch inhaltlich übereinstimmende, oder nur geringfügig voneinander abweichende Seiten. Die Entdeckung von doppelten Inhalten führt in den meisten Fällen zur vollständigen Entfernung aus dem Index, nur eine Ausführung wird beibehalten, [9, S. 286–288]. Vorsicht ist geboten, nicht unbeabsichtigt Dubletten entstehen zu lassen und so des Spammings gestraft zu werden. Mit dem Tool Site Wide Duplicate Content Analyzer9 kann eine Site auf Content Dubletten überprüft werden. 9 http://www.seojunkie.com/2006/05/24/site-wide-duplicate-content-analyzer KAPITEL 3. OPTIMIERUNGSMETHODEN 37 Dazu wird die gesamte Site von einem Crawler durchforstet und die Ähnlichkeit der Seiten analysiert die, als Prozentwert ausgedrückt, ausgegeben wird. 3.3.5 Linkfarmen und Linklisten Die Tatsache, dass Links ein wichtiger Baustein für ein gutes Ranking sind brachte Suchmaschinenoptimierer auf die Idee der Linkfarmen. Darunter versteht man das Betreiben von zahlreichen Websites mit dem primären Ziel von diesen Seiten auf die Sites der Kunden verlinken zu können. Damit will man erreichen, den Kundensites zu einem besseren Ranking zu verhelfen. Linklisten bestehen nahezu ausnahmslos aus Links, sind frei zugänglich und können von jedem, der seine Site eintragen möchte, genutzt werden. Die Absicht dahinter ist es, ebenfalls die Linkpopularität der verlinkten Seite zu steigern. Manipulationsversuche solcher Art werden von Suchmaschinen mittlerweile erkannt, eine Eintragung verliert daher zunehmend an Wirksamkeit. 3.3.6 Kreuzverlinkung Von einer Kreuzverlinkung spricht man dann, wenn eine Gruppe von Sites untereinander starke Verlinkungen aufweist, die offensichtlich in gegenseitigem Interesse entstanden sind. Dieses, als direkter Linktausch gehandelte Vorgehen, zählt zwar nicht zu den harten Spamming-Methoden, wird inzwischen aber zumindest von den großen Suchmaschinen erkannt und führt zur Abwertung der Linkwertigkeit. 3.3.7 Kampf gegen Kommentar-Spam Um die Linkpopularität einer Seite nach oben zu drücken, bedienen sich so genannte Kommentar-Spammer derselben Methoden, wie ihre Kollegen aus dem angestammten Bereich E-Mail. Dabei werden massenweise Einträge über ferngesteuerte Rechner vollautomatisch und scriptgesteuert hauptsächlich auf Weblogs losgelassen. Der Sinn dieser Spamtechnik besteht dabei weniger auf ein Angebot hinzuweisen und Besucher anzulocken, sondern liegt meist im Bemühen, konkret den PageRank durch eine hohe Zahl an Backlinks in die Höhe zu treiben, richtet sich also hauptsächlich an Google. Betroffen sind neben Weblogs auch Wikis10 , Foren und Gästebücher. Abhilfe gegen Kommentar-Spam kann eine Anmeldeprozedur oder die Eingabe eines Sicherheitscodes für die Kommentarfunktion bieten, was allerdings wieder viele reguläre Benutzer abschreckt. 10 Sammlungen von Seiten im Internet, die von Benutzern nicht nur gelesen, sondern auch online editiert werden können und meist der Wissensvermittlung dienen KAPITEL 3. OPTIMIERUNGSMETHODEN 38 Im Kampf gegen den Kommentar-Spam gehen die großen Suchmaschinenbetrieber Google, Yahoo! und MSN seit Anfang 2005 gemeinsam vor. Das von Google eingeführte Attribut rel="nofollow" zur Kennzeichnung von Hyperlinks, die nicht für den PageRank gewertet werden sollen, hat auch die beiden anderen größten Suchmaschinenbetreiber überzeugt. Zudem hat eine Reihe von großen Weblog-Anbietern wie Six Apart11 , Blogger12 oder WordPress13 darauf reagiert und ihre Software mit zusätzlichem Code versehen. Auch die stark frequentierte freie Enzyklopädie Wikipedia14 hat externe Links mit dem neuen Attribut versehen, was Verlinkungen weitgehend wertlos macht. Suchmaschinen unterscheiden die Links nun funktionell, während für Besucher die Funktionalität der Links erhalten bleibt. Dies bedeutet im Detail, dass Crawler von Suchmaschinen mit dem rel="nofollow"-Attribut gekennzeichneten Links nicht folgen, diese Links nicht bei der PageRankBerechnung der Seiten werten und auch den Linktext, der auf die Seiten zeigenden Links nicht beachten. Unter dem Motto Fight Spam Not Blogs“ hat sich seit Einführung die” ser Maßnahme eine Initiative15 gebildet, die die Nachteile dieses Vorgehens als zu eklatant findet, um diese Kennzeichnung zu unterstützen. Hauptangriffspunkt ist dabei, dass vor allem Weblogs diskriminiert werden, die noch mehr als andere Webseiten von Verlinkungen leben. Ein Jahr nach Einführung der Link-Kennzeichnung, gehen die Meinungen immer noch sehr auseinander, auch wenn es rund um das zu Beginn heftigst diskutierte Thema ruhiger geworden ist. Durchschlagender Erfolg in der Spam-Bekämpfung ist bisher nicht zu bemerken. Den Betreibern von Weblogs, Wikis, Foren oder Gästebüchern bleibt die freie Entscheidung über die Verwendung des rel="nofollow"-Attributs, da sich diese Funktion, wenn auch standardmäßig aktiviert, bei allen großen Weblog-Anbietern auch abstellen lässt. 3.3.8 Weitere Manipulationstechniken Zu weiteren populären Techniken zählen neben unsichtbaren Links oder sehr klein dargestelltem Text auch die Manipulation der Meta-Informationen die nicht mit dem tatsächlichen Inhalt der Seite übereinstimmen. Bei Suchmaschinen, die eine niedrige Wiederbesuchsfrequenz aufweisen, greifen manche auf eine als Bait and Switch (Ködern und Ändern) bezeichnete Methode zurück. Hier wird die Seite, so einmal im Index der Suchmaschine aufgenommen, bewusst komplett ausgetauscht. Auf diese Weise 11 http://www.sixapart.com http://www.blogger.com 13 http://wordpress.org 14 http://www.wikipedia.org 15 http://www.nonofollow.net 12 KAPITEL 3. OPTIMIERUNGSMETHODEN 39 können bspw. Flashseiten ein vergleichsweise hohes Ranking erreichen, das sonst nur textbasierte Versionen erzielen könnten. Auch wenn die Betreiber von Suchmaschinen den Spammern den Kampf angesagt haben, scheinen bei der Erfindung neuer Täuschungsversuche der Kreativität keine Grenzen gesetzt zu sein. Somit wird es wohl nie auszuschließen sein, dass Seiten ihre Platzierung mit nicht fairen Mitteln erreicht haben. 3.4 Suchmaschinenoptimierung als Dienstleistung Häufig wird Suchmaschinenoptimierung mit der Tätigkeit gleichgesetzt, die Firmen anbieten, um Webseiten eine vordere Platzierung bei Suchmaschinen zu verschaffen und für die Vernetzung der Internetpräsenz durch Verlinkungen zu sorgen. Diese Methode, die Aufbereitung der Seiten für Suchmaschinen zu delegieren, wird meistens im Anschluss an die Entwicklung der Site, also als eigenständiger Prozess durchgeführt. Die Vorgangsweise einen Experten der Suchmaschinenoptimierung erst nach Fertigstellung der Site mit einzubeziehen, wird auch in [22, S. 313–314] als einer der grundlegenden Fehler angeführt, treffend verglichen mit dem Bau einer Straße zu beginnen, ohne sich Gedanken zu machen, wo sie hinführen soll. Ein grundlegender Eingriff in Konzept und Strukturierung der Site kann in diesem Stadium nicht mehr durchgeführt werden, das Bemühen konzentriert sich darauf, die bestehende Situation bestmöglichst zu optimieren. Zur Verbesserung der Positionierung innerhalb der Suchergebnisse wird ein externer Optimierer keine Änderungen direkt am Quellcode vornehmen, dazu müsste meist der komplette Aufbau der Site geändert werden. Am Beginn des Optimierungsprozesses steht die Analyse der vorhandenen zu optimierenden Site, gefolgt von einer Recherche mit welchen Keywords realistisch eine Topplatzierung zu erreichen ist. Hinsichtlich der Optimierung der Inhalte, können dem Kunden Hinweise gegeben werden, welche Bereiche der Site zu wenig Schlüsselwörter beinhalten und welche Texte zu überarbeiten sind. Mehr wird und kann ein externer Optimierer nicht machen, um dafür zu sorgen, dass die Seiten auch jenen Inhalt bieten, zu dessen Begriffen sie gefunden werden sollen. Zur Steigerung der Linkpopularität, ist es meist ein Teil des angebotenen Optimierungspaketes, für die Beschaffung von Backlinks Sorge zu tragen. Suchmaschinenoptimierung wird von spezialisierten Firmen je nach Entscheidung des Kunden als einmalige Tätigkeit, sowie auch mit begleitender Beobachtung angeboten. Um längerfristig eine Position in den Ergebnislisten halten zu können ist die laufende Kontrolle unbedingt anzuraten. Nicht selten setzen Optimierer auch Techniken ein, die eine Verbesserung der Positionierung dem Kunden möglichst schnell sichtbar machen sollen. Solche Tricks“ zählen häufig zu den in Abschnitt 3.3 vorgestellten ” KAPITEL 3. OPTIMIERUNGSMETHODEN 40 Manipulationstechniken und bringen die Site des Kunden nicht nur möglicherweise schnell an eine Topposition, sondern beinhalten auch das Risiko, aus dem Index der Suchmaschinen vollständig entfernt zu werden. Diese unangenehme Nebenwirkung ist den Kunden, die eine solche Dienstleistung in Anspruch nehmen, meistens nicht bekannt, beschäftigen sie sich doch selbst nicht mit Vorgangsweisen zur Suchmaschinenoptimierung. Wird die Aufgabe an ein spezialisiertes Unternehmen delegiert, so sollte man sich vor der Auftragsvergabe darüber informieren, mit welchen Methoden gearbeitet wird, bzw. wie die Optimierung auf Referenzseiten durchgeführt wurde. Die Ansprüche des klassischen Kunden beschränken sich zumeist allerdings darauf, zu einem bestimmten Schlagwort top platziert gefunden zu werden und das möglichst sofort nach Vergabe der Auftrags. Die Qualität eines Unternehmens, das Suchmaschinenoptimierung als Dienstleistung anbietet, wird daran gemessen, wie schnell man zu den gewünschten Schlüsselwörtern gut gereiht wird, nicht mit welchen Mitteln dies erreicht wurde, oder wie dauerhaft die Ergebnisse sind. Hier ein Umdenken zu bewirken ist schwierig, da sich Kunden, die diese Tätigkeit in Anspruch nehmen, selbst meist nicht mit der Thematik beschäftigen und weder dessen Schwierigkeiten noch deren Risiken kennen. Suchmaschinenoptimierung als Dienstleistung in Anspruch zu nehmen, um mit einer bestehenden Site bessere Platzierungen zu erreichen, kann aus genannten Gründen nicht mit einer sauberen, von Beginn an in die Entwicklung integrierten Optimierung gleichgestellt werden. Die Überlegung, was mit einer Site erreicht werden will, und zu welchen Schlüsselwörtern das Angebot gefunden werden soll, ist unbedingt schon in die Konzeptplanung mit einzubeziehen und in der laufenden Entwicklung einer Site zu berücksichtigen. KAPITEL 3. OPTIMIERUNGSMETHODEN Abbildung 3.2: Ausschnitt aus dem erstellten Report der Backlink Analyse für http://www.cyberhouse.at. 41 Kapitel 4 Aufbereitung der Inhalte Das Internet als Informationsmedium stellt als wichtigste Anforderung an eine Website hochwertige Inhalte zu bieten. Technischer Suchmaschinenoptimierung gelingt es zwar vielleicht, Besucher auf eine Seite zu locken, doch viel entscheidender ist es, durch ein attraktives, zielgruppengerechtes Angebot Interesse und Aufmerksamkeit der Besucher zu gewinnen, sodass diese nicht sofort wieder die Seite verlassen. Inhaltliche Qualität erfüllt nicht nur die Erwartungen der Leser, sondern bietet, unter Beachtung einiger Grundregeln, auch für Suchmaschinen optimales Material. Content is king“ so die ” häufig zu lesende Schlagzeile. Mehr dazu soll in diesem Kapitel vermittelt werden. 4.1 Contentorientierte Suchmaschinenoptimierung Was gut ist für den Leser, ist auch gut für die Suchmaschine. ” Sie können auf viele technische Tricks bei der Optimierung Ihrer Website verzichten, wenn Sie regelmäßig für aktuelle, redaktionell optimierte Inhalte auf Ihrer Website sorgen. Dies bewerten Besucher und Suchmaschinen gleichermaßen positiv und es spiegelt sich im Erfolg Ihrer Website wieder.“ [3] Wie dieser Tipp treffend formuliert, spielt die Aufbereitung der Inhalte eine substanzielle Rolle im Prozess der Suchmaschinenoptimierung. Zum Content oder Inhalt einer Webseite zählen alle Elemente, die für den Benutzer einen Informationswert haben können. Vor allem sind dies Texte, aber auch Grafiken, Fotos, Animationen, Videos, Audiomaterial, sowie zum Download angebotene Dateien. Crawler von Suchmaschinen können ausschließlich rein textuell vorliegende Inhalte lesen und verarbeiten, weshalb im Folgenden unter Content hauptsächlich informationsvermittelnde Texte zu verstehen sind. Allgemein gelten für den Inhalt online ganz andere Regeln, als für gedruckten Text, was auf das Leseverhalten im Internet zurückzuführen ist. 42 KAPITEL 4. AUFBEREITUNG DER INHALTE 43 Nur 16% der Onlineleser lesen einen Artikel vollständig durch, [1, S. 13]. Texte werden online meist schnell nach Schlüsselwörtern und Kernaussagen überflogen, sozusagen gescannt. Der typische Website-Besucher verfolgt das Ziel, sich kurz einen Überblick zu verschaffen, um möglichst schnell zur gesuchten Information zu kommen. Für Strukturierung und Hervorhebungen im Text zu sorgen ist deshalb besonders wichtig, damit der Nutzer nicht Geduld und Interesse verliert. Wird dem Besucher einer Webseite ein Angebot unterbreitet, das genau das darstellt, was er sucht, so wird er dieses nicht nur zufrieden wahrnehmen, sondern möglicherweise auch später wieder gerne darauf zurückgreifen oder es weiter empfehlen. Darum ist dafür zu sorgen, die Artikel zum Thema der Webseite zu verfassen und gezielt Schlüsselwörter zu verwenden, nach denen ein Interessent oder möglicher potenzieller Kunde suchen könnte. Besonders wertvoll ist es natürlich, wenn es ein Artikel schafft, andere zu motivieren, auf dieses Informationsangebot zu verlinken. Solche, durch qualitativ hochwertige Inhalte, freiwillig erzielte Backlinks erhöhen nicht nur den Bekanntheitsgrad, sondern können einer Seite auch entscheidend zu einer Bedeutungssteigerung im Suchmaschinen-Ranking verhelfen. 4.2 Schlüsselwörter finden und optimieren Zu welchen Suchbegriffen soll mein Angebot von Suchmaschinen gefunden werden? Diese Frage steht bereits in der Konzeptionierung zentral im Mittelpunkt, wenn es darum geht zu definieren was mit einer Website erreicht werden will. Eines ist klar: Mit fairen Methoden kann eine Webseite zu Suchbegriffen nur gefunden werden, wenn diese Wörter und Wortkombinationen wortwörtlich auch im textuellen Inhalt des Dokuments oder in den Links, die auf die Seite verweisen, vorkommen. Das Finden und Festlegen von optimal auf die Seite abgestimmten Schlüsselwörtern zählt zu den schwierigsten Aufgaben im Optimierungsprozess. Je nach Konzept werden Keywords, neudeutsch für Schlüsselwörter, für die ganze Site oder aber noch effektiver für jede einzelne Seite bestimmt. Diese, nicht mehr als drei bis vier Wörter oder Wortkombinationen pro Dokument, beschreiben im Optimalfall das Thema, stimmen mit häufigen Sucheingaben der Zielgruppe überein und schaffen es zusätzlich, sich gegenüber der Konkurrenz durchzusetzen. 4.2.1 Ideensammlung Zunächst ist festzustellen, welchem Informationscluster man die eigene Website zuordnen würde. Um die Kategoriezugehörigkeit korrekt festlegen zu können, kann es hilfreich sein, nach den Haupt-Schlagwörtern der eigenen Site in Verzeichnissen zu suchen und daraus zu ermitteln, in welchem Cluster ein Suchdienst ihr Angebot vermuten würde, so auch in [30, S. 37–39]. KAPITEL 4. AUFBEREITUNG DER INHALTE 44 Als nächster Schritt folgt dann die Überlegung, welche Schlüsselwörter relevant für den Webauftritt und damit zu optimieren sind. Um Ideen zu sammeln, ist dabei zu Beginn ein Brainstorming anzuraten. Das Ergebnis dieser ersten Phase der Keyword Recherche ist eine lange Liste mit Wörtern, Begriffen und Kombinationen, die der eigenen Meinung nach bedeutend sind. Nun gilt es, die Liste durch weitere Faktoren zu erweitern und danach zu entscheiden, welche dieser Schlüsselwörter auch tatsächlich erfolgversprechend sind. 4.2.2 Suchbegriffe der Zielgruppe nutzen Optimal gewählte Schlüsselwörter spiegeln den Inhalt einer Seite wider und sind zudem im aktiven Wortschatz der Zielgruppe vorhanden. Es sind also Wörter, nach denen gesucht wird und die dem Informationssuchenden spontan einfallen. Eine gewisse Betriebsblindheit, die ein Wissen voraussetzt, das die Zielgruppe aber nicht hat, erschwert verbreitet die Sicht auf oft einfach formulierte, aber sehr treffende Begriffe. Dafür ist die genaue Kenntnis um die Bedürfnisse der Zielgruppe von Vorteil. Nicht außer Betracht gezogen werden darf also, dass weniger involvierte Personen häufig überraschend andere Begriffe verwenden würden, um ihre Website zu finden. Durchaus ratsam ist es daher, sich unter Kollegen und im Freundeskreis umzuhören und auch diese Ideen und Meinungen in die Entscheidung mit einzubeziehen. 4.2.3 Logfiles und Webstatistiken auswerten Handelt es sich um einen Relaunch oder ist eine Site schon einige Zeit online verfügbar, so kann eine Auswertung, der vom Webserver protokollierten Aktionen hilfreich für die richtige Wahl der Schlüsselwörter sein. Die so genannten Logfiles verzeichnen jede getätigte Aktion, so kann unter anderem auch ermittelt werden, mit welchen Suchbegriffen Besucher bislang auf die Seite gestoßen sind und welche Seiten am meisten frequentiert sind. Daraus lassen sich interessante Erkenntnisse ableiten, vor allem, wenn die Begriffe nicht mit denen übereinstimmen, die man sich erwartet hätte. Logfiles, sowie Webstatistiken liefern zudem Informationen zum Benutzerverhalten und zum Erfolg einer durchgeführten Suchmaschinenoptimierung. 4.2.4 Die Konkurrenz als Inspiration Eine weitere nicht unwesentliche Quelle der Inspiration bietet die Analyse der Seiten der Konkurrenz. Unter Mitbewerbern versteht man in diesem Zusammenhang vor allem jene Anbieter, die in den Ergebnislisten der Suchmaschinen zu Suchbegriffen, die den eigenen entsprechen, top platziert sind. Als schnellster Weg der Analyse empfiehlt sich ein Blick auf den Quellcode einer konkurrierenden Seite. Häufig findet man im Title-Tag, sowie in den beiden Meta-Tags Description und Keywords jene Begriffe, die für diese Seite als KAPITEL 4. AUFBEREITUNG DER INHALTE 45 Schlüsselwörter definiert wurden. Eine exaktere Auflistung bieten entsprechende Tools, wie z. B. von AbiLogic1 online angeboten, die die Häufigkeit des Auftretens und die Dichte der Keywords auswerten. Damit lässt sich deutlich erkennen, welche Begriffe speziell optimiert wurden. Mitunter findet man auf diesem Weg brauchbare Begriffe, die ohne weiteres für eigene Zwecke übernommen werden können. Natürlich darf man nicht erwarten, durch die Wahl ähnlicher Keywords einen ebenso guten Erfolg erzielen zu können. 4.2.5 Einsatz von Keyword Tools Bei der Auswahl der Schlüsselwörter, ist es äußerst wichtig zu wissen, unter welchen Stichwörtern Benutzer nach den Informationen suchen könnten, die man bereithält. Um dies besser einschätzen zu können existieren Keyword Tools, die einem angegebenem Schlüsselwort ähnliche, populäre Suchwörter und Begriffskombinationen generieren, wobei die Vorschläge aus Datenbanken tatsächlich verwendeter Suchbegriffe ermittelt werden. Neben kommerziellen Datenbanken gibt es auch kostenlose Online-Tools, wie von Yahoo! Search Marketing2 (ehemals Overture) oder Miva3 , die Keywordvorschläge und Suchhäufigkeiten darstellen. Allerdings beziehen sich diese Daten auf einen weniger repräsentativen Datenbestand, da die populären Suchbegriffe der marktführenden Suchmaschine Google nicht miteinbezogen sind. Umfangreichere Unterstützung kann auf der Suche nach englischsprachigen Keywords erwartet werden. Hier ist vor allem der oft genutzte, kostenpflichtige Dienst Wordtracker4 zu nennen. Da das Analysewerkzeug allerdings derzeit nicht mit deutschen Begriffen arbeitet, wird auf dessen weitreichende Möglichkeiten gegenüber frei zugänglichen Tools, hier nicht weiter eingegangen. Der Suchmaschinenbetreiber Google stellt mit seinem Keywords-Tool5 nicht nur für Kunden bezahlter Anzeigen (Google AdWords) wertvolle Information für die Keyword-Recherche zur Verfügung, sondern bietet generell hilfreiche Auskunft auf der Suche nach Schlüsselwörtern. Das Online-Tool listet nach Eingabe eigener Stichwörter, Variationen und Kombinationen möglicher Schlüsselwörter. Zu jedem der Vorschläge bietet Google die zugehöriger Mitbewerber-Dichte und Suchvolumen als Information an. Zu den Stichwörtern suchmaschinenoptimierung“, content management systeme“, ” ” seo“ und cms“ liefert das Google Keywords-Tool, die in Abbildung 4.1 aus” ” zugsweise gezeigten Vorschläge für mögliche Schlüsselwörter, sortiert nach dem Suchvolumen. 1 http://www.abilogic.com/seo/keywords-analyzer.php http://searchmarketing.yahoo.de 3 http://www.miva.com/de/content/advertiser/landing1.asp 4 http://www.wordtracker.com 5 https://adwords.google.de/select/KeywordToolExternal 2 KAPITEL 4. AUFBEREITUNG DER INHALTE 46 Abbildung 4.1: Auszug der vorgeschlagene Schlüsselwörter mit Mitbewerberdichte und Suchvolumen des Google Keyword-Tools. Die Liste der Vorschläge lässt sich auch mit zusätzlicher Anzeige der globalen Trends zum Suchvolumen darstellen. Wie Abbildung 4.2 zeigt, gibt dabei ein Balkendiagramm Auskunft über den Trend der Suchanfrage in den vergangenen zwölf Monaten. Auch wenn keine exakten Zahlen präsentiert werden, sondern die Durchschnittswerte in Form von Balken dargestellt sind, bietet die Auswertung einen guten Überblick. Die Vorschläge basieren auf den Datenbeständen von Google, weshalb man bei Einsatz dieses Tools wesentlich relevantere Ergebnisse erwarten kann. Die gesammelten Keywords sind auf Sprache, Land und Gebiet abgestimmt und lassen sich als CSV-Dateien exportieren. Das Tool kann alternativ auch dafür eingesetzt werden, um Schlüsselwörter im Zusammenhang mit dem Content einer bestehenden Webseite zu finden. Basierend auf der URL der Seite werden einzelne Stichwörter, sowie Kombinationen häufig auftretender Begriffe angezeigt. 4.2.6 Realistisches Ziel verfolgen Nicht mit jedem Schlüsselwort kann realistisch gesehen eine Topplatzierung bei Suchmaschinen erreicht werden. Eine entscheidende Größe in diesem Zusammenhang ist die Inverse Dokumenthäufigkeit (siehe Kapitel 2, Abschnitt KAPITEL 4. AUFBEREITUNG DER INHALTE 47 Abbildung 4.2: Auszug der vorgeschlagene Schlüsselwörter mit durchschnittlichem Suchvolumen und dessen Trendverhalten. 2.3.1). Sie bildet zusammen mit der Häufigkeit eines Suchwortes die Grundlage für ein verbreitetes, statistisches Verfahren namens Term Frequency Times Inverse Document Frequency (TFIDF) für die Ermittlung von Relevanz und dem Ranking von Suchergebnissen. Je größer die Gesamthäufigkeit eines Begriffes innerhalb der kompletten Datenbank ist, desto niedriger ist der inhaltswiedergebende Wert dieses Begriffes. Ein gutes Beispiel dazu liefert [9]: Möchte man als Schlüsselwort email bzw. E-Mail benutzen, wird man mit dem Problem konfrontiert, dass diese Begriffe keine Seltenheit in Web sind und schätzungsweise innerhalb jeder dritten Kontaktseite auftauchen werden. Zudem darf nicht übersehen werden, dass es ein schwieriges Unterfangen ist, top platzierte Seiten die hohe Ranking-Werte besitzen, übertreffen zu können. Auf das vorhin genannte Beispiel bezogen wären das z. B. Anbieter von E-Mail-Accounts, die eine hohe Link Popularität aufweisen können und so die ersten Plätze der Ergebnisseiten belegen. Begriffe, bei denen man mit starker Konkurrenz zu rechnen hat, erweisen sich also nur bedingt als gute Schlüsselwörter. Realistisch gesehen wird deren Optimierung nicht sehr erfolgversprechend sein, weshalb besser Alternativen oder Wortkombinationen anstatt dessen zu verwenden sind. 4.2.7 Begriffskombinationen Eine typische Suchabfrage besteht nicht bloß aus einem Suchbegriff, sondern wird gewöhnlich zumindest durch das Eintippen eines zweiten Wortes verfeinert. Solche Kombinationen aus zwei oder mehreren Begriffen müssen bei der Wahl gezielter Schlüsselwörter unbedingt beachtet und in der Umsetzung der Seite konsequent gemeinsam platziert werden. Mit geschickt gewählten Wortkombinationen gelingt es oft, sich ohne großem Zusatzaufwand erfolgreich gegenüber der Konkurrenz durchsetzen zu können. Entscheidend ist KAPITEL 4. AUFBEREITUNG DER INHALTE 48 dabei die Reihenfolge der gesuchten Wörter. Werden die Begriffe auf einer Seite in der selben Abfolge vorgefunden, so bedeutet das natürlich ein besseres Ranking. In welcher Weise der Nutzer die Suche zu verfeinern versucht, ist also zu berücksichtigen. Die gesuchten Begriffe folgen logischer Weise nicht immer direkt aufeinander. Die Wortnähe der Schlüsselwörter ist jedoch ein wichtiger Faktor. Je geringer der Abstand zwischen den Phrasen ist, desto besser wird die Seite bewertet und somit dem Suchenden als relevant erscheinen. 4.2.8 Eigenschaften von Schlüsselwörtern Auf der Suche nach Information über Suchmaschinen verwendet die Mehrzahl der Benutzer Substantive, um die Suchanfrage zu formulieren. Aus diesem Grund ist es natürlich sinnvoll, wenn die gewählten Schlüsselwörter dieser Wortart angehören. Bei näherer Betrachtung fallen einige Eigenschaften auf, die durchaus den Erfolg der Strategie beeinflussen können. Schreibweise Die marktführenden Suchmaschinen unterscheiden nicht zwischen Groß- und Kleinschreibung, und speichern alle Wörter durchgehend und unabhängig von ihrer tatsächlichen Ausprägung in Kleinschreibweise ab. Auch die meisten Suchenden beschränken sich bei der Eingabe ihrer Suchbegriffe auf Kleinschreibung. Die Verwendung beider Schreibweisen bei Schlüsselwörtern erübrigt sich somit. Zusammengesetzte Wörter eignen sich im Allgemeinen eher nicht als Schlüsselwörter, vor allem deswegen, weil kurze Wörter als Suchbegriffe bevorzugt werden. Möchte man auf lange Begriffe unter den Schlüsselwörtern nicht verzichten, so kann man diese Wörter entweder zusammengeschrieben lassen, wobei die Trefferquote möglicherweise nicht sehr hoch sein wird, oder aber, man trennt die einzelnen Wörter durch Leerzeichen oder die Verwendung von Bindestrichen. Mit Bindestrichen verbundene Wortketten werden von Suchmaschinen in ihre einzelnen Glieder zerlegt und separat erfasst. Nicht immer wird eine Trennung jedoch sinnvoll sein. Am Beispiel des Wortes Gartenbank“ wird die Aufspaltung in Garten“ und Bank“ auch Er” ” ” gebnisse zu Bank im Sinne des Geldinstitutes finden, die in diesem Zusammenhang nicht zielführend sein werden. Unterschiedliche Schreibweisen, bezogen auf alte bzw. neue deutsche Rechtschreibung, werden in der Abwicklung von Suchanfragen nicht einheitlich behandelt. Einige Anbieter, wie z. B. Google setzen ein gut gepflegtes Wörterbuch ein, das Begriffe in alter oder neuer Rechtschreibung gleichermaßen findet. So findet eine Suche nach Photo“ auch Seiten, die die neue ” Schreibweise Foto“ verwenden und auch umgekehrt. Die Reihungen in den ” Ergebnislisten sind dabei nicht identisch und auch die Anzahl der gefun- KAPITEL 4. AUFBEREITUNG DER INHALTE 49 denen Treffer kann variieren. Welche Schreibweise der Schlüsselwörter zum Einsatz kommt, ist vor allem darauf abzustimmen, welche von der Zielgruppe angehörigen Personen als gebräuchlicher angesehen wird. Jedenfalls ist eine gemischte Verwendung zu vermeiden, um ein einheitliches Schriftbild gewährleisten zu können. Umlaute und Sonderzeichen Die Eingabe von Suchbegriffen, die Umlaute enthalten, wird heute von den meisten Suchmaschinen korrekt behandelt. Umlaute können also auch in den Schlüsselwörtern direkt verwendet werden. Auf die Maskierungen für Sonderzeichen im HTML-Quellcode (wie bspw. Schlüssel für Schlüssel) kann verzichtet werden. Empfehlenswert ist die UTF-8 Kodierung der Dokumente, die die meisten Alphabete und Schriftzeichensysteme umfasst, und für die richtige Darstellung von länderspezifisch unterschiedlichen Zeichen sorgt. Sonderzeichen, wie Binde- oder Unterstriche, Klammern, Schrägstriche oder Punkte werden größtenteils von den Suchmaschinen gefiltert. Bei der Verwendung solcher spezieller Zeichen in Schlüsselwörtern ist zu beachten, dass durch die Filterung solche Begriffe unter Umständen in einer leicht differenzierten Schreibweise im Index aufgenommen werden. Die Schreibweisen E-mail, e.mail, e/mail, oder e mail sind so vermutlich gleichbedeutend mit e mail, wie in [9] aufgezeigt wird. Singular oder Plural Stemming, d. h. die Reduzierung der Begriffe einer Wortfamilie auf den Wortstamm, findet, wenn überhaupt, nur bei wenigen englischsprachigen Suchmaschinen statt. Ein- und Mehrzahl, sowie alle Beugungen und Konjugationen werden dabei auf einen gemeinsamen Stamm reduziert. Dies vermindert die Datenbankgröße erheblich und berücksichtigt durch Ausdehnung der Anfrage auf mehrere Variationen der Fragestellung, eine größere Zahl potentieller relevanter Fundstellen, [31]. Da Stemming genau wie auch eine Gleichbehandlung von Singular und Plural nicht weit verbreitet ist, muss bei der Wahl der Schlüsselwörter die passende Form berücksichtigt werden. Die Formulierungen sind so zu wählen, dass sie in allen üblichen Ausdrucksweisen, wonach die Zielgruppe suchen könnte, enthalten sind. Tippfehler Ob aus Rechtschreibschwäche, oder als zufällig erfolgter Tippfehler, Tatsache ist, dass zahlreiche Suchanfragen in fehlerhafter Schreibweise abgeschickt werden. Häufige Vertipper“ oder Falschschreibweisen werden von ” Suchmaschinen wie Google erkannt und mit dem höflichen Hinweis versehen, ob der Suchende nicht einen anderen Begriff gemeint hat. Dennoch ist KAPITEL 4. AUFBEREITUNG DER INHALTE 50 zu beobachten, dass sich doch auch eine ganze Menge Dokumente, die orthografisch falsch geschriebene Wörter beinhalten, finden. Tippfehler oder aus Rechtschreibschwäche nicht korrekt geschriebene Wörter werden von Suchmaschinen natürlich genauso indexiert. Diese Tatsache lässt sich bewusst ausnutzen und in die Strategie miteinbeziehen. Seiten, die gezielt für regelmäßig falsch eingegebene Suchbegriffe optimiert sind, haben kaum Konkurrenz und können so mit wesentlich weniger Mühe eine gute Platzierung in den Ergebnislisten der Suchmaschinen erreichen. Wird mit fairen Methoden gearbeitet, also nicht mit verschiedenen Versionen einer Seite mit unterschiedlicher Schreibweise, so erweist sich eine solche Vorgehensweise als problematisch. Rechtschreibfehler lassen eine Seite unseriös wirken, die orthografischen Mängel werden als Unwissen erklärt und richten so vermutlich mehr Schaden an, als sie helfen können. 4.2.9 Endgültige Auswahl Im finalen Schritt ist nun die Liste an gesammelten Schlüsselwörtern auf wenige, wirklich sinnvolle Einträge zu reduzieren. Mehr als drei bis vier Wörter oder Phrasen sind innerhalb einer Seite nicht zielführend zu optimieren, weshalb die Wahl gut überlegt sein will. Dabei darf nie vergessen werden, immer aus Sicht eines potenziellen Besuchers zu denken und dessen Vorstellungen zu berücksichtigen. Als erfolgversprechend erweisen sich Keywords, die nicht zu stark verbreitet sind und dennoch zielgruppenspezifisch möglichst oft angefragt werden. Sinnvolle Wortkombinationen sind dabei oftmals effektiver, als einzelne häufig vertretene Suchbegriffe. Als nicht geeignet gelten Begriffe, die Doppelbedeutungen haben. Ebenso ist es selbstverständlich, dass Wörter, die auf Stopp- oder sogar Blacklisten stehen, nicht als Schlüsselwörter taugen. Als Stoppwörter bezeichnet man dabei jene Terme, die keine eigentliche inhaltliche Bedeutung enthalten, und darum von Suchmaschinen nicht indexiert werden. Darunter fallen z. B. so genannte Füllwörter wie und“, aber“, einer“ usw. Die Blacklist ” ” ” ist ebenfalls eine Auflistung von Wörtern, allerdings solcher Begriffe, deren Auftreten unerwünscht ist oder gegen die Nutzungsbestimmungen des Suchmaschinenbetreibers verstößt. Werden Wörter, die in der Blacklist enthalten sind, gefunden, so bedeutet das nicht nur den Ausschluss von der Indexierung, sondern eine sofortige Löschung des gesamten Dokuments. Auch, wenn die Wahl der Schlüsselwörter mit einiger Mühe verbunden ist, kann genau dieser Faktor den entscheidenden Vorteil gegenüber Mitbewerbern ausmachen. Die Auswahl ist keineswegs als starr und unveränderbar zu sehen, sondern kann natürlich jederzeit Veränderungen erfahren. KAPITEL 4. AUFBEREITUNG DER INHALTE 4.3 51 Verwendung der Schlüsselwörter im Content Neben der Wahl der Schlüsselwörter ist deren richtige Verwendung sehr entscheidend. Suchmaschinen verstehen nie den Sinn eingetippter Suchbegriffe, sondern suchen nur nach Seiten, die gesuchte Keywords und WortAneinanderreihungen enthalten. Eine geschickte Einbindung dieser Begriffe im Text, in angemessenem Maße, verstärkt die Wahrscheinlichkeit, dass Suchmaschinen den Hauptgedanken richtig finden und hoch gewichten. Mit Kenntnis einiger Grundregeln zur Dichte und Position der Schlüsselwörter im Inhalt, kann so eine gute Ausgangssituation geschaffen werden. 4.3.1 Keyword-Dichte Die Keyword-Dichte beschreibt das Verhältnis der Häufigkeit eines bestimmten Begriffes zur Gesamtanzahl aller Wörter einer Webseite. Diesen Wert berechnen Suchmaschinen und weisen Begriffen mit hoher Dichte eine höhere Relevanz bei einer Suchabfrage zu. Dabei darf das gesunde Verhältnis“ ” der Schlüsselwörter zum Gesamttext nicht ins Schwanken kommen. Kommt nämlich ein Begriff auffällig häufig vor, so wird dies als Spamversuch, konkret Keyword Stuffing (siehe Kapitel 3, Abschnitt 3.3), interpretiert und die zugehörige Seite von der Indexierung ausgeschlossen. Die Werte für ein optimales Dichteverhältnis schwanken, abhängig von der verwendeten Suchmaschine. Generell werden Dichtewert zwischen drei und acht Prozent empfohlen. Alle darüber liegenden Werte können als Manipulationstechnik gewertet werden und damit eine Seite gefährden zurückgestuft zu werden. Mit Wiederholungen darf also nicht übertrieben werden, das Bemühen ist darauf zu richten, ein ausgewogenes Verhältnis zu bewahren. Zur Überprüfung der Keyword-Dichte stehen dem Webautor Tools zur Verfügung, wie bereits in Abschnitt 4.2.5 vorgestellt. 4.3.2 Position der Schlüsselwörter im Text Neben der Dichte ist die Position der Schlüsselwörter im Text maßgeblich verantwortlich für deren Gewichtung. Besonders hohe Bedeutung wird dem Textbereich zu Beginn einer Webseite beigemessen. Genau wie auch Benutzer sofort am Beginn einer Seite entscheiden, ob sie den Inhalt als interessant empfinden, interessieren sich auch Crawler von Suchmaschinen besonders für den Anfangsbereich und erwarten hier die zentrale Aussage. Das Wichtigste gehört also unbedingt prominent an den Anfang. Ein möglichst mehrfaches Auftreten der Hauptbegriffe einer Seite in den ersten 1000 Zeichen trägt in besonderem Maße zu einer hohen Gewichtung bei. KAPITEL 4. AUFBEREITUNG DER INHALTE 4.4 52 Textgestaltung Der Content einer Webseite und dessen Aufbereitung ist extrem wichtig für eine gute Platzierung. Dementsprechend sorgfältig sollte der Text auch geplant und verfasst werden. Eine reine Anhäufung von Begriffen, die Besucher anziehen, kann kurzfristig die Zugriffszahlen in die Höhe treiben, wird aber keinen Nutzen bringen, wenn sich die Besucher nicht mit den angebotenen Inhalten identifizieren können. Der Seitentext überträgt die Botschaft an Besucher und Suchmaschinen. Bei der Planung hat die Überlegung, wie das Publikum erreicht werden will Vorrang, schließlich wird eine Seite ja für menschliche Besucher und nicht primär für Crawler von Suchmaschinen erstellt. Redakteure werden vor die Herausforderung gestellt, einen lesefreundlichen Text zu verfassen, der gleichzeitig durch den gezielten Einsatz von Schlüsselwörtern und Phrasen eine gute Platzierung in den Suchmaschinen erreichen kann. In den meisten Fällen ist zu erkennen, dass hochwertig verfasste Texte von Suchmaschinen in gleichem Maße hoch bewertet und mit einem guten Ranking belohnt werden. Vernünftige Texte können als Basis für eine erfolgreiche Suchmaschinenoptimierung angesehen werden. 4.4.1 Gliederung Zunächst ist die systematische Gliederung der Information, aufgeteilt auf die Seiten einer Webpräsenz, festzulegen. Zu berücksichtigen ist dabei, dass die Struktur logisch und plausibel organisiert ist und so beim Navigieren durch die Site der Überblick nicht verloren geht. Dies wird Suchmaschinen und Benutzer gleichermaßen zufrieden stellen und erhöht gleichzeitig die Usability. Entsprechend der thematischen Gliederung wird der Gesamtinhalt auf einzelne Seiten verteilt. Für die Länge eines Seitentextes kann als Richtwert eine Größenordnung von 300 bis 500 Wörter angenommen werden. Bietet eine Seite nur wenig Text, also unter 200 Wörter, so bewerten Suchmaschinen den Inhalt geringer, da kurze Texte weniger Kompetenz vermitteln. Ähnliche Abwertungen erfahren Websites, die sich nur aus wenigen einzelnen Seiten zusammensetzen. Eine Aufteilung der Inhalte auf mehrere untereinander verlinkte Seiten ist bei langen Texten anzuraten und schafft zudem neue Seiten, die wiederum von Suchmaschinen indexiert werden können. 4.4.2 Strukturierung eines Webtextes Um Benutzer und Suchmaschinen gleichermaßen zufrieden stellen zu können, ist eine übersichtliche Gliederung eines Textes in verschiedene Bereiche und Absätze von hoher Bedeutung. Eine gezielte Strukturierung kommt dem Bedürfnis des Besuchers nach schneller Information entgegen. Besonders hervorgehobene Abschnitte wecken Interesse und animieren zum Weiterlesen. KAPITEL 4. AUFBEREITUNG DER INHALTE 53 Ein Webtext gliedert sich grundsätzlich in drei Bereiche: Überschrift, Teaser und Fließtext. Dabei wird idealerweise die wichtigste Botschaft gleich zu Beginn vermittelt, die übrige Information ist nach abnehmender Wichtigkeit geordnet. Dieses Grundprinzip ist aus dem Journalismus bekannt und wird als Prinzip der umgekehrten Pyramide bezeichnet. Schlussfolgerungen und Neuigkeiten werden zuerst präsentiert, dann folgen Details und Hintergrundinformationen, die Einzelheiten herausarbeiten und die zu Beginn bereits vorgestellte Erkenntnis untermauern. Dabei nimmt die Bedeutung mit der Länge des Textes ab. Das Konstruktionsprinzip abnehmender Wichtigkeit lässt sich daher gut als invertierte Pyramide vorstellen. Die Vorgehensweise deckt sich beinahe komplett mit den Vorstellungen von optimaler Textgestaltung für Suchmaschinen, die dem Anfangsbereich die höchste Gewichtung beimessen. Überschrift Die wichtigste Aufgabe einer Überschrift ist es, das Interesse und die Aufmerksamkeit des Lesers sofort zu gewinnen. Durch eine kurze und prägnante Formulierung wird Bezug zum Inhalt hergestellt und damit eine informative Vorinformation in Bezug auf den folgenden Text geboten. Bei der Wahl einer möglichst attraktiven Schlagzeile darf nicht darauf vergessen werden, die Formulierung verständlich und für den Leser relevant zu halten. Um die Botschaft mit einem Blick erfassen zu können, sind nicht mehr als sechs Wörter zu verwenden. Wie schon in Kapitel 3, Abschnitt 3.1.6 beschrieben, sind Überschriften, mit den dafür vorgesehenen <h>-Tags auszuzeichnen, um sie logisch zu markieren und somit auch für Crawler von Suchmaschinen erkennbar zu machen. Teaser Eine der wichtigsten Aufgaben unter den Textbausteinen kommt dem Teaser zu, der mit der Überschrift eine Einheit bildet und auf sie aufbaut. Mit wenigen geschickt formulierten Sätzen, wird die Information, die der nachfolgende Text zu vermitteln versucht, beschrieben. Damit soll die Aufmerksamkeit des Lesers gefesselt und dieser dazu animiert werden, weiterzulesen oder einem möglichen Link zum vollständigen Artikel zu folgen. Der Benutzer kann sich somit ein erstes Bild machen. Da Teaser einleitend am Beginn eines Artikels platziert sind, wird den in diesem Abschnitt verwendeten Wörtern von Suchmaschinen, eine besonders hohe Bedeutung beigemessen. Eine Verdichtung der Schlüsselwörter ist anzuraten, ebenso, wie die Information generell nicht zu knapp zu halten ist. KAPITEL 4. AUFBEREITUNG DER INHALTE 54 Fließtext Die ausführliche Gesamtinformation mit allen Details und Hintergründen wird im Fließtext präsentiert. Um einen guten Überblick zu schaffen, ist der Textkörper in sich in kurze Abschnitte, die je einen Gedanken transportieren, zu modularisieren. Dazu bietet sich der Paragraph-Tag (<p>) an, der Absätze definiert, die vom Webbrowser mit einem bestimmten Zeilenabstand dargestellt werden. Die so logisch markierten Abschnitte werden von Suchmaschinen erkannt und mitunter auch einzeln ausgewertet. Begriffen, die in einem Textabschnitt besonders stark vertreten sind, wird verstärkt eine höhere Bedeutung beigemessen. Sind thematische Schwerpunkte auf einzelne Abschnitte verteilt, so werten dies Suchmaschinen hoch, da sie darin einen möglichst natürlich verfassten Text zu erkennen glauben. Im Optimalfall ist also für jedes Schlüsselwort ein eigener Absatz vorhanden, worauf auch in [9] hingewiesen wird. Zwischenüberschriften, Aufzählungen und Listen dienen als Blickfang und wecken Aufmerksamkeit. Als positiver Zusatzeffekt werden als solches ausgezeichnete Bereiche von Suchmaschinen höher gewichtet. Ebenso für eine Auflockerung sorgen Grafiken und Bilder, die eine Brücke zwischen Information und Emotion bilden. Grafische Elemente dienen als Blickfang, dürfen jedoch nicht dominieren. Ihre Funktion ist es, die Botschaft visuell zu verstärken und Inhalte zu transportieren. Eine besonders hohe Bedeutung kommt dem Bildtext zu, der optimaler Weise eine sachliche Information beinhaltet und die Bildaussage nennt. Der Blick des Lesers gleitet vom Bild direkt zur Bildunterschrift, die häufig sogar vor Überschrift und Teaser des Artikels wahrgenommen wird. Wichtig ist, dass verwendete Bilder auch wirklich zur Aussage des Textes passen. Diskrepanzen irritieren nicht nur den menschlichen Besucher, sondern erschweren auch Suchmaschinen eine korrekte Zuordnung bei der Indexierung. Die Problematik ist nicht selten bei einer Bildsuche zu erkennen. Passt ein Bild nicht zum Thema einer Seite, so wird es zu Suchbegriffen gefunden werden, die sich nicht mit dessen Inhalt decken. Dies resultiert daher, dass die einem Foto oder einer Grafik zugeordneten Schlüsselwörter aus dem Text in Bildnähe extrahiert werden, also rein aus dem umgebenden textuellen Inhalt ermittelt werden. Beispiele und weiterführende Information zu den Bausteinen eines Webtextes finden sich in [1]. 4.4.3 Auszeichnungen im Text Wörtern, die durch eine Sonderformatierung speziell ausgezeichnet sind, wird bei der Auswertung der indexierten Begriffe eine höhere Gewichtung als unformatiertem Text zugewiesen. Eine solche Auszeichnung sind einerseits als Überschrift gekennzeichnete Textpassagen, ebenso wie Hervorhebungen durch Fettschrift oder ähnliche Tags, die zu einer Steigerung der Bewertung KAPITEL 4. AUFBEREITUNG DER INHALTE 55 beitragen können, worauf schon in Kapitel 3, Abschnitt 3.1.6 detaillierter eingegangen wurde. 4.5 Interesse wecken Das Hauptziel jedes Sitebetreibers ist es, möglichst viel interessierte Besucher gewinnen zu können. Neben der Aufmachung, ist vor allem der Inhalt entscheidend für Gefallen und Wiederbesuch. Im Optimalfall schaffen es Artikel einer Webseite dazu zu motivieren, auf dieses Informationsangebot zu verlinken. Solche aus eigenem Antrieb gesetzten Verlinkungen können bedeutend zu einer Steigerung der Linkpopularität beitragen. Das Bemühen um Backlinks durch qualitativ wertvolle Beiträge gilt als hoher Motivationsfaktor, Inhalte möglichst interessant zu präsentieren. Als Anreiz für Besucher gilt erfahrungsgemäß die Einhaltung einiger, den Inhalt betreffender, Faktoren. 4.5.1 Informationswert Eine Website ausschließlich als anklickbare Broschüre“ zu gestalten, die ” dazu dient, sich selbst zu präsentieren, ist der Erfahrung nach wenig erfolgversprechend. Besucher legen großen Wert auf Fachartikel, Anleitungen, Informationen und Tipps, die gratis bezogen werden können und dem Interessenten zeigen, seine eigenen Probleme zu lösen. Solche Information wird auch häufig ausgedruckt und macht somit auch noch Werbung, wenn der Computer längst ausgeschaltet ist. Großen Anklang finden auch Tutorials, sowie das Angebot eines Benutzerforums zum Gedankenaustausch unter Gleichgesinnten. 4.5.2 Aktualität Aktualität ist, vor allen auf kommerziellen Seiten, von hoher Bedeutung. Angebote und Produkte, die auf einer Webseite angepriesen werden, dürfen nicht veraltert sein und müssen beziehbar sein. Wird ein Datum der letzten Aktualisierung ausgewiesen und liegt dieses schon einige Monate oder vielleicht sogar Jahre zurück, wird dies einen erneuten Besuch der Seite nicht besonders schmackhaft machen. Darum ist dafür zu sorgen, die Information auf aktuellem Stand zu halten und mit regelmäßigen Neuerungen einen Besucher gewinnen zu können. RSS, Atom Die beiden Technologien RSS und Atom sind im Grunde genommen Dateiformate für den systemunabhängigen Austausch von Content. Beide Formate basieren auf XML und sind als Teilmenge von XML zu verstehen, die eine KAPITEL 4. AUFBEREITUNG DER INHALTE 56 bestimmte vorgegebene Syntax einhalten. In einer RSS oder Atom-Datei wird die Information reduziert auf den Inhalt und logisch gekennzeichnet abgelegt, sodass sie von Maschinen interpretierbar ist. Die Bedeutung der Abkürzung RSS variiert in den verschiedenen technischen Spezifikationen. So steht RSS in den Versionen 0.9x für Rich Site ” Summary“ in der einzig RDF-fähigen Version 1.0 für RDF Site Summa” ry“ und in Version 2.0 für Really Simple Syndication“. Die RSS-Dateien ” können die Dateiendungen .rss“, .rdf“, oder .xml“ aufweisen. ” ” ” Atom ist der Versuch RSS neu zu formulieren, dabei die Vorteile der unterschiedlichen RSS-Formate zu vereinen und um neue Elemente zu ergänzen. RSS und Atom sind konkurrierende Formate und auch nicht miteinander kompatibel. Allerdings lässt sich RSS in Atom konvertieren, und umgekehrt. Noch ist RSS weiter verbreitet, was sich jedoch durch die Tatsache, dass Firmen wie Google an Atom Anklang gefunden haben, schnell ändern könnte. Möchte man als Website-Betreiber Dateien im RSS oder Atom-Format bereitstellen, so ist es empfehlenswert, beide Formate parallel anzubieten, was durch die Ähnlichkeit keinen großartigen Mehraufwand bedeutet, und man damit langfristig gesehen auf der sicheren Seite ist. Per RSS oder Atom bereitgestellte Inhalte, auch Feeds genannt, sind vielfältig einsetzbar. Zwei Verwendungsmöglichkeiten sind im Sinne der Suchmaschinenoptimierung besonders interessant: Content-Syndication: Unter Content-Syndication versteht man die mehrfache Verwendung von Inhalten auf verschiedenen Webseiten. Als Mittel dazu bieten sich RSS oder Atom-Dateien an, da hier die Inhalte in einem standardisierten Format vorliegen und sich so für die maschinelle Weiterverarbeitung eignen. Mit geeigneten Parser-Programmen können die Inhalte von RSS oder Atom-Dateien in eine andere Webseite problemlos integriert werden. Einen solchen in PHP implementierten Parser für alle RSS-Versionen und Atom bietet bspw. MagpieRSS6 . Manche Sites bieten JavaScript-Code an, der Content kommend von RSS oder Atom-Dateien generiert. Solche Inhalte haben absolut keinen Wert in Bezug auf das Suchmaschinen-Ranking, da Crawler JavaScriptCode nicht lesen können und deren Inhalt nicht als Teil der Seite interpretiert wird, worauf [18] hinweist. Um zu erreichen, dass eingebundene Inhalte als Bestandteil einer Webseite gesehen werden, müssen die bereitgestellten Daten im RSS oder Atom-Format als HTML gerendert sein. Neben der Tatsache, dass gut gewählter, zum Thema der Seite passender, integrierter Content den Seiteninhalt aufwerten kann, bringt die Verwendung den großen Vorteil mit sich, auf der eigenen Site ständig aktualisierten Inhalt anzubieten und das ohne selbst dazu beitragen 6 http://magpierss.sourceforge.net KAPITEL 4. AUFBEREITUNG DER INHALTE 57 zu müssen. Diese dadurch gewonnene Aktualität wirkt sich im Besonderen positiv auf die Frequenz der Seitenbesuche der Crawler von Suchmaschinen aus. Die Site wird durch täglich aktuelle Inhalte von Crawlern häufiger besucht werden, was dafür sorgt, dass neue Seiten schnell im Index aufgenommen sind. Bereitstellung von Feeds: Für Betreiber einer Website stellt das Anbieten eigener Feeds nicht nur ein spezielles Service für Kunden und Interessenten dar, sondern bringt auch große Vorteile zur Verbesserung der Suchmaschinenposition mit sich. Verlinkungen, die in den Feeds enthalten sind, werden von Suchmaschinen als Backlinks von den Webseiten, die den Inhalt integriert haben, gewertet. Dies unterstützt die Linkpopularität. Zusätzlich sorgen Links dafür, interessierte Besucher gewinnen zu können. Der Beobachtung nach werden neu verfasste Seiten, auf die in RSS oder Atom-Feeds verlinkt ist, generell schneller indexiert. Feeds lassen sich zum einen als Content in eine andere Website integrieren. Genauso können Benutzer mit als Aggregatoren, oder Feedreadern, bezeichneten Programmen die Newsfeeds als Änderungsmitteilungen von Webseiten mitverfolgen. Die vom Benutzer abonnierten Feeds laden die wichtigsten Schlagzeilen und Kurzbeschreibungen automatisch herunter und bieten so eine Übersicht über Aktualisierungen. Der Anwender ist schnell über Neuigkeiten auf den Sites seines Interesses informiert, und holt sich die Information aus eigener Entscheidung mit Aufruf der zugehörigen Seite. Weblogs Als Weblogs (Kontamination aus Web und Log), oft auch als Blogs bezeichnet, versteht man Websites, die aufgezogen wie Online-Tagebücher aus einer Mischung von periodisch neuen Einträgen und Kommentaren bestehen. Hauptsächlich finden sich Weblogs die der persönlichen Selbstdarstellung im Internet dienen und als Plattform zur Präsentation von Eindrücke aus dem Leben der Autoren genutzt werden. Immer mehr werden Blogs auch geschäftsmäßig eingesetzt, mit dem Ziel, interessierte Leser regelmäßig über Neuerungen der Branche zu informieren und auf das eigene Geschäft aufmerksam zu machen. Als Instrument für Suchmaschinenoptimierung eignen sich Weblogs vor allem, weil die meisten Weblog-Anbieter in ihrem Programmpaket automatische Pingbacks unterstützen, die über die Veröffentlichung neuer Beiträge informieren und Suchmaschinen dazu veranlassen die neuen Inhalte schnell in den Index aufzunehmen. Diese Methode verhilft im Speziellen dazu, zu aktuellen Themen in Suchmaschinen schneller gefunden zu werden, als die Seiten der Konkurrenz. KAPITEL 4. AUFBEREITUNG DER INHALTE 58 Zusätzlich sind Weblogs schon von ihrem Grundaufbau her prädestiniert zu Suchabfragen, beinhaltend bestimmter Schlüsselwörter, gute Platzierungen erreichen zu können. Reich an Texten und mit vielen Verlinkungen zeichnen sich die außerdem stets aktuell gehaltenen Webseiten auch durch durchwegs standardkonformes (X)HTML und den konsequenten Einsatz von CSS aus. Natürlich sind eingehende Verlinkungen auf den Blog oder einzelne Einträge essentiell, um eine entsprechend gute Position in den Ergebnislisten der Suchmaschinen erreichen und halten zu können. Newsletter Der Versand von Newslettern, um auf aktuelle Inhalte aufmerksam zu machen, ist von mehreren Seiten problematisch zu betrachten. Zunächst müssen die E-Mail Adressen der Empfänger gesammelt werden, beim Versand erschweren vermehrt Spam Filter eine einwandfreie Zustellung. Einerseits können also nur Personen erreicht werden, deren E-Mail Adresse im Verteiler existiert, andererseits bleiben angesichts der Masse an Spam-Mails auch seriös gemeinte Newsletter immer mehr ungelesen oder werden aufgrund der Einstellungen automatisch gefiltert und gelöscht, bevor sie ein möglicher Interessent lesen könnte. Ein besserer Weg Neuigkeiten bekannt zu machen ist sicher der Einsatz von Newsfeeds, wo sich ein Abonnenent die Information freiwillig und selbst abholt. 4.5.3 Extravaganz Außergewöhnliche Inhalte können eine Seite schnell zu einem Benutzermagnet machen. Abseits sachlicher Information kann es durchaus lohnend sein, sich bewusst dem Unterhaltungswert eines Artikels zu widmen. Wenn eine Seite in Foren, Weblogs oder als Linktipp in Newslettern auftaucht, ist das der beste Weg, um Aufsehen zu erregen. Natürlich dürfen solche Inhalte nicht die Seriösität einer Seite beeinträchtigen. Eine Auflistung biederer Witze, oder sonstiger abartiger Humor können zwar auch zu einem Spitzenplatz verhelfen, wird allerdings nicht jenes Publikum ansprechen, das erreicht werden will. Ein Beispiel, wie mit nicht alltäglichen Artikeln eine Steigerung der Linkpopularität erreicht werden kann, bietet die Geschichte Der Suchmaschinen” Robot und der Webdesigner“ 7 , die binnen kürzester Zeit einen hohen Bekanntheitsgrad aufweisen konnte. 7 http://www.woodshed.de/publikationen/dialog-robot.html KAPITEL 4. AUFBEREITUNG DER INHALTE 4.5.4 59 Kostenlose Downloads Kostenlose Downloads, ob Software oder Dateien wie E-Books und wissenschaftliche Papers ziehen verstärkt Besucher an. Finden die Downloads Anklang, wird sich das Angebot schnell herumsprechen und für entsprechende Verlinkungen sorgen. 4.6 Inhalte im Internet verbreiten Um Bekanntheit und Reichweite einer Webseite ausbauen zu können, ist die Verbreitung von Artikeln im Internet ein entscheidender Faktor. Dies kann entweder durch Publizieren von Inhalten im regulären Internetauftritt eines Partners, oder durch den neuartigen Trend der Artikel-Verzeichnisse erreicht werden. 4.6.1 Content Hosting Obwohl die Idee des Content Hosting (auch als Presell Pages oder Content Exchange bezeichnet) nicht neu ist, wird sie dennoch nur von wenigen Website-Betreibern genutzt. Dabei handelt es sich um das Vorgehen einer Partnersite, den Inhalt für eine komplette Seite zu liefern, der in diese Website regulär einbaut wird, also mit dessen Navigation und Design. Entscheidend ist, dass der Inhalt des Artikels die wichtigsten suchmaschinenrelevanten Begriffe, verlinkt direkt auf die Site des Autors, enthält. Dabei kann der Text durchaus als Werbetext verfasst sein, sollte aber dennoch informativ geschrieben sein, um Content Hoster zu finden, die bereit sind, den Bericht zu veröffentlichen. Dabei sind die Betreiber von potenziellen Partnersites generell darauf bedacht, dass die Information ihren Kunden einen echten Mehrwert bietet. Können die Leser vom erweiterten Informationsangebot profitieren, so wird sich das auch positiv auf die Besucherzahlen des Content Hostes auswirken. Mit dieser Methode themenbezogene Backlinks zu erhalten, können vielfach bessere Ranking-Ergebnisse erreicht werden, als durch einen bloßen Linktausch, wie auch [8] demonstrativ zeigt. 4.6.2 Artikel-Verzeichnisse Als relativ neuer Trend erweisen sich Artikel-Verzeichnisse, die thematisch sinnvolle Fachartikel veröffentlichen, die, je nach Anbieter, bis zu zehn Backlinks auf die eigene Site enthalten können. Die meisten Anbieter gewähren pro Beitrag maximal zwei, oder bei zusätzlicher Rückverlinkung, vier Links. Dabei muss sich ein Artikel aus einer gewissen minimalen Anzahl an Wörtern (typischerweise 200 Wörter) zusammensetzen und muss den vollen Namen und die E-Mail Adresse des Autors enthalten. Der Verfasser zeigt sich somit voll für den Inhalt verantwortlich. KAPITEL 4. AUFBEREITUNG DER INHALTE 60 Die meisten Betreiber legen Wert auf fachlich fundierte Information, um mit eingetragenen Artikeln den Lesern auch wirklich relevante Inhalte bieten zu können. Durch die große Anzahl an eingehenden Links können viele Artikel-Verzeichnisse einen hohen PageRank aufweisen, der sich natürlich auf die Artikel überträgt. Sinn dieser Marketingvariante ist es, gezielt eingehende Links von hoch bewerteten, themenrelevanten Seiten zu bekommen und damit die Linkbzw. Domainpopularität zu erhöhen. Zu den besonders interessanten deutschen Artikel-Verzeichnissen zählen aufgrund des hohen PageRanks 4.am8 (PageRank 7), artikelfabrik.de9 und ganz-schlau.de10 (PageRank 6). 8 http://www.4.am http://www.artikelfabrik.de 10 http://www.ganz-schlau.de 9 Kapitel 5 Gegenüberstellung von Content Management Systemen in Bezug auf Suchmaschinenoptimierung Eine Website gilt dann als interessant, wenn sie dem Benutzer u. a. aktuelle Inhalte und einen schnellen Zugriff auf die gewünschte Information bieten kann. Mit wachsendem Site-Umfang sind diese Anforderungen, ohne ein CMS zur Verwaltung der Inhalte, nur schwer entsprechend zu befriedigen. Neben dem CMS-gestützten Aufbau ist zielgerichtete Suchmaschinenoptimierung ein weiterer wichtiger Bestandteil einer erfolgreichen Website. Die Aufbereitung der Inhalte, sowie der komplette Aufbau der Site im Hinblick auf eine bestmögliche Platzierung bei Suchmaschinen, wird im Idealfall durch eine Kombination von Suchmaschinenoptimierung mit einem Content Management System erreicht. Systeme zur Websiteverwaltung existieren in unterschiedlichster Ausprägung und Komplexität. Neben kommerziellen Lösungen erfreuen sich Open Source Projekte, vor allem aufgrund der Möglichkeit die Software selbst erweitern und anpassen zu können, großer Beliebtheit. In diesem Kapitel werden die weit verbreiteten Open Source Web Content Management Systeme Typo3, Joomla!, sowie das Weblog Publishing System WordPress hinsichtlich ihrer Suchmaschinentauglichkeit gegenübergestellt. Eine vollständige und detaillierte Beschreibung der einzelnen Systeme würde selbst einige Bücher füllen, weshalb hier ausschließlich die Unterstützung hinsichtlich der Optimierung für Suchmaschinen beleuchtet wird und gewisse Grundkenntnisse im Umgang mit den Systemen angenommen werden. 61 KAPITEL 5. CONTENT MANAGEMENT SYSTEME 5.1 62 Web Content Management Systeme Um eine kontinuierliche Verwaltung und Überarbeitung von Websites organisieren zu können, kommen verbreitet Web Content Management Systeme (WCMS) zum Einsatz, die ein effektives Erstellen und Bearbeiten von Textund Multimedia-Dokumenten (Content) ermöglichen. WCMS beschäftigen sich ausschließlich oder überwiegend mit der Publikation von Inhalten auf Webseiten. Synonym wird häufig der Begriff Content Management gebraucht, obwohl die Verwendung des Überbegriffs genau genommen im Bezug auf die alleinige Verwaltung von Content auf Webseiten eine unzulässige Reduktion darstellt. Die Hauptaufgabe eines CMS ist die Trennung von Inhalt, Struktur und Layout. Der Content (Texte, Bilder, Listen, Formulare, Downloads etc.) ist in neutralem Format, meist in einer Datenbank, gespeichert und wird auf Anfrage verknüpft mit der zugehörigen Formatvorlage präsentiert. Der Einsatz eines solchen Anwenderprogramms ermöglicht dem Redakteur schnell und bequem ohne Programmierkenntnisse, Änderungen durchführen zu können. Der organisatorische und finanzielle Aufwand zur Pflege einer Website wird durch den direkten Publikationsprozess minimiert und motiviert darüber hinaus zu regelmäßigen Aktualisierungen und Erweiterungen der Seiten. Weit über das Erstellen einfacher Websites hinaus bieten existierende Systeme verbreitet vertiefende Funktionen im Web Content Lifecycle Management an. Die Komponenten reichen von Assetmanagement, Medien- und Rechteverwaltung, Import und Exportfunktionen, verschiedenen Schnittstellen bis zur vollen Workflow-Integration. CMS und Suchmaschinenoptimierung stehen keinesfalls in Widerspruch. Mit geeigneten Systemen lässt sich eine Optimierung effizient verwirklichen, sofern entscheidende Merkmale im Aufbau der Seiten und der Aufbereitung der Inhalte eingehalten werden. Ein CMS, das um suchmaschinenoptimierten Webseitenaufbau bemüht ist, sorgt beim Aufbau einer Website dafür, dass das Auffinden der Inhalte und deren Klassifizierung für Crawler von Suchmaschinen so einfach wie möglich gestaltet ist. Dies impliziert, dass ein solches System idealerweise fehlerfreien standardkonformen Quellcode liefert, wobei besonders auf XHTML Wert zu legen ist, um für die Zukunft gerüstet zu sein. Neben dem Produzieren von für Suchmaschinen lesbaren Inhalten bieten existierende CMS vermehrt erweiterte Möglichkeiten zur Suchmaschinenoptimierung, vor allem hinsichtlich der Seitenstruktur, der Generierung von suchmaschinenfreundlichen URLs und der seitenbezogenen Optimierung durch Tags. Spezifische Unterstützung zur Überwachung einzelner Parameter der Suchmaschinenoptimierung direkt im System integriert kann sich ein Entwickler, zumindest standardmäßig, von den meisten Programmen nicht erwarten. KAPITEL 5. CONTENT MANAGEMENT SYSTEME 63 Unter den kommerziellen Anbietern werden im Speziellen Hotbanana1 und Sitekit CMS2 dafür gelobt, suchmaschinenfreundliche Seiten zu generieren und dem Entwickler auch zusätzliche Kontrollfunktionen, wie z. B. eine Keyword-Analyse, zu bieten. Die Bedeutung, eine Site per Suchmaschine zu finden, steigt kontinuierlich mit der zunehmenden Anzahl an Suchanfragen. Darum nehmen sich auch vermehrt Open Source Content Management Systeme dieser Thematik an. Ein wesentlicher Vorteil der freien Software ist, dass der offen zugängliche Quellcode von Nutzern weltweit permanent weiterentwickelt und durch Erweiterungen ergänzt wird. Dieser kontinuierliche Entwicklungsprozess erleichtert es, Neuerungen im System einzubringen, wovon vor allem Open Source CMS mit großer Entwicklergemeinde profitieren. Es kann somit davon ausgegangen werden, dass die im Folgenden vorgestellten Möglichkeiten der Suchmaschinenoptimierung, die bestehende Open Source Systeme, wie Typo3 oder Joomla! zur Zeit bieten, eine beständige Weiterentwicklung erfahren. 5.1.1 Weblog Publishing Systeme Weblog Publishing Systeme (WPS) sind auf einen eingeschränkten Funktionsumfang abgespeckte Content Management Systeme, die zur Erstellung und Verwaltung von Weblogs dienen. Wie schon in Kapitel 4, Abschnitt 4.5.2 erwähnt, sind Weblogs ein interessantes Instrument Inhalte online zu veröffentlichen. Ein Weblog System verfolgt ausschließlich die zentrale Idee des Konzepts von Weblogs, nämlich Content, beschränkt auf elementare Elemente wie beispielsweise Texte und Bilder, möglichst einfach veröffentlichen zu können. Mächtige Content Management Systeme bieten weitaus mehr Funktionalitäten und haben auch weitgehend andere Anwendungsbereiche im Vergleich zu Weblog Publishing Systemen. Umfangreiche Informationen zum Thema Weblogs und deren technischer Umsetzung bietet [29]. Durch ihr reiches Angebot an aktueller, textueller Information und vielen Verlinkungen eignen sich Weblogs besonders gut mittels Suchmaschinen gefunden zu werden. Die Standardvorlagen zur Seitengestaltung basieren in den meisten Fällen auf validem (X)HTML-Code, ebenso wie zu Zwecken der Layoutierung verbreitet CSS zum Einsatz kommt. Eine weitere charakteristische Eigenschaft von Weblog Publishing Systemen ist das Bereitstellen von RSS-Feeds, sowie die schon in Kapitel 4, Abschnitt 4.5.2 beschriebene Unterstützung von Pingbacks, die über die Veröffentlichung neuer Beiträge informieren. Am Beispiel des Weblog Publishing Systems WordPress, zeigt Abschnitt 5.5, welche Möglichkeiten dem Entwickler, hinsichtlich Suchmaschinenoptimierung, zur Verfügung stehen. 1 2 http://www.hotbanana.com http://www.sitekit.net KAPITEL 5. CONTENT MANAGEMENT SYSTEME 5.2 64 Suchmaschinenoptimierung mit Content Management Systemen Suchmaschinenoptimierung muss bereits im CMS anfangen, so titelt [23] und verstärkt mit dieser Aussage, den schon in Kapitel 3, Abschnitt 3.4 gebrachten Ansatz einer sauberen von Beginn an in die Entwicklung integrierten Optimierung. Wie dieses Kapitel am Beispiel der CMS Typo3, Joomla! und des WPS WordPress vorstellen wird, bieten bestehende Systeme durchaus Unterstützung, eine Seite ganz ohne Tricks für Suchmaschinen attraktiv gestalten zu können. Die wichtigsten Kriterien, die für alle CMS gestützten Webseiten unerlässlich sind, um eine Internetpräsenz gleichzeitig benutzerfreundlich und suchmaschinenkompatibel zu gestalten, sind hier angeführt: • Valider Quellcode: Die beste Ausgangssituation, um Crawler bei der Erfassung und Auswertung der Seiten zu unterstützen, bietet valider Quellcode. Dieses Qualitätsmerkmal, dessen Bedeutung schon mehrfach hervorgehoben wurde, lässt sich mit CMS-Software, die bei der Seitengenerierung auf die Einhaltung der Standardkonformität achtet, sowie den Code sauber strukturiert und möglichst schlank hält, erreichen. Schlanker Quellcode setzt den Einsatz von Div-Containern anstatt von Tabellen und CSS zur Layoutformatierung voraus. Ein CMS sollte nur noch mit dieser Technik arbeiten und Tabellen nur noch zur Darstellung tabularer Daten zulassen. Das System muss in weiten Bereichen dem Benutzer die Formatierung abnehmen bzw. vorgeben. Dass z. B. Überschriften auch als solches gekennzeichnet werden, oder bestimmte zusätzliche Beschreibungen verpflichtend anzugeben sind, muss alleinige Aufgabe des CMS sein. • Statische URLs: Um die URLs, sowohl für Suchmaschinen als auch für menschliche Besucher lesbar zu gestalten, muss ein CMS die Möglichkeit bieten, dynamische Adressen statisch umschreiben zu können. Wichtig ist dabei, dass Schlagworte prominent in der URL auftreten, da solche Seiten eine höhere Bewertung erfahren. • Passende Seitentitel: Seitentitel, die Besucher ansprechen und zusätzlich möglichst noch die Suchbegriffe enthalten, müssen sich als entscheidendes Kriterium der Suchmaschinenoptimierung, unbedingt über das CMS kontrollieren lassen. Die Unterstützung reicht im Optimalfall von der automatischen, seitenspezifischen Generierung, anhand eines definierten Musters, bis hin zur Möglichkeit einer individuellen Eingabe durch den Anwender. • Seitenspezifische Metadaten: Auch wenn die Angabe von Metadaten keine große Wirksamkeit zeigt, darf sie doch nicht ganz außer Acht KAPITEL 5. CONTENT MANAGEMENT SYSTEME 65 gelassen werden. Um dem Seitenverantwortlichen Arbeit abzunehmen, bieten gute CMS die Möglichkeit, die Metaangaben automatisch aus dem Inhalten einer Seite zu entnehmen. Außerdem muss es dem Entwickler möglich sein, für jede Seite individuelle Beschreibungen und Schlüsselwörter festlegen zu können. • Alternative Beschreibungen: Attribute wie alt“ zur alternativen ” Beschreibung von Grafiken oder title“ zur Beschreibung bei Links, ” sind für sehbehinderte Menschen und Crawler gleichermaßen interessant. Die Angabe dieser, für einen Sehenden meist nicht wahrgenommenen Informationen, muss im Sinne konsequenter Suchmaschinenoptimierung vom CMS eingefordert oder automatisch generiert werden. • Aktuelle Inhalte: Um die Aktualität der Inhalte kann sich ein CMS nur schwer kümmern. Ein CMS muss jedoch darum bemüht sein, den Aufwand für den Anwender möglichst gering zu halten und so indirekt zur Erstellung wertvoller und aktueller Texte zu motivieren. Außerdem bieten CMS verbreitet die Möglichkeit, RSS oder Atom-Feeds zu Zwecken der Aktualität (siehe Kapitel 4, Abschnitt 4.5.2) einzubinden oder selbst bereitzustellen. Auch Weblogs lassen sich mit CMS-Software anlegen, die für zusätzliche interessierte Besucher und Verlinkungen sorgen können. • Benachrichtigung bei neuen Inhalten: Um nicht auf einen Besuch eines Crawlers warten zu müssen, existieren Dienste, die es Webseiten erlauben Suchdienste zu benachrichtigen, wenn neue Inhalte verfügbar sind, oder Änderungen getätigt wurden. Vor allem WPS setzen häufig Pingverteilerdienste ein, die durch einen Ping verschiedene Seiten informieren. Der von Google entwickelte Dienst, der Google Sitemaps (siehe Kapitel 3, Abschnitt 3.1.4) erlaubt es, Google bei neuen Inhalten zu benachrichtigen und eine speziell formatierte Sitemap-Datei im XML-Format zur Verfügung zu stellen. Verbreitet übernehmen CMS das dynamische Generieren der Sitemaps, sowie das Anpingen der Suchdienste. • Maßgeschneiderte Fehlerseiten: Als problematisch erweisen sich so genannte tote Links, also Verlinkungen zu Dateien, die nicht mehr unter dieser Adresse vorhanden sind. Dem Besucher wird eine, in den meisten Fällen nichts sagende Fehlerseite, mit dem Fehlercode 404 präsentiert, ein potenzieller Kunde ist damit verloren. Selbst wenn man bemüht ist, fehlerlos zu arbeiten, lassen sich tote Links nicht vermeiden, da auch Fehler Anderer oder technische Gegebenheiten eine Fehlerquelle darstellen. Dies ist z. B. der Fall, wenn sich Name oder Ort einer Datei verändert hat, die sich im Index einer Suchmaschine befindet. Nachdem Änderungen von Suchmaschinen nicht gleich berücksich- KAPITEL 5. CONTENT MANAGEMENT SYSTEME 66 tigt werden, ist es von hoher Bedeutung, individuelle 404-Fehlerseiten zu gestalten, die bemüht sind, einen Besucher nicht zu verlieren. Eine maßgeschneiderte Fehlerseite beinhaltet bspw. eine Suchfunktion innerhalb der Site, mit der Möglichkeit, die gewünschte Information finden zu können, auch wenn sich die Adresse geändert hat. Ein CMS sollte die Möglichkeit bieten angeben zu können, wohin fehlerhafte Seiten geleitet werden sollen. • Qualitätskontrolle: Um den Erfolg einer Optimierungsstrategie kontrollieren und gewisse Trends erkennen zu können, existieren zahlreiche Tools, die optimalerweise im CMS inkludiert sind. Umfangreiche Analysewerkzeuge werten die Logfiles des Webservers aus, erfassen u. a. nach welchen Keywords gesucht und wann die Site das letzte Mal von einer Suchmaschine erfasst wurde. Vereinzelt wird Entwicklern vom CMS auch eine Analyse der seitenbezogenen Keywords angeboten und deren Dichte und Platzierung speziell überwacht. Eine im CMS integrierte Übersicht der Backlinks auf eine Seite, deren Verlinkungstext und Relevanz, ist noch eine Seltenheit. Speziell in diesem Bereich der Analysetools ist noch Verbesserungspotenzial zu erkennen. Wie eine solche Überwachung aussehen kann, zeigt der in SenoCMS umgesetzte SEO Report, siehe Kapitel 6, Abschnitt 6.5. Einen Hauptpunkt der Suchmaschinenoptimierung kann ein CMS nur indirekt beeinflussen: jene, die externe Optimierung betreffende Tatsache, möglichst viele qualitative Links von anderen Websites zu erhalten. Zwar kann durch Weblogs oder RSS- bzw. Atom Feeds eine interessante Möglichkeit geschaffen werden Besucher zu gewinnen, die Verantwortung relevante, qualitativ hochwertige Inhalte zu verfassen, auf die freiwillig verlinkt wird, liegt aber grundsätzlich bei den Redakteuren einer Seite. 5.3 Suchmaschinenoptimierung mit Typo3 Typo3 zeichnet sich unter den Open Source WCMS, vor allem durch den großen Funktionsumfang und die problemlose Erweiterbarkeit aus. Unter vergleichbaren Projekten hat sich Typo3, das auf der serverseitigen Skriptsprache PHP basiert und als Datenbank meist MySQL einsetzt, eine exzellenten Ruf geschaffen. Ein wesentlicher Grund dafür ist die aktive Weiterentwicklung, um die sich eigene Entwickler-Teams im Speziellen angenommen haben. Das System wurde mit besonderer Aufmerksamkeit auf konsistente Architektur und hohe Qualität in allen Bereichen entwickelt. Typo3 verfügt schon in der Standardinstallation über eine Vielzahl an Funktionen, die sich zusätzlich durch so genannte Typo3 Extensions beliebig erweitern lassen. Extensions sind Software-Module, die von der großen Entwicklergemeinde weltweit frei zur Verfügung gestellt werden. Existiert unter KAPITEL 5. CONTENT MANAGEMENT SYSTEME 67 den mittlerweile über 1000 vorhandenen Erweiterungen keine, die einen speziellen Anwendungsbereich abdeckt, so lassen sich Extensions dank eines eigen entwickelten, internen Frameworks problemlos selbst entwickeln. Das erstmals 1998 erschienene CMS ist aktuell in der Version 4.0 lizenziert, unter der GNU General Public License (GPL), somit ohne anfallende Lizenzkosten verfügbar. Speziell interessant in Bezug auf Suchmaschinenoptimierung sind die Neuerungen der Version 4.0 in puncto vollständige Unterstützung der aktuellen HTML-Standards (inklusive XHTML). Typo3 ist damit in der Lage, durchgängig standardkonformes (X)HTML zu erzeugen, wovon auch [26] berichtet. Ebenfalls neu ist eine verbesserte CSSFunktionalität, sowie die Integration der Eingabefelder für Alt und TitleAttribut ins System. Welche Unterstützung sich ein Entwickler hinsichtlich Suchmaschinenoptimierung von Typo3 (Version 4.0) erwarten kann, wird hier im Detail aufgezeigt. Mit dem Thema Typo3 Suchmaschinenoptimierung setzen sich auch [24] sowie [28], [21] und [34] auseinander. 5.3.1 Valider Quellcode Seit Version 3.6 von Typo3 ist es möglich, Websites XHTML-konform zu erstellen. Erforderlich sind hierfür folgende Einstellungen per TypoScript: config.doctype = xhtml_trans config.xhtml_cleaning = all config.htmlTag_langKey = de Dabei kennzeichnet die erste Anweisung die Seite als XHTML Transitional Dokument. Häufige Fehler im generierten Quellcode, wie die Großschreibung von Tags und Attributen (z. B. <BODY> statt <body>) oder nicht-schließende Inline-Tags (z. B. <br> wird zu <br />) werden durch die Funktion xhtml cleaning bereinigt. Der dritte Eintrag legt als Sprache der Website Deutsch fest. Mit dem wachsenden Bedürfnis der XHTML-validen Seitengenerierung mit Typo3, entstand die Typo3 Content Rendering Group3 . Die dem Team angehörenden Entwickler kümmern sich im Speziellen um die Einhaltung der Accessibility-Grundlagen, d. h. der uneingeschränkten Zugänglichkeit von Webseiten für alle Benutzergruppen, sowie die Einhaltung der XHTMLStrict Standards. CSS Styled Content Als Alternative zum Template content(default) wird durch die Erweiterung CSS Styled Content(Extension Key: css styled content, Version: 0.3.1) das alte Renderingkonzept, welches noch bspw. Font-Tags und Tabellen zum 3 http://typo3.org/teams/content-rendering/news KAPITEL 5. CONTENT MANAGEMENT SYSTEME 68 Contentrendering einsetzt, abgelöst. CSS Styled Content rendert die Contentelemente mit CSS, sodass das Aussehen einer Seite komplett über CSS gesteuert werden kann und keine Tabellen mehr zu Layoutzwecken zum Einsatz kommen. Seit Version 4.0 wird die für CSS-basierendes Layout sorgende Extension standardmäßig mit dem System mitgeliefert. Neu implementiert sind Änderungen betreffend Accessibility bei Tabellen, sowie betreffend das Rendering von Mailformularen und Sitemaps, die nun standardmäßig CSS-basierend layoutiert sind. Zusätzlich ist die Extension CSS styled IMGTEXT (Extension Key: cron cssstyledimgtext), die um eine mittels CSS-layoutierte Darstellung der Inhaltselemente Text mit Bild“ oder Bilder“ bemüht ist, nun ” ” in CSS Styled Content integriert, siehe dazu [2] und [35]. Source Optimization Die Extension Source Optimization (Extension Key: sourceopt, Version: 0.3.1) ermöglicht verschiedenartige Optimierungen am HTML-Code, bevor dieser dem Benutzer geliefert wird. Die zahlreichen Einstellungsmöglichkeiten reichen vom Entfernen von Kommentaren, sowie leeren Zeilen oder Zeilenumbrüchen, bis hin zu Einstellungen betreffend die Document Type Definition (DTD) oder die XML-Spracheinstellungen im HTML-Tag bei XHTMLDokumenten. Mittels dieser Erweiterung und deren einfacher Handhabung ist eine gute Möglichkeit geboten, den von Typo3 generierten Quellcode zu kürzen und zu optimieren. Umstellung auf UTF-8 Im Zuge der Seitengenerierung erwähnenswert ist die Konfiguration des Zeichensatzes auf UTF-8, die vor allem bei Sprachen, die einen anderen Zeichensatz aufweisen, nötig sein kann. Die Sonderzeichen in bereits angelegte Seiteninhalten gehen durch die Umstellung verloren, weshalb der Zeichensatz optimalerweise vor Eingabe der Inhalte einzustellen ist. Dabei geht man in Typo3 folgendermaßen vor: 1. Die Option forceCharset kann im Install- Tool bzw. direkt in der Datei localconf.php gesetzt werden: $TYPO3_CONF_VARS[’BE’][’forceCharset’] = "utf-8"; 2. Im TypoScript-Setup der Rootseite ist folgendes einzutragen: page.config.metaCharset = utf-8 page.config.additionalHeaders = Content-Type:text/html; charset=utf-8 KAPITEL 5. CONTENT MANAGEMENT SYSTEME 5.3.2 69 Suchmaschinenfreundliche URLs Die URLs, der von Typo3 generierten Seiten eines Projekts, unterscheiden sich typischerweise lediglich durch einen unterschiedlichen Parameter für die Seiten-ID. Zur Erzeugung von suchmaschinenfreundlichen URLs, stehen dem Entwickler im Wesentlichen zwei Varianten zur Simulation statischer Seiten zur Verfügung: Simulate Static Documents und RealURL. Die erzeugten Webseiten bleiben dadurch weiterhin absolut dynamisch, übermittelt werden diese aber so, dass nichts mehr auf eine dynamisch generierte Seite hinweist. Simulate Static Documents Um dynamisch erzeugte Inhalte als statische HTML-Seiten zu simulieren, bietet Typo3 mit Simulate Static Documents, eine komfortable Lösung in Richtung suchmaschinenfreundlicher URLs. Die Simulation der statischen Seiten wird über folgende Anweisung im TypoScript-Setup aktiviert: config.simulateStaticDocuments = 1 config.simulateStaticDocuments_addTitle = 20 Mit Unterstützung des Apache Modules, mod rewrite ermöglicht diese Methode, dass über einen nicht tatsächlich existierenden Dateinamen, der in der Grundeinstellung der Syntax [page-id].[type#].html folgt, die Datei index.php aufgerufen wird, die basierend auf dem Dateinamen die richtigen seitenbezogenen Inhalte anzeigt. Dazu muss eine .htaccess-Datei im Startverzeichnis des Webservers mit folgender Eintragung vorhanden sein: RewriteEngine On RewriteRule ^[^/]*\.html$ /index.php Options -Indexes Die ID der Seite muss weiterhin in der Adresse sichtbar bleiben, um die Zuordnung richtig durchführen zu können. Zur besseren Lesbarkeit kann allerdings auch der Titel der Seite in der URL verwendet werden. Diese Option lässt sich über die zweite Zeile der oben angeführten TypoScript Anweisung einstellen. In diesem Fall werden die ersten 20 Zeichen des Seitentitels übernommen. Eine URL lässt sich so also z. B. von http://www.seno-cms.at/index.php?id=6 in http://www.seno-cms.at/Features.6.0.html umschreiben. RealURL RealURL (Extension Key: realurl, Version: 1.1.0) bewerkstelligt als Erweiterung von Typo3, eine automatische Transformation der URLs in einen virtuellen Pfad. Dabei gilt als oberstes Gebot, dass die Webadresse, so gut als möglich, lesbar ist. Während Abhilfen wie Simulate Static Documents KAPITEL 5. CONTENT MANAGEMENT SYSTEME 70 die Seiten-ID in der URL belassen müssen, bietet RealURL einen Weg der Übersetzung zwischen der virtuellen URL und der Seiten-ID, die einfach zu merkende URLs ermöglicht, in denen ausschließlich der Seitentitel gezeigt wird. Nach Installation der Extension muss die .htaccess-Datei wie folgt konfiguriert werden: RewriteEngine On RewriteRule ^typo3$ typo3$ - [L] RewriteRule ^typo3$ typo3/.*$ - [L] RewriteCond %{REQUEST_FILENAME} !-f RewriteCond %{REQUEST_FILENAME} !-d RewriteCond %{REQUEST_FILENAME} !-l RewriteRule .* index.php [L] Damit sind die Regeln zur Umschreibung der URLs, die keine Dateinamen, Verzeichnisse oder symbolische Links sind, festgelegt. Im TypoScript Setup ist die Erweiterung durch diese Anweisungen zu aktivieren: config.simulateStaticDocuments = 0 config.baseURL = http://www.seno-cms.at/ config.tx_realurl_enable = 1 Zunächst wird Simulate Static Documents deaktiviert, da es nicht kompatibel mit RealURL ist und in Kombination nicht funktioniert. Das Setzen der BaseURL ist dafür zuständig, dass im Header der Seiten ein <base>-Tag ausgegeben wird, was wiederum notwendig ist, damit relative Referenzen z. B. auf Bilder oder Stylesheet-Dateien auch mit virtuellen Pfaden funktionieren. Schließlich wird die Kodierung der URLs als virtuelle Pfade, oder so genannte sprechende URLs“ aktiviert. ” Mit RealURL können Seiten mit der internen URL wie z. B. http://www.seno-cms.at/index.php?id=6 in einer Form ähnlich http://www.seno-cms.at/features.html umgeschrieben werden. Die Möglichkeit, mit RealURL generierte URLs abzuändern, sei es nach einer Umbenennung einer Seite, oder aus Unzufriedenheit mit der automatisch generierten Adressbezeichnung, ist durch Einsatz der Extension RealURL Management (Extension Key: realurlmanagement, Version: 0.2.1) geboten. 5.3.3 Seitentitel In der Grundeinstellung des Systems setzt Typo3 den Namen der aktuellen Seite als Titel. Individuelle Seitentitel lassen sich in Typo3 auf mehrfache Art einstellen. KAPITEL 5. CONTENT MANAGEMENT SYSTEME 71 Browser’s page title Die eleganteste Möglichkeit zur Generierung des Seitentitels stellt die Erweiterung Browser’s page title (Extension Key: browser page title, Version: 1.0.7) zur Verfügung. Die Seiteneigenschaften werden ergänzt, um ein weiteres Eingabefeld Browser title, über das der Title jeder Seite kontrolliert werden kann. Der Standardaufbau des Seitentitels einer Seite lässt sich per TypoScript definieren, wobei die Defaulteinstellung von einer optional vorhandenen, seitenspezifisch definierten Eingabe überschrieben wird. includeLibs.tx_browserpagetitle = typo3conf/ext/browser_page_title/class.tx_browserpagetitle.php config.titleTagFunction = tx_browserpagetitle->getTitle plugin.browser_page_title { defaultTitle = {title}- SenoCMS, Content Management System für suchmaschinenoptimierten Webseitenaufbau currentTitle = {tx_browserpagetitle_browser_title} } Ähnliches ermöglichen die Erweiterungen Set subtitle as page title (Extension Key: bvd set page title, Version: 0.0.1), die einen eingegebenen Text im Subtitle-Feld als Title der Seite definiert, oder Page Title Changer (Extension Key: mf pagetitle, Version: 1.0.0), ein Plugin das gleichfalls für eine Anpassung des Seitentitels sorgt. Ebenfalls in diese Kategorie einzuordnen sind die beiden Erweiterungen Custom Page Title (Extension Key: kuma pagetitle, Version: 0.1.7) sowie RoVo-TitlePath (Extension Key: rovo title path, Version: 0.1.7), mit denen sich, hauptsächlich zu Zwecken der Suchmaschinenoptimierung, die Seitentitel individuell gestalten lassen. 5.3.4 Meta Tags Die Möglichkeit, die Meta-Tags Keywords und Description zu setzen, kann standardmäßig über TypoScript folgendermaßen erreicht werden: page.meta.keywords = keyword1,keyword2 page.meta.description = the meta description Diese Anweisungen setzen die Meta-Keywords, sowie die Description global für die ganze Site. Seitenbezogen lassen sich Metaangaben über die beiden Eingabefelder Keywords“ und Description“ bei Wahl des Seitentyps ” ” Erweitert“ setzen. Dazu muss per TypoScript angegeben werden, dass die ” Meta-Tags mit diesen Eingaben zu befüllen sind: page.meta.keywords.field = keywords page.meta.description.field = description KAPITEL 5. CONTENT MANAGEMENT SYSTEME 72 Meta Tags Auto-Maker Mit der Typo3 Extension Meta Tags Auto-Maker (BK) (Extension Key: bk automakemetatags, Version: 0.3.0) erhält ein Anwender die Unterstützung, Meta-Tags automatisch, aus den erweiterten Einstellungen einer Seite generieren zu lassen. Aktuell lassen sich eine Reihe von Meta-Tags abbilden, von denen im Sinne der Suchmaschinenoptimierung besonders descripti” on“, keywords“, revisit-after“ und robots“ von Interesse sind. Entschei” ” ” dend für diese vier Angaben sind die Eingaben in den Feldern Description“, ” Keywords“, Cache expires“ und die Eigenschaften index/noindex“, fol” ” ” ” low/nofollow“ bzw. archive/noarchive“ bei sich bei Seiten vom Typ Er” ” weitert“ setzen lassen. Autogeneration of metakeywords Die Erweiterung Autogeneration of metakeywords (Extension Key: mc autokeywords, Version: 2.3.0) generiert die Meta-Keywords jeder Seite automatisch beim Speichern einer Seite vom Typ Erweitert“. Dabei werden die aus ” den Contentelementen extrahierten Wörter, die eine Mindestlänge von vier Buchstaben haben, nach Relevanz sortiert. Die Einstellungen zur Konfiguration der Extension sind im TSConfig der Wurzelseite zu tätigen. An dieser Stelle wird die automatische Keyword Generierung eingeschaltet, die Maximalanzahl der Keywords pro Seite lässt sich festlegen und auszuschließende Stopwords“ können definiert werden: ” plugin.mc_autokeywords.autogenerate = 1 plugin.mc_autokeywords.count = 20 plugin.mc_autokeywords.stopWords = also,dann,und Schließlich wird mit folgender Anweisung im TypoScript Setup die Anzeige von Meta-Keywords im Template der Seiten aktiviert: page.meta.keywords.field = keywords Ein Manko der Extension ist die Tatsache, dass die Keywords momentan nur bei neuerlicher Abspeicherung einer Seite nach einer Änderung aktualisiert werden. Das alleinige Speichern eines Contentelements generiert die Keywords nicht automatisch neu. 5.3.5 Alt, Title Attribut Ab Typo3 Version 4.0 sind Eingabefelder für alternativen Text, Title Text sowie das longdesc-Attribut, mit dem an eine Stelle verwiesen werden kann, wo eine Grafik in Textform näher beschrieben wird, Standard. In früheren Typo3 Versionen lässt sich die Eingabemaske um die zwei Felder für das Alt und Title Attribut als Information zu Bildern, mit der Extension Alttext for Images (Extension Key: dmc image alttext, Version: 1.2.2) erweitern. KAPITEL 5. CONTENT MANAGEMENT SYSTEME 5.3.6 73 SEO Erweiterungen für Typo3 Rund um das Thema Suchmaschinenoptimierung nehmen sich einige Typo3 Erweiterungen an, die hier näher vorgestellt werden: Keyword Analyzer Der Keyword Analyzer4 (Extension Key: dtkeyword analyzer, Version: 0.0.1) bietet einen recht brauchbaren Ansatz zur Analyse der potenziellen Schlüsselwörter einer Seite, ist allerdings in der vorliegenden Alpha-Version noch nicht sehr ausgereift. Ist die Erweiterung im System eingebunden, so kann für jede Seite eine Übersicht aufgerufen werden, die Information zu den MetaDaten der Seite anzeigt und die Wörter im <body>-Bereich, sortierbar nach Wortanzahl und Worthäufigkeit, in Prozent listet. Über die Konfiguration lässt sich definieren, wie oft ein Wort minimal auftreten muss, um in der Liste zu erscheinen, und ab welcher Häufigkeit ein Term als Spamverdacht zu kennzeichnen ist. Ebenso ist hier die minimale Wortlänge, so wie auch Gewichtungsfaktoren in den Metaangaben einzustellen. Füllwörter, die bei der Analyse nicht berücksichtigt werden sollen, lassen sich in der Sektion Wortfilter administrieren. Extended SEO Sitemap Das Erstellen von erweiterten Sitemaps lässt sich mit der Extension Extended SEO Sitemap5 (Extension Key: fl seo sitemap, Version: 0.0.4) realisieren. Während normale Sitemaps von Typo3 lediglich die Struktur der Seiten abbilden, kann unter Verwendung der Erweiterung noch zusätzlicher Text neben dem Link angezeigt werden. Der Beschreibungstext stammt dabei aus einem der seitenspezifischen Felder Description“, Abstract“, Keywords“ ” ” ” oder dem mit dieser Extension neu hinzugekommenen Eingabefeld SEO ” Sitemap“, die bei Seiten vom Typ Erweitert“ zur Verfügung stehen. ” Google Sitemap Um Google Sitemaps zu generieren, finden sich unter Typo3 zwei Extensions: Google Sitemap (Extension Key: google sitemap, Version: 0.2.0) und Google Sitemap for Pages and Contents (Extension mc googlesitemap, Version: 0.4.0), wobei Letztere mehr ausgereift ist und sich daher besser eignet. Der XML-Generator kann sowohl Google Sitemaps für Seiten und für Inhalte, wie auch einen Google Sitemap Index erstellen. 4 5 http://typo3.fruit-lab.de/typo3-extensions/dtkeyword-analyzer.html http://typo3.fruit-lab.de/typo3-extensions/fl-seo-sitemap.html KAPITEL 5. CONTENT MANAGEMENT SYSTEME 74 404 Error Page Handling Die Erweiterung 404 Error Page Handling (Extension Key: error 404 handling, Version: 0.1.1) ermöglicht es, eine individuelle Seite zu definieren, zu der weitergeleitet wird, wenn eine Seite innerhalb der Datenbank oder eine Datei am Server nicht gefunden werden kann. Ameos Google PageRank Ameos Google PageRank (Extension Key: ameos google pagerank, Version: 1.0.0) ist ein Frontend Plugin, das den Google PageRank der aktuellen Seite anzeigt. Das Service zur Ermittlung des Google PageRank wird von Ameos6 zur Verfügung gestellt und von Typo3 angefordert. Das Ergebnis der Berechnung wird von Ameos als dynamisch generiertes Bild, das den Google PageRank in Form eines grünen Balkens zeigt, geliefert. Um Inkonsistenzen, bedingt durch das Caching des Web-Browser, zu verhindern, wird jeder Seite ein eigener Bildpfad zugewiesen. Eine interessante Weiterentwicklung des Plugins, die allerdings momentan nur angedacht und nicht tatsächlich implementiert ist, wäre die Aufzeichnung einer Statistik zur Entwicklung des Google PageRanks einer Website. Siterank Die Platzierungen in den Suchergebnislisten von Google zu definierten Schlüsselwörtern und Kombinationen und deren Entwicklung über einen längeren Zeitraum, lässt sich mit der Erweiterung TARGET-E Siterank (Extension Key: siterank, Version: 0.1.6) verfolgen. Für eine erfolgreiche Anwendung des Moduls ist ein Linux-Server Voraussetzung, ein Cronjob7 muss ausgeführt werden und das Kommando Wget8 muss dem System bekannt sein. Diese Vorgaben machen eine Einbindung nicht immer möglich. 5.3.7 Weblogs in Typo3 Typo3 selbst ist weit mehr als ein Weblog Publishing System, bietet aber auch die Möglichkeit, eine Website mit Weblog Funktionalität zu erweitern und so für aktuelle Inhalte zu sorgen, zu denen Kommentare abgegeben werden können. Blog Plugin Die Extension Blog Plugin (Extension Key: ee blog, Version: 0.1.8) verstärkt Typo3 Websites um ein weiteres Leistungsmerkmal, indem es möglich ist, 6 http://www.ameos.com Aufruf wiederkehrender Aufgaben, die einem regelmäßigen Zyklus zu Grunde liegen. 8 Freies Kommandozeilen-Programm zum Herunterladen von Ressourcen (Dateien, Webseiten, etc.) über ein Netzwerk. 7 KAPITEL 5. CONTENT MANAGEMENT SYSTEME 75 Weblogs zu erstellen und Feedback in Form von Kommentaren der Besucher entgegenzunehmen. Die meisten typischen Eigenschaften eines Weblogs können mit dieser Erweiterung realisiert werden. TIMTAB Weblog TIMTAB Weblog (Extension Key: timtab, Version: 0.5.9) ist eine Framework Extension, die die Typo3 News Extension tt news zum Verfassen der Einträge, die Gästebuch Extension ve guestbook (modern guestbook) für die Kommentarfunktionalität, sowie realurl zur Erzeugung suchmaschinenfreundlicher URLs miteinander verbindet. In der Grundkonfiguration und unter Verwendung des WordPress Standardtemplates, das mit der Erweiterung mitgeliefert wird, ist ein Weblog mit nur wenigen Klicks eingerichtet. 5.3.8 RSS/Atom-Feed Import und Export Zur Umsetzung von RSS oder Atom-Feed Import und Export findet sich im Extension Repository von Typo3 ein umfangreiches Angebot an Erweiterungen, deren teilweise sehr umfangreiche Möglichkeiten hier kurz beschrieben werden. TW RSS Feeds TW RSS Feeds (Extension Key: tw rssfeeds, Version: 2.1.1) ist ein Plugin zum Import für RSS-Feeds, das zahlreiche Einstellungsmöglichkeiten bietet und sich somit den Anforderungen entsprechend gut konfigurieren lässt. Die Anzeige der Feeds ist über CSS gesteuert und lässt sich somit einfach nachbearbeiten. Das RSS Import-Tool für Typo3 beherrscht den Umgang mit RDF, sowie RSS 0.91 und RSS 2.0. RSS Reaggregator Sehr umfangreiche Möglichkeiten zum RSS-Import stehen dem Benutzer unter Verwendung der Erweiterung RSS Reaggregator (Extension Key: oxcs rssreagregator, Version: 0.3.0) zur Verfügung. Zu den importierten RSS lassen sich Kategorien und Keywords erfassen, die eine zusammengefasste Darstellung, resultierend aus mehreren Quellen, ermöglichen. Die aktuelle Version bewerkstelligt RSS in den Versionen 1.0 und 2.0. Atom Import Zum Import von Atom-Feeds ist die Typo3 Extension Galileo Atom Import (Extension Key: galileo atom import, Version: 0.0.6) hilfreich. Die Anzeige der Atom-Feeds lässt sich über Templates steuern. KAPITEL 5. CONTENT MANAGEMENT SYSTEME 76 RSS Newsfeed Export Zur Bereitstellung von RSS Newsfeeds der eigenen Website exportiert die Extension RSS Newsfeed Export (Extension Key: pmk rssnewsexport, Version: 0.1.5) Newseinträge als RSS-Feeds in den Formaten RSS 0.91 oder RSS 2.0. Die Beiträge stammen aus der häufig eingesetzen News-Erweiterung tt news, die ab Version 2.0 das Zusammenspiel mit dem RSS-Export unterstützt. Für einen Export im Format RSS(RDF) 1.0 der Newseinträge ist die Erweiterung RSS Newsfeed Export (Extension Key: cm rdfexport, Version: 0.0.3) einzusetzen. RSS Feed on latest content RSS-Feed von zuletzt aktualisiertem Inhalt einer Website stellt die Extension RSS feed on latest content (Extension Key: stever rsscontent, Version: 1.0.0) bereit. Atom News Export Die Newseinträge aus tt news lassen sich ebenso auch im Atom-Feed Format exportieren. Für diese Funktionalität zeigt sich die Typo3 Erweiterung Galileo Atom News export (Extension Key: galileo atom export, Version: 0.0.7) verantwortlich. 5.3.9 Fazit Prinzipiell stellt Typo3 der Suchmaschinenkompatibilität keine Hürden in den Weg. Wie weit mit Typo3 erstellte Webseiten suchmaschinentauglich sind, hängt größtenteils davon ab, wie weit sich Entwickler und Redakteure vom System unterstützen lassen. Je mehr die Thematik in den Köpfen der Anwender verankert ist, desto mehr werden die einzelnen Gesichtspunkte berücksichtigt und optimal umgesetzt werden. Das System selbst und die zusätzlichen Erweiterungen stellen eine gute Basis für eine optimal aufbereitete Seite für Suchmaschinen dar. Positiv hervorzuheben ist die hohe Flexibilität und die kurzen Reaktionszeiten der Typo3 Community, die generell schnell auf Neuerungen reagiert. So stand bspw. bereits kurze Zeit nach Veröffentlichung der Google Sitemaps bereits eine Extension für Typo3 zur Verfügung. Ein Erweiterungsbedarf ist vor allem in der seitenbezogenen Analyse hinsichtlich der Überwachung spezieller Parameter der Suchmaschinenoptimierung gegeben. KAPITEL 5. CONTENT MANAGEMENT SYSTEME 5.4 77 Suchmaschinenoptimierung mit Joomla! Aus dem Open Source Projekt Mambo hervorgegangen, ist Joomla!9 ein weiteres leistungsfähiges und vor allem im deutschsprachigen Bereich populäres Open Source WCMS, herausgegeben unter der GPL. Durch seinen modularen Aufbau lässt sich das Basissystem, das auf PHP basiert und MySQL als Datenbank verwendet, ohne großen Aufwand erweitern. Mit Hilfe einer Fülle von Erweiterungen sind viele Funktionalitäten in Joomla! integrierbar. Als Weiterentwicklung des preisgekrönten CMS Mambo ist Joomla!, aktuell in Version 1.0.8, ein sehr stabiles und erprobtes System, das sich in produktivem Umfang bereits oftmals bewährt hat. Zum Thema Suchmaschinenoptimierung existiert mit dem Projekt OpenSEF vor allem eine mächtige Erweiterungen, die in Verbindung mit Joomla! dafür sorgt, dass die generierten Seiten Suchmaschinentauglichkeit aufweisen. 5.4.1 Valider Quellcode Auch mit größtem Bemühens eines Entwicklers, ist es mit Joomla! nicht einfach, hundertprozentig validen Quellcode erreichen zu können. Verantwortlich für diese Schwachstelle zeigt sich das System, das derzeit noch auf Tabellen zu Formatierungszwecken aufbaut. Gleichfalls weist auch der generierte XHTML 1.0 Code in der Standardkonfiguration noch einige Unsauberkeit auf. Flexibel ist Joomla! was die Einbindung unterschiedlicher WYSIWYGEditoren betrifft. Bei der Auswahl ist speziell darauf zu achten, dass die Erzeugung von validem (X)HTML-Code unterstützt wird, da gerade hinsichtlich dieser Eigenschaft bei den verfügbaren Editoren teilweise große Differenzen zu erkennen sind. 5.4.2 Suchmaschinenfreundliche URLs Die Umwandlung der URLs in eine suchmaschinenfreundliche Form wird bei Joomla! mit dem System mitgeliefert und kann in der Konfiguration in der Registerkarte SEO aktiviert werden. Voraussetzung für Search Engine Friendly (SEF) URLs ist ein Apache Server und die Aktivierung der .htaccess Datei, die die Regeln zur Umschreibung enthält.Eine dynamische URL der Form http://www.seno-cms.at/index.php?option=com content&task=blogsection&id=5&Itemid=32 wird mittels dem mitgelieferten Modul in die für Suchmaschinen geeignete, aber damit nicht unbedingt besser lesbare Form, http://www.seno-cms.at/content/blogsection/5/32/ umgewandelt. 9 http://www.joomla.org KAPITEL 5. CONTENT MANAGEMENT SYSTEME 78 SEF-URLs mit OpenSEF Sehr viel weitreichendere Unterstützung wird dem Entwickler unter Verwendung der Komponente OpenSEF gegeben. Der Mechanismus für SEF-URLs ist dahingehend erweitert, dass die Namensgebung der URLs, unabhängig von der internen Bezeichnung, beliebig frei gewählt werden kann. Die Administration ist nach Einbindung der Komponente komplett im CMS inkludiert. Eine intern als http://www.seno-cms.at/index.php?option=com content &task=blog- section&id=5&Itemid=32 betrachtete URL, kann hiermit in eine für Suchmaschinen und menschliche Besucher gleichermaßen gut lesbare Form ähnlich http://www.seno-cms.at/Features umgeschrieben werden, in der sich zusätzlich Schlüsselwörter der Seite unterbringen lassen. 404SEFx Als Alternative bietet sich die gratis verfügbare OpenSource Komponente 404SEFx10 an, die die Generierung von suchmaschinenfreundlichen URLs für Apache und Internet Information Server (IIS) unterstützt und aktuell in der Version 1.2 verfügbar ist. Zusätzlich lässt sich über die Konfiguration einstellen, auf welche statische Content-Seite bei Fehler 404, also wenn diese nicht gefunden wird, weitergeleitet wird. Auf den Plänen der Entwickler steht die Implementierung einer Option zum Entfernen von Content Dubletten (siehe Kapitel 3, Abschnitt 3.3.4) ganz oben. Eine interessante Idee für die bislang noch keine entsprechenden Tools veröffentlicht sind. SEF Advance Ähnliche Funktionalität bietet die Joomla! Komponente SEF Advance11 , deren Installation allerdings mit Lizenzkosten verbunden ist und die in puncto Leistungsangebot die Möglichkeiten der frei verfügbaren Komponenten nicht überbieten kann. 5.4.3 Seitentitel Eine weitere Voraussetzung, um gute Suchmaschinenergebnisse erreichen zu können, ist über die Joomla! Grundkonfiguration einzustellen: Das Anzeigen dynamischer Seitentitel. Ist diese Option aktiviert, so wird der Name der Joomla-Site und der Seitentitel getrennt durch einen Bindestrich als Titel-Tag verwendet. Gezielt lässt sich mit dieser Einstellung jedoch kein Seitentitel für eine spezifische Seite vergeben. Eine Lösung dafür steht nach Einspielen des Joomla SEF Patch bereit, worauf in Abschnitt 5.4.6 näher eingegangen wird. 10 11 http://www.ty2u.com http://www.sakic.net/products/sef advance KAPITEL 5. CONTENT MANAGEMENT SYSTEME 5.4.4 79 Meta Tags Über die Registerkarte Meta Info ist es in Joomla! standardmäßig möglich, für jeden Beitrag Meta Description und Keywords zu vergeben. Sektionsund Kategoriename, sowie der Seitentitel lassen sich mit einem Mausklick zu den Keywords hinzufügen. Globale, für die gesamte Site definierte Metaangaben sind über die Konfiguration zu tätigen. Metatag Generator Als Hilfestellung bei der Erstellung und Verwaltung der Metaangaben wurde der Metatag Generator12 entwickelt, der Joomla! Sitebetreibern bei der Suchmaschinenoptimierung dienen soll. Mit Hilfe des Generators lässt sich die Zusammenfassung der Metadaten jeder Seite automatisieren. Angestoßen wird die Erzeugung der Metaangaben über eine Schaltfläche, die beim Editieren von Beiträgen erscheint. In Folge wird der Seiteninhalt ausgelesen und eine Beschreibung und Keywords daraus erzeugt. Die Ausgabe erscheint anschließend in den dafür vorgesehenen Eingabefeldern, wo sie auch vom Anwender nachbearbeitet werden kann. Um beliebige Wörter beim Erzeugen der Schlüsselwörter zu ignorieren, lassen sich diese in eine Ausschlussliste eintragen. MetaFly MetaFly ist ein Plugin, das automatisch häufig auftretende Wörter einer Seite den Meta-Keywords hinzufügt. Über definierte Filter lassen sich einerseits nicht erwünschte Terme ausschließen, ebenso können aber auch so genannte goldwords“ spezifiziert werden, die unabhängig von der Anzahl ” ihres Auftretens beibehalten werden. 5.4.5 Alt, Title Attribut Bei der Einpflege von Bildern ist ein Eingabefeld für alternativen Text vorgesehen, dessen tatsächliche Verwendung nicht als verpflichtend überprüft wird. Das Title-Attribut, als weitere Information für grafische Inhalte, lässt sich über das CMS nicht gesondert setzen. 5.4.6 Joomla SEF Patch Der Joomla SEF Patch13 erweitert das System um einige Funktionalitäten, die in der Standardinstallation von Joomla! fehlen, und die für eine optimal aufbereitete Seite für Suchmaschinen eine nicht unbedeutende Rolle spielen. 12 13 http://www.ijoomla.com/MetaTag Generator http://www.joomlatwork.com KAPITEL 5. CONTENT MANAGEMENT SYSTEME 80 Speziell widmen sich die Anpassungen des CMS dem Title-Tag, dem wichtigsten Tag in Bezug auf Suchmaschinenoptimierung. Aus Perspektive der Suchmaschinenoptimierung ist es von hoher Bedeutung, dass der Seitentitel den Inhalt, der aktuell betrachteten Seite reflektiert und die wichtigsten Schlüsselwörter enthält. Dies kann der Benutzer nach Einspielen des Joomla SEF Patch selbst seitenbezogen steuern. Als weiteren Punkt erweitert der Patch das System dahingehend, dass der Siteadministrator volle Kontrolle über alle Meta-Angaben hat. Dies beginnt bei Festlegung des Inhalts des Meta-Tags Robot, gezielt für jede einzelne Seite. Des weiteren werden die Parameter jeder Seite um die Eingabefelder für Meta Description, Keywords und Author ergänzt. Der Patch greift auch in die Seitengenerierung ein und entfernt dort den Meta-Tag Generator, sowie den Timestamp der Seitenerzeugung. Diese kleineren Anpassungen tragen jedoch nicht gewichtig zu einer Verbesserung des erzeugten Quellcodes bei. 5.4.7 OpenSEF Das Projekt OpenSEF14 , aktuell in der Version 2.0.0-RC5, ist spezialisiert auf die Entwicklung von Modulen, die die Suchmaschinentauglichkeit des CMS stärken. Vertiefend setzt sich die Komponente, mit der schon in Abschnitt 5.4.2 vorgestellten Variante der URL-Umschreibung, in eine suchmaschinenfreundliche Form auseinander. Das Angebot ist in der aktuellen Version ergänzt durch zahlreiche weitere Einstellungs- und Kontrollmöglichkeiten, als Unterstützung für Sitebetreiber, die sich mit Suchmaschinenoptimierung auseinander setzen. Die wichtigsten Joomla! Search Engine Optimization (SEO)- Komponenten wie Google Sitemap Generator, SEO Assistant oder MetaTagGenerator Static sind in OpenSEF inkludiert, weshalb OpenSEF die bedeutendste Erweiterung für Joomla!, hinsichtlich Suchmaschinenoptimierung darstellt. Verwaltung der SEF-URLs Neben der umfangreichen Konfigurationseinstellungen zur Generierung suchmaschinenfreundlicher URLs, siehe Abschnitt 5.4.2, steht dem Benutzer mit OpenSEF eine übersichtliche, im CMS integrierte Oberfläche zu deren Verwaltung zur Verfügung. Einstellen lässt sich außerdem, welche Inhaltseite gezeigt werden soll, wenn der Browser einen 404 Not Found Fehler anzeigen würde. 14 OpenSEF Projekt, http://www.open-sef.org KAPITEL 5. CONTENT MANAGEMENT SYSTEME 81 Google Sitemap Die in OpenSEF inkludierte Google Sitemap Erweiterung generiert die XML Sitemap Dateien. Jeder veröffentlichte Menüpunkt sowie alle Inhalte, die in der OpenSEF-Tabelle für freundliche URLs gespeichert sind, werden in einer Tabelle aufgelistet. Hier lassen sich die URLs auswählen, welche in die XML-Datei integriert werden sollen. Für jede URL lassen sich zu dem Datum der letzten Änderung, Änderungshäufigkeit und Priorität der Seite, im Verhältnis zu den anderen Seiten der Website bestimmen. SEO Assistent Der SEO Assistent enthält eine Vielzahl an Werkzeugen, die den Benutzer im Prozess der Suchmaschinenoptimierung unterstützen. • Search Engine Position: Dieses Tool hilft zur Überprüfung, welchen Platz in der Ergebnisliste der Suchmaschinen Google oder Yahoo! die eigene Seite zu einem definierten Schlüsselwort belegt. • Google PageRank: Gemessen wird der Google PageRank für alle in der Liste eingetragenen URLs. Das Ergebnis wird sowohl grafisch, als auch textuell dargestellt. • Link Popularität: Als Ergebnis der Ermittlung der Link Popularität wird eine Auflistung der Anzahl an Backlinks, gefunden bei den Suchmaschinen AlltheWeb, AltaVista, Google, HotBot, MSN Search und Yahoo!, präsentiert. Diese sind jeweils verlinkt mit den Ergebnislisten der einzelnen Suchmaschinen. Abbildung 5.1 zeigt dieses Werkzeug des SEO Assistenten. • Schlüsselwort-Dichte: Die Dichte potenzieller Schlüsselwörter, sowie Wortkombinationen aus zwei oder drei Begriffen, bezogen auf die totale Anzahl der Wörter und deren Anzahl auf der per URL vorgegebenen Seite, wird zur Kontrolle und Überwachung in Listenform dargestellt. Abhängig von der in der Konfiguration eingestellten Sprache existieren Listen mit Wörtern, die bei Generierung der Keywordlisten ausgeschlossen werden sollen. Diese Listen, die standardmäßig schon gebräuchliche Stoppwörter enthalten, sind den eigenen Anforderungen entsprechend beliebig ausbaubar. • Links prüfen: Die Links der Site lassen sich über dieses Tool überprüfen. Fehlerhafte Verlinkungen können somit ermittelt werden, die sowohl Besucher, als auch Crawler von Suchmaschinen dazu veranlassen könnten, die Site zu verlassen. KAPITEL 5. CONTENT MANAGEMENT SYSTEME 82 Abbildung 5.1: Ermittlung der Link Popularität des SEO-Assistenten der Joomla! OpenSEF-Komponente. • Metatag Generator: Für jede Seite Meta Description und Meta Keywords einzutragen, kann sich als sehr mühsam gestalten, wenn jeder Artikel einzeln geöffnet werden muss. Abhilfe schafft das Werkzeug Metatag Generator, das auf einer Seite die Meta-Angaben aller Seiten zeigt, deren Bearbeitung sich somit sehr viel einfacher gestaltet und zudem dem Benutzer einen guten Überblick bietet. Der Generator hilft dabei, die Angaben automatisch einzutragen und geht wie schon in Abschnitt 5.4.4 beschrieben vor. 5.4.8 Weblogs in Joomla! Zur Integration von Weblog-Funktionalität stehen dem Joomla!-Entwickler einige Erweiterungen zu Auswahl, von denen die zwei bedeutendsten Komponenten hier angeführt sind. JD-WordPress JD-WordPress15 bringt die weitverbreitete Blogging-Software WordPress als Komponente in die Joomla!-Umgebung. Die Kombination des CMS Joomla! 15 http://www.joomladeveloping.org KAPITEL 5. CONTENT MANAGEMENT SYSTEME 83 und der WPS WordPress stellt dem Anwender ein leistungsfähiges Werkzeug im Umgang mit Weblogs zur Verfügung. Joomblog Im Gegensatz dazu basiert Joomblog rein auf Joomla! und setzt somit keinerlei Kenntnisse im Umgang mit WordPress voraus. Die Joomla!-Variante eines Weblogs beinhaltet ebenso weitreichende Funktionalitäten, wie natürlich die Möglichkeit, Artikel aktiv von Benutzern kommentieren zu lassen. 5.4.9 RSS/Atom-Feed Import und Export Für Import und Export von Newsfeeds existieren unterschiedlichste Erweiterungen für Joomla!, von denen nur eine Auswahl, beinhaltend die beiden Komponenten die sowohl das Format RSS als auch Atom unterstützen, hier vorgestellt wird. RSSReader2 RSSReader2 ist ein Newsfeed Aggregator für Joomla!. Für die Anzeige der importierten Feeds werden zwei Styles angeboten, jeweils mit Optionen, die die Anpassung der Anzeige möglichst den Anforderungen entsprechend ermöglichen sollen. Sowohl die Formate RSS, als auch Atom werden von RSSReader2 seit Version 1.0.3 unterstützt. DS-Syndicate Die Komponente DS-Syndicate16 ersetzt das Standard Syndikations-Modul von Joomla! und unterstützt die Formate RSS 0.91, 1.0 und 2.0, sowie OPML und Atom 0.3. Newsfeeds können für jede Kategorie separat, sowie alle Kategorien umfassend oder nur aus den Inhalten der Startseite erzeugt werden. Ein Ping Manager ist zusätzlich integriert, der die bei neu verfügbaren Einträgen zu informierenden Sites verwaltet. 5.4.10 Fazit In der Standardinstallation ist Joomla! nicht besonders auf Suchmaschinenoptimierung ausgelegt. Aus diesem Grund wird das CMS von vielen Nutzern als suchmaschinenunfreundlich beschrieben. Mit etwas Arbeit und unter Anwendung einiger Tricks lässt sich jedoch das System durchaus so erweitern, dass die mit Joomla! generierten Seiten von Suchmaschinen gut gefunden werden. Alleine das Bestehen und die konsistente Weiterentwicklung des Projekts OpenSEF zeigt das Bemühen, die Suchmaschinentauglichkeit des 16 http://www.joomlafun.com KAPITEL 5. CONTENT MANAGEMENT SYSTEME 84 CMS schrittweise auszubauen. In einigen Bereichen besteht jedoch noch Bedarf an Varianten für eine suchmaschinenoptimierte Lösung, so ganz speziell bei der Generierung von validem Quellcode. Verglichen mit Typo3 ist das Angebot, das Joomla! dem Entwickler zur Verfügung stellt, hinsichtlich der Generierung optimaler Webseiten für Suchmaschinen nicht so weit ausgereift, auch wenn interessante Ansätze erkennbar sind. 5.5 Suchmaschinenoptimierung mit WordPress In die Rubrik Weblog Publishing Systeme ist WordPress einzuordnen, auch wenn seit Version 1.5 durch die Unterstützung der Verwaltung statischer Seiten, also Beiträgen außerhalb der normalen Weblogchronologie, ein Schritt in Richtung eines vollwertigen CMS gemacht wurde. Das in PHP programmierte System setzt MySQL als Datenbank ein und wird vorwiegend zur Verwaltung von Weblogs eingesetzt. Lizenziert unter der GPL ist WordPress freie Software und wird kostenlos zum Download angeboten. Die aktuelle Version des beliebten WPS ist WordPress Version 2.0.3. WordPress stellt eine Reihe von Möglichkeiten zur suchmaschinenoptimierten Aufbereitung der Webseiten zur Verfügung, die nicht immer in der Standardinstallation enthalten sind, sondern oftmals durch Plugins zu ergänzen sind. 5.5.1 Valider Quellcode Die Einhaltung von Webstandards ist einer der Hauptpunkte, auf den sich die Entwickler von WordPress konzentrieren. Valider XHTML-Code, CSS sowie logisch verknüpfte Template-Dateien, das alles ist mit WordPress machbar, da das Templatesystem dem Entwickler alle Möglichkeiten offen lässt. Die meisten WordPress-Templates, die als Themes“ zur Verfügung ” stehen, sind in dieser Hinsicht sauber aufgebaut. WordPress ermutigt die Autoren von Themes“, die Architektur des Kernsystems konform den XHTML” Standards und unter Einsatz von CSS aufrechtzuhalten, und stellt zu diesem Zweck umfangreiche Dokumentationen zur Verfügung, siehe [39]. 5.5.2 Suchmaschinenfreundliche URLs In den Grundeinstellungen von WordPress werden URLs verwendet, die eine Reihe von Parametern mitführen und die durch in der Adressbezeichnung enthaltenen Fragezeichen und Zahlen keinen optimalen Aufbau hinsichtlich Suchmaschinenfreundlichkeit aufweisen. Um die Benutzerfreundlichkeit und Ästhetik der Links hinaufzusetzen, besteht die Möglichkeit, die URLStruktur für Permalinks und Archive anzupassen. Der Begriff Permalink, zusammengesetzt aus einer Kombination der englischen Wörter permanent und link, bezeichnet einen, als permanent beab- KAPITEL 5. CONTENT MANAGEMENT SYSTEME 85 sichtigten Uniform Resource Identifier (URI), der für lange Zeit unverändert erreichbar bleibt. Genutzt wird dies, um auf Artikel im Internet verweisen zu können, die über einen längeren Zeitraum garantiert nutzbar bleiben. Zum Thema Permalinks, deren Verwendung und Möglichkeiten des strukturellen Aufbaus, stellt WordPress den Entwicklern reichhaltig Information zur Verfügung, nachzulesen unter [40]. WordPress erzeugt, so wie auch viele andere moderne WPS, Permalinks automatisch. Angenehmer Nebeneffekt ist, dass sich die Struktur von Permalinks definieren lässt, diese also kurz, einfach und suchmaschinenfreundlich gestaltet werden können. Zur Umsetzung des Permalink-Systems setzt WordPress auf das Apache Module mod rewrite. Oft ist der Titel des Artikels im Namen der Permalinks enthalten, oder der Zeitstempel mit Angabe der Zeit, zu der der Artikel online gestellt worden ist, wird genutzt. Der Titel muss dabei nicht mit der Überschrift übereinstimmen, sondern kann bei jedem Beitrag gesondert über das Eingabefeld Titleform angepasst werden. Um einen eindeutigen Permalink zu erzeugen, werden auch zum Teil einfach laufende Nummern vergeben. Clean-Umlauts Verwendet man deutsche Umlaute (ä,ö,ü,ß) im Titel eines Artikels und soll dieser als Grundlage für den Permalink verwendet werden, stößt man auf das Problem, dass WordPress die sprachspezifischen Sonderzeichen filtert und damit die URL-Bezeichnug nicht wirklich brauchbar wird. Abhilfe schafft das Plugin o42-clean-umlauts (Version 0.2.0), das deutsche Umlaute in den Beitragstiteln, Kommentaren und Feeds zu ASCII konvertiert. Aus ä,ü,ö,ß wird ae, ue, oe und ss, was sich ohne Probleme in Permalinks abbilden lässt. 5.5.3 Seitentitel Zusammengesetzt aus dem Namen des Weblogs, ggf. der Archivbezeichnung und dem Titel des Beitrags, stellt WordPress über die Funktion wp title den Seitentitel folgendermaßen dar: Blog Name ≫ Blog Archive ≫ Post Title. Die zentralen artikelspezifischen Schlüsselbegriffe sind damit im Titel enthalten, jedoch ist die Reihenfolge der Anordnung nicht mit absteigender Bedeutung realisiert. Optimal ist der Titel des Beitrags zu Beginn im Seitentitel berücksichtigt, um den Suchmaschinen die seitenspezifisch relevanten Keywords am prominenter Stelle zu präsentieren. Bei zu langen Seitentiteln könnte es anders außerdem passieren, dass wichtige Schlüsselwörter bei der Anzeige der Suchergebnisse auf Grund der beschränkten Zeichenanzahl abgeschnitten sind. KAPITEL 5. CONTENT MANAGEMENT SYSTEME 86 Optimal Title Eine Spiegelung der Funktionalität von wp title ist am komfortablesten unter Verwendung des Plugins Optimal Title17 (Version 1.0) zu erreichen. Wie auch über die Funktion wp title kann optional das anzuzeigende Trennzeichen (Standard ist ein doppeltes französiches Anführungszeichen) als Parameter mitübergeben und damit festgelegt werden. Der Funktionsaufruf im Header-Template ist folgendermaßen aufgebaut: <title> <?php optimal_title(’ - ’); ?><?php bloginfo(’name’); ?> </title> Individuell, bezogen auf eine Seite, lässt sich der Inhalt des Title-Tags einerseits über eine Steuerung mittels Programmcode direkt im Header-Template oder unter Verwendung benutzerdefinierter Felder realisieren. Ein eigenes Feld zur Eingabe, und somit gezielten Manipulation des Seitentitels über die Administrationsoberfläche, steht dem Anwender standardmäßig nicht zur Verfügung. 5.5.4 Meta Tags Für die Angabe von Metadaten ist in WordPress standardmäßig keine Eingabemöglichkeit über die Administrationsoberfläche vorgesehen. Einerseits können Meta-Angaben direkt im Template gesetzt werden, oder die Funktionalität des Systems wird durch die Aktivierung eines Plugins erweitert. HeadSpace Nicht ausschließlich zur Angabe von Meta-Daten, sondern zur vollständigen Kontrolle über Angaben im Head einer Seite, wie u. a. Title, Keywords, Description oder Stylesheets, erweitert das Plugin HeadSpace18 (Version 1.4) die Funktionalität von WordPress. Die Angaben lassen sich spezifisch für jede Seite zu definierten Schlüsseln in den benutzerdefinierten Feldern tätigen. Add Meta Keyword Tag Add Meta Keyword Tag19 , in Version 1.1, erzeugt Meta Keywords aus der Kategoriebezeichnung, den optional vorhandenen Bunny’s Technorati Tags (siehe Plugin Bunny’s Technorati Tags, Abschnitt 5.5.5) oder Simple Tags (siehe Plugin Simple Tags, Abschnitt 5.5.5) oder einem anderen definierten Feld, und gibt diese im Head-Bereich der Seite aus. 17 http://elasticdog.com/2004/09/optimal-title http://www.urbangiraffe.com/plugins/headspace 19 http://www.projectarcanum.com/archive/2006/03/05/WordPress-plugin-add-meta-keyword-tag 18 KAPITEL 5. CONTENT MANAGEMENT SYSTEME 87 Head META Description Das Plugin Head META Description20 (Version R1.1.2) funktioniert ähnlich für den Meta-Tag Description. In der Standardeinstellung des Plugins werden als Beschreibung automatisch die ersten 20 Wörter des Eintrags hergenommen. Die Anzahl der Wörter kann über die Plugin-Variablen konfiguriert werden, genauso wie sich auch eine alternative Meta- Description angeben lässt, die über ein benutzerdefiniertes Feld administriert werden kann. AutoMeta Basierend auf dem Text des Weblog-Eintrags generiert das Plugin AutoMeta21 (Version 0.7v) automatisch Meta Keywords. Noch vor der Publizierung eines neuen Beitrags analysiert das Plugin den Text und zeigt die automatisch generierten Metadaten in einem benutzerdefinierten Feld an. Natürlich kann die automatische Extraktion nie ein vollkommen perfektes Ergebnis liefern, weshalb die generierten Keywords jederzeit händisch editiert und verfeinert werden können. 5.5.5 Technorati Tags Technorati-Tags werden zur Klassifizierung von Weblog-Einträgen eingesetzt und sorgen für eine korrekte thematische Zuordnung im Katalog der Echtzeit-Weblog-Suchmaschine Technorati, siehe Kapitel 2, Abschnitt 2.1.4. Die Methode Links durch das zusätzliche Attribut rel="tag" auszustatten gestaltet sich oft als mühsam. Erfreulicherweise müssen sich WordPressBenutzer nicht selbst darum kümmern, denn Technorati erkennt automatisch die zugeordnete Kategorien und verwendet diese als Tags. Verbreitet werden Technorati-Tags zusätzlich vom Autor selbst direkt gesetzt. Zur Generierung von Technorati-Tags finden sich im Plugin-Verzeichnis von WordPress22 einige Plugins. Bunny’s Technorati Tags Das Plugin Bunny’s Technorati Tags23 unterstützt den Autor, durch die Möglichkeit, Tags über ein zu jedem Beitrag zugehöriges Eingabefeld zu vergeben und diese strukturiert gelistet und zu Technorati verlinkt auszugeben. Notwendig ist dazu lediglich die Anweisung <?php the bunny tags(); ?>, an der Stelle im Template, an der die Liste der Tags zum Weblog-Eintrag angezeigt werden soll. 20 http://guff.szub.net/2005/09/01/head-meta-description http://boakes.org/autometa 22 http://codex.wordpress.org/Plugins 23 http://dev.wp-plugins.org/wiki/BunnysTechnoratiTags 21 KAPITEL 5. CONTENT MANAGEMENT SYSTEME 88 AutoMeta Das schon in Abschnitt 5.5.4 zur automatischen Meta-Keyword Generierung vorgestellte Plugin AutoMeta, kann auch dazu verwendet werden, die Keywords gleichzeitig als Technorati-Tags zu verwenden. Eine Liste der Tags wird an der Stelle gezeigt, an der im Template der Funktionsaufruf <?php AutoMeta::includeTechnoratiTags();?> steht. Simple Tags Simple Tags 24 verzichtet auf ein zusätzliches Eingabefeld und wandelt mit Beistrich getrennte Wörter innerhalb der Kennzeichnung [tags]...[/tags] automatisch in Technorati-Tags um, und zeigt diese verlinkt am Ende des Weblog-Beitrags. 5.5.6 Alt, Title Attribut WordPress benutzt TinyMCE25 , einen plattformunabhängigen, webbasierten JavaScript HTML WYSIWYG Editor, um Inhalte bequem eingeben zu können, ohne sich um den HTML Code kümmern zu müssen. Der Editor sieht beim Einfügen von Bildern ein Eingabefeld für die Bildbeschreibung vor. Diese Angabe dient als alternativer Text und ist nicht verpflichtend vorgesehen. 5.5.7 SEO Erweiterungen für WordPress Unter den zahlreichen Plugins, die zur Erweiterung der Funktionalität angeboten werden, existieren auch einige, die sich speziell dem Thema der Suchmaschinenoptimierung widmen. Interessante Ideen sind vor allem in den hier angeführten Plugins verwirklicht worden. Backlinks Mit dem Ziel, die Anzahl an Backlinks einer Seite zu ermitteln wurde das WordPress Backlinks-Plugin26 entwickelt. Speziell ist dabei die Auswertung, die einen Graphen zeigt, der die Anzahl an eingehenden Links und deren Entwicklung über die Zeit angibt, siehe z. B. Abbildung 5.2. Die Backlinks werden ausschließlich über die MSN Search API bezogen, begründet damit, dass der Meinung des Entwicklers nach, diese Suchmaschine die exaktesten Ergebnisse zu einer Backlink-Analyse liefert. Es lohnt sich mit dem Plugin zu experimentieren, auch wenn die Ergebnisse keine bedeutende Hilfestellung für einen Entwickler sind und zumeist nur wenig Aussagekraft haben. 24 http://www.broobles.com/scripts/simpletags http://tinymce.moxiecode.com 26 http://gdymov.com/inbound-links-backlinks-WordPress-plugin 25 KAPITEL 5. CONTENT MANAGEMENT SYSTEME 89 Abbildung 5.2: Beispielgraph, der die Entwicklung der Anzahl an Backlinks darstellt. DoFollow Für Weblogs generell erweist sich die Einführung des nofollow-Attributs als suboptimal, worauf schon in Kapitel 3, Abschnitt 3.3.7 eingegangen wurde. Standardmäßig ist die Kennzeichnung in WordPress aktiviert, was Verlinkungen zumindest hinsichtlich der Miteinbeziehung zur Relevanzermittlung wertlos macht, dafür aber vor Kommentar-Spam schützt. Abstellen lässt sich diese automatische Maßnahme für externe Links durch Aktivierung des Plugins DoFollow27 (Version 2.1). Optional kann eine Anzahl an Tagen angegeben werden, nach der das Attribut rel="nofollow" zur Kennzeichnung von Kommentar-Links entfernt wird. Um sich vor Kommentar-Spam zu schützen, ist bei Verwendung dieses Plugins ein guter Spamfilter für Kommentare empfehlenswert, es sei denn, der Weblog ist moderiert und wird somit ständig überwacht. Google Sitemaps Das Plugin Google Sitemaps28 (Version 2.7) inkludiert einen Generator für Google Sitemaps der Homepage, Blog-Einträge, statischen Seiten, Kategorien und Archivseiten im XML-Format. Über die Benutzer-Schnittstelle in WordPress sind zahlreiche Parameter, wie die Änderungsfrequenz oder Prioritäten einstellbar. Die Priorität eines Beitrags wird automatisch über die Anzahl der Kommentare berechnet. Diese Einstellung kann selbstverständlich deaktiviert werden. Permalink Redirect Unter Einsatz des Plugins Permalink Redirect29 (Version 0.5.3) lässt sich sicherstellen, dass Seiten und Einträge nur unter einer Adresse erreichbar sind. Doppelter Content bei Verwendung von Permalinks wird damit verhindert, 27 http://kimmo.suominen.com/sw/dofollow http://www.arnebrachhold.de/2005/06/05/google-sitemaps-generator-v2-final 29 http://fucoder.com/code/permalink-redirect 28 KAPITEL 5. CONTENT MANAGEMENT SYSTEME 90 was anderenfalls nicht automatisch garantiert wäre. Wird eine Ressource nicht via Permalink angefordert, erfolgt eine Umleitung über den ausgegebenen Statuscode 301 (Moved Permanently). WordPress Theme Gold (SEO) Als suchmaschinenoptimiertes, deutschsprachiges WordPress-Theme bietet Webdesign-in.de30 das Theme Gold an. Dieses beinhaltet 14 WordPressPlugins, die helfen sollen, den eigenen WordPress-Weblog SEO-tauglicher zu machen. Eine interessante Anregung ist insbesonders die Auflistung der ausgewählten Plugins. 5.5.8 RSS/Atom-Feed Import und Export Charakteristisch für Weblog Publishing Systeme ist die Ausgabe von Newsfeeds. Diese Funktionalität ist natürlich auch in WordPress integriert. WordPress unterstützt zusätzlich den Import von Daten in Form von Artikeln anderer WPS und stellt einen RSS-Importer zur Verfügung, der ausreichend Funktionalität bietet, um allgemeinen Anforderungen gerecht werden zu können. Erweiterte Möglichkeiten können mit Plugins, spezialisiert auf den Feed-Import, abgedeckt werden. Importing Content Eine eigene Rubrik in der Administrationsoberfläche von WordPress ist dem Import von externem Content gewidmet. An dieser Stelle wird definiert, welche Artikel oder Kommentare von anderen Weblogsystemen importiert werden sollen. Die meisten von WordPress unterstützen Import-Scripts sind hier zu finden. Eine detaillierte Beschreibung dazu ist in [38] nachzulesen. Der WordPress RSS-Importer erlaubt es, Beiträge von jeder RSS 2.0 Datei in den Blog zu importieren. Das ist vor allem dann nützlich, wenn man Beiträge von einem System importieren möchte, das nicht in der Lage ist, mit dem gewöhnlichen Importer zusammen zu arbeiten. WordPress Feeds Standardmäßig unterstützt WordPress die Bereitstellung von Feeds in den Formaten RDF/RSS 1.0, RSS 0.92, RSS 2.0 sowie Atom. Generiert werden diese über die Funktion bloginfo() im Template. Typischerweise werden die Feeds in mehreren, unterschiedlichen Formaten angeboten und in der Sidebar oder im Footer der Seite angezeigt. Die Einbindung im Template funktioniert folgendermaßen: 30 http://www.webdesign-in.de/mts/wordpress-theme-gold-seo KAPITEL 5. CONTENT MANAGEMENT SYSTEME 91 • URL für RDF/RSS 1.0 Feed: <?php bloginfo("rdf url"); ?> • URL für RSS 0.92 Feed: <?php bloginfo("rss url"); ?> • URL für RSS 2.0 Feed: <?php bloginfo("rss2 url"); ?> • URL für Atom Feed: <?php bloginfo("atom url"); ?> • URL für RSS 2.0 Feed der Kommentare: <?php bloginfo("comments rss2 url"); ?> Die ersten vier Feeds zeigen zuletzt getätigte Änderungen des Contents der Site in den unterschiedlichen Formaten, von denen RSS die meiste Verwendung findet. Das letzte Feed-Beispiel zeigt keine Inhalte, sondern nur Kommentare der Site, im Format RSS 2.0. Unter Verwendung individuell konfigurierter Permalinks sind die Feeds standardmäßig über die URL http://www.site.com/feed/ zu erreichen, abgelegt in den Unterverzeichnissen rdf, rss, rss2 sowie atom. Mehr dazu in [41]. 5.5.9 Track- und Pingbacks Track- und Pingbacks sind ein fixer Bestandteil in WordPress. Während der technische Unterschied marginal ist, und sowohl Ping- und Trackbacks Benachrichtigungen an andere Seiten aussenden, haben die beiden Verfahren doch eine unterschiedliche Bedeutung, die [36] klarzustellen versucht. Trackbacks sind dafür gedacht, eine Diskussion zwischen Weblogs anzuregen. Dabei wird ein, im eigenen Eintrag erwähnter und verlinkter Beitrag, über einen so genannten Trackback-Ping in der Form eines HTTP POST Requests informiert. Im Ziel-Blog werden diese Daten, sofern alles problemlos verläuft, gespeichert und anschließend in der Einzelansicht des jeweiligen Eintrags mit Verlinkung zum bezugnehmenden Blog angezeigt. Praktisch kann das ein Kommentar sein, der nicht über die Kommentarfunktion, sondern auf der eigenen Seite veröffentlicht ist. Pingbacks verständigen hingegen eine andere Seite nur durch eine kurzen XML-RPC31 -Ping, also lediglich zur Information und nicht als Fortsetzung oder Eröffnung einer Diskussion. Genutzt werden automatische Pingbacks auch, um verschiedene Dienste, wie die Weblog-Suchmaschine Technorati, bei Veröffentlichung eines Beitrags zu informieren. 31 http://www.xmlrpc.com KAPITEL 5. CONTENT MANAGEMENT SYSTEME 92 Über die Einstellungsmöglichkeiten in Wordpress können Ping- und Trackbacks allgemein, wie auch für jeden Beitrag separat, akzeptiert werden. Getrennt voneinander lassen sich die beiden Verfahren nicht aktivieren oder deaktivieren. Jene Dienste, die Wordpress bei neuen Beiträgen anpingt, werden in Wordpress bei den Optionen zu den Update Services verwaltet. Standardmäßig ist dort der Server von Ping-O-Matic32 gelistet, ein Pingverteilerdienst, der wiederum verschiedene Seiten durch einen Ping weiterinformiert. Da der Dienst durch die ständig wachsende Zahl an WordPress-Benutzern stark beansprucht ist, hilft oft ein Ausweichen auf einen anderen Pingverteilerdienst, wie Pingot33 oder pings.ws34 . 5.5.10 Fazit Schon in der Grundkonfiguration beeindruckt WordPress durch seine Funktionalität hinsichtlich Suchmaschinenfreundlichkeit. Der gut strukturiert aufgebaute Quellcode erleichtert es, Crawlern die Site über Beiträge, Seiten und Kategorien zu erfassen und in den Datenbestand aufzunehmen. Erweiterte, für eine optimale Suchmaschinenoptimierung relevante Eigenschaften, lassen sich vielfach über Plugins erreichen, die die Funktionalität des Systems ausbauen. Dazu kommt das vernetzte Denken von WordPress. Ping- und Trackbacks tragen zusammen mit RSS und Atom-Feeds zur Vernetzung der Seiten untereinander bei. Interessant ist die Unterstützung von automatischen Pingbacks, die Benachrichtigungen zu neu verfassten Beiträgen aussenden, und damit im Speziellen Weblog-Suchmaschinen wie Technorati umgehend zu einer Aufnahme in den Index veranlassen. Aktualität hat in Weblogs höchste Priorität, weshalb WordPress bemüht ist, seine Benutzer dahingehend bestmöglichst zu unterstützen. 32 http://pingomatic.com http://pingoat.com 34 http://pings.ws 33 Kapitel 6 SenoCMS, Content Management System für suchmaschinenoptimierten Webseitenaufbau Wir behalten von unseren Studien am Ende doch nur das, was ” wir praktisch anwenden.“ Johann Wolfgang von Goethe Als Praxisbeispiel zur Arbeit wurde unter dem Namen SenoCMS (für Search ENgine Optimized Content Management System) ein Web Content Management System entwickelt, das gezielt auf die Optimierung der Seiten für Suchmaschinen ausgelegt ist. Das CMS basiert auf der serverseitigen Skriptsprache PHP, als Datenbank wird MySQL eingesetzt. Der Entwickler wird von Projektbeginn bei der Generierung der suchmaschinenfreundlichen Seiten und deren Verwaltung unterstützt. Hauptpunkte der Optimierung sind ein sauberer struktureller Aufbau, gültiges XHTML und CSS zur Layoutierung, um standardkonformen Quellcode und zugleich eine optimal für Suchmaschinen aufgebaute Site garantieren zu können. Die Optimierung endet nicht mit dem strukturellen Aufbau, sondern setzt sich in der Aufbereitung der Inhalte fort. Auch hier werden Parameter, die das Ranking beeinflussen (wie beispielsweise die Keyworddichte und deren Position im Text) überprüft und dem Anwender Hinweise sowie Verbesserungsvorschläge geboten. Für jede Seite steht ein Report zur Verfügung, der Auskunft über die Keywords und deren Dichte gibt. Als Keyword definierte Wörter werden im Quellcode speziell hervorgehoben, um eine höhere Gewichtung zu erreichen. Zur Kontrolle der Linkpopularität zeigt der Report zudem die Anzahl der Backlinks auf die Seite, bezogen aus den Angaben der Suchmaschinen Google, Yahoo! und MSN Search und errechnet für jede Seite den Google PageRank. 93 KAPITEL 6. PRAXISBEISPIEL: SENO-CMS 94 Im Administrationsbereich baut das CMS auf moderne technische Infrastruktur auf. Asynchronous Javascript and XML (AJAX) kommt zum Einsatz, um dem Anwender eine benutzerfreundliche desktopähnliche WebOberfläche bieten zu können, in der eine HTML-Seite nicht mit jeder HTTPProtokoll-Anfrage komplett neu geladen werden muss. Dieses Kapitel widmet sich im Besonderen der Eigenschaften von SenoCMS in Bezug auf die optimale Aufbereitung der Webseiten für Suchmaschinen. Dabei sind viele in der Theorie beschriebenen Optimierungsmethoden wiederzufinden, die den Entwickler von Beginn an begleiten. Die Beschreibung der Systemkomponenten sowie Architektur und Umsetzung der CMSGrundfunktionalitäten sind der Systemdokumentation, siehe Anhang A, zu entnehmen. 6.1 Struktureller Aufbau, Templategenerierung Als Vorlage für die Seiten dienen so genannte Templates (englischsprachiger Begriff für Schablonen), die den strukturellen Aufbau festlegen, also bspw. definieren, wo Menüs oder dynamisch befüllte Inhalte platziert werden sollen. SenoCMS verwendet die Open Source PHP-Bibliothek Smarty1 als Template Engine, die bei der Entwicklung von Webapplikationen eine Trennung von Programmcode (PHP-Code) und Ausgabecode (XHTML-Code) ermöglicht. Somit bleiben die Templates übersichtlich und klar strukturiert, was zusätzlich die benötigte Zeit für Layoutanpassungen senkt. Die Einbindung der dynamischen Inhalte erfolgt an durch Markern gekennzeichneten Sektionen der Vorlage. Die Smarty Klassenerweiterung SmartyDoc2 wird verwendet, um Information im Headerbereich des Dokuments unabhängig vom Template jederzeit anpassen zu können, und um die Generierung des Doctypes und der Basisstruktur des Dokuments automatisieren zu können. Die Generierung der Templates erfolgt automatisch, anhand vom Entwickler bereitgestellten Strukturtemplates. 6.1.1 Strukturen Zu Beginn der Webentwicklung steht die Überlegung der strukturellen Aufteilung einer Seite. Weniger entscheidend ist es, schon zu Beginn detaillierte Layoutvorstellungen zu haben, da das konkrete Erscheinungsbild per CSS steuerbar ist und daher jeder Zeit, unabhängig vom Strukturtemplate, angepasst werden kann. Typischerweise erzeugt der Entwickler vor der Umsetzung einer Website mit Unterstützung eines Content Management Systems eine statische (XHTML)-Vorlage der Seite. Der Kern einer solchen Struktur1 2 http://smarty.php.net http://smarty.incutio.com/?page=SmartyDoc KAPITEL 6. PRAXISBEISPIEL: SENO-CMS 95 vorlage ist jener Bereich innerhalb des <body>-Tags. Dieser Teil ist es auch, der als Strukturtemplate für die später generierten Templates dient. Die einzelnen Sektionen sind mit Markern der Bezeichnung {$###SECTIONx###} gekennzeichnet, wobei x für eine fortlaufende Nummerierung beginnend mit eins steht. Durch die Einbindung der Anweisung {include file="header.tpl"} kümmert sich das Template darum, das Subtemplate header.tpl zu inkludieren, das für den korrekten Aufbau des <head>-Bereichs zuständig ist. Möchte man dezidiert zusätzlich bspw. JavaScript im <head>-Abschnitt des Templates einfügen, so ist dies im Subtemplate header.tpl anzupassen. Abbildung 6.1 zeigt, wie ein solches Strukturtemplate aufgebaut sein kann. Dabei ist zu erkennen, dass die Anweisungen ausschließlich die Struktur, in keiner Weise aber das Erscheinungsbild, definieren. {include file="header.tpl"} <div id="header">{$###SECTION1###}</div> <div id="menubar">{$###SECTION2###}</div> <div id="main"> <div class="clearline"></div> <div id="###SECTION3###">{$###SECTION3###}</div> <div id="###SECTION4###">{$###SECTION4###}</div> <div class="clearline"></div> </div> <div id="footer"> <div id="###SECTION5###">{$###SECTION5###}</div> <div id="###SECTION6###">{$###SECTION6###}</div> </div> Abbildung 6.1: Quelltext eines Strukturtemplates. Das für die Layoutierung zuständige CSS wird parallel zur Strukturvorlage erstellt. Die CSS-Klassen können gleichfalls mit Markern benannt werden, die bei der Generierung der Templates durch konkrete Bezeichnungen ersetzt werden. Zusätzlich ist ein Vorschaubild zur Verfügung zu stellen, um dem Entwickler eine bessere Übersicht zu geben. Die Strukturdateien: Template, CSS und Vorschaubild legt der Entwickler in dem dafür vorgesehenen Ordner templates/structures ab. Das Anlegen der Strukturtemplates erfolgt dann über die Administrationsoberfläche. An dieser Stelle ist die Zuordnung der Dateien, sowie eine Standardbelegung der Sektionsbezeichnungen vorzunehmen. KAPITEL 6. PRAXISBEISPIEL: SENO-CMS 6.1.2 96 Templates Die Strukturtemplates dienen als Vorlage für die automatische Generierung der Templates über die Administrationsoberfläche von SenoCMS. Um ein neues Template als Struktur- und Designvorlage für eine Seite zu erstellen, ist diesem eine der vorhandenen Strukturen zuzuweisen. Die Sektionen können entsprechend der Anforderungen benannt werden, ebenso wie sich der Typ jeder Sektion (Menü oder Content) einstellen lässt. Die Einstellungsmöglichkeiten zum Definieren der Sektionen eines Templates über die Administrationsoberfläche werden in Abbildung 6.2 gezeigt. Sind alle Einstellungen getätigt, werden die Template-Datei, sowie die zugehörige CSSDatei generiert. Selbstverständlich können für eine Site beliebig viele Templates angelegt werden. Jeder Seite kann individuell eine unterschiedliche Vorlage zugewiesen werden. Abbildung 6.2: Template Generierung über die Administrationsoberfläche von SenoCMS. 6.1.3 Cascading Stylesheets Die Layoutierung erfolgt, sofern der Entwickler bei der Erstellung der Grundstruktur/en die Vorgaben eingehalten hat, ausschließlich per CSS. Zusätzlich zu den CSS-Dateien, die bei der Generierung der Templates angelegt werden, können auch CSS-Dateien erstellt werden, die mehreren Templates zugehörig sind. Solche templateübergreifenden Styleanweisungen sind z. B. sinnvoll, um globale Definitionen für die Styles der Überschriften oder des Fließtextes zu verfassen. KAPITEL 6. PRAXISBEISPIEL: SENO-CMS 6.2 97 Suchmaschinenfreundliche URLs SenoCMS verwendet als URL Rewrite Methode zur statischen Simulation der dynamischen Seiten, die Apache ForceType Direktive, wie schon in Kapitel 3, Abschnitt 3.1.5 vorgestellt wurde. Der Domain folgt in der URL ein frei definierbarer Präfix, dem per .htaccess Datei explizit der Dateityp PHP zugewiesen wird. Ist dieser Präfix bspw. auf web festgelegt, so bewirkt der Aufruf von http://www.seno-cms.at/web/SenoCMS/, dass ein PHP-Script namens web (ohne Dateiendung) angesprochen wird. Dort wird eine Pfadanalyse vorgenommen, um genau zu identifizieren, welche dynamischen Inhalte darzustellen sind. Der detaillierten Beschreibung der Vorgehensweise zur Generierung der Seiten in SenoCMS widmet sich Abschnitt 6.6. Mit Hilfe dieser Umschreibung ist für Suchmaschinen kein Unterschied zu statischen HTML-Seiten zu erkennen, weshalb die Seiten problemlos indexiert werden. 6.2.1 URL Aufbau Auch wenn der Aufbau der URL einer Seite einer Verzeichnisstruktur gleicht, bildet der Pfad keine tatsächliche solche Struktur ab. Die Information der URL, die dem Präfix (wie im Beispiel zuvor als web definiert) folgt, dient ausschließlich programmintern dazu, die Seitenzugehörigkeit eindeutig identifizieren zu können. SenoCMS generiert den Pfad aus den Menüebenen und Seitennamen. Der Besucher einer Seite kann also aus der URL ablesen, auf welcher Seite und in welcher Menüebene er sich befindet. Zusätzlich trägt die Unterbringung der Seitennamen, die oftmals Schlüsselwörter für diese Seite sind, in der URL zu einer höheren Gewichtung dieser Wörter bei. Dies kann sich entscheidend für ein gutes Ranking auswirken, wie auch Kapitel 3, Abschnitt 3.2.1 behandelt. Seitennamen, bestehend aus mehreren Wörtern werden im URL-Aufbau mit Bindestrichen verbunden, Umlaute, wie ä, ö, ü oder ß, in Groß- und Kleinschreibung, umgewandelt in eine URL-taugliche Schreibweise vgl. ae, oe, ue oder ss. 6.3 Optimierung durch Tags Zu jeder Seite lassen sich gezielt Einstellungen tätigen, um die Optimierung seitenbezogen kontrollieren zu können. Die unterschiedlichen Einstellungsmöglichkeiten, auf deren Bedeutung im Folgenden näher eingegangen wird, zeigt Abbildung 6.3. 6.3.1 Title Tag Auf die Bedeutung des Title-Tags in Head-Bereich jedes Dokuments und die richtige Wahl, des den Inhalt der Seite kurz und prägnant beschreibenden Textes, wurde bereits in Kapitel 3, Abschnitt 3.1.6 hingewiesen. KAPITEL 6. PRAXISBEISPIEL: SENO-CMS 98 Abbildung 6.3: Seitenbezogene Einstellungsmöglichkeiten. Von großer Bedeutung ist es, diese Kurzbeschreibung spezifisch für jede Seite anzugeben, wozu dem Entwickler bei den seitenbezogenen Einstellungen die Möglichkeit geboten wird. Wird das Eingabefeld leer gelassen, so wird standardmäßig eine Title-Information aus Seitenname, Überschrift und Bezeichnung der Site generiert, der natürlich jederzeit beliebig umbenannt werden kann. 6.3.2 Meta Tags Ebenso können auch die Meta-Informationen, zugehörig den Meta-Tags Description und Keywords für jede Seite separat angegeben werden. Möchte man die ganze Site umfassende Meta-Informationen angeben, so kann diese über die Definition globaler Metadaten in der Konfiguration der Site eingestellt werden. Eine solche Vorgehensweise macht zwar wenig Sinn, ist wegen der Nichtbeachtung der Meta-Tags von vielen Suchmaschinen aber durchaus praktizierbar. Der Meta-Tag Language wird mit der bei der Site eingestellten Sprache gesetzt. Die als Keywords definierten Ausdrücke werden im SEO-Report, siehe Abschnitt 6.5, berücksichtigt. Gleichfalls werden über den SEO-Report gesetzte Schlüsselwörter als seitenbezogene Meta-Tag Keywords aufgenommen. Über die Site-Konfiguration lassen sich, neben den globalen Metadaten, auch Einstellungen betreffend die maximale Zeichenanzahl in den Meta-Tags Description und Keywords festlegen. Standardmäßig sind diese Werte auf eine maximale Länge von 250 Zeichen für die Description und 1000 Zeichen für die Keywords voreingestellt. KAPITEL 6. PRAXISBEISPIEL: SENO-CMS 6.3.3 99 Link Title Attribut Eine gute Möglichkeit, Schlüsselwörter unterzubringen und gleichzeitig den Besuchern einer Site eine Hilfestellung zu bieten, ist das Setzen des titleAttributs bei den Verlinkungen im Menü. Für jede Seite lässt sich die Belegung dieses Attibuts, dessen Information bei rollover mit der Maus über einen Textlink im Menü angezeigt wird, angeben. Bleiben die Voreinstellungen unangetastet, so wird der Seitenname auch als title-Attribut verwendet. 6.4 Inhaltspflege Die Hauptaufgabe eines Content Management Systems ist es, wie schon der Name sagt, Inhalte zu verwalten. Der Anwender wird bei der Eingabe und Pflege des Contents weitgehend unterstützt. Um ein optimales Ergebnis erzielen zu können, liegt es auch in der Eigenverantwortung des Redakteurs, gewisse Formatierungsregeln einzuhalten. So kann die Grundvoraussetzung für eine erfolgreiche Optimierung, nämlich standardkonformer, valider XHTML-Code, erreicht werden. 6.4.1 FCKeditor Zur Eingabe und Pflege der Inhalte ist in SenoCMS der Open Source HTML Texteditor FCKeditor3 in der Version 2.2 eingebunden. Der Editor zeichnet sich vor allem dadurch aus, dass XHTML 1.0 unterstützt wird und sämtliche Einstellungsmöglichkeiten im Editor die Standardkonformität einhalten. Die kompakte Oberfläche ist durch das WYSIWYG-Konzept sehr einfach zu handhaben. Zusätzlich unterstützt der Editor Schrift- und TextFormatierung, Textfunktionen wie Copy and Paste, Undo, Redo, Erstellen von Links, Setzen von Ankern, Erstellen und Bearbeiten von Tabellen, also sämtliche Funktionen, die ein Benutzer von einem guten Texteditor erwartet. Besonders hervorzuheben ist die Unterstützung von CSS, die es auch ermöglicht, eigene Styles zu definieren, die dann im Editor zur Auswahl stehen. Zum Einfügen von Bildern, Flash oder anderen Quellen ist ein Medienmanager inkludiert, der die Dateien am Server, strukturiert im Ordner mediamanager der Site ablegt. Durch die Unterstützung des Editors, der durch kleinere Adaptionen an die Anforderungen des CMS angepasst wurde, gestaltet sich die Inhaltspflege für den Benutzer als komfortabel und kompakt. 6.4.2 Standardkonformität Die mittels FCKeditor erstellten Dokumente sind bemüht, den XHTML 1.0 Standards des W3C hinsichtlich der verwendeten Tags und deren Struktu3 http://www.fckeditor.net KAPITEL 6. PRAXISBEISPIEL: SENO-CMS 100 rierung zu folgen. Die Einhaltung der Standardkonformität ist ein entscheidender Faktor im Optimierungsprozess für Suchmaschinen. Zudem wird gezielt auf semantischen Code geachtet, dessen Hintergrund Kapitel 3, Abschnitt 3.1.2 beschreibt. So ist z. B. die Textauszeichnung, anstatt mittels der nicht semantischen Elemente <b>, <i> und <u> mit den Styles: style="font-weight:bold;" bzw. style="font-style:italic;" und style="text-decoration:underline;" gelöst. 6.4.3 Alt und Title Attribut als Pflichtfeld Durch das Setzen der Alt- und Title-Attribute bei Bildern können auf einer Seite zusätzliche themenrelevante Informationen und Schlüsselwörter untergebracht werden, wovon auf Kapitel 3, Abschnitt 3.1.6 berichtet. Der Editor ist folgendermaßen adaptiert, sodass zwingend ein alternativer Text zu Bildern eingegeben werden muss, ebenso wie das Title-Attribut zu setzen ist. Wird dieses nicht explizit angegeben, so wird der alternative Bildtext auch für das Title-Attribut übernommen. 6.5 SEO Report Der SEO-Report bildet das Kernstück in der Unterstützung des CMS für Suchmaschinenoptimierer. Zur Überprüfung der Optimierungsmöglichkeiten des Contents, sowie zur Kontrolle der Linkpopularität, wird für jede Seite ein Report generiert, der vom Anwender bequem über die Administrationsoberfläche des CMS aufgerufen werden kann. Dieser listet potenzielle, seitenbezogene Schlüsselwörter, gibt Auskunft über deren Dichte und Position im Text und bietet die Möglichkeit, Wörter oder Phrasen als Keywords zu definieren, die dann im Fließtext eine besondere Hervorhebung erfahren. Außerdem werden seitenspezifisch die Anzahl der Backlinks, bezogen aus den Angaben der Suchmaschinen Google, Yahoo! und MSN Search, ermittelt, sowie der Google PageRank berechnet. Damit kann der Entwickler die wichtigsten Parameter, in Bezug auf die Optimierung jeder einzelnen Seite für Suchmaschinen überwachen und kontrollieren. Der komplette Aufbau eines SEO-Reports einer Seite wird in Abbildung 6.4 gezeigt. 6.5.1 Potenzielle Keywords finden und überwachen Zur Ermittlung von potenziellen Schlüsselwörtern wird die komplette zugehörige, generierte Seite eingelesen und analysiert. Sonderzeichen wie Punkte, Klammern, Beistriche, Anführungszeichen, Bindestriche oder Satzzeichen werden gleich zu Beginn gefiltert, da sie keine weitere brauchbare Information darstellen. KAPITEL 6. PRAXISBEISPIEL: SENO-CMS Abbildung 6.4: Vollständiger SEO-Report für eine Seite. 101 KAPITEL 6. PRAXISBEISPIEL: SENO-CMS 102 Ebenso werden so genannte Stoppwörter entfernt und kommen somit als mögliche Schlüsselwörter nicht in Frage. Als Stoppwörter definiert sind jene Wörter, die aufgrund ihrer Art nicht als Keywords geeignet sind. So sind dies z. B. häufig verwendete Bindewörter wie und oder aber, Artikel wie der, die, das, Pronomen, sowie weitere nicht als Schlüsselwort tauglichen Begriffe. Diese auszuschließenden Wörter sind für jede Sprache in einer eigenen Datei gesammelt, die in der Analyse eingelesen wird. Auch Suchmaschinen arbeiten mit Stoppwortlisten, um definierte Begriffe aus Suchanfragen zu filtern. Sind die Stoppwörter ausgeschlossen, bleibt immer noch eine lange Liste von Buchstabenaneinanderreihungen, die ein weiteres Kriterium erfüllen müssen, um als potenzielles Keyword definiert zu werden. Ein Begriff oder eine Phrase, bestehend aus bis zu drei aneinander folgenden Wörtern, wird erst dann als Schlüsselwort vorgeschlagen, wenn dessen Auftreten im Text einen gewissen Mindestwert überschreitet. Standardmäßig ist der Wert für das minimale Vorkommen mit zwei definiert. Diese Einstellung kann jederzeit, den Anforderungen entsprechend, in der Konfiguration der Site adaptiert werden. Setzen der Schlüsselwörter Die ermittelten möglichen Schlüsselwörter einer Seite werden gelistet präsentiert, gemeinsam mit deren Anzahl des Auftretens im Text und der Dichte jedes einzelnen Wortes in Bezug auf die Gesamtanzahl der Wörter. Auszüge einer solchen Auflistung zeigt Abbildung 6.5. Per Klick auf das SchlüsselSymbol neben einem der vorgeschlagenen Wörter, wird dieses als Keyword markiert oder wieder aus der Liste der definierten Schlüsselwörter entfernt. Die Festlegung solcher Wörter dient mehreren Zwecken. Einerseits werden die definierten Wörter speziell überwacht, andererseits wird dafür gesorgt, diese Terme im Fließtext logisch auszuzeichnen und somit deren Bedeutung für Suchmaschinen zu heben. Der Report gibt Auskunft, ob die Dichte ausreichend dafür ist, dass dieses Wort oder die Wortkombination, bestehend aus zwei oder drei Wörtern, auch von Suchmaschinen als bedeutend eingestuft wird und überprüft die Position des Auftretens der definierten Schlüsselwörter im Text. Ergänzend werden die per SEO-Report definierten Begriffe auch in den Meta-Tag Keywords der Seite aufgenommen, weshalb die Anzahl des Wortes nach erfolgter Definition auch um eins erhöht ist. Keyword-Dichte Bezogen auf alle Wörter einer Seite wird bei Erstellung des SEO-Reports die Dichte für jedes potenzielle Keyword ermittelt. Ein Kennsymbol gibt für definierte Schlüsselwörter darüber Auskunft, ob die Dichte innerhalb der als optimaler Keyword-Dichte definierten Schranken liegt. Diese Schwellwerte KAPITEL 6. PRAXISBEISPIEL: SENO-CMS 103 Abbildung 6.5: Auschnitt aus der Auflistung der vorgeschlagenen Wörter und Wortkombinationen. KAPITEL 6. PRAXISBEISPIEL: SENO-CMS 104 zwischen denen sich die optimale Dichte bewegt, ist in der Konfiguration des SEO-Reports einzustellen. Die generell empfohlenen Dichtewerte (siehe Kapitel 4, Abschnitt 4.3.1) zwischen drei und acht Prozent sind als Voreinstellung gesetzt. Position der Keywords im Text Wie bereits in Kapitel 4, Abschnitt 4.3.2 beschrieben, spielt das Vorkommen der Schlüsselwörter, bezogen auf die Position im Text eine bedeutende Rolle. Besonders hoch gewichtet werden möglichst mehrfach im Anfangsbereich auftretende Begriffe. Deshalb kontrolliert der SEO-Report die Position des Auftretens für definierte Schlüsselwörter. Die Anzahl der Zeichen, die den Anfangsbereich definieren, lassen sich über die Konfiguration des SEOReports einstellen. Mit der Standardeinstellung werden die ersten 1000 Zeichen einer Seite auf das minimal zweimalige Vorkommen der Schlüsselwörter überprüft. Das Ergebnis der Überprüfung wird dem Benutzer wie in Abbildung 6.6 zu sehen präsentiert. Abbildung 6.6: Überprüfung der Position der Schlüsselwörter. Hervorhebung Um eine höhere Gewichtung, der als Schlüsselwörter definierten Worte und Phrasen im Fließtext zu erzielen, werden diese im Quellcode mit dem Tag <strong> ausgezeichnet. Für das Keyword-Highlighting sorgt eine Funktion im Zuge der Seitengenerierung, mehr dazu in Abschnitt 6.6. Die Darstellung des <strong>-Tags kann mittels CSS neu formuliert werden, z. B. so, dass die Wörter und Phrasen lediglich im Quellcode logisch ausgezeichnet sind und nicht jedes der Schlüsselwörter fett gedruckt erscheint. Eine mögliche Styleanweisung im CSS könnte folgendermaßen aufgebaut sein: strong{ font-weight:normal; } KAPITEL 6. PRAXISBEISPIEL: SENO-CMS 6.5.2 105 Google PageRank Der SEO-Report ermittelt zusätzlich für jede Seite gesondert den Google PageRank und zeigt diesen grafisch ausgedrückt auf einer Skala von 0 bis 10 an, wie auch in Abbildung 6.7 zu sehen. Zur Ermittlung des Google PageRank ist es entscheidend zu wissen, dass der Algorithmus nicht öffentlich verfügbar ist und der PageRank auch über die Google-API nicht abgerufen werden kann. Bei genauerer Inspektion der Google-Toolbar, die den PageRank darstellt, stellt sich heraus, dass über die aktuelle URL eine Checksumme gebildet wird, mit deren Wissen der Wert des PageRanks über einen Aufruf der URL: http://www.google.com/ search?client=navclient-auto&ch=[checksum]&features=Rank&q=info:[siteurl] zurückgegeben wird. Dies hat einige Programmierer dazu motiviert, den in Form von DLLs in der Google-Toolbar inkludierten Programmcode zu disassemblieren, also den dahinter liegenden Algorithmus zu knacken und eigene Generatoren für die Checksummen-Berechnung zu entwickeln. Im Juni 2004 wurde der Checksummen-Algorithmus erstmals gecrackt. Der Code verbreitete sich schnell übers Web und führte zur verbreiteten Entwicklung von Tools zur Anzeige des PageRanks, abgesehen von der Google-Toolbar. Die öffentliche Verbreitung des Source-Codes liegt natürlich nicht im Interesse des Suchmaschinenbetreibers, weshalb Google auch immer wieder mit Änderungen im Checksummen-Algorithmus reagiert. Die von SenoCMS eingesetzte Klasse bedient sich zur Ermittlung des Google PageRanks des im Internet leicht zu findenden Checksummen-Algorithmus, siehe z. B. [25]. Um dessen Verwendung gegenüber Google nicht zu offensichtlich zu gestalten, wird für jede Abfrage ein aus einer Liste zufällig ermittelter Google-Hostname ausgewählt. Abbildung 6.7: Anzeige des Google PageRank im SEO-Report. 6.5.3 Kontrolle der Linkpopularität Zur Kontrolle der Linkpopularität einer Seite bietet der SEO-Report eine Übersicht über die eingehenden Links. Die resultierend aus einer Backlink Analyse bei den Suchmaschinen Google, Yahoo! und MSN Search ermittelte Anzahl an Backlinks wird angezeigt, verlinkt auf die Ergebnisseiten der Analyse für eine detailreichere Auflistung. Zu beachten ist, dass die Anzahl der ermittelten Backlinks, hinsichtlich der Vollständigkeit nicht als zuverlässig angesehen werden können, dessen Hintergründe schon in Kapitel 3, Abschnitt 3.2.3 diskutiert wurden. KAPITEL 6. PRAXISBEISPIEL: SENO-CMS 106 Die Backlink-Abfrage bei Google, Yahoo und MSN Search passiert über die drei URLs: http://www.google.com/search?hl=en&lr=&ie=UTF-8&q=link:[url] http://search.yahoo.com/search?p=link:[url] http://search.ninemsn.com.au/results.aspx?q=link:[url] Aus der textuellen Angabe auf den Ergebnisseiten der Suchanfragen wird dann die Anzahl an Backlinks extrahiert. Die drei Suchmaschinen zeigen eine unterschiedliche Information an, weshalb die Extraktion der Anzahl an Ergebnissen dem Muster der jeweiligen Suchmaschine anzupassen ist. Im Falle einer Änderung des angezeigten Textes, muss diese Anpassung auch im Programmcode vorgenommen werden. Momentan werden die Zahlen aus folgender, im Header der Suchmaschinen-Ergebnisseiten, präsentierter Information extrahiert: Google: Results 1 - 10 of about 182 linking to www.seno-cms.at. Yahoo!: 1 - 10 of about 2,050 for link:http://www.seno-cms.at MSN Search: Page 1 of 8,113 results containing link:www.seno-cms.at Abbildung 6.8: Übersicht über eingehende Links gefunden von Google, Yahoo! und MSN Search. 6.5.4 Eintrag im Verzeichnis DMoz Dass ein Eintrag im Open-Directory Webkatalog DMoz4 zu einem bedeutenden Rankingschub verhelfen kann, wurde schon in Kapitel 2, Abschnitt 2.1.1 behandelt. Der SEO-Report überprüft für jede Seite, ob ein Eintrag im DMoz Verzeichnis existiert und zeigt das Ergebnis an, wie in Abbildung 6.9 zu sehen. Auf ähnliche Weise wie die Ermittlung der Anzahl an Backlinks wird auch das Bestehen eines Eintrags im DMoz Verzeichnis überprüft. Der Aufruf der URL: http://search.dmoz.org/cgi-bin/search?search=[url] liefert eine Seite zurück, die den Text No Open Directory Project results found“ ” 4 http://dmoz.org KAPITEL 6. PRAXISBEISPIEL: SENO-CMS 107 enthält, so die Seite nicht im Verzeichnis aufgenommen ist. Anderenfalls wird diese Information nicht ausgegeben, was gleichzeitig impliziert, dass ein Eintrag gefunden wurde und in der deutschen Version von SenoCMS die Information Gefunden“ ausgibt. ” Abbildung 6.9: Überprüfung ob ein Eintrag der Seite im DMoz Verzeichnis existiert. 6.6 Seitengenerierung SenoCMS generiert die Seiten dynamisch zur Laufzeit aus Inhalten der Datenbank, wobei die Erstellung durch den Aufruf der URL angestoßen wird. Wie bereits in Abschnitt 6.2 beschrieben, wird durch Aufruf einer Seite per Webbrowser ein per .htaccess Datei spezifiziertes PHP-Script angesprochen. Hier findet die Zusammenstellung und Generierung der Seite statt. Zunächst wird die ID der Seite über die Pfadinformation ermittelt, um genau festzulegen, welche Seite dargestellt werden soll. Über diese Information wird das zugehörige Template bestimmt und danach die Zuweisungen der dynamischen Inhalte an die Marker in der Template-Datei durchgeführt. Der Head-Bereich der Seite wird durch die Angabe von Title, den MetaTags und eines Favicons5 vervollständigt, ebenso wie die zugehörigen externen CSS-Dateien eingebunden werden. Sind keine seitenspezifischen Einstellungen für die Title-Information getätigt, so wird diese standardmäßig aus Seitenname, Überschrift und Bezeichnung der Site zusammengestellt. Ähnlich verhält es sich mit den Meta-Angaben. Sind diese auf einer Seite leer gelassen, so werden die globalen Metadaten verwendet oder, wenn auch da keine Angaben vorhanden sind, erfolgt die Seitengenerierung ohne Meta-Informationen. Die Belegung des Meta-Tags Language wird aus der Einstellung der Sprache der Site ausgelesen. Ein Favicon wird dann gesetzt, wenn über die Konfiguration der Site eine solche Icon-Datei definiert wurde. Die CSS-Datei, oder die möglicherweise mehreren CSS-Dateien werden zugehörig zum für die Seite eingestellten Template ermittelt. Die übrigen Informationen des Head-Bereichs der zu generierenden Seite werden aus dem eingebundenen Header-Subtemplate übernommen. Als Zeichenkodierung ist UTF-8 vorkonfiguriert. Dieser Standard umfasst die meisten Alphabete und Schriftzeichensysteme und sorgt für deren korrekte Darstellung, 5 Icon, welches in der Adresszeile eines Browsers links von der URL angezeigt wird KAPITEL 6. PRAXISBEISPIEL: SENO-CMS 108 ohne, dass eine Maskierung der Sonderzeichen im Quellcode vorgenommen werden muss. Der nächste Schritt der Seitengenerierung erfordert besondere Genauigkeit, um die Einhaltung der Standardkonformität garantieren zu können. Über die Templateinformation werden die Sektionen und deren Typ ausgelesen, wobei Sektionen vom Typ Menu oder Content sein können. Die Menügenerierung wird für Sektionen vom Typ Menu angestoßen. Dabei wird das Menü und seine ggf. definierten Unterebenen, umgeben von den im Administrationsbereich für jede Menüebene festgelegten Informationen, zur Menüstruktur aufgebaut. Besonders empfehlenswert ist es im Sinne der Standardkonformität, Menüs als Listen anzulegen. Für eine Sektion vom Typ Content werden die zugehörigen Inhaltselemente ausgelesen. Beim Aufbau der Seiteninhalte wird der Content nach für die Seite definierten Schlüsselwörtern analysiert und diese, wie in Abschnitt 6.5 beschrieben, zur Steigerung der Gewichtung mit dem <strong>-Tag ausgezeichnet. Das Keyword-Highlighting berücksichtigt ausschließlich ganze Wörter und achtet darauf, die Struktur des HTML-Dokuments nicht zu zerstören. Im Sinne der Textgliederung werden die einzelnen Content-Elemente in mittels des Paragraph-Tags (<p>) definierte Abschnitte modularisiert, dessen Bedeutung Kapitel 4, Abschnitt 4.4 hervorhebt. Sind alle Schritte der Seitengenerierung abgeschlossen, also jedem Marker der dynamische Seiteninhalt zugewiesen, so wird die angeforderte Seite dem Besucher präsentiert. Abbildung 6.10 zeigt beispielhaft den sauber strukturierten, XHTML 1.0 validen Quellcode der Homepage, der mit SenoCMS generierten Site seno-cms.at6 , Abbildung 6.11 dazu das visuelle Erscheinungsbild der Seite. Alle Anweisungen zur Layoutierung sind per CSS definiert, der XHTML-Code enthält, also ausschließlich Informationen zur logischen Strukturierung. 6 http://www.seno-cms.at KAPITEL 6. PRAXISBEISPIEL: SENO-CMS 109 Abbildung 6.10: XHTML 1.0 valider Quellcode der Homepage der mit SenoCMS generierten Site http://www.seno-cms.at KAPITEL 6. PRAXISBEISPIEL: SENO-CMS Abbildung 6.11: Website http://www.seno-cms.at 110 Kapitel 7 Schlussbemerkungen Fällt die Suchmaschine Google wegen Server-Problemen für eine Viertelstunde aus, berichten darüber die Nachrichtenagenturen. Es scheint so, als wäre der Welt für eine Viertelstunde das Wasser abgedreht worden. Die Abhängigkeit von diesem Antwortlieferanten, den vor fünf Jahren kaum jemand kannte, ist immens, was auch mir während der Entstehung dieser Arbeit immer wieder bewusst wurde, und worüber auch [10] schreibt. Welche Information auch immer gesucht wird, danach googeln ist der häufigste Ansatz zur Informationsgewinnung. Das Verb googeln“ ist durch den Namen ” der extrem populären Suchmaschine Google zum Synonym für eine Suche im WWW, allgemein gültig egal mit welcher Suchmaschine, geworden und wurde sogar 2004 in den Duden aufgenommen. Um ihrer Aufgabe als Wegweiser gerecht zu werden, konzentrieren sich Suchmaschinen speziell darauf, dem Suchenden zur Suchanfrage relevante Ergebnisse zu präsentieren. Es geht darum, die perfekte Suchmaschine“ ” zu entwickeln, die erkennt, was der Nutzer meint und genau die Ergebnisse ausgibt, die er sich wünscht, so Larry Page, Mitbegründer von Google in [16]. In diesem Sinne ist man ständig um Innovationen bemüht, die die Art und Weise verändern, wie Suchanfragen ausgeführt werden. Die Bedeutung Webseiten so zu optimieren, dass diese über eine Suche gut positioniert gefunden werden und somit auf sich aufmerksam machen, nimmt einen immer höheren Stellenwert ein. Vielfach wird die Meinung vertreten, Suchmaschinenoptimierung sei eine einmalige Tätigkeit, die nach vorgegebenen Rezeptur funktioniert. Dem ist nicht so, wie diese Arbeit unter Anführung unterschiedlichster Faktoren unterstreicht. White Hat SEO“ muss das oberste Ziel jedes Suchmaschinenoptimierers ” sein, also ein bewusster Verzicht auf den Einsatz unzulässiger Manipulationstechniken, auch wenn diese noch so erfolgversprechend erscheinen. Würden Suchmaschinen nicht gegen als Spamming bezeichnete Praktiken ankämpfen, so hätte dies über kurz oder lang zur Folge, dass viele Suchanfragen nicht relevante Webseiten auf den vorderen Plätzen der Ergebnisliste liefern 111 KAPITEL 7. SCHLUSSBEMERKUNGEN 112 würden. Ein saubere Optimierung, die darauf ausgerichtet ist, Crawler bei der Erfassung und Auswertung der Seiten zu unterstützen, ist somit der einzige richtige Weg, um langfristig Erfolg verbuchen zu können. Die Tatsache, dass die Rankingverfahren der Suchmaschinen, deren exakte Arbeitsweise und Zusammenspiel ein gut gehütetes Geheimnis sind, macht die Optimierung zu einem besonders spannenden Thema. Unterschiedlichste Ansätze werden als Geheimtipps gehandelt, um eine Positionsverbesserung erreichen zu können. Tatsächlich ist es äußerst schwer abzuleiten, welche Maßnahme zu welchem Ergebnis verhelfen kann. Waren es einst gut gewählte Metabeschreibungen, so scheinen momentan qualitativ hochwertige Backlinks die wichtigsten Zutaten im Erfolgsrezept zu sein. Bedingt durch ständig überarbeitete Rankingverfahren, ist die Bedeutung unterschiedlicher Maßnahmen einem raschen Wandel ausgesetzt. Besonders wichtig ist es daher, immer bemüht zu sein, auf aktuellem Stand zu bleiben und den Faden nach einmaligem Erfolgserlebnis nicht reissen zu lassen. Als wichtige Informationsquelle bietet sich das Internet an, das als einziges Medium der Schnellläufigkeit des Themas folgen kann. Im Besonderen in Kombination mit Content Management Systemen erweist sich die Thematik rund um optimalen Webseitenaufbau für Suchmaschinen als interessanter und zukunftsträchtiger Bereich, dessen tatsächliche Bedeutung immer noch von vielen Websitebetreibern unterschätzt wird. Auch wenn bestehende CMS, wie am Beispiel weit verbreiteter Systeme gezeigt, einem geschulten Entwickler durchaus Unterstützung bieten, gibt es noch eine Reihe an Verbesserungsmöglichkeiten. Vor allem in der Überwachung und Auswertung seitenspezifischer Parameter bleiben einige Punkte vielfach unbeachtet, die im Sinne konsequenter Optimierung für den Anwender eine brauchbare Hilfe darstellen könnten. Mit dem SEO-Report zeigt hier das im Rahmen der Arbeit entwickelte CMS SenoCMS, welche Möglichkeiten ausgeschöpft werden können, um einen Entwickler möglichst ohne viel eigenes Zutun in der Suchmaschinenoptimierung zu leiten. Die Erfahrung, selbst ein CMS von der Entwicklung des Konzepts bis zur ersten erfolgreichen Installation am Webserver zu verfolgen und durch laufende Weiterentwicklung möglichst alle bekannten Verfahren, die als Ziel eines optimalen Webseitenaufbaus für Suchmaschinen haben, einzubauen, hat sich für mich als sehr interessant gestaltet. Gleichzeitig hat die Analyse anderer Systeme dazu motiviert, die Grenzen der bestehenden Modelle nicht zu akzeptieren, sondern neue Wege zu finden, diese auszuweiten. Auf dem Weg zur perfekten Suchmaschine“ werden auch zukünftig neue ” immer mehr ausgereifte Technologien für Umstellungen im Konzept der Suchmaschinenoptimierungsstrategien sorgen. Wohin der Weg führen wird, ist zum heutigen Zeitpunkt unvorstellbar, ebenso wie 1989, als das WWW entstand, niemals mit einer derartigen Entwicklung gerechnet werden konnte, ohne der die Thematik dieser Arbeit gar nicht bestehen würde. Anhang A SenoCMS Systemdokumentation A.1 A.1.1 Systemanforderungen Webserver SenoCMS setzt Apache als Webserver voraus, um die Technik der .htaccessDateien und der Apache ForceType Direktive einsetzen zu können. Wichtig ist dabei, dass in der httpd.conf innerhalb des Programmverzeichnisses des Webservers die Nutzung von .htaccess-Dateien erlaubt ist. A.1.2 Browser Eine einwandfreie Bedienung der Administrationsfläche kann für Mozilla Firefox (getestet in Version 1.5) und Internet Explorer 6+ garantiert werden. A.1.3 Einstellungen Die Browsereinstellungen müssen Cookies zulassen (zum Zwischenspeichern der Sessiondaten), JavaScript muss aktiviert sein, bei Verwendung von Internet Explorer zusätzlich Active-x. A.2 A.2.1 Systemkomponenten PHP5 SenoCMS basiert auf der serverseitigen Skriptsprache PHP und setzt die Installation von PHP5 auf dem Webserver voraus. 113 ANHANG A. SENO-CMS SYSTEMDOKUMENTATION A.2.2 114 Smarty Template Engine, SmartyDoc Als Template Engine ist Smarty1 , eine Open Source PHP-Bibliothek, im Einsatz, die bei der Entwicklung von Webapplikationen die Trennung von Code und Ausgabe ermöglicht. Die strikte Trennung von Programmcode (PHP-Code) und Ausgabecode (XHTML-Code) verbessert die Strukturierung der Programme und senkt die Zeit für Layoutanpassungen. Sowohl PHP- als auch XHTML-Code bleiben übersichtlich. Die Smarty Klassenerweiterung SmartyDoc2 wird verwendet, um Information im Headerbereich des Dokuments, unabhängig vom Template, jederzeit anpassen zu können und um die Generierung des Doctypes und der Basisstruktur des Dokuments automatisieren zu können. Sowohl für die aus dem CMS dynamisch generierten Seiten, als auch im Administrationsbereich, kommt die Smarty Tempate Engine zum Einsatz. Die Smarty Bibliothek in der Version 2.6.10 ist im Installationspaket enthalten. A.2.3 ADOdb Database Abstraction Library for PHP ADODB3 ist eine Sammlung von Datenbank-Abstraktions-Funktionen und unterstützt aktuell MySQL, PostgreSQL, Oracle, Interbase, Microsoft SQL Server, Access, FoxPro, Sybase, ODBC und ADO. Eine einheitliche und einfache Schnittstelle (API) wird zur Verfügung gestellt, um mit allen unterstützten Datenbanken auf gleiche Art und Weise kommunizieren zu können. In ADODB wird der objektorientierte Ansatz verfolgt, das VerbindungsObjekt ist verantwortlich für die Verbindung zur Datenbank, für die Formatierung Ihrer SQL-Anweisung und zur Abfrage des Datenbankservers. Das Datensatz-Objekt ist verantwortlich für die Abholung der Daten, sowie zur Formatierung des Ergebnisses als Text oder als Array. Neben der Verbindung zur Datenbank werden etliche nützliche Funktionen zur Standardisierung von SQL-Anweisungen geboten und somit eine einheitliche Schnittstelle für den Zugriff auf die Datenbank geboten. SenoCMS setzt standardmäßig MySQL als Datenbank ein. A.2.4 Ajax, Xajax Um dem Anwender im Administrationsbereich eine interaktive, Desktopähnliche Web-Oberfläche bieten zu können, kommt AJAX zum Einsatz. Hierbei handelt es sich um ein Konzept der Datenübertragung zwischen Server und Browser, welches es ermöglicht, dass die HTML-Seite nicht mit jeder HTTP-Protokoll-Anfrage komplett neu geladen werden muss, sondern nur gewisse Teile einer HTML-Seite sukzessive bei Bedarf nachgeladen werden. 1 http://smarty.php.net http://smarty.incutio.com/?page=SmartyDoc 3 http://adodb.sourceforge.net 2 ANHANG A. SENO-CMS SYSTEMDOKUMENTATION 115 Eine Benutzeraktion, die für gewöhnlich eine HTTP-Anfrage erzeugen würde, erzeugt nun einen JavaScript-Aufruf, der an die AJAX-Engine delegiert wird. Jede Antwort auf eine Aktion des Nutzers, die keine Verbindung zum Server erfordert, wie beispielsweise das Validieren von Daten, das Verändern von Daten, welche sich im Speicher befinden, und sogar das Navigieren zwischen einzelnen Elementen der Webseite kann von der AJAXEngine bewältigt werden. Benötigt die AJAX-Engine Daten vom Server, um eine bestimmte Aktion erfolgreich durchführen zu können, es kann sich hierbei beispielsweise um das Übertragen von Daten, die verarbeitet werden müssen, um das Nachladen einzelner Bausteine der Benutzeroberfläche oder um das Laden neuer Daten handeln, führt diese eine asynchrone Anfrage in Form eines XML-Dokuments an den Server durch. Dabei wird jedoch die Interaktion des Benutzers mit der Anwendung, wie dies bei gewöhnlichen Webanwendungen der Fall ist, nicht unterbrochen. Abbildung A.1, entnommen aus [17], zeigt das Modell einer traditionellen Webanwendung im Vergleich mit einer AJAX Webanwendung. Abbildung A.1: Das Modell einer traditionellen Webanwendung im Vergleich mit einer Ajax Webanwendung. ANHANG A. SENO-CMS SYSTEMDOKUMENTATION 116 SenoCMS setzt Xajax4 , eine Open Source PHP Klassenbibliothek zur Erzeugung von AJAX Applikationen, die auf (X)HTML, CSS, JavaScript und PHP basieren, ein. Xajax ermöglicht den asynchronen Aufruf von serverseitigen PHP Funktionen, indem das Xajax PHP Objekt JavaScript WrapperFunktionen für die PHP Funktionen generiert, die asynchron von der Applikation aufgerufen werden sollen. Nach dem Aufruf verwenden die WrapperFunktionen das JavaScript XMLHttpRequest Objekt, um asynchron mit dem Xajax Objekt am Server kommunizieren zu können, das die zugehörige PHP Funktion aufruft. Nach Abhandlung der Funktion wird eine Xajax XML-Antwort von der PHP Funktion an die Applikation zurückgegeben. Diese XML-Antwort enthält Anweisungen und Daten, die zur Aktualisierung von Teilen der Applikation verwendet werden. A.2.5 FCKeditor Zur Eingabe und Verwaltung der Inhalte ist der Open Source HTML Texteditor FCKeditor5 (in der Version 2.2) eingebunden, der vollständige Integration für PHP bietet. Die mittels FCKeditor erstellten Dokumente sind serverseitig XHTML 1.0 kompatibel, die kompakte Oberfläche ist durch das WYSIWYG-Konzept sehr einfach zu handhaben. Zusätzlich unterstützt der Editor Schrift- und Text-Formatierung, Textfunktionen wie Copy and Paste, Undo, Redo, Erstellen von Links, Setzen von Ankern, Erstellen und Bearbeiten von Tabellen sowie die Unterstützung von CSS. Zum Einfügen von Bildern, Flash oder anderen Quellen ist ein Medienmanager inkludiert, der die Dateien am Server strukturiert im Ordner mediamanager der Site ablegt. Kleinere Adaptionen des Editors ermöglichen es, dass zwingend ein alternativer Text zu Bildern eingegeben werden muss, ebenso wie das Title-Attribut gesetzt werden muss. Wird dieses nicht explizit angegeben, so wird der alternative Bildtext auch für das Title-Attribut übernommen. Das Skin des Editors ist dem Erscheinungsbild des CMS angepasst. A.3 Architektur SenoCMS besteht grundsätzlich aus zwei Paketen, wobei das Paket seno die Kernfunktionalität des Systems global für alle zugeordneten Sites enthält. Für jedes Anlegen einer Site wird je ein Paket site in selber Ebene in der Dateistruktur wie das globale Installationspaket benötigt. 4 5 http://www.xajaxproject.org http://www.fckeditor.net ANHANG A. SENO-CMS SYSTEMDOKUMENTATION A.3.1 117 Package seno install Bei install handelt es sich um das Installationsverzeichnis, das zur erstmaligen Installation von SenoCMS benötigt wird. Im Laufe des Installationsvorgangs wird eine globale Datenbank angelegt, in der die Sites und User verwaltet werden. admin Admin ist das Hauptverzeichnis von SenoCMS, das Konfiguration, inkludierte Klassen, Funktionen, JavaScript, CSS, verwendete Bilder sowie Smarty Templates der Administrationsoberfläche beinhaltet. Für jede Seite im Adminbereich existiert eine PHP-Datei, sowie eine zugehöriges Smarty Template Datei, die dafür sorgt den Programmcode in den Ausgabecode einzubinden. Manipulationen an der Datenbank werden über Xajax-PHP-Funktionen realisiert, diese befinden sich in functions/xajax und sind je gleich bezeichnet wie die zugehörige PHP-Datei. Zum Aufbau von verschiedenen Darstellungsarten bspw. von Listen im Administrationsbereich existieren unterschiedliche Funktionen, die mit dem Präfix draw gekennzeichnet sind. Im Ordner template c sind die kompilierten Templates abgelegt. lib Im Verzeichnis lib finden sich die Bibliotheken adodb, dbtree und Smarty, die von SenoCMS benötigt werden. A.3.2 Package site admin Das Adminverzeichnis einer Site dient dazu, auch über die URL der Site die globale Administrationsoberfläche aufrufen zu können, in diesem Fall fällt die Auswahl der Site beim Login weg. Zusätzlich befinden sich in diesem Verzeichnis noch Konfigurationseinstellungen der Site, die in der globalen Umgebung inkludiert werden. includes Im Verzeichnis includes einer Site befinden sich der FCKeditor, sowie Funktionen zum Seiten- und Contentaufbau und zur Menügenerierung. Zudem findet man hier die Konfigurationsdatei configure.php der Site, sowie Standardincludes. ANHANG A. SENO-CMS SYSTEMDOKUMENTATION 118 mediamanager Im Verzeichnis mediamanager werden die per FCKeditor hochgeladenen Bilder, Flash oder sonstige Dateien abgelegt, können somit auch direkt in dieses Verzeichnis gespielt werden. Der Ordner favicon dient zum Ablegen einer Favicongrafik für die Site. In thumbs werden die automatisch generierten Vorschaubilder für die Überblicksdarstellung der Contentelemente abgelegt. templates Im Ordner templates findet man die generierten Seitentemplates der Site sowie die zugehörigen CSS-Files, die von hier aus auch vom Entwickler ggf. nachbearbeitet werden können. Die Strukturen zum Aufbau der Seiten, sowie deren CSS-Dateien und Vorschaubildern befinden sich im Ordner structures. newsite.php Die Datei newsite.php wird beim Anlegen einer Site entsprechend dem URLPräfix umbenannt und unter Verwendung der Apache ForceType Direktive bei jeder Seitenanfrage aufgerufen. Hier werden die Informationen zur angeforderten Seite ermittelt und mit zugehöriger Menüstruktur, Content und Templateinformation die Darstellung der Seite bewerkstelligt. A.4 A.4.1 Umsetzung, CMS Grundfunktionalitäten Installation SenoCMS Beim Installationsvorgang wird zunächst eine globale Datenbank angelegt, in der Sites und User global verwaltet werden. Die Konfigurationsdaten werden in die Dateien admin/includes/configure global.php und admin/includes/configure.php geschrieben, diese beinhalten, die bei der Installation eingegebenen Verbindungsdaten zur Datenbank, sowie den aus dem aktuellen Verzeichnis ermittelten Pfad des Wurzelverzeichnisses. Änderungen können im Nachhinein in den Konfigurationsdateien vorgenommen werden. A.4.2 Superadministration Als zweiter Schritt der globalen Installation steht das Anlegen eines Superadministrators, der Zugang zu allen Sites, sowie zur allgemeinen Administrationsoberfläche hat. A.4.3 Anlegen einer Site Ist ein Superadministrator angelegt, so kann sich dieser zur allgemeinen Administrationsoberfläche einloggen. Dies ist möglich, indem die Auswahl einer ANHANG A. SENO-CMS SYSTEMDOKUMENTATION 119 Site leer gelassen wird. Hier kann eine neue Site angelegt werden. Grundvoraussetzung ist hierfür, dass das Paket site am Server auf selber Ebene wie das globale Paket seno liegt. Beim Anlegen einer neuen Site wird neben den Verbindungsdaten zur Datenbank der Site (wurde zuvor keine Datenbank angelegt, so geschieht dies automatisch durch Angabe eines Datenbanknamens) auch Site-Name, Wurzelverzeichnis (Name des Ordners6 ), URL Präfix sowie Site-Sprache angegeben und entsprechend in der Datenbank und den Konfigurationsdateien der Site gespeichert. Die Konfigurationsdateien die hier geschrieben werden sind: • sitexxx/includes/configure.php • sitexxx/admin/admin configure.php • sitexxx/includes/FCKeditor/editor/filemanager/browser/default/ connectors/php/config.php, zur Konfiguration des FCKeditors Zudem wird die Datei sitexxx/newsite.php entsprechend dem angegebenen URL-Präfix umbenannt und die .htaccess-Datei geschrieben. A.4.4 Konfiguration Prinzipiell werden die Konfigurationsdateien bei der Installation bzw. beim Anlegen einer neuen Site automatisch geschrieben. Sollten später Änderungen an der Konfiguration notwendig sein, so kann dies manuell über die in A.4.1 und A.4.3 genannten Konfigurationsdateien geschehen. A.4.5 Sprachen SenoCMS liegt in Version 1.0 in den Sprachen Deutsch und Englisch vor. Die Sprache der Administrationsoberfläche wird durch die Sprachzuweisung beim Benutzer eingestellt. Die Texte sind in den Konfigurationsdateien seno/admin/configs/language (Texte in Smarty-Template-Dateien) und seno/includes/language definiert und können hier auch angepasst werden. Möchte man eine weitere Sprache hinzufügen, so kann dies über das Hinzufügen der beiden Sprachkonfigurationsdateien der neuen Sprache und einem zusätzlichen Eintrag der neuen Sprache in der globalen Datenbank sowie der Datenbank der Site (Tabelle languages“) erfolgen. ” A.4.6 Session Management Zum Übermitteln von Daten einer Seite an eine andere Seite werden diese in der Session abgespeichert, die beim Login angelegt wird. In der Session sind zudem die Daten des Benutzers und dessen Einstellungen gespeichert, 6 Anmerkung: Der Ordner site kann natürlich beliebig umbenannt werden. ANHANG A. SENO-CMS SYSTEMDOKUMENTATION 120 die bei jedem Seitenaufruf überprüft werden. Bei Logout wird die Session wieder zerstört. Cookies müssen im Browser zugelassen werden, um die Sessiondaten zwischenspeichern zu können. A.4.7 Nested Set Modell, Abbildung von Baumstrukturen Um hierarchische Daten in einer Datenbank speichern zu können, stellt sich die Frage nach einem Modell zur Abbildung von Baumstrukturen. Benötigt werden solche Abbildungen in einem CMS bspw. beim Aufbau des Seitenbaums, wenn Seiten in mehreren Ebenen angeordnet oder später auch neu sortiert werden sollen. Nach einiger Recherche und dem Vergleich von unterschiedlichen Modellen stellte sich für diese Anwendung das Nested Set ” Modell“ als brauchbarer Ansatz heraus. Die Idee, welche sich hinter diesem Begriff Nested Sets verbirgt, ist die Abstraktion von Bäumen als Mengen und Teilmengen oder anders gesagt: verschachtelte Mengen. Abbildung A.2: Baum und Menge Wie in Abbildung A.2 sehr gut zu erkennen ist, lassen sich baumartige Strukturen leicht als Mengen und Teilmengen darstellen. Die Wurzel A enthält die Mengen der Objekte B und C. Die Abbildung lässt sich als Tabelle darstellen, wie Abbildung A.3 zeigt. Abbildung A.3: Baumdarstellung in Tabellen Der Aufbau zeigt drei Teile: den Kopf des Knotens, sowie eine linke (LFT) und eine rechte Seite (RGT), die dafür benötigt werden, um die Abhängigkeiten innerhalb des Baumes darstellen zu können. Die Reihenfolge der Knoten wird durch das Auslesen der Zahlen, mittels so genanntem Preorder-Walk, gewährleistet. Bei den einzelnen Elementen des Baumes wird die linke Seite des Wurzelknotens ausgelesen und dann alle linken Seiten der Unterknoten durchlaufen bis zum letzten Blatt, dann werden alle rechten ANHANG A. SENO-CMS SYSTEMDOKUMENTATION 121 Seiten ausgelesen. Die Darstellung mit den Tabellen zeigt deutlich die Logik hinter den Nested Sets. Die Wurzel beginnt links immer mit 1. Danach werden in numerischer Reihenfolge zuerst alle linken und dann alle rechten Seiten durchlaufen. Abbildung A.4 stellt die Baum- neben die Tabellendarstellung, um zu zeigen, wie diese beiden Darstellungen einander entsprechen. Abbildung A.4: Umfangreicherer Baum als Tabellen- und Baumdarstellung Der Vorteil dieses Modells ist, dass es Regeln gibt, die für diese Bäume gelten und über die Manipulationen in der Baumdarstellung (Einfügen, Löschen neuer Zweige und Blätter etc.) durch relativ einfache Änderungen in der Datenbank durchgeführt werden können. Zu diesen Regeln zählen: • LFT = 1 ⇒ eine Wurzel hat auf der linken Seite immer eine 1 stehen, dies ist der Wurzelknoten. • Blatt RGT - Blatt LFT = 1 • Wurzel RGT / 2 = Anzahl der Knoten im Baum ⇒ teilt man in der Wurzel den Wert der rechten Seite, so erhält man die Anzahl aller Knoten im Baum • floor((RGT - LFT) / 2) = Anzahl der Kindknoten im Zweig (incl. der Blätter) ⇒ zieht man von der rechten die linke Seite ab und teilt sie durch 2, so entspricht das gerundete Ergebnis der Anzahl der Blätter im Zweig • alle LFT- und RGT-Werte sind eindeutig! Die PHP Bibliothek dbtree7 implementiert den Ansatz der Nested Sets zum Spreichern von baumähnlichen Strukturen in einer Datenbank und wird von SenoCMS eingesetzt. 7 http://dev.e-taller.net/dbtree ANHANG A. SENO-CMS SYSTEMDOKUMENTATION A.5 A.5.1 122 Administrationsoberfläche Icons Die verwendeten Icons in der Administratonsoberfläche stammen größtenteils aus der Open Source Icon-Bibliothek von Gnome8 . Den Anforderungen gemäß wurden die Symbole adaptiert bzw. eigene Icons gestaltet. A.5.2 SenoCMS Logo SenoCMS steht für Search ENgine Optimized Content Management System, das Logo (siehe Abbildung A.5) zeigt einen weißen Hut auf dem S der Schriftzugs. Dies soll, bezogen auf den Begriff White Hat Search Engine Optimization (deutsch: ethische Suchmaschinen-Optimierung), auf den Verzicht von verbotenen Praktiken zur Suchmaschinen-Optimierung hinweisen. Abbildung A.5: SenoCMS Logo A.5.3 JSCookMenu Das Hauptmenü der Administrationsoberfläche bedient sich des JSCookMenus9 (in der Version 1.4.4), einem leistungsfähigen JavaScript Menüscript. Das Script ist in der Lage, auch komplexe Menüs umzusetzen und wird so in einigen bekannten GUI Applikationen eingesetzt. A.5.4 OverLIB OverLIB10 ist eine JavaScript Bibliothek, mit deren Unterstützung die kleinen Tooltipp Popup-Informationsboxen realisiert wurden. Der Benutzer erhält bei rollover über die Informationssymbole zu diesem Thema relevante Tipps, ebenso wie bei den Werkzeugen in der Toolbar. Auf der Contentüberblickseite kommt die Bibliothek zusätzlich zum Einsatz, um im Content enthaltene Bilder bei rollover über den Dateinamen in Vorschau zu zeigen. A.5.5 Browserkompatibilität Eine einwandfreie Bedienung der Administrationsoberfläche kann für Mozilla Firefox 1.5 und Internet Explorer 6 garantiert werden. Um auch im Internet Explorer (in Versionen vor 7) Bilder im PNG-Format mit transparentem 8 http://art.gnome.org/themes/icon http://www.cs.ucla.edu/∼heng/JSCookMenu 10 http://www.bosrup.com/web/overlib 9 ANHANG A. SENO-CMS SYSTEMDOKUMENTATION 123 Hintergrund korrekt anzeigen zu können, sorgt eine JavaScript-Funktion11 dafür, automatisch alle auf der Seite befindlichen PNG’s mit einem AlphaLayer zu versehen, mit dem der Internet Explorer umgehen kann. 11 http://homepage.ntlworld.com/bobosola/pngtestfixed.htm Anhang B Inhalt der CD-ROM B.1 Diplomarbeit Pfad: / DA.pdf . . . . . . . . . . . . . . B.2 Diplomarbeit (PDF-File) SenoCMS B.2.1 Package seno Pfad: /SenoCMS/seno/ /admin . . . . . . . . . . . . . . Hauptverzeichnis von SenoCMS, beinhaltend Konfiguration, inkludierte Klassen, Funktionen, JavaScript, CSS, verwendete Bilder sowie Smarty Templates der Administrationsoberfläche /install . . . . . . . . . . . . . . Installationsverzeichnis /lib . . . . . . . . . . . . . . . . Verzeichnis beinhaltend die Bibliotheken adodb, dbtree und Smarty index.php . . . . . . . . . . . . . Hauptdokument B.2.2 Package site Pfad: /SenoCMS/site/ /admin . . . . . . . . . . . . . . Adminverzeichnis der Site /includes . . . . . . . . . . . . . Verzeichnis beinhaltend inkludierte Funktionen zum Contentaufbau und zur Seiten- und Menügenerierung 124 ANHANG B. INHALT DER CD-ROM 125 /mediamanager . . . . . . . . . . Verzeichnis beinhaltend im Content verwendete Medienelemente /templates . . . . . . . . . . . . Verzeichnis beinhaltend Seitentemplates der Site sowie zugehörigen CSS-Files /templates c . . . . . . . . . . . Verzeichnis beinhaltend die kompilierten Templates .htaccess . . . . . . . . . . . . . Konfigurationsdatei des Apache Webserver index.php . . . . . . . . . . . . . Hauptdokument newsite.php . . . . . . . . . . . . Script, das unter Verwendung der Apache ForceType Direktive bei jeder Seitenanfrage aufgerufen wird (wird im Zuge der Installation umbenannt) B.2.3 Pfad: Dokumentation /SenoCMS/doc/ SenoCMS-Systemdoku.pdf . . . Systemdokumentation SenoCMS-Benutzerdoku.pdf . . Benutzerdokumentation B.3 Literatur Pfad: /Literatur/ Backlink-Strategies.pdf . . . . . Artikel über Backlink Checking Strategies ContentHosting.pdf . . . . . . . Artikel zum Content Hosting Diplomarbeit-Weblogs.pdf . . . . Diplomarbeit zum Thema Weblogs ” und deren technische Umsetzung“ Eye-Tracking-Study.pdf . . . . . Pressemitteilung zur Eye-Tracking Studie Google.pdf . . . . . . . . . . . . Originalpaper zu Google Google-FunFacts.pdf . . . . . . . Interessante Fakten zu Google Google-PageRank.pdf . . . . . . Checksummen-Algorithmus zur Ermittlung des Google PageRank Google-Statistiken.pdf . . . . . . Bericht über Google Statistiken Google-Technologie.pdf . . . . . Unternehmensinformation zur Google Technologie ANHANG B. INHALT DER CD-ROM 126 iProspect-Survey.pdf . . . . . . . Studie zum Benutzerverhalten im Umgang mit Suchmaschinen Rankings-and-RSS.pdf . . . . . . Artikel zum Thema Suchmaschinen-Ranking und RSS SEO-and-CMS.pdf . . . . . . . . Bericht zum Verständnis der Rolle von Content Management Systemen mit Suchmaschinenoptimierung SEO-MadeEasy.pdf . . . . . . . . Kurs zur Einführung in die Thematik der Suchmaschinenoptimierung SEO-muss-im-CMS-anfangen.pdf Artikel zum Thema Suchmaschinenoptimierung und CMS SEO-Secrets-eBook.pdf . . . . . eBook zum Thema Suchmaschinenoptimierung Singular-und-Plural-bei-SEO.pdf Tutorial zum Thema Singular und Plural bei der Wahl der Schlüsselwörter Suchmaschinenmarketing.pdf . . Leitfaden zum Thema Suchmaschinenmarketing SuMa-Marketing.pdf . . . . . . . Suchmaschinen-Marketing Kurs Trackback-vs-Pingback.pdf . . . Begriffsdefinition von Track- und Pingbacks Typo3-CSS-Styled-Content.pdf . Information zu den Neuerungen von CSS-Styled-Content in TYPO3 4.0 Typo3-Fit-fuer-Google.pdf . . . . Tutorial zur Suchmaschinenoptimierung mit Typo3 Typo3-Frontline-Update.pdf . . . Information der Typo3- Content Rendering Group zu TYPO3 4.0 Typo3-Pressetext.pdf . . . . . . Pressetext zur Veröffentlichung von Typo3 Version 4.0 Typo3-SEO.pdf . . . . . . . . . . Allgemeine Information zur Suchmaschinenoptimierung mit Typo3 Typo3-SuMa.pdf . . . . . . . . . Artikel zur Suchmaschinenkompatibilität von Typo3 Using-ForceType.pdf . . . . . . . Artikel zur Apache ForceType Direktive WP-ImportingContent.pdf . . . . Information zum Import von Content in WordPress WP-SiteArchitecture.pdf . . . . Information zur Architektur von WordPress-Templates ANHANG B. INHALT DER CD-ROM WP-UsingPermalinks.pdf . . . . Information zur Verwendung von Permalinks in WordPress WP-WordPressFeeds.pdf . . . . Information zur Unterstützung von Feeds in WordPress XHTML.pdf . . . . . . . . . . . Spezifikation von XHTML 1.0 Yahoo-WebRank.pdf . . . . . . . Information zum Yahoo! WebRank 127 Abkürzungsverzeichnis ADODB AJAX API ASCII Active Data Objects DataBase Asynchronous Javascript and XML Application Programming Interface American Standard Code for Information Interchange CMS CSS Content Management System Cascading Style Sheets DC DLL DTD Dublin Core Dynamic Link Library Document Type Definition GPL GUI GNU General Public License Graphical User Interface HTML HTTP HyperText Markup Language HyperText Transfer Protocol IDF IIS IP Inverse Document Frequency Internet Information Server Internet Protocol MIME Multipurpose Internet Mail Extensions OPML Outline Processor Markup Language PDF PHP PPC Portable Document Format PHP: Hypertext Preprocessor Pay-Per-Click RDF REP Resource Description Framework Robots Exclusion Protocol 128 Abkürzungsverzeichnis RSS Really Simple Syndication SEF SEO SERP SQL Search Engine Friendly Search Engine Optimization Search Engine Result Page Structured Query Language TF TFIDF Term Frequency Term Frequency Times Inverse Document Frequency URI URL UTF Uniform Resource Identifier Uniform Resource Locator Unicode Transformation Format W3C WCMS WPS WWW WYSIWYG World Wide Web Consortium Web Content Management System Weblog Publishing System World Wide Web What You See Is What You Get XHTML XML XML-RPC EXtensible HyperText Markup Language Extensible Markup Language XML-Remote Procedure Call 129 Literaturverzeichnis [1] Alkan, S. R.: Texten für das Internet. Galileo Press, 2004. [2] Baschny, E.: TYPO3 CSS styled IMGTEXT - Part4 . http://news.typo3.org/news/article/css-styled-imgtext-part4, 2006. Kopie auf CD-ROM. URL, Jänner [3] Beck, M., M. Baier, M. Berner, R. Biermann, H. Feldkamp, E. Fiene, D. Haratsis, B. Höfner, R. Krämer, S. Olthof, C. Petersen und M. Schimmel-Schloo: Suchmaschinenmarketing. Techn. Ber., Deutscher Direktmarketing Verband e. V., Wiesbaden, Juni 2005. Kopie auf CD-ROM. [4] Brin, S. und L. Page: The Anatomy of a Large-Scale Hypertextual Web Search Engine. Techn. Ber., Stanford University, Stanford, 1998. Kopie auf CD-ROM. [5] Callen, B.: Search Engine Optimization Made Easy. Bryxen Software, 2005. Kopie auf CD-ROM. [6] Codecasters: Lexikon der Suchmaschinenoptimierung, Fachbegriffe des Suchmaschinenmarketings - Definition: Yahoo! WebRank . URL, http://www.seo-konkret.de/suchmaschinen-glossar/yahoo-webrank, 2006. Kopie auf CD-ROM. [7] Cummings, D.: Understanding the Role of Content Management with Search Engine Optimization. Techn. Ber., Hannon Hill Corporation, Atlanta, August 2005. Kopie auf CD-ROM. [8] Ebach, S.: Suchmaschinenoptimierung Teil 3: Die Zukunft der Suchmaschinen-Optimierung - Mit Content Hosting und Presell Pages langfristig Spitzenpositionen einnehmen. URL, http://www.digitale-wertschoepfung.de/artikel/suchmaschinenoptimierungzukunft-content-hosting-presell-pages, 2005. Kopie auf CD-ROM. [9] Erlhofer, S.: Suchmaschinen-Optimierung für Webentwickler . Galileo Press, 2005. 130 LITERATURVERZEICHNIS 131 [10] Faller, H.: David gegen Google. Die Zeit, 41/2005, Oktober 2005. Kopie auf CD-ROM. [11] Gallego Rodriguez, M. J.: Suchmaschinen-Marketing für Einsteiger . Gallego Rodriguez, Ransbach-Baumbach, Germany, Juni 2004. Kopie auf CD-ROM. [12] Garfinkel, S. und B. Schwan: Geheimniskrämerei bei Google? . Technology Review, 2004. Kopie auf CD-ROM. [13] Genie, S. E.: Advanced link checking strategies with Search Engines. URL, http://www.searchenginegenie.com/backlink-strategies.htm, 2006. Kopie auf CD-ROM. [14] Glenn, M.: SEO Secrets V1.3, All you need to know to reach the top of the search engines. URL, http://www.divinewrite.com/seosecrets.htm, 2005. Kopie auf CD-ROM. [15] Google: Google-Pressezentrum: Fun und Fakten zu Google. URL, http://www.google.com/press/funfacts.html, Mai 2006. Kopie auf CDROM. [16] Google: Unternehmensbezogene Informationen zu Google: Technologie. URL, http://www.google.at/intl/de/corporate/tech.html, Mai 2006. Kopie auf CD-ROM. [17] Haischt, D. S.: Das Modell einer traditionellen Web-Anwendung im direkten Vergleich mit einer Ajax Web-Anwendung. URL, http://de.wikipedia.org/wiki/Bild:Ajax-vergleich.png, Oktober 2005. [18] Hattangadi, S.: Get Better Search Engine Rankings with RSS . URL, http://searchengineoptimization.seoarticlesweb.com/156.php, 2006. Kopie auf CD-ROM. [19] Hotchkiss, G. und K. Lee: Did-it, Enquiro, and Eyetools Uncover Google’s Golden Triangle. Techn. Ber., Did-it, Enquiro and Eyetools, New York, März 2005. Kopie auf CD-ROM. [20] iProspect.com: iProsect Search Engine User Attitudes. Techn. Ber., iProspect.com, Mai 2004. Kopie auf CD-ROM. [21] Janssen, M.: TYPO3 Usergroup NRW (Germany): TYPO3: Fit für Google. URL, http://ug.typo3-nrw.de/typo3-seo.html, 2006. Kopie auf CD-ROM. [22] Kent, P.: Search Engine Optimization For Dummies. Wiley Publishing, Inc., 2004. LITERATURVERZEICHNIS 132 [23] Leciejewski, G.: MP Blog - Mediaprojekte Netzwerk: Suchmaschinenoptimierung SEO muss bereits im CMS anfangen. URL, http://www.blog.mediaprojekte.de/cms-systeme/suchmaschinenoptimierungseo-muss-bereits-im-cms-anfangen, Mai 2006. Kopie auf CD-ROM. [24] Lochmüller, T.: Suchmaschinenoptimierung von Typo3 Seiten. URL, http://typo3.fruit-lab.de/typo3-seo, 2006. [25] Loebe, M.: IMISEWiki: Themen / Google Page Rank . URL, https://wiki.imise.uni-leipzig.de/Themen/GooglePageRank, September 2005. Kopie auf CD-ROM. [26] Loicht, S. und A. Lenz: TYPO3 - Version 4.0 erschienen. URL, http://www.pressetext.at/pte.mc?pte=060407015, April 2006. Kopie auf CD-ROM. [27] O’Donnell, J.: Using ForceType For Nicer Page URLs. URL, http://www.devarticles.com/c/a/Apache/Using-ForceType-For-NicerPage-URLs, Juni 2002. Kopie auf CD-ROM. [28] Precht, S.: Contentmanager.de: TYPO3 = Suchmaschinenkompatibel? . URL, http://www.contentmanager.de/magazin/artikel 841 typo3 suchmaschinenkompatibel.html, Jänner 2005. Kopie auf CD-ROM. [29] Przepiorka, S.: Weblogs und deren technische Umsetzung, März 2003. Kopie auf CD-ROM. [30] Ramos, A. und S. Cota: Insider’s Guide To SEO, How to Get Your Website to the Top of the Search Engines. Jain Publishing, 2004. [31] Schallhorn, K.: Singular und Plural bei der SuchmaschinenOptimierung. URL, http://www.kso.co.uk/de/tutorial/5-9.html, 2006. Kopie auf CD-ROM. [32] Selbach, J.: Nur 50 Millisekunden. Internet Professionell, 4/06:20, 2006. [33] Sobek, M.: Überblick über das PageRank-Verfahren der Suchmaschine Google. URL, http://pr.efactory.de, 2002. [34] Stateczny, D.: TYPO3 Suchmaschinenoptimierung / Search Engine Optimization (SEO). URL, http://www.it-bo.com/top/service/typo3hilfe/suchmaschinenoptimierung.html, 2006. Kopie auf CD-ROM. [35] Van’t Ende, B.: TYPO3 4.0 and CRG: Frontline Update. URL, http://news.typo3.org/news/article/frontline-update, Jänner 2006. Kopie auf CD-ROM. LITERATURVERZEICHNIS [36] Viehweger, M.: Trackback vs. Pingback . http://kronn.de/weblog/2004/09/18/trackback-vs-pingback/, tember 2004. Kopie auf CD-ROM. 133 URL, Sep- [37] W3C: XHTML 1.0 The Extensible HyperText Markup Language. URL, http://www.w3.org/TR/xhtml1, August 2002. Kopie auf CD-ROM. [38] WordPressCodex: WordPress Codex: Importing Content. URL, http://codex.wordpress.org/Importing from other blogging software, Juni 2006. Kopie auf CD-ROM. [39] WordPressCodex: WordPress Codex: Site Architecture. URL, http://codex.wordpress.org/Site Architecture 1.5, Juni 2006. Kopie auf CD-ROM. [40] WordPressCodex: WordPress Codex: Using Permalinks. URL, http://codex.wordpress.org/Using Permalinks, Juni 2006. Kopie auf CDROM. [41] WordPressCodex: WordPress Feeds - Introduction to Feeds. URL, http://codex.wordpress.org/WordPress Feeds, Juni 2006. Kopie auf CDROM.