Manage your information
Transcription
Manage your information
Information Management mit Sharepoint 2010 Taxonomien, Multi faceted navigation und die Möglichkeiten der neuen FAST Search Engine (für Sharepoint) Ralph Göllner [email protected] Überblick & zeitliche Aufteilung • • • • • Zieldefinition Ausgeklammerte Themen Begriffe UI Prinzipien • Allg. Grundlagen für die Umsetzung • „Wir bauen uns selbst eine Volltextsuche“ Volltextsuche mit linguistischen Mitteln Taxonomien und hochqualitative Metadaten Einführung Sharepoint 2010 & Fast für Sharepoint 2010 • • Beispielumsetzung Abgrenzung der Lizenzoptionen Einführung a) Was ist Informationsmanagement? b) Was wollen wir „bauen“? Zielvereinbarung: Was bedeutet Suche für Ihren Anwendungsfall? 1) Suche als „Zweitverwertung“ Die UI der Anwendung(en) wird anhand fester Strukturen (meist Top-Down) aufgebaut. Als Alternative wird eine separate Suchseite angeboten. „Suche“ ist ein optionales Werkzeug - vergleichbar mit einem alphabetischen Stichwort-Index am Ende eines Fachbuchs. 2) Suche als primäres Navigationsmerkmal Suche ist kein separates „Abteil“, sondern nahtlos in die UI für Kunden und Mitarbeiter integriert. Extrembeispiel: „Search Driven Application“ (z. B. Amazon, eBay) Produktgruppe Produktbeschreibung Metadaten Loft 320.000€ Produktbeschreibung Grundstück 155.000€ Große Anzahl verschiedener Dokumenttypen ohne einheitliche Metadaten, oft auch „Altbestände“ Investition in Analyseverfahren und Vereinheitlichung Investition in Struktur und Verbesserung der Datenqualität, mit dem Ziel konkrete Anwendungen zu bauen (=Information Management) Extrembeispiel: Search Driven Application für Endkunden Suchbegriffe mit Vorschlagsliste während der Eingabe Relevanz Facetten Ergebnismenge Begriffsverwirrung: Facetten Ein Ding – viele Namen… Akad. Hintergrund Facette FAST = Navigator Microsoft = Refiner Eine Wertemenge, die in der UI verwendet wird, um eine Ergebnismenge einzuschränken („zu filtern“). Dabei kann nie eine leere Ergebnismenge entstehen. Abgrenzung: Was wird heute nicht Thema sein? Aus Zeitgründen heute nicht im Programm: Web 2.0 Features • • • Tagging von Inhalten durch User / Tag Clouds Personenbezogene Features („People Search“, Nutzergruppen-Ranking) Rating Erweiterte FAST Funktionalitäten • • • • Entity Extraction („erraten von Datenobjekt aus dem Fließtext“) Federated Search („anbinden von anderen Suchen“) FQL (Fast Query Language und Entwicklungsthemen) Rating, Excel-Vorschau und sonstiger „Zuckerguß“ Installation & Betrieb • • • Skalierung der Systeme Security und Crawler-Konfiguration Einbindung in die Office-Welt Unangenehm: Arbeiten mit Sprache bringt „Unschärfe mit sich“ Da der Benutzer die Möglichkeit hat, über den „Suchschlitz“ beliebigen Text einzugeben, muß natürliche Sprache „verarbeitet“ bzw. „verstanden“ werden. Synonyme Reihenhaus Hier nur einige Beispiele: Reihenmittelhaus RMH Reiheneckhaus Fachbegriffe Reihenmittelhaus Geothermie REH DIN 4108 Sanierungsbedürftig Wortstämme Erstbezug Geschossflächenzahl GFZ Häuser Haus ging gehen Warum ist Relevanz wichtig bzw. unbedingt notwendig? Der Umgang mit natürlicher Sprache bringt eigene Regeln mit, die berücksichtigt werden müssen: Villa Suchen Der obige Suchbegriff würde natürlich auch die baufällige Hütte im Suchergebnis zurückliefern. Mit Hilfe des Ranking-Faktors wird das Wort „Villa“ aber in der Überschrift wesentlich höher „bewertet“ und taucht deshalb weiter oben im Suchergebnis auf. Villa in Nürnberg Die repräsentative Villa in bevorzugter Ostrandlage bietet neben 500 qm Wohnfläche einen parkähnlichen Garten von über 2000 qm. Feld: „Dokumenttitel“ Schnäppchen für Heimwerker Baufälliges Einfamlienhaus in der Nähe von Hersbruck. Zugegebenermaßen keine Villa – aber mit handwerklichem Geschick können Sie hier noch ihren ganz persönlichen Wohntraum verwirklichen. Rankingwert: 200 Feld „Textkörper“ Rankingwert: 50 Objektklassen als Grundlage für die Metadaten-Zuweisung Objektklassen liefern ein solides Fundament für alle Suchoperationen. Dabei ist mit Objektklasse nicht der Ablageort und nicht das Dateiformat gemeint. Beispiel: Kundensuche Mitarbeitersuche Expose Expose Angebot Vertrag SPObjekt WebPage SPObjekt PDF SPObjekt WordDok. SPObjekt PDF Expose Expose Anbieter Angebot SPObjekt WordDok. SPObjekt … SPObjekt Listenelem. SPObjekt … Taxonomien als Grundlagen für die Facetten/Navigation Eine Taxonomie ist ein (meist) hierarchische Klassifikationssystem. Ein Sharepoint-Datenobjekt wird einem oder mehreren Taxonomieknoten über die Metadaten zugeordnet. Taxonomien können (je nach Anforderungssituation) selbst erdacht oder gekauft/bezogen werden. Beispiel: eCl@ss als standardisierte Produkt-/Dienstleistungs-Klassifikation Bestellung Befestigungsmittel Schraube, Mutter Zuordnung über Metadaten SPObjekt Schraube (mit Kopf) Lieferschein Holzschraube Schraube mit Rechtecktkopf SPObjekt Wissensmodell: Typische Bestandteile INFORMATIONSMANAGEMENT 1) Klassifzierungssysteme Als Basis für maschinelle Regeln, um Wissen zu gewinnen oder zu vermitteln (z. B. Navigation) 2) Linguistik / Sprachverständnis Fachgebietsspezifischer Wortschatz als Basis für Attributierung und Inhaltsanalyse (z. B. Volltextsuche) 3) Semantisches Beziehungsnetz Explizite „Wissenskonservierung“ in Form von Verbindungen zwischen(!) Objekten z. B. als Basis für Empfehlungen („Ähnliche Objekte“) Immobilie Einfamilienhaus Kunde „ist der Mieter von“ Privat DHH Gewerbl. Doppelhaushälfte „wurde angeboten“ Immobilie Reihenhaus Kundengruppe Privat Gewerbl. Immobilie „ist ähnlich“ Wohnung Appartment Sharepoint Objekte, Metadaten und Standard-Navigation Textinhalte und Volltextsuche SpezialNavigation Zielkonkretisierung: Was sollen die Leistungsmerkmale sein? ANFORDERUNGEN Facetten Wert für den Benutzer Kosten für den Anbieter • Kennenlernen des Wertesystems des Anbieters Wertesystem muß definiert und entsprechende Metadaten erfasst werden. • Vermeiden von Frustration während der Suche verursacht durch leere Ergebnismengen Modell muß ständig weiterentwickelt werden. Relevanz • „Erraten“ des für den Benutzer am interessantesten Ergebnisses Relevanzregeln müssen erarbeitet werden (u. U. sogar pro Benutzergruppe) Suchvorschlagsliste • „Hinlenken“ des Anwenders auf vorhandene Inhalte System muss ausreichend schnell sein (ms-Bereich für Antwortzeiten) • Direktes Feedback auf Eingabe Grundlagen a) …der Volltextsuche b) …der Metadatensuche Bastelstunde: Wir bauen uns selbst eine Volltext-Suchmaschine Vergleich: Interner Aufbau der Suchmaschine in Sharepoint 2010 Zweigeteilter Kern der Suchmaschine: Indizierungsengine erzeugt Indexdatei, die von der Abfrageengine verwendet wird. Unsere selbstgebaute Suchmaschine zeigt, was intern passiert. Beispielszenario: Immobilien-Expose (gespeichert als Web-Page) Demo in Visual Studio: Textanalyse Demo in Visual Studio: Hinter den Kulissen Die Analysephase (Content Processing Pipeline) besteht aus mehreren hintereinandergeschalteten Vorgängen: Normalisierung Stoppwortentfernung Rückführung auf Wortstamm Synonymerkennung … Deutsches Wörterbuch Thesaurus (Synonymliste) Volltextindex: Kern-Datenmodell Das grundsätzliche Datenmodell besteht aus nur zwei „Tabellen“ – wobei der eigentliche Index sehr groß werden kann. Wortliste Dokumentliste Wort Relevanz DokumentID DokumentID Dokument bestlage 5 17 17 Villa Fürth bieten 2 17 18 Einfamilienhaus Erlangen doppelgarage 2 17 19 Loft Stadtgrenze bestlage 2 18 20 Reihenmittelhaus Katzwang begehrt 1 18 21 Grundstück Lauf waldrand 2 21 loft 5 19 stadtgrenze 5 19 modern 2 19 Ranking/Gewichtung Je nach Fundstelle wird ein Wort bewertet. Je höher der Wert, desto besser der Treffer. Hier werden die Worte aus dem Dokumenttitel („loft“) höher bewertet als aus dem Dokumenttext („modern“). Volltextindex: Standard-Datenmodell Logisches Datenmodell (Abbildung in der Praxis meist nicht über Tabellen) Wortliste Zugriffsrechte Metadaten Dokumentliste „Das Wort Doppelgarage kommt vor in Angebot_23.htm, gültig bis 21.02.11, sichtbar nur für Mitarbeiter“ Beispielszenario: Immoblienportal für Kunden und Mitarbeiter „Unsere Kunden und Mitarbeiter sollen geeignete Immoblien schnell finden können.“ Suchfeld (Volltextfacette) Durchsucht alles, was „irgendwie relevant“ ist. Villa Suchen Titel Ort Preis Lagerhalle Nürnberg 298.000 Doppelhaushälfte Fürth 150.000 Architektenvilla Nürnberg 450.000 Einfamilienhaus Erlangen 560.000 Ergebnisliste Zeigt alle Datensätze an, mit einem Klick gelangt der Benutzer zum Expose (Detailseite) * Anmerkung: Wir sind eine kleine Firma und haben nur vier Objekte im Angebot ;-) Oft als Basis der Entwicklung: Klassische Web-Navigation Klassische Navigation Ermöglicht eine Filterung der Ergebnisliste. Klassische Form = Alle Eigenschaften (auch wenn man dort nichts finden kann) Objektart Grundstück Einfamilienhaus Mehrfamilienhaus Wohnung Gewerbeimmobilie Denkrichtung Titel Ort Preis Lagerhalle Nürnberg 298.000 Doppelhaushälfte Fürth 150.000 Architektenvilla Nürnberg 450.000 Einfamilienhaus Erlangen 560.000 Ziel der Multi faceted navigation: Keine leere Ergebnismenge Facette (=Refiner/Navigator) Ensteht aus der Analyse der Ergebnismenge. Es wird vermieden, dass der Benutzer eine leere Ergebnismenge bekommt („in Sackgassen navigiert“). Villa Objektart Einfamilienhaus (2) Mehrfamilienhaus (1) Gewerbeimmobilie (1) Denkrichtung Suchen Titel Ort Preis Lagerhalle Nürnberg 298.000 Doppelhaushälfte Fürth 150.000 Architektenvilla Nürnberg 450.000 Mehrfamilienhaus Erlangen 560.000 Beispielszenario: Immoblienportal für Kunden und Mitarbeiter Facetten spielen Ihre Stärke erst in Kombination mit anderen Facetten aus: Suchfeld (Volltextfacette) Durchsucht alles, was „irgendwie relevant“ ist. Preis Villa Suchen Alle anzeigen Unter 500.000 € (1) Rücksetz-Option Weil jede Facette das Suchergebnis einschränkt, muss die UI eine Möglichkeit bieten, die Filterung aufzuheben. Titel Ort Architektenvilla Nürnberg Preis 450.000 Refiner: Sie sind überall… …selbst in der Sharepoint 2010 UI „Die Kirche im Dorf lassen“… …nicht jedes Unternehmen muss gleich in der Enterprise-Liga mitspielen. EigenEntwicklung Kriterien Sharepoint 2010 „Bordmittel“ Unternehmensweite Suche mit FAST bzw. FAST for Sharepoint 2010 < 5.000 Objekte < 200.000 Objekte Millionen von Objekten Alle Objekte in einer DB Viele Objekte in in Sharepoint Objekte in Sharepoint und außerhalb Datenformat: SQL Sharepoint oder Office Objekte Beliebige Dateiformate Kleines Budget Kein ExtraBudget für Suche Budget für Search-Team Sharepoint 2010 Einige wichtige Neuerungen bei den Such-Features in Sharepoint 2010 Abfrage-Funktionalität • • • • Faceted Search Wildcard Search Boolean Search (AND, NOT, OR) … UI-Funktionen • • • Wortvorschläge während der Suchbegriffeingabe Korrekturvorschläge „Meinten Sie …?“ … „Aufstiegsmöglichkeit“ nach FAST • Entsprechende Optionen sind in mit FASTSearch Server für Sharepoint gekennzeichnet Lizensierungsoptionen/Produktvarianten: Überblick Internet Intranet Lizensierung pro Server Lizensierung pro Client (CAL) FAST Search Server 2010 For Internet Sites FAST Search Server 2010 For Internal Applications MS Search Server 2010 Eigenständig Integriert in Sharepoint MS Search Server Express 2010 Sharepoint Point Server 2010 For Internet Sites, Enterprise FAST Search Server 2010 For Sharepoint Sharepoint Point Server 2010 For Internet Sites, Standard Sharepoint Point Server 2010 Sharepoint Foundation 2010 Einstiegslösung Infrastruktur Highend Welche Varianten eigenen sich nicht für die Umsetzung unseres Szenarios? MS Search Server Express 2010 Keine Taxonomien und keine RefinementMöglichkeiten Sharepoint Foundation 2010 MS Search Server 2010 FAST Search Server 2010 For Internet Sites FAST Search Server 2010 For Internal Applications Keine Taxonomien …außer Sie haben Budget, ein Suchteam zu unterhalten. Lizensierungsoptionen/Produktvarianten: Heute im Fokus Internet Intranet Lizensierung pro Server Lizensierung pro Client (CAL) FAST Search Server 2010 For Internet Sites FAST Search Server 2010 For Internal Applications MS Search Server 2010 Eigenständig Integriert in Sharepoint MS Search Server Express 2010 Sharepoint Point Server 2010 For Internet Sites, Enterprise FAST Search Server 2010 For Sharepoint Sharepoint Point Server 2010 For Internet Sites, Standard Sharepoint Point Server 2010 Sharepoint Foundation 2010 Einstiegslösung Infrastruktur Highend Wissensmodell: Grundlagen für die Umsetzung in SP 2010 1) Klassifikationssysteme 2) Linguistik / Sprachverständnis Müssen in Metadatenfelder gespeichert werden. Werden von FAST für 84 Sprachen geliefert. Dokumente sollten unbedingt klassifiziert werden. Können auch zu RechtschreibkorrekturVorschlägen verwendet werden. Content Types Term Store • Legen fest, welche Metadaten zu welchen Content-Typen gespeichert werden • Erlaubt den Aufbau verschiedener hierarchischer Taxonomien • Können als Facetten verwendet werden. • Erlaubt die Zupflege von Synonymen. Metadata Management • Übergreifende Schicht 3) Semantisches Beziehungsnetz Verbindungen zwischen Objekten benötigen Systemunterstützung (nicht ausreichend gegeben in SP 2007 – zumindest wenn man relationale Datenbanken kennt ;-) Lookup Columns „Anwendung“ des Wissensmodells Im Rahmen des Beispiels „Immobiliensuche“ umgesetzt mit Sharepoint 2010: Einstellmöglichkeiten (Administration) der FAST Engine Einstellmöglichkeiten der UI (WebParts) Grundelemente Basis Listen Lookup-Felder Metadaten Teminologiespeicher Ranking Webpart-Pages Ablauf: Übersicht 1 Strukturen vorbereiten Grundobjekte gestalten: Content-Types, die Metadaten definieren 2 Search-Engine konfigurieren (Content-Sources, Scopes) 3 Suche gestalten Nutzen der MetadatenNavigation Richtiges Suchcenter auswählen und erstellen Wissennetz über LookupFelder Verwenden der Refiner Verwenden der Managed Properties Relevanz-Tuning Unwichtige Informationseinheiten ausblenden Taxonomien definieren Bibliotheks-Stukturen festlegen (eine oder mehrere, Content Types aktivieren…) Daten erfassen Erweiterungsmöglichkeit Autoklassifizierer Vorbereitung: Content Types und Metadaten definieren Immobilie + Preis + Ähnliche Objekte Grundstück Wohnung Haus + Grundfläche + Wohnungstyp + Wohnfläche 1 Strukturen vorbereiten 2 Daten erfassen 3 Suche gestalten Demo: Content Types („Websiteinhaltstypen“) Taxonomien im „Terminologiespeichertool“ (Termstore) anlegen Die Beispiel-Taxonomie soll nur für den Content-Typ „Wohnung verwendet werden. Oft gefragt: Wo liegen die Grenzen? Maximale Verschachtelungstiefe 7 Ebenen Maximale Termsets (im Beispiel „Wohnungstyp“) 1.000 Maximale Begriffe in einem Termset 30.000 Maximale Objektanzahl in einem Termstore 1.000.000 (Synonyme zählen hierbei nicht mit) Termsets können „closed“ oder „open“ sein, d. h. in einem Fall dürfen nur berechtigte Personen die Struktur bearbeiten – im anderen Fall können die Endbenutzer die Struktur in der Pflegemaske erweitern. 1 Strukturen vorbereiten 2 Daten erfassen 3 Suche gestalten Taxonomien Besondere Beachtung verdienen die etwas versteckteren Befehle, die besonders die Fortentwicklung der Taxonomie erleichtern: Term wiederverwenden Ein Term kann in mehreren Taxonomien verwendet werden. Merge Terms Ein Term kann mit einem anderen zusammengefasst werden. Dafür hätte man früher die Metadaten mit einem separaten Script „patchen“ müssen! Deprecate Term Ein Term kann als veraltet gekennzeichnet werden. Damit bleibt er zwar erhalten – die Benutzer können ihn aber ab diesem Zeitpunkt nicht mehr vergeben. 1 Strukturen vorbereiten 2 Daten erfassen 3 Suche gestalten Wissensmanagement „light“: Der Sharepoint Term-Store Closed Term Set Open Term Set Leistungsmerkmale Keyword Set Eingabeunterstützung Begriffserklärung Mehrsprachig Synonym Hierarchisch Flache Liste Hinzufügen neuer Metadaten Überprüfung Durch Endnutzer erweiterbar Durch Admin kontrolliert 1 Strukturen vorbereiten 2 Daten erfassen 3 Suche gestalten Term-Store in der UI: Eingabeunterstützung Nur bei Open Term Set 1 Strukturen vorbereiten 2 Daten erfassen 3 Suche gestalten Interne Veränderungen: Vom SSP zur flexiblen Service Application Die Suche als Service Application ist nun hochgradig konfigurierbar: Systemeinstellungen - Accounts - Ports -… Search Search Service Service Application Application 1 Content ContentSource Source Wo soll gesucht werden? - Sharepoint Site - Filesystem - LOB-System … Scope (optional) Content Source Was soll durchsucht bzw. übersprungen werden? - Exclude Filetype „.PDF“ - Include „Author = Ralph Göllner“ … Strukturen vorbereiten 2 Daten erfassen 3 Suche gestalten Grunddatenmenge im Beispiel Metadatennavigation: Neues Feature muss erst aktiviert werden 1 Strukturen vorbereiten 2 Daten erfassen 3 Suche gestalten Listenansicht: Nutzen der Metadaten-Navigation 1 Strukturen vorbereiten 2 Daten erfassen 3 Suche gestalten Listenansicht: Nutzen der Metadaten-Navigation 1 Strukturen vorbereiten 2 Daten erfassen 3 Suche gestalten Neue FAST-Option: „Similar Results“ (Ähnliche Ergebnisse) Beispiel für eine Option, die ich in unserem Szenario nicht verwenden würde. Interessanter wäre eine „handoptimierte“ Ähnlichkeit: Auf der Expose-Seite wird im Seitenlayout ein selbstgebautes Web-Part „Ähnliche Objekte“ hinzugefügt. Villa in Hersbruck Ähnliche Objekte Villa in Lauf Großes Architektenhaus in Hersbruck Grundstück für Villenbebauung in Hersbruck 1 Strukturen vorbereiten 2 Daten erfassen 3 Suche gestalten FASTSearch Server für Sharepoint Implementierung des semantischen Beziehungsnetzes: Basis Verwendung einer Lookup-Column, z. B. „wurde angeboten“ bei Immobilie mit Verweis auf Tabelle Kunden: Neu in SP 2010 Neu in SP 2010 Referentielle Integrität wird endlich abgeprüft ( Verhalten: „Löschverhinderung“ (Aufpassen) oder „Löschweitergabe“ (Aufräumen) 1 Strukturen vorbereiten Endlich können mehrere Felder aus der Ursprungsliste angezeigt werden. 2 Daten erfassen 3 Suche gestalten Pflege des Beziehnungswissens UI-technisch vielleicht in der Grundform nicht umwerfend – aber bei entsprechender Bibliotheks-Stukturierung durchaus verwendbar: 1 Strukturen vorbereiten 2 Daten erfassen 3 Suche gestalten Automatische-Pflege des Beziehnungswissens: Auto-Klassifizierer Bei großen Datenmengen bzw. sich ständig verändernden Grundobjekten ist die Beziehungspflege „von Hand“ zeitaufwändig. Deshalb suchen einige Kunden nach einer Automatik, um die Beziehungen anhand von Regeln zu setzen. a) Lösungsansatz „Buy“ Es werden externe Tools angeboten, um bestimmte Metadaten (wie z. B. Keywords) aus den den eingegebenen Daten zu extrahieren (z. B. Matchpoint for Sharepoint, AutoTagger von Layer2). b) Lösungsansatz „Build“ Sharepoint 2010 stellt viele Anknüpfungspunkte für individuelle Lösungen zur Verfügung. Beispielsweise lassen sich Klassifizierungs-Regeln über Workflows oder Event-Receiver implementieren ( folgende Seite). 1 Strukturen vorbereiten 2 Daten erfassen 3 Suche gestalten Autoklassifizierer „selbstgebaut“ Sharepoint-Liste Titel Ort Preis Lagerhalle Nürnberg 298.000 Doppelhaushälfte Fürth 150.000 Architektenvilla Nürnberg 450.000 Mehrfamilienhaus Erlangen 560.000 Setze Taxonomiezuordnung „Aktuelle Topangebote“ Event Receiver Strukturen vorbereiten Wenn Preis < 500.000 Und ImmoTyp = „Villa“ Und ImAngebotSeit < „2 Wochen“ Dann „Objekt verändert oder neu“ 1 Geschäftslogik 2 Daten erfassen 3 Suche gestalten Sharepoint 2010 Suchcenter-Templates Wir verwenden das Basis-Suchcenter für unser Beispiel. Das Enterprise-Suchcenter enthält zusätzlich die Personensuche und die Möglichkeit zwischen Suchbereichen per Karteireiter umzuschalten. Das FAST-Suchcenter ist nur enthalten wenn FAST zusätzlich lizensiert wurde. Dann läuft die Suche intern technisch völlig anders ab und es stehen weitere WebParts und Konfigurationsmöglichkeiten (Site-Einstellungen, Zentraladministation) zur Verfügung. Such-UI: Vielseitig konfigurierbare Web-Parts Eine Such-Site besteht im Grunde aus zwei Seiten: Search.aspx Sucheingabe ist ein WebPart Einige Einstellmöglichkeiten (z. B. Vorschlagsliste) Search Erweiterte Sucheinstellungen ist ein Webpart Result.aspx Suchergebnisdarstellung ist eine Seite mit u. U. sehr vielen WebParts Search - Kernsuchergebnis Webpart 1 Strukturen vorbereiten 2 Daten erfassen Refinement Panel (Facetten) People Refinement Panel Related Queries Search Paging Search Statistic Best Bests … 3 Suche gestalten Suchwort-Vorschlagsliste Die Suchwort-Vorschlagsliste, die während der Eingabe des Suchbegriffs angezeigt wird, befüllt sich nicht aus der Wortliste der Suchmaschine, sondern wird mit statistischen Mitteln (von einem Timer-Job in der Nacht) aus den tatsächlich eingegebenen und angeklickten Objekten gebildet. So würde die Vorschlagsliste aussehen: Eigene Vorschläge können per PowerShell zusätzlich „hochgeladen“ werden. 1 Strukturen vorbereiten 2 Daten erfassen 3 Suche gestalten Basis-Suchcenter: Suchergebnisseite Standardmäßig sind die Refiner auf der Suchergebnisseite aktiviert: Taxonomie wurde sofort erkannt. Bei Office-Dokumenten im Suchergebnis kann dann z. B. nach Typ oder Autor gefiltert werden. Da noch kein Suchscope definiert wurde, wird die ganze Site durchsucht. Einstellung der Refiner im Webpart: 1) Managed Metadata Property Damit Refiner verwendet werden können müssen diese als Managed Metadata oder als Taxonomie vorliegen. 1. Central Administration -> Manage Service Applications -> Search Service Application -> Metadata Properties 2. Neues Managed Property anlegen: Beispiel unten Feld „Grundfläche“ 3. Content-Source muß neu indiziert werden Demo: Die Suchergebnisseite verändern Einstellung der Refiner im Webpart: 2) XML Filter Category Definition Die Einstellungen sind nicht sehr umfangreich dokumentiert und werden über eine XML-Konfiguration angegeben (wichtig: Standard-Verhalten deaktivieren – sonst greift das XML nicht!): <Category Title="Preis" Type="Microsoft.Office.Server.Search.WebControls.ManagedPropertyFilterGenerator" MetadataThreshold="5" ShowCounts="Count" NumberOfFiltersToDisplay="4" MaxNumberOfFilters="20" SortBy="Frequency" SortByForMoreFilters="Name" SortDirection="Descending" SortDirectionForMoreFilters="Ascending" ShowMoreLink="True" MappedProperty=„Preis" MoreLinkText="show more" LessLinkText="show fewer" /> Wenn der Refiner nicht angezeigt werden sollte: a) Sind genügend Treffer im Ergebnis (Threshold)? b) Werden vielleicht schon zu viele Refiner angezeigt (Webpart-Einstellung?) c) Wurde die Datenquelle neu indiziert? Zwischenergebnis: Erste Refiner im Suchergebnis Content Type (=implizites Metadatum) als Refiner verwenden Tipp: Obwohl ContentType als Managed Metadata Property vorhanden ist, muss ein eigenes Mapping definiert werden (ansonsten nichtssagende Fehlermeldung): Refiner-Bereiche verwenden: Übersicht Wertet Taxonomien aus (hierarchische Wertebereiche). TaxonomieFilter Wertet beliebige Felder (flache Wertebereiche) aus. ManagedMetadataFilter CustomFilter ValueMapping z. B. 1…1000, 1001…2000, RangeMapping z. B. Bilder: { JPG, GIF, BMP } Taxonomien (hierarchisch) als Refiner verwenden UI-Tuning: Anpassung der Refiner-Darstellung FASTSearch Server für Sharepoint Beim Bau einer größeren Suche oder einer „Search driven application“ ist meist ein Customizing der Refiner-Darstellung gefordert: Preis Preis Unter 100.000 € 100.000 bis 200.000 € Über 200.000 € 100‘ 200‘ 300‘ 400‘ >500‘ Objektart Objektart Einfamilienhaus (2) Mehrfamilienhaus (1) Gewerbeimmobilie (1) 1 Strukturen vorbereiten EFH (2) 2 Daten erfassen MFH (1) 3 Suche gestalten Gew. (1) Ranking auf Basis von Promotions und Demotions FASTSearch Server für Sharepoint Einzelne Sites (und sogar einzelne Dokumente) könnten im Suchergebnis „hochgestuft“ (search-engine-slang: „ge-boostet“) werden. Hier die Einstellmöglichkeiten, um eine Site nach oben zu „boosten“: Promotion/Demotion Site-URL Benutzerkontext (opt.) Zeitraum (opt.) Ranking auf Basis von Promotions und Demotions FASTSearch Server für Sharepoint Oben im Suchergebnis Site „Exklusiv-Vertrieb“ Promotion Site „Reguläre Objekte“ Site „Partner-Objekte“ 1 Strukturen vorbereiten Demotion 2 Unten im Suchergebnis Daten erfassen 3 Suche gestalten Benutzerkontextbezogene Suchergebnisse FASTSearch Server für Sharepoint Best Bets, Visual Best Bets, document promotions, document demotions, site promotions and site demotions können auf Sharepoint-Benutzerprofile bezogen werden. Damit lassen sich z. B. bestimmte Dokumente oder Sites nach oben „ranken“ entsprechend des Standorts-Benutzers (z. B. „Münchner Homepage im Intranet“). Diese Funktion zielt auf große Intranets bzw. regionalisierte Internetauftritte und ist deshalb nur in FAST für Sharepoint 2010 enthalten. „Hilfe! Unser Index kennt alles und jeden!!“ Es gibt verschiedene Ebenen, um Content aus dem Index auszuschließen: 1) Site nicht indizieren „Hilfe! Unser Index kennt alles und jeden!!“ (Fortsetzung) 2) Page(-Typen) nicht indizieren „Hilfe! Unser Index kennt alles und jeden!!“ (Fortsetzung) 3) Spalten einer Site nicht indizieren 4) Bestimmte HTML-Teile der Seite nicht indizieren Tritt z. B. auf, wenn Navigation oder Fußzeileninhalte plötzlich im Suchergebnis auftauchen. Hier arbeitet man i. d. R. über Rechte ( Webpart wird über Rechte-Einstellungen vor dem Crawl-Benutzer versteckt). Für externe Quellen kann z. B. ein iFilter verwendet werden ( filtert Tags aus, z. B. über RegEx) Abschließende Bemerkung Funktionsvergleich: Gelb = Was Sie in diesem Vortrag gesehen haben Feature Basic site search Best Bets Visual Best Bets Similar Results Duplicate Results Search Scopes Search Enhancement based on user context Crawled and Managed Properties Query Federation Query Suggestions Sort Results on Managed Properties or Rank Profiles Relevancy Tuning by Document or Site Promotions Shallow Results Refinement (nur Zähler auf die ersten 50 Treffer) Deep Results Refinement (exakte Zähler) Document Preview Windows 7 Federation People Search Social Search Taxonomy Integration Multi-Tenant Hosting Rich Web Indexing Support SharePoint Foundation 2010 Search Server 2010 Express Search Server 2010 SharePoint Server 2010 FAST Search Server 2010 for SharePoint Erfolgreiche Suche basiert auf einem tragfähigen Konzept Jenseits aller Technik gilt für alle Suchkonzepte folgendes Basisgerüst: Nicht-funktionale Aspekte Benutzeroberfläche Ranking-Strategien (insbes. bei verschiedenen Nutzergruppen) Metadaten: Taxonomie-Zuordnungen Wörterbücher: Keywords / Synonyme Metadaten: Beziehungswissen Verständlichkeit Wartbarkeit Metadatenkonzept Content Types Klassifizierung der Objekte bzw. Dokumente Ausführungsgeschwindigkeit Tiefes Verständnis der INHALTE Realistische Einschätzung BENUTZER-ERWARTUNSHALTUNG Anhang Rückblick: Multi-Faceted-Search in Sharepoint 2007 http://facetedsearch.codeplex.com/ Wertigkeit von Begriffen: Managed und Crawled Properties Managed Property Titel Crawled Property Word_Dokument_Titel Crawled Property Webpage_Titel Wissensmanagement benötigt unbedingt einen aktiven „Manager“ Neu in Sharepoint 2010: Zentralisierte Metadatenverwaltung • Managed Metadata Service • Da die Funktion als „Service“ integriert wurde kann auf verschiedenen Ebenen gearbeitet werden („web“, „site“ und sogar „farm“-übergreifend) Hintergrund für einen erfolgreichen Einsatz ist ein „Wissensmodell“ • Das Wissensmodell ist Kommunikations-Vehikel für alle beteiligten Personen • Es wächst und verändert sich mit den Anforderungen im Unternehmen • Eine qualifizierte Person oder Team übt aktiv „Kontrolle“ über das Modell aus Suchabfrageausdrücke sollten von Zeit zu Zeit analysiert werden Noch nicht genug? Video-Labs von Microsoft zum Thema Sharepoint 2010 Enterprise Search http://msdn.microsoft.com/de-de/sharepoint/ff960976(en-us).aspx Hintergrund: Wohin kommt und geht der Code in der Microsoft Entwicklung? Microsoft Windows Codebasis Sharepoint Server 2010 (+) Sharepoint Search „Best of“ FAST für Sharepoint FAST Enterprise Search Platform UNIX & Windows Codebasis Search Server 2010 (+) FAST Search Server 2010 for Sharepoint FAST Search Server for Internet / Internal Applications Eigenschaften der verbleibenden Basislösungen Sharepoint Point Server 2010 For Internet Sites, Enterprise Sharepoint Point Server 2010 For Internet Sites, Standard LIZENZtechnisch unterschiedlich SUCHtechnisch gleich Sharepoint Point Server 2010