Boolesche Textsuche - Content Conversion Specialists
Transcription
Boolesche Textsuche - Content Conversion Specialists
Handbuch Boolesche Textsuche Version 6 CCS Content Conversion Specialists GmbH Copyright © 2015 CCS Content Conversion Specialists GmbH. Alle Rechte vorbehalten. Kein Teil dieser Veröffentlichung darf ohne schriftliche Genehmigung der CCS Content Conversion Specialists GmbH reproduziert, in Datenbanken gespeichert oder in irgendeiner Form (elektronisch, fotomechanisch, manuell oder anders) übertragen werden. Die im vorliegenden Handbuch beschriebene Software wird unter Lizenz vergeben und darf nur in Übereinstimmung mit den Lizenzbedingungen verwendet werden. Die CCS GmbH behält sich das Recht vor, den Inhalt dieses Handbuches ohne Ankündigung zu verändern. Die CCS GmbH gibt keine Garantie auf die Richtigkeit und Genauigkeit der Beschreibungen in diesem Handbuch. Microsoft und Windows sind Warenzeichen bzw. eingetragene Warenzeichen der Microsoft Corp. Verwendete Produkt- und Firmennamen können Warenzeichen oder eingetragene Warenzeichen der jeweiligen Unternehmen sein. Die CCS GmbH verwendet sie in diesem Handbuch zu Erläuterungszwecken und zum Nutzen der jeweiligen Besitzer, ohne eine Verletzung des Warenzeichens zu beabsichtigen. Hinweise zum Urheberrecht: Diese Software kann verwendet werden, um Materialien zu reproduzieren. Die Softwarelizenz erlaubt Ihnen lediglich, Materialien zu reproduzieren, die urheberrechtlich nicht geschützt sind, oder aber Materialien, deren Urheberrecht Sie besitzen bzw. für die Sie legal die Erlaubnis zur Reproduktion erworben haben. Wenn Sie sich unsicher sind, welches Material Sie kopieren dürfen, fragen Sie bitte Ihren Rechtsanwalt. CCS GmbH haftet nicht für Urheberrechtsverletzungen, die aus dem Gebrauch dieser Software resultieren. Zuletzt aktualisiert: 09.07.2015 CCS Content Conversion Specialists GmbH Weidestrasse 134 22083 Hamburg Fon: +49-(0)40-2271300 Fax: +49-(0)40-22713011 E-Mail: [email protected] Website: www.content-conversion.com Inhaltsverzeichnis 1. Einleitung 4 2. Boolesche Textsuche 5 2.1. 2.2. 2.3. 2.4. 2.5. Zusammenarbeit mit newsProcserver Operatoren Klammern und verschachtelte Begriffe Wildcards Sonderzeichen Exakte oder verlustreiche (Lossy) Suche Suchwortabgleich für Tests und wenige Abfragen Einfachen Suchwortabgleich einrichten Farbige Markierung auf der Quellseite Benutzeroberfläche newsClip/Boolesche Suche Artikelbasiert - Seitenbasiert Beispiele Ergebnis in newsClip - Artikelbasiert Ergebnis in newsClip - Seitenbasiert Alle - Nur Teile des Booleschen Suchbegriffes Alle - Boolescher Suchbegriff NOT auf Seitenbasis Alle - Boolescher Suchbegriff AND auf Artikelbasis Alle - Boolescher Suchbegriff AND/OR auf einem Artikel Suche nach Zahlen Suche nach E-Mail Adressen Suche nach Begriffen in Anführungszeichen Suche nach Wort + Leerzeichen + Wildcard Suche auf Seite, auf der von der LA keine Artikel erkannt werden 6 7 8 8 9 9 11 13 14 15 15 17 17 17 18 19 20 21 21 21 22 22 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 1. Einleitung Was bedeutet Boolesche Suche? Eine Boolesche Suche ist eine sehr wirkungsvolle Suchmethode. Wer: Die Boolesche Text-Suche mit den newsWorks Produkten ist für Presseausschnitt-Agenturen, Marketing-Agenturen und große Firmen konzipiert. Ziele: Zeitsparendes, effektives Arbeiten, kein manuelles Zeitungslesen nötig. Die Lektoren (Clip Anwender) können schneller identifizieren, ob ein Artikel für einen Kunden relevant ist. Es kann sehr genau spezifiziert werden, wie die Suchmaschine mit einigen Schlüsselwörtern und ihren Kombinationen ermitteln soll. Die Schlüsselwörter werden mit der verschlüsselten Suchfrage mit speziellen "Operatoren" wie "AND", "NOT" oder "OR" verbunden. Für Fragen mit mehr als zwei Schlüsselwörtern können Klammern benutzt werden. George Bool war ein englischer Mathematiker, der die neue Logik mitten im 19. Jahrhundert entwickelte. Später wurde dieses "Boolesche Logik" genannt. Mit den so genannten "Operatoren" spezifiziert man, in was für einem Verhältnis die Suchwörter miteinander stehen. Die Operatoren "AND", "OR" und "NOT" werden von der Booleschen Logik übernommen. Das spezielle an einer Booleschen Frage ist das mit nur einer Anfrage, viele Suchwörter miteinander verbunden werden können. Boolesche_Textsuche.doc Version: 09.07.2015 4 / 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 2. Boolesche Textsuche Service Dienstleister haben spezielle Anforderungen. Ihre Kunden sind an Artikeln über ganz bestimmte Themen interessiert. So bestellt der Kunde Artikel über dieses Themen in einer vorgegebenen Menge und aus unterschiedlichen Zeitungen. Betrachtet man alle Kunden, so sind einige der Themen gleich, einige fast gleich und andere total unterschiedlich. Alle bestellten Themen werden über Schlüsselwörter definiert. Diese Schlüsselwörter werden zu einfachen oder komplizierten Ausdrücken (Phrase) kombiniert. In Version 1 werden nur die Treffer angezeigt, die einer kompletten Suchanfrage entsprechen. In der aktuellen Version werden alle Treffer angezeigt, sortiert nach Trefferqualität. Anfragen mit der höchsten Trefferqualität werden zuerst gezeigt. Jetzt fängt der Clipper an, die Trefferliste von oben bis unten abzuarbeiten, bis ein bestimmtes Trefferniveau erreicht wurde, in dem keine weiteren Treffer gefunden werden können. Dieses minimale Trefferniveau kann bei unterschiedlichen Zeitungsarten schwanken. So ist die Layoutanalyse für die FAZ zum Beispiel fast perfekt, so dass es hier ausreicht, sich nur die obersten Treffer anzusehen. Bei anderen Zeitungsarten könnte es notwendig sein, auch in niedrigerem Trefferniveau nachzusehen. Der Vorteil hierbei ist, dass kein Artikel übersehen werden kann, solange die OCR gut liest. Boolesche Suche auf geclippten Artikeln: Dies ist der Hauptunterschied zwischen Version 1 und der aktuellen Version der Booleschen Suche. Wie oben gesagt, erfordert die Boolesche Suche perfekte Artikel, um das erwartete Resultat zu erhalten. Sobald ein Artikel geclippt wird, erhält man ein perfektes Resultat. So entstand die Idee, eine zweite Phase der Booleschen Suche auf dem geclippten Artikel durchzuführen. Es kann jede Suchanfrage mit 100% Qualität durchgeführt werden. Der Benutzer erhält eine exakte Liste aller Kunden, die sich genau für diesen Artikel interessieren. Dieser Mechanismus arbeitet auf jedem möglichem Artikel, egal ob einfach oder kompliziert, Zeitung oder Zeitschrift, einzelne Seite oder auf verschiedenen Seiten. Boolesche_Textsuche.doc Version: 09.07.2015 5 / 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 2.1. Zusammenarbeit mit newsProcserver OCR Suche nach booleschen Phrasen in einer Datenbank Abgleich mit dem OCR Text Highlighten der Schlüsselwörter in newsClip Option: Ganzseiten- oder artikelbasiert (abhängig von der Genauigkeit der Layoutanalyse) Boolesche_Textsuche.doc Version: 09.07.2015 6 / 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 2.2. Operatoren Eine Abfrage enthält eine Reihenfolge von Wörtern, Phrasen und mit ihnen kombinierte Operatoren. Ein Wort oder eine Phrase wird durch eine Buchstabenreihenfolge und Leerzeichen definiert, die durch vor- und nachgestellte doppelte Apostrophe (") verbunden werden. Ein Wort kann ein Sternchen (Asterisk) enthalten, das bedeutet, dass nur ein Teil des Wortes definiert ist. Kombinierte Operatoren stehen zwischen den Wörtern. Gültige Operatoren sind OR, AND, NOT und Klammern ( ). Operator Suchmethode Suchvorgang AND Erweiterte Suche mit ALLEN Wörtern OR Erweiterte Suche mit IRGENDEINEM Sucht Seiten, die mindestens einen der dieser Wörter angegebenen Begriffe oder eine der gesuchten Phrasen enthalten. "hamburg OR Elbe" findet Bei dieser Suche wird der boolesche alle Seiten, die entweder das Wort "hamburg" Operator OR verwendet. Es werden bzw. "Hamburg" oder das Wort "Elbe" Seiten angezeigt, die mindestens enthalten. einen der eingegebenen Suchbegriffe enthalten. Die gefundenen Seiten können auch beide Begriffe enthalten. AND NOT Erweiterte Suche OHNE diese Wörter Sucht Seiten, die alle angegebenen Begriffe und Phrasen enthalten. "Hamburg AND Elbe" Bei dieser Suche wird der boolesche findet alle Seiten, die sowohl das Wort Operator AND verwendet. Es werden "Hamburg" bzw. "hamburg" als auch das Wort nur Seiten angezeigt, die jeden der "Elbe" enthalten. Suchbegriffe enthalten. Schließt Seiten aus, die das angegebene Wort oder die Phrase enthalten. "hamburg AND NOT Bei dieser Suche wird der boolesche Elbe" findet alle Seiten, die das Wort Operator AND NOT verwendet. Es "hamburg" bzw. "Hamburg" enthalten, nicht werden nur Seiten angezeigt, die die aber den Begriff "Elbe". eingegebenen Suchbegriffe nicht enthalten. Diese Methode eignet sich beispielsweise in Kombination mit Der NOT-Operator kann nur genutzt werden, "Erweiterte Suche mit allen Wörtern". wenn ein AND-Operator vorangestellt wurde. Er dient lediglich dem Ausschluß von Seiten, die einem vorherigen Abfrageparameter entsprechen würden ( ) Boolesche_Textsuche.doc Man kann Klammern setzen, um Begriffe innerhalb einer Abfrage hervorzuheben. Diese Ausdrücke in Klammern werden vor dem Rest der Abfrage ausgewertet. Version: 09.07.2015 7 / 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Um anzuzeigen, dass ein Boolescher Ausdruck (AND, NOT, OR) als Bestandteil eines Begriffs gesucht werden soll, sollte dieser Ausdruck in Anführungszeichen gesetzt werden. " " Klammern und verschachtelte Begriffe Eine Klammer fasst eine logische Verknüpfung zusammen. Alles, was in einer Klammer steht, wird als eine Einheit behandelt. Es ist so, als ob die gesamte Klammer wie ein einziges Suchwort wirkt, das selbst wieder mit anderen Suchworten verknüpft werden kann. Deshalb kann man eine Klammer mit einem weiteren Suchwort oder auch mit einer anderen Klammer neu verknüpfen. Diese Gesamtverknüpfung kann dann auch wieder eingeklammert werden. Auf diese Weise lassen sich sehr schwierige Suchabfragen zusammenbauen. Der Ausdruck Pizzeria AND (Hamburg OR Lübeck) ist der erste Klammerausdruck. Pizzeria muss auf alle Fälle vorkommen, gleichzeitig muss Hamburg oder Lübeck vorkommen: Das entspricht der Abfrage: "Ich suche... eine Pizzeria in Hamburg oder Lübeck". Der Ausdruck (Pizzeria AND (Hamburg OR Lübeck)) AND NOT Altona ist ein ineinander verschachtelter Klammerausdruck. Der erste Klammerausdruck von vorhin wurde noch einmal in eine Klammer gesetzt und als Ganzes wieder verknüpft: Das entspricht der Abfrage: "Ich suche.. eine Pizzeria in Hamburg oder Lübeck, aber nicht in Altona (einem Stadtteil von Hamburg)." L"google" AND (L"earth" OR L"maps" OR L"pictures" OR L"mail" OR L"adds") Diese Suche ist so zu verstehen, dass eines der aufgeführten Wörter gefunden wird und zwar genau in der dargestellten Reihenfolge. Also erst google dann ein anderes Wort. Es werden bei dieser Suche keine zusammenhängenden Wörter gefunden! Brot AND Weizen OR Roggen NOT Kümmel Brot soll sein, Weizen oder Roggen ist egal, aber bloß kein Kümmel. Hier stimmt der Suchstring nicht ganz, denn die Suche erfolgt der Reihe nach. Also: Brot AND Weizen sind bei dieser Formulierung verknüpft, müssen also beide vorkommen. Es soll in diesem Beispiel aber die Option Weizen oder Roggen offengehalten werden. Daher muss auch der Suchmaschine diese Absicht klar gemacht werden. Das geht, indem die beiden Begriffe Weizen und Roggen zusammengefasst werden: Die richtige Eingabe für diese Suche muss lauten: Brot AND (Weizen OR Roggen) NOT Kümmel Wildcards Boolesche_Textsuche.doc Version: 09.07.2015 8 / 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Um Wörter und deren Wortwurzeln oder -Kombinationen zu finden können Wildcards (Sternchensymbol *) benutzt werden. "wort*" alle Wörter, die mit ... beginnen "*wort" alle Wörter, die mit ... enden "*wort*" alle Wörter, die ... enthalten Bei Phrasen kann jedes Wort ein Sternchensymbol enthalten: "wort1 *wort2 wort3* *wort4*" Sonderzeichen Welche Sonderzeichen werden ignoriert und welche können als Suchworte oder in Phrasen verwendet werden? Die Suchmaschine ignoriert alle Sonderzeichen (z. B. - = ! ?), bis auf: & / + @ Diese müssen sowohl im Suchwort als auch im OCR Text vorhanden sein, damit in newsClip ein Treffer gehighlighted werden kann. Exakte oder verlustreiche (Lossy) Suche Vor dem Wort oder einer Phrase kann ein Attribut hinzugefügt werden. Gültige Attribute sind entweder exakt (E) oder Name-(N) oder lossy (L). Standard ist lossy. (Ist nichts angegeben, wird lossy verwendet) Beispiele: L"Department" -> auch departments, ... N"MAN" -> nicht man, men, ... E"Zürich" -> auch zürich, ZÜRICH, ... aber nicht "Zürichs" L"man" and L"wife" Boolesche_Textsuche.doc Version: 09.07.2015 9 / 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ L"son" or L"daughter" (E"Yen" or E"dollar") and not (E"Tokio" or E"new york") Wie unschaf ist "Lossy"? Wird bei L"Mail" auch e-Mail gefunden? Bei diesem Beispiel würde e-Mail nicht gefunden werden, da es keine Wortbeugung von Mail ist. Eine Suche nach *mail würde auch e-Mail finden. Eine Wortbeugung ist z.B. sehen / sah Boolesche_Textsuche.doc Version: 09.07.2015 10 / 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 2.3. Suchwortabgleich für Tests und wenige Abfragen Dieser Suchwortabgleich ist für Tests und wenige Abfragen geeignet. Der Aufruf dieser Suchabfrage kann konfiguriert werden. Einfachen Suchwortabgleich einrichten (auf Seite 13). Gestartet wird die Abfrage über eine Schaltfläche z. B. in der Clipping Maske. Boolesche_Textsuche.doc Version: 09.07.2015 11 / 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Mit Hinzufügen (Add) wird eine neue Suchabfrage angelegt Der Abfrage Name (Query name) wird in diesem Bereich aufgelistet Der Abfrage Name (Query name) kann hier eingegeben werden. Sprache (Language) der Abfrage auswählen In diesem Feld wird die Abfrage (Query) angelegt Die Quelle (Source) wird hierüber angelegt oder, wenn bereits vorhanden aus der Auflistung hier ausgewählt. Hier müssen die Regeln für die Booleschen Operatoren, wie in den vorhergehenden Kapitel beschrieben, beachtet werden. Die Adressaten/Kunden (Destination), werden hierüber angelegt oder, wenn bereits vorhanden hier zugeordnet Boolesche_Textsuche.doc Version: 09.07.2015 12 / 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Einfachen Suchwortabgleich einrichten Für diese Art des Suchwortabgleiches richten Sie eine neue Schaltfläche, z. B. in der Clipping Maske ein. Loggen Sie sich als Administrator ein und öffnen Sie im Menü Konfiguration den Eintrag DesignModus. Öffnen Sie mit der rechten Maus das Kontextmenü von einer beliebigen Stelle in der Clippingmaske. Zum Einloggen in den Design-Modus benötigen Sie das Administrator Login und Passwort. Gehen Sie dort auf Neu - Schaltfläche und ziehen Sie einen Rahmen für die neue Schaltfläche. Diesen Rahmen können Sie nach Belieben verschieben, vergrößern usw. Legen Sie die Eigenschaften der neuen Schaltfläche fest. Hierzu öffnen Sie mit der rechten Maustaste über der Schaltfläche das Kontextmenü und dort den Eintrag Eigenschaften. Geben Sie auf der Karteikarte Allgemein den Titel der Schaltfläche ein (z. B. Suche) Geben Sie auf der Karteikarte Script ein TCL Script für den Suchabfragedialog ein: loadmodule ccsbsrch bsearch dialog set bsobj [[page] -gethits] $bsobj -build 1 $bsobj -show -all [page] -update Weitere TCL Parameter finden Sie in der Online Hilfe für die TCL Scripte. Sie öffnen diese über das Fragezeichensymbol. Boolesche_Textsuche.doc Version: 09.07.2015 13 / 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Farbige Markierung auf der Quellseite Bei der Anzeige in newsClip werden gefundene Treffer in verschiedenen Farben dargestellt. Grundsätzlich werden alle gefundenen Wörter farbig markiert. Beispiel Farbe Beschreibung rot Artikelbasiert orange Seitenbasiert roter Umriss Es wird nur ein Teil des Suchstrings gefunden Farbige Markierung auf der Quellseite Boolesche_Textsuche.doc Version: 09.07.2015 14 / 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 2.4. Benutzeroberfläche newsClip/Boolesche Suche Artikelbasiert - Seitenbasiert Boolesche_Textsuche.doc Version: 09.07.2015 15 / 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Artikelbasiert Es werden nur artikelbasierte Suchergebnisse angezeigt. Seitenbasiert Es wird seitenbasiert gesucht und dadurch mehr Treffer gefunden. Unbekannt Alle Bei Alle werden nicht die booleschen Fundstellen sondern die Wortfundstellen angezeigt. Die Zahlen neben den Checkboxen bedeuten: 0 = Fundstellen, die artikelbasiert gefunden wurden. 1 = Fundstellen, die aufgrund der Umgebungssuche gefunden wurden. 2 = Fundstellen, die aufgrund der seitenbasierten Suche gefunden wurden. 3 = Alle Fundstellen, auch wenn diese unvollständig sind. Boolesche_Textsuche.doc Version: 09.07.2015 16 / 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 2.5. Beispiele Es folgen Beispiele für mögliche Suchabfragen: Zunächst einige einfache Beispiele basierend auf folgenden Suchbegriffen: Bonny AND Clyde Ernie AND Bert Samson AND Delila Ergebnis in newsClip - Artikelbasiert Das Ergebnis einer artikelbasierten Suche stellt sich wie unten gezeigt dar. Die gefunden Treffer werden hier rot markiert. Ergebnis in newsClip - Seitenbasiert Boolesche_Textsuche.doc Version: 09.07.2015 17 / 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Das Ergebnis einer seitenbasierten Suche stellt sich wie unten gezeigt dar. Die gefunden Treffer werden hier rot markiert (hier: "Bonnie", "Clyde"), wenn Sie artikelbasiert vorkommen und orange, wenn sie seitenbasiert vorkommen (hier "Ernie", "Bert"). Alle - Nur Teile des Booleschen Suchbegriffes Boolesche_Textsuche.doc Version: 09.07.2015 18 / 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Wird nur ein Teil des Suchbegriffes (hier "Samson") gefunden wird dies mit einem orangefarbenen Umriss symbolisiert. Alle - Boolescher Suchbegriff NOT auf Seitenbasis In diesem Beispiel wird zur Erstellung/Verwaltung der Suchbegriffe das Modul mediaPORTAL verwendet. Boolesche_Textsuche.doc Version: 09.07.2015 19 / 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Alle - Boolescher Suchbegriff AND auf Artikelbasis In diesem Beispiel wird zur Erstellung/Verwaltung der Suchbegriffe das Modul mediaPORTAL verwendet. Boolesche_Textsuche.doc Version: 09.07.2015 20 / 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Alle - Boolescher Suchbegriff AND/OR auf einem Artikel In diesem Beispiel wird zur Erstellung/Verwaltung der Suchbegriffe das Modul mediaPORTAL verwendet. Suche nach Zahlen Zahlen an sich werden gefunden, wenn sie im Dokument entsprechend vorkommen. Bei Zahlen mit Komma (Beispiel 3,6) oder Punkt (3.6) den Suchstring in diesem Beispiel so anlegen: 3 6 Suche nach E-Mail Adressen Bei der Suche nach E-Mail Adressen wird die Suche nicht so: "[email protected]" sonder so: "name nachname content conversion com" angelegt. Boolesche_Textsuche.doc Version: 09.07.2015 21 / 22 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Suche nach Begriffen in Anführungszeichen Anführungszeichen werden von newsClip nicht mitgesucht, sollten somit auch nicht eingegeben werden. Suche nach Wort + Leerzeichen + Wildcard Suche nach Wort Leerzeichen Wildcard ist erlaubt. Beispiel: page * Suche auf Seite, auf der von der LA keine Artikel erkannt werden Hier werden die Highlights erst angezeigt, wenn Zonen montiert wurden oder, wenn man die Checkbox in newsClip von "Article" auf "Pages" umstellt. Erklärung: Wenn kein Artikel vorhanden ist, kann auch nichts in einem Artikel gefunden werden. Die Layoutanalyse liefert die Daten, die auf der Quellseite verwendet werden. Hierdurch werden Artikel bestimmt. Auf Zielseiten werden bei der Booleschen Suchlogik immer einzelne Artikel plaziert. Somit sind alle Zielseiten Zonen eines Clippings ein Artikel. Die daraufhin ausgeführte zweite Suche findet somit die Fundstellen "artikelbasiert" (Es ist ja nur noch ein Artikel vorhanden). Boolesche_Textsuche.doc Version: 09.07.2015 22 / 22