Meistern neuer Herausforderungen in der Textanalyse
Transcription
Meistern neuer Herausforderungen in der Textanalyse
IBM Software Business Analytics IBM® SPSS® Text Analytics Meistern neuer Herausforderungen in der Textanalyse Aufbereiten unstrukturierter Daten für die Vorhersageanalyse Einführung Inhalt: 1 Einführung 3Was ist die Textanalyse und wie wird sie verwendet? 5Ansätze für das Textverstehen 6Der IBM SPSS Text Analytics-Prozess 22Anwenden der Textanalyse auf Unternehmensebene 23Fazit 24IBM SPSS-Produkte für die Textanalyse 25Anhang A Es ist allgemeinhin bekannt, dass die Informationsflut in den vergangenen 20 Jahren explosionsartig zugenommen hat. Diese Zunahme wird laut Experten voraussichtlich anhalten, da Millionen von Menschen, die Onlineressourcen verwenden, ihre Nutzung ausdehnen werden, und Millionen von Menschen, die heute noch ohne Zugang zu derartigen Ressourcen sind, einen solchen erhalten werden. Entsprechend sind die sowohl in Geschäfts- als auch Regierungsorganisationen gespeicherten Informationen exponentiell gewachsen. Hier einige wenige Beispiele: • • 27Anhang B 28Anhang C • 29Weiterführende Literatur zur Textanalyse 31Informationen zu IBM Business Analytics • • Meinungsforschungsumfragen werden zunehmend online durchgeführt und die Ergebnisse in Echtzeit geteilt. Der Boom in Softwareanwendungen zur Unterstützung der Abläufe in Vertrieb, Kundendienst oder Callcenter hat zu gewaltigen Textmengen geführt, die elektronisch in den Notizenfeldern dieser Anwendungen gespeichert sind. Schätzungen der Technologieanalysten bei IDC zufolge werden jeden Tag 62 Milliarden E-Mails gesendet. Durchsuchbare Websites generieren jeden Tag genügend Informationen, um Millionen von Büchern zu füllen. Blogs und Wikis, die von Einzelpersonen und Gruppen für private und berufliche Zwecke erstellt werden, nehmen exponentiell zu: Zum Zeitpunkt der Erstellung des vorliegenden Dokuments könnte die Zahl der Blogs bei 100 Millionen liegen und jede Sekunde kommt ein neues Blog hinzu. Eine solche enorme Expansion des globalen Informationsaustausches wäre vor 40 Jahren unvorstellbar gewesen. Damals waren die meisten Geschäfts- und Regierungsmitteilungen sowie Nachrichtenberichte und Werbung papierbasiert. Doch bereits vor 40 Jahren begannen visionäre Forscher nach Möglichkeiten zu suchen, das Wissen der in der Medizin und anderen wissenschaftlichen Bereichen sowie in Regierungsbehörden und in Unternehmen tätigen Personen zu erweitern, indem zuvor unbekannte Verbindungen in großen Sammlungen von Textdokumenten mithilfe von IBM Software Business Analytics Highlights: IBM SPSS Text Analytics ermittelt Verbindungen und Beziehungen in allen Arten von „unstrukturierten“ Daten. Dadurch haben Organisationen folgende Möglichkeiten: • Aufdecken von Verbindungen zwischen Personen und Organisationen und zwischen Überzeugungen, Stimmungen und Ereignissen • Transformation von Text in quantifizierbare Daten, mit denen die Leistung von Vorhersagemodellen verbessert werden können • Anleitung von Geschäftsentscheidungen mit einem besseren Verständnis für die Kunden, Mitarbeiter, Studenten oder Gemeinschaften IBM SPSS Text Analytics Computertechnologien aufgedeckt werden. Sie schufen die Fachrichtung der so genannten Computerlinguistik, die heute an zahlreichen Universitäten sowie öffentlichen und privaten Forschungszentren weltweit Anwendung findet. Die Computerlinguisten konzentrierten sich zunächst darauf, nach Möglichkeiten zum Kategorisieren und Erforschen von Konzepten zu suchen, die sich in Büchern, wissenschaftlichen Fachblättern, juristischen Schriftsätzen, Patentanmeldungen, Zeitungen, Berichten und anderen papierbasierten Unterlagen, die in digitale Formate konvertiert werden konnten , fanden. In jüngerer Zeit erweiterten die Linguisten ihr Forschungsgebiet auf Möglichkeiten, die gewaltige Menge an digital veröffentlichten Textdaten zu „schürfen“ (Data Mining). Dazu gehören beispielsweise Onlineausgaben von Zeitungen, wissenschaftliche Journale und Tagungsberichte. Darüber hinaus gibt es eine Fülle von Inhalten, die in digitaler Form entstehen, z. B. Websites, Blogs, Wikis, E-Mails, Instant Messaging (IM) sowie in Formularen, Umfragen und Wissenschafts-, Regierungs- oder Unternehmensdatenbanken eingebetteter Text. Zunehmende Anerkennung findet die Tatsache, dass die Textanalyse in verschiedenen Bereichen wissenschaftlicher Forschung zu einem wesentlichen Bestandteil geworden ist und dass sie einen wertvollen Beitrag zu anderen Formen der Datenanalyse leistet, insbesondere wenn sie eingesetzt wird, um das potenzielle menschliche Verhalten in bestimmten Situationen vorherzusagen. Die Textanalyse ist beispielsweise für eine umfassende Betrachtung des Kundenverhaltens wesentlich, da sie Einblicke in die Nuancen der Einstellungen und Meinungen bietet, die das Verhalten beeinflussen. Angesichts der exponentiellen Zunahme von Text in Onlineformaten müssen Möglichkeiten gefunden werden, um diese Daten zu strukturieren und sie Forschern und Entscheidungsträgern verfügbar zu machen. Im vorliegenden Dokument wird die Textanalyse kurz definiert, es werden verschiedene Ansätze zur Textanalyse beschrieben und anschließend wird näher auf die Techniken zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) eingegangen, die von IBM SPSS Text Analytics-Lösungen verwendet werden. Abschließend folgen Beschreibungen dieser Lösungen für und ihre Rolle in der Vorhersageanalyse. Eine kurze Definition der auf die Textanalyse bezogenen Begriffe finden Sie in Anhang A auf den Seiten 25 – 26. Diese Begriffe werden beim ersten Vorkommen in diesem Dokument kursiv dargestellt. 2 IBM Software Business Analytics IBM SPSS Text Analytics Was ist die Textanalyse und wie wird sie verwendet? Zunächst mag es hilfreich sein, die Bedeutung der Begriffe „Textanalyse“ und „Vorhersageanalyse“ zu erläutern. Im Vorfeld muss ein Missverständnis ausgeräumt werden: Textanalyse ist nicht das gleiche wie die Suche. Suchmaschinen stellen einen „Top-down-Ansatz“ für die Suche nach Informationen in Textmaterial dar. Das bedeutet, dass Endbenutzer wissen müssen, wie sie Suchanfragen strukturieren, um genau die gewünschte Information zu erhalten. Im Gegensatz dazu ist die Textanalyse ein „Bottom-Up-Ansatz“. Für die Textanalyse müssen die Benutzer keine bestimmten Suchbegriffe kennen. Stattdessen deckt die Textanalyse die Konzepte und Motive auf, die in einem Korpus von Dokumenten enthalten sind, und bildet die Beziehungen zwischen ihnen ab. Eine eher formelle Definition wäre folgende: Die Textanalyse ist eine Methode zum Extrahieren nutzbaren Wissens aus unstrukturierten Textdaten durch Identifizierung der Kernkonzepte, Stimmungen und Trends. Dieses Wissen dient dann zur Unterstützung des Entscheidungsprozesses. Bei einem „Dokument“ kann es sich um einen Artikel in einem wissenschaftlichen Fachblatt, Freitextantworten auf eine Markforschungsumfrage, Datensätze aus einer Datenbank (z. B. Callcenter-Notizen oder Kunden-E-Mails), Inhalte aus einer Nachrichtenmeldung oder auch um einen Tatortbericht handeln. Die Textanalyse entdeckt Verbindungen und Beziehungen nicht innerhalb eines einzelnen Dokuments, jedoch innerhalb einer großen Sammlung oder eines „Korpus“ von Dokumenten. Diese Verbindungen und Beziehungen können dann so organisiert werden, dass eine eigenständige Analyse oder eine Analyse in Kombination mit anderen Daten ermöglicht wird. Die Anwender der Textanalyse können Algorithmen zur Beschreibung von Konzeptclustern oder Zusammenhängen zwischen bestimmten Konzepten oder benannten Entitäten einsetzen. Die Ergebnisse der Textanalyse können dann in Modelle zur Vorhersageanalyse integriert werden. Vorhersageanalysen versorgen den Entscheidungsprozess mit Informationen und steuern ihn, indem eine Kombination aus fortgeschrittenen Analysen und Entscheidungsoptimierung auf die Daten angewendet werden mit dem Ziel, Geschäftsprozesse zu verbessern, um bestimmte unternehmerische Zielvorgaben zu erreichen. Durch die Einbeziehung von Text- oder „unstrukturierten“ Daten neben den in Datenbanken oder Transaktionsdatensätzen vorhandenen „strukturierten“ Daten können die durch Data Mining gewonnenen Einblicke vertieft werden. Textdaten lassen häufig Einstellungen und Stimmungen erkennen, die in Kombination mit demografischen oder verhaltensbezogenen Daten Analysten in die Lage versetzen, Ereignisse, Verhalten oder Aktionen, an denen sich Einzelpersonen oder Gruppen wahrscheinlich beteiligen, zuverlässiger vorherzusagen. 3 IBM Software Business Analytics Die Textanalyse verfolgt einen völlig anderen Ansatz als Suchmaschinentechnologien. Für die Textanalyse müssen die Benutzer keine bestimmten Suchbegriffe kennen. Stattdessen deckt die Textanalyse die Konzepte und Motive, die in einem Korpus von Dokumenten enthalten sind, auf und bildet die Beziehungen zwischen ihnen ab. IBM SPSS Text Analytics Die Textanalyse bietet Organisationen in vielen verschiedenen Einsatzgebieten erwiesenermaßen messbare Vorteile. Für gewerbliche Organisationen gehören dazu folgende: • • • • Unterstützung eines verbesserten Customer Relationship Management (CRM) durch Bereitstellen einer umfassenderen Betrachtung der Kunden, ihrer Wünsche und Präferenzen, was zu effektiverem Marketing, einer reduzierten Kundenabwanderungsrate und zu verbesserter Kundentreue sowie einem verbesserten Lebenszeitwert führt Erfassen der Kundenmeinung durch Umfragen oder Daten aus Web 2.0-Interaktionen zur Verbesserung von Kundenbindung und Markenüberwachung Beschleunigung der Zykluszeiten in der Entwicklung und Verbesserung von Produkten sowie frühzeitige Erkennung von Produktproblemen durch Garantieanalysen Erlangen eines besseren Überblicks über den Wettbewerb Die Textanalyse findet auch im öffentlichen Sektor Anwendung, zum Beispiel in folgenden Bereichen: • • • Aufdecken von Mustern, die auf möglicherweise betrügerisches Verhalten schließen lassen Ermitteln von Verbindungen zwischen kriminellen Gruppen Identifizieren möglicher Sicherheitsrisiken oder illegaler Aktivität Darüber hinaus kann die Textanalyse in der Wissenschaft und der medizinischen Forschung unschätzbare Dienste leisten, z. B. in folgenden Fällen: • • • Beschleunigung der Untersuchung von sekundären Forschungsmaterialien, wie Patentberichte und Artikel in Fachblättern Identifizieren zuvor unbekannter Zusammenhänge zwischen Personen, Forschungsprojekten oder Produkten Minimieren des Zeitaufwands für den Arzneimittelentdeckungsprozess Dies sind nur einige Beispiele dafür, wie die Textanalyse eingesetzt wird und wie sie die Vorhersageanalyse verbessern kann. Weitere Anwendungsbereiche kommen täglich hinzu. Die Organisationen können es sich einfach nicht leisten, diese Fülle von Textinformationen zu ignorieren. 4 IBM Software Business Analytics IBM SPSS Text Analytics Ansätze für das Textverstehen Textdaten lassen häufig Einstellungen und Stimmungen erkennen, die Analysten in Kombination mit demografischen oder verhaltensbezogenen Daten in die Lage versetzen, Ereignisse, Verhalten oder Aktionen, an denen sich Einzelpersonen oder Gruppen wahrscheinlich beteiligen, zuverlässiger vorherzusagen. Zur Durchführung einer Textanalyse stehen einem Unternehmen mehrere Ansätze zur Verfügung. In der Vergangenheit musste im Hinblick auf Genauigkeit und Geschwindigkeit sowie im Hinblick auf die Personalkosten und die Kosten der Computertechnologien ein Kompromiss gefunden werden. Heute profitieren Organisationen von den Vorteilen einer verbesserten Genauigkeit und reduzierter Kosten durch Anwenden von Computertechnologien auf die Textanalyse. Es besteht jedoch stets die Notwendigkeit, menschliches Wissen in den Prozess zu integrieren. Ein erster Ansatz zum Textverstehen besteht ganz einfach darin, Dokumente von Personen lesen zu lassen, die deren Inhalte notieren und entscheiden, in welche Kategorien sie abgelegt werden sollten. Marktforscher kategorisieren oder „kodieren“ beispielsweise häufig Freitextantworten in Umfragen. Da Personen Texte gut verstehen, ist dieser Ansatz zwar äußerst genau, jedoch zeitaufwändig und kostspielig. Darüber hinaus kann ein manueller Ansatz keine Anleitung zum Identifizieren von Beziehungen oder Trends in den analysierten Daten bieten. Angesichts der enormen Textmengen, die nun häufig auch in mehreren Sprachen verfügbar sind, sind andere Ansätze erforderlich. Ein zweiter Ansatz besteht in der Anwendung automatisierter Lösungen auf der Basis von Statistiken. Einige dieser Lösungen zählen jedoch lediglich, wie oft Begriffe vorkommen, und berechnen daraus ihre Nähe zu verwandten Begriffen. Da sie nicht in der Lage sind, Mehrdeutigkeiten in menschlichen Sprachen zu berücksichtigen, gehen relevante Beziehungen unter Umständen in der Fülle an irrelevanten Erkenntnissen unter – oder werden gänzlich übersehen. Einige dieser statistikbasierten Lösungen wiegen diesen Mangel auf, indem sie Analysten Möglichkeiten zum Erstellen von Regelwerken bieten, mit denen irrelevante Ergebnisse unterdrückt werden können. Doch diese Regelwerke müssen von den Analysten erstellt und ständig aktualisiert werden, was zusätzliche Kosten und Komplexität zur Folge hat. 5 IBM Software Business Analytics Die linguistikbasierte Textanalyse bietet die Geschwindigkeit und Kosteneffizienz statistikbasierter Systeme, jedoch mit einem weitaus höheren Grad an Genauigkeit. Darüber hinaus sind die beteiligten Techniken transparenter. Dies bedeutet, dass sie von Benutzern geändert werden können, um die Genauigkeit der Ergebnisse weiter zu erhöhen. IBM SPSS Text Analytics Andere statistikbasierte Lösungen setzen auf lernfähige Werkzeuge wie bayesianische Netze, neuronale Netze, Support Vector Machines (SVM) bzw. die latente semantische Analyse (Latent Semantic Analysis, LSA). Während diese Lösungen effektiver als andere statistische Ansätze sein können, ist ihr Nachteil, dass sie „Black Boxes“ sind, d. h., sie verwenden versteckte Mechanismen, die nur von hochqualifizierten Statistikern oder Programmierern angepasst werden können. Die linguistikbasierte Textanalyse bietet die Geschwindigkeit und Kosteneffizienz statistikbasierter Systeme, jedoch mit einem weitaus höheren Grad an Genauigkeit. Diese Textanalyse basiert auf dem als Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) bekannten Forschungsgebiet. Das Verstehen von Sprache, das mit dem NLP-Ansatz möglich ist, durchbricht die Mehrdeutigkeit von Text und macht die linguistikbasierte Textanalyse so zu dem Ansatz mit der größtmöglichen Genauigkeit. Anfänglich erfordern linguistikbasierte Lösungen u. U. menschliche Eingriffe, z. B. beim Entwickeln von Wörterbüchern für eine bestimmte Branche oder ein Forschungsgebiet. Der daraus resultierende Vorteil ist jedoch nicht von der Hand zu weisen: Die Ergebnisse sind genauer und die beteiligten Techniken transparenter. Dies bedeutet, dass sie von Benutzern geändert werden können, um die Genauigkeit der Ergebnisse weiter zu erhöhen. Der IBM SPSS Text Analytics-Prozess Wie das Data Mining ist auch die Textanalyse ein iterativer Prozess, der am effektivsten ist, wenn er einer bewährten Methode folgt. Dadurch wird die Produktivität der Analysten maximiert und die Vergleichbarkeit der Ergebnisse unterstützt. Erkenntnisse aus der einen Analyse können außerdem dazu verwendet werden, andere Analysen mit Informationen zu versorgen oder diese anzuleiten, und datengesteuerte Entscheidungen werden erleichtert. Beim Data Mining wird der auf Industrienormen basierende Cross-Industry Standard Process for Data Mining (CRISP-DM) eingesetzt, der von Tausenden von Organisationen weltweit verwendet wird. Die gleiche Methode unterstützt auch die Textanalyse. In diesem Dokument werden die linguistischen Prozesse der Textanalyse beschrieben, die dem groben Leitfaden der CRISP-DM-Methode insofern folgen, als sobald die Daten verstanden, aufbereitet und modelliert sind, die resultierenden Modelle bewertet werden, unabhängig davon, ob sie nur textanalytische Ergebnisse umfassen oder mit anderen Daten kombiniert sind. Die Ergebnisse werden schließlich entweder als Berichte oder als Auswertungen bereitgestellt und speisen somit automatische Systeme wie Empfehlungs-Engines. Wie beim Data Mining bestehen die beiden Hauptschritte bei der Textanalyse in der Datenaufbereitung und dem Datenverständnis. 6 IBM Software Business Analytics IBM SPSS Text Analytics In den nächsten Abschnitten wird beschrieben, wie Analysten die IBM SPSS Text Analytics-Produkte für die Textanalyse einsetzen. Der Prozess umfasst sieben Hauptschritte: 1. Vorbereiten des Texts für die Analyse 2. Extrahieren von Konzepten 3. Aufdecken von Meinungen, Beziehungen, Fakten und Ereignissen mittels Textlinkanalyse 4. Aufbau von Kategorien 5. Erstellen von Textanalysemodellen 6. Zusammenführen von Textanalysemodellen mit anderen Datenmodellen 7. Bereitstellen der Ergebnisse für Vorhersagemodelle Da der Schwerpunkt dieses Dokuments auf den in IBM SPSS Text Analytics-Produkten integrierten Funktionen liegt, werden die ersten vier Schritte dieses Prozesses behandelt, wobei auch am Rande auf die Bereitstellung der Ergebnisse eingegangen wird. Workflow Prepare text for analysis Apply Text Link Analysis Extract concepts Build categories Deploy to predictive models Workflow Der Workflow ist ähnlich, unabhängig davon, ob das Ziel der Analyse Apply Text Deploy to predictive Build categories in Fachblättern, von Link Analysis interne Dokumente, Webseiten, der Wortlaut models Umfrageantworten, Callcenter-Notizen oder andere Textdatenquellen A Apply pplly T pp Text ext Deploy tosind. predictive ctive Build categories Workflow Prepare text for analysis Extract conceptsArtikel Prepare text for analysis Extract concep concepts conc epts ep ts Link Analysis Analys Analy A naly na lys ly s Prepare text for analysis Extract concep concepts conc epts ep ts A Apply pplly T pp Text ext Link Analysis Analys Analy A naly na lys ly s Build categories Deploy to predictive ctive models Prepare P rep re par are e text text for analysis analysis Extract concepts A Apply pplly T pp Text ext Link Analysis Analysi Build categories Deploy to predictive tive models models Workflow Workflow Workflow Workflow Prepare P rep re par are e text text for analysis analysis Prepare P rep re par are e text text for analysis Workflow Workflow Prepare P rep re par are e text text for analysis Prepare P rep re par are e text text for analysis analysis Workflow 1. Schritt: Vorbereiten des Texts für die Analyse Zur Durchführung einer Textanalyse ist eine Sammlung oder ein A Apply pplly T pp Text ext Deploykleine to predictive tive vonLink Dokumenten erforderlich. Ein Korpus kann eine Build categories Analysis Analysi models Stichprobe oder Millionen von Dokumenten umfassen. DieDeploy DokumenApply Text to predictive ctive Build categories Extract concepts Link Analysis te können in mehreren Sprachen verfasst sein und verschiedene models Dateitypen repräsentieren: HTML, PDF, ASCII, E-Mail und gängige Microsoft® Office-Formate. Extract concepts „Korpus“ Extract conceptsIBM Apply Text Deploy to predictive ctive SPSS Text Analytics-Lösungen können Text in allen genannten Build categories Link Analysis models ® ® Formaten verarbeiten. Darüber hinaus können sie in IBM SPSS Data A Apply pply pp ly T Text ext Deploy to predictive ctive Build categories Extract concepts Link Analysis Analys Analy s gespeicherten Text sowie Text aus RSS-Feeds models Collection-Formaten (einschließlich Blogs und News-Feeds), Datenbanken und anderen ODBC-kompatiblen Quellen verarbeiten. Workflow Prepare P rep re par are e text text for analysis analysis Extract concepts A Apply pply pp ly T Text ext Link Analysis Analys Analy s Build categories Deploy to predictive ctive models Prepare P repar epare e text text for analysis analys analys ysis is Extract concepts Apply App pplly Text Text Link Analysis Analys Analy s Build categories Deploy to predictive models Apply App pplly Text Text Link Analysis Analys Analy s Build categories Deploy to predictive models Workflow 7 Prepare P repar epare e text text for analysis analys analys ysis is Extract concepts IBM Software Business Analytics IBM SPSS Text Analytics IBM SPSS Text Analytics-Lösungen verwenden leistungsstarke, linguistikbasierte Funktionen zur Vorbereitung von Textdokumenten für die Analyse. Die Vorbereitung der Dokumente erfolgt in drei Schritten: • • • Sprachidentifikation Dokumentkonvertierung Segmentierung Obwohl diese Schritte im Hintergrund ausgeführt werden, ist es nützlich, die Vorgänge dieser Phase des Textanalyseprozesses zu verstehen. Sprachidentifikation Für Korpora, die mehrere Sprachen verwenden, ist die Sprachidentifikation der erste Schritt im Extraktionsprozess. (Für Korpora mit nur einer Sprache entfällt dieser Schritt.) Das IBM SPSS Text Analytics-Extraktionsprogramm erkennt über 80 Sprachen in verschiedenen Formaten basierend auf für jede Sprache spezifische Muster, die als „n-Gramme“ bezeichnet werden. Zur Identifizierung der einzelnen Sprachen werden rund 400 n-Gramme verwendet. Nachfolgend ist eine Teilmenge von Tri-Grammen aufgeführt, die zur Erkennung von Französisch dienen (einige sind Buchstabenkombinationen, andere sind Kombinationen aus Buchstaben und Leerzeichen): „ le“, „omm“, „ à“, „mma“, „le “, „du “, „nt “, „ma “, „ et“, „té “, „ dé“, „les“, „ur “, „ux “, „une“, „ ré“, „iod“, „pou“, „rp“, „ui “, „ait“, „rpa“, „pré“, „ ce“, „ité“, „ire“, „ée “, „com“, „par“, „ef “, „od “, „au “, „iqu“, „ref“, „ ét“, „oit“, „lpa“, „our“, „tio“, „air“, „eur“, „ du“, „és“ „.av“, „ns “, „tai“ Mit IBM SPSS Text Analytics-Lösungen können sieben Muttersprachen extrahiert werden: Englisch, Französisch, Spanisch, Niederländisch, Deutsch, Italienisch und Portugiesisch. (IBM SPSS Text AnalyticsProdukte unterstützen außerdem die Extraktion von japanischen Konzepten. Dabei findet jedoch ein anderer Prozess als der in diesem Dokument beschriebene Anwendung.) Durch den Einsatz der IBM® SPSS® Modeler Premium Language Translation Interface (Schnittstelle zur Übersetzung von Sprache) werden außerdem Übersetzungen aus zahlreichen Sprachen unterstützt, einschließlich: Arabisch, Chinesisch, Hindi, Persisch, Rumänisch, Russisch, Somali und Schwedisch. Dokumentkonvertierung Nachdem die Sprache identifiziert wurde, konvertiert die IBM SPSS Text Analytics-Lösung die Dokumente in ein Format, das für die weitere Analyse verwendet werden kann. Gängige Dateitypen werden dabei mithilfe von integrierten Filtern in ein Klartextformat konvertiert. 8 IBM Software Business Analytics IBM SPSS Text Analytics Text aus Datenbanken und anderen ODBC-kompatiblen Quellen kann ebenfalls konvertiert werden. In einem XML-basierten Dokument kann mithilfe der Tags beispielsweise angegeben werden, welcher Text extrahiert werden soll, einschließlich Seitentitel, Metadaten und DokumentTags, falls gewünscht. Mit der IBM SPSS Text Analytics-Lösung werden zudem Nichttextelemente wie Grafikdateien entfernt, die für die Textanalyse unbrauchbar sind. Segmentierung Nachdem die Dokumente in ein Klartextformat konvertiert wurden, segmentiert die Textanalyselösung den Text in einzelne Elemente, aus denen die Konzepte extrahiert werden. Die IBM SPSS Text AnalyticsSoftware identifiziert Markierungen für das Ende von Sätzen, Absätzen und Dokumenten. Außerdem werden bestimmte Sonderzeichen oder Zeichenfolgen entfernt bzw. durch Leerzeichen ersetzt. Workflow Prepare text for analysis Extract concepts In diesem Schritt wird der Text von der Software automatisch optimal für das Data Mining korrigiert oder aufbereitet. Die Software identifiziert beispielsweise Zeichenfolgen aus dem Eingabetext auf der Basis von Trennzeichen. Trennzeichen umfassen Leerzeichen, Tabulatoren, Zeilenumschaltungen und Satzzeichen. In den nächsten Schritten des Prozesses wird jedes Wort, das ein Satzzeichen enthält, dem kein Leerzeichen vorangeht oder folgt, von den IBM SPSS Text Analytics-Technologien als Teil eines Begriffs behandelt. Beispiele: Apply Text Deploy to predictive Link Analysis • • Workflow Prepare text for analysis • Extract concep concepts conc epts ep ts Build categories models U.S. xalpha(s) Protein x,k-ATPase Beta-m Untereinheit Die IBM SPSSAApply Text Analytics-Lösungen können außerdemDeploy fehlerhafte pplly T pp Text ext to predictive ctive Build categories Link Analysis Analys Analy A naly na lys ly s models Zeichensetzung im Text berücksichtigen, z. B. falsche Verwendung von Punkten, Kommata, Schrägstrichen und anderen Satzzeichen. Workflow Prepare P rep re par are e text text for analysis analysis Workflow Prepare P rep re par are e text text for analysis Deploy to predictive tive models Mit den Prozessen der Konzeptextraktion können Analysten Konzepte aufdecken, die ihnen andernfalls möglicherweise in einem bestimmten Apply Text Deploy to predictive ctive Build categories Extract concepts Link Analysis verborgen bleiben würden. Außerdem können models sie Satz von Dokumenten Instanzen dieser Konzepte in einer großen Sammlung von Textdokumenten finden, wo immer sie auftreten. Der Prozess zur Extraktion von Konzepten umfasst fünf Hauptschritte: Extract concepts • • • • Workflow • Prepare P repar epare e text text for analysis analys analys ysis is Build categories 2. Schritt: Extrahieren von Konzepten Workflow Prepare P rep re par are e text text for analysis analysis A Apply pplly T pp Text ext Link Analysis Analysi Extract concepts A Apply pply pp ly T Text ext Build categories Link Analysis Analys Analy s Verwalten linguistischer Ressourcen Termextrahierung Zuweisung des Typs Erstellen von Äquivalenzklassen Indizierung Apply App pplly Text Text Link Analysis Analys Analy s Extract concepts 9 Build categories Deploy to predictive ctive models Deploy to predictive models IBM Software Business Analytics IBM SPSS Text Analytics Verwalten linguistischer Ressourcen Die mit der IBM SPSS Text Analytics-Lösung mitgelieferten linguistischen Ressourcen müssen nicht angepasst werden. Eine Anpassung ist jedoch möglich und führt in einigen Fällen zur Steigerung der Effizienz der Konzeptextrahierung. Obwohl die mit der IBM SPSS Text Analytics-Lösung mitgelieferten linguistischen Ressourcen in den meisten Fällen nicht geändert werden müssen, ist es hilfreich zu wissen, welche Ressourcen verfügbar sind. Linguistische Ressourcen sind hierarchisch aufgebaut. Auf der obersten Ebene befinden sich spezialisierte Ressourcenvorlagen, die jeweils einen Satz aus Bibliotheken, zusammengestellten Ressourcen sowie einige erweiterte Ressourcen enthalten. Bibliotheken umfassen wiederum mehrere Wörterbücher. Für alle unterstützten Sprachen ist eine IBM SPSS Standard-Ressourcenvorlage im Lieferumfang enthalten. Für englischsprachige Texte sind außerdem benutzerdefinierte Vorlagen für eine Vielzahl bestimmter Anwendungsbereiche enthalten, z. B. CRM, Marketinginformationen, Genontologie, Genomforschung, medizinische Fachtitel oder MeSH®, IT, Meinungen und Sicherheitsinformationen. Für einige andere Sprachen sind ebenfalls benutzerdefinierte Vorlagen verfügbar. Jede Vorlage kann mehrere Bibliotheken umfassen. Die Budgetbibliothek (Budget Library) dient z. B. dazu, Begriffe, die sich auf Kosten beziehen, zu extrahieren. Die Meinungsbibliothek (Opinions Library) enthält Tausende von Worten, die Einstellungen, Qualifikatoren oder Präferenzen darstellen, die auf eine Meinung zu einem Thema hinweisen. Sie ist in den Sprachen Englisch, Französisch, Spanisch, Niederländisch, Deutsch und Japanisch verfügbar. Eine Kernbibliothek (Core Library) steht in allen Sprachen zur Verfügung. Jede Bibliothek enthält mehrere Wörterbücher, die aus Wortlisten, Beziehungen und anderen Informationen bestehen, die zum Angeben oder Anpassen der Extrahierung dienen. In den IBM SPSS Text Analytics-Lösungen stehen zwei Arten von Wörterbüchern zur Verfügung: zusammengestellte Wörterbücher, die von Benutzern nicht geändert werden können, und andere Wörterbücher, die geändert werden können. Die IBM SPSS Text Analytics-Lösungen umfassen zwei Arten von zusammengestellten Wörterbüchern: • • Ein Extraktionswörterbuch für jede Sprache, das eine Liste von Grundformen mit einem Code für die Wortart (Part of Speech) umfasst. Die im Extraktionswörterbuch für englischsprachige Texte angegebenen Wortarten sind z. B. Nomen, Verb, Adjektiv, Adverb, Partizip, Koordinator, Determinator und Präposition. Wörterbücher für benannte Entitäten, die aus Listen mit Eigennamen bestehen, welche zur Zuweisung von extrahierten Begriffen zu Typen dienen. Typen umfassen Organisationen, Personen, Orte und Produkte. 10 IBM Software Business Analytics IBM SPSS Text Analytics Die Wörterbücher müssen von Benutzern nicht angepasst werden, um zufriedenstellende Ergebnisse von den IBM SPSS Text Analytics-Lösungen zu erhalten. Die Extraktionseffizienz im Text-Mining kann jedoch durch benutzerdefinierte Wörterbücher verbessert werden. Benutzerdefinierte Wörterbücher sind beispielsweise folgende: • • • • • Typwörterbücher, die einem Wort eine bestimmte Kategorie zuordnen. Sie können z. B. Typen erstellen, die in Ihrer Branche häufig auftreten und die Produktnamen Ihres Unternehmens einschließen. Auf diese Weise kann beispielsweise eine Organisation, die Garantieansprüche in Verbindung mit Fahrzeugverkäufen prüft, die verschiedenen Kfz-Teile, auf die in den Dokumenten verwiesen wird, korrekt typisieren. Ausschlusswörterbücher, die das Ausschließen von Konzepten aus der Konzeptdatenbank erzwingen. Synonymwörterbücher, die Begriffe mit ähnlichen Bedeutungen identifizieren, um Konzepte mit einem höheren Grad an Aussagekraft zu erzeugen. Diese Wörterbücher dienen auch zum Definieren von Akronymen. Wörterbücher mit Schlüsselwörtern, die Produkte, Organisationen, Namen, Begriffe und Orte durch Verifizieren des Vorhandenseins von Wörtern identifizieren. Das globale Wörterbuch, das Vorrang vor Typ- und Schlüsselwortwörterbüchern hat, um Mehrdeutigkeiten zwischen diesen Wörterbüchern im Falle von bestimmen Wörtern (in bestimmten Bereichen) abzugleichen. IBM SPSS Text Analytics-Produkte umfassen den IBM SPSS Ressourceneditor. Mit dem Ressourceneditor können Benutzer vorhandene Wörterbücher bearbeiten, benutzerdefinierte Wörterbücher erstellen und bearbeiten und spezielle Regeln erstellen, wie beispielsweise Regeln für die IBM Textlinkanalyse (siehe Seite 11 – 13). Außerdem bietet der IBM Ressourceneditor die Möglichkeit, benutzerdefinierte Typzuweisungen zu erstellen. Ein Unternehmen, das auf die Automobilbranche bezogene Dokumente prüft, kann z. B. eine Typzuweisung für bestimmte PKW-Modelle definieren. Die linguistischen Ressourcen des IBM SPSS Ressourceneditors sind so entwickelt worden, dass eine Anwendung von verschiedenen Anwendungen und Benutzern gemeinsam verwendet werden kann. Analysten können vorhandene Wörterbücher problemlos importieren sowie Vorlagen und Bibliotheken mit benutzerdefinierten Wörterbüchern exportieren und freigeben, Regeln festlegen und Prioritäten für den Termextrahierungsvorgang definieren. Termextrahierung Der erste Schritt im Konzeptextrahierungsprozess der IBM SPSS Text Analytics-Lösung besteht darin, Kandidaten zu ermitteln, die dann weiter analysiert werden. Kandidaten sind Wörter oder Wortgruppen, mit denen Konzepte im Text identifiziert werden. Zur Erleichterung dieses Prozesses umfassen die IBM SPSS-Lösungen integrierte Techniken zur Identifizierung linguistischer und nichtlinguistischer Entitäten. 11 IBM Software Business Analytics IBM SPSS Text Analytics Identifizierung nichtlinguistischer Entitäten Die IBM SPSS Text Analytics-Lösungen ermöglichen die Extrahierung von Entitäten innerhalb von Text, die nicht als Wörter betrachtet werden. Diese nichtlinguistischen Entitäten umfassen u. a. folgende: URLs, E-Mail- und IP-Adressen, Telefonnummern, Sozialversicherungsnummern, Währungen, Uhrzeit und Datum, Gewichte und Maßeinheiten. Die IBM SPSS Text Analytics-Lösung verwendet ein Regelwerk, das als „reguläre Ausdrücke“ bezeichnet wird, um bekannte Muster für diese nichtlinguistischen Entitäten zu extrahieren. Eine Zahl im Format 999-99-9999 würde z. B. extrahiert und als US-amerikanische Sozialversicherungsnummer typisiert werden. Entsprechend würde eine Nummer wie z. B. +33.1.55.55.5555 extrahiert und als französische Telefonnummer klassifiziert werden. Um die Verwendbarkeit zu erweitern, können Benutzer eigene Regeln zum Identifizieren nichtlinguistischer Entitäten festlegen. Identifizierung linguistischer Entitäten Nachdem benannte und nichtlinguistische Entitäten identifiziert wurden, verwendet die IBM SPSS Text Analytics-Software linguistische Extraktionstechniken, um relevante Wörter und Wortgruppen aus dem Eingabetext zu identifizieren. Ein Begriff, der aus einem Wort besteht, wird als „Uniterm“ bezeichnet. Mehrere Wörter umfassende Begriffe sind so genannte „Multiterme“. Einzelne Wörter, die nicht im Extrahierungswörterbuch enthalten sind, gelten als Uniterme. Uniterme erhalten abhängig von dem Wert, den sie für die Analyse darstellen, eine besondere Behandlung. Multiterme-Kandidaten sind häufig aus grammatikalischer/linguistischer Sicht als Nominalphrasen strukturiert. Diese Multiterme werden über Extraktoren auf der Grundlage von Wortklasse-Mustern ermittelt. Der Multiterm Sportwagen, der dem Wortklasse-Muster „Nomen-Nomen“ entspricht, besteht beispielsweise aus zwei Komponenten. Der Multiterm schneller Sportwagen, der dem Wortklasse-Muster „Adjektiv-NomenNomen“ entspricht, besteht aus drei Komponenten. Jede Sprache weist im Normalfall rund 15 – 20 Muster auf. Die maximale Mustergröße liegt abhängig von der jeweiligen Sprache bei etwa sieben Komponenten. Die IBM SPSS-Lösungen werden mit Wortklasse-Standardmustern ausgeliefert, die im Wesentlichen Nominalphrasen darstellen. Benutzer können mit dem Ressourceneditor der Software jedoch kurzerhand eigene Muster erstellen (siehe Seite 11). Zuweisung des Typs Nach dem Extrahieren der Kandidaten wird diesen ein Typ zugewiesen. Das Zuweisen eines Typs erleichtert das Verstehen des Inhalts eines Textdokuments. Ein Schritt in diesem Prozess ist die Ermittlung benannter Entitäten („Named Entities“). Benannte Entitäten umfassen Personen, Unternehmen, Produktnamen und Orte. In vielen Fällen spielen die Listen mit benannten Entitäten eine wichtige Rolle bei der Festlegung von Kategorien oder bei der Aufdeckung von Beziehungen, die wiederum Aufschluss über bestimmte Bedingungen oder Verhaltensmuster geben. 12 IBM Software Business Analytics IBM SPSS Text Analytics Mit Wörterbüchern für benannte Entitäten sowie internen Wörterbüchern wird das Vorhandensein von Wörtern oder Mustern überprüft und ein Term als benannte Entität eingestuft. Diese Wörterbücher enthalten für jede Sprache eine umfassende Liste mit Vornamen. Bei Ermittlung dieser Vornamen werden diese von der Textanalyselösung als Kandidaten behandelt. Außerdem verwendet die Textanalyselösung einen bestimmten Algorithmus für Zeichenfolgen, die aus Großbuchstaben bestehen (z. B. bei Berufsbezeichnungen), sodass diese speziellen Muster extrahiert werden können. Wissenschaftliche Termini wie Gene, Aminosäuren und Proteine können ebenfalls ermittelt werden. Dazu werden Erweiterungen der in der Anwendung eingebetteten linguistischen Regeln verwendet. Die IBM SPSS Text Analytics-Lösungen stellen außerdem zusammengesetzte und benutzerdefinierte Wörterbücher bereit, um anderen extrahierten Termen einen semantischen Typ zuzuweisen. Mithilfe eines Systems aus Prioritäten überprüft die Lösung eine extrahierte Liste von Begriffen. Die zusammengesetzten Wörterbücher erzwingen eine bestimmte Reihenfolge bei der Typisierung von Organisationen, Einzelpersonen, Produkten und Orten. Benutzerdefinierte Wörterbücher werden in der Reihenfolge angewendet, in der sie im Ressourceneditor definiert sind. Erstellen von Äquivalenzklassen Bei einer Äquivalenzklasse handelt es sich um eine einzelne Form von mehreren Varianten desselben Wortes oder Ausdrucks. Die IBM SPSS Text Analytics-Lösung verwendet eine Reihe von Synonymdateien und integrierten Algorithmen, um Kandidaten zu vergleichen und Äquivalenzklassen zu ermitteln. Diese Funktion stellt zum Beispiel sicher, dass die Begriffe Leiter des Unternehmens und Unternehmensleiter nicht als unterschiedliche Konzepte betrachtet werden. Außerdem sorgt die Funktion für Konsistenz der extrahierten Ausdrücken über mehrere Extrahierungsdurchgänge. Benutzer können außerdem die Substitution eines Terms durch einen anderen erzwingen. Nehmen Sie z. B. folgende Ersetzungen vor: • • Mgr durch Manager k/A durch keine Angabe Von der Textanalyselösung werden Substitutionen stets angewendet, auch wenn sich der Ersatzterm nicht in den eigentlichen Dokumenten befindet. Darüber hinaus gruppiert die Textanalyselösung mithilfe von Fuzzy-Logik (unscharfe Logik) ähnliche Ausdrücke, ohne dass benutzerdefinierte Ressourcen erforderlich sind. Dabei werden Rechtschreibvarianten ermittelt, indem Vokale und doppelt oder dreifach auftretende Konsonanten entfernt werden und anschließend ein Vergleich durchgeführt wird. Beispiele: • • • techinischer Support = technischer Support korregieren = korrigieren addidas = adidas 13 IBM Software Business Analytics IBM SPSS Text Analytics Diese Funktionen sind äußerst nützlich, wenn die Textqualität schlecht ist, wie dies beispielsweise bei Freitextantworten für Umfragen, E-Mails und CRM-Daten der Fall sein kann. Mithilfe von integrierten Algorithmen erkennt und „korrigiert“ die IBM SPSS Text Analytics-Software außerdem Folgendes: (Weitere Informationen zu diesen Algorithmen finden Sie in Anhang B auf Seite 27.) • • • • • Workflow Prepare text for analysis Workflow Prepare text for analysis Entfernen von Beugungsendungen. Beispiel: US-Konsument = US-Konsumenten. Entfernen von Funktionswörtern. Produktion für die Industrie = Produktion für Industrie. Trennzeichenvarianten. Stress frei = stressfrei. Außerdem stress-frei = stressfrei. Permutation der Komponenten. Beispiel: Vertreter der Unternehmen = Unternehmensvertreter. Akzentuierte/nichtakzentuierte Zeichen. Beispiel: evguéni primakov = evgueni primakov. Um zu bestimmen, welches Konzept als Zielkonzept für die Äquivalenzklasse verwendet werden soll, wendet der Extraktor folgende Apply Text Deploy to predictive Extract concepts Regeln in der angegebenen Reihenfolge Build an: categories Link Analysis models Benutzerdefiniertes Synonym Die am häufigsten auftretende Form des Begriffs im Korpus • Die kürzeste Form des Begriffs (Diese entspricht im Normalfall der Grundform des Begriffs.) A Apply pplly T pp Text ext Deploy to predictive ctive Build categories Extract concep concepts conc epts ep ts • Die erste Form, die Link Analysis Analys Analy A naly na lys ly s in der Liste der extrahierten Begriffe auftritt models • Indizierung Workflow Prepare P rep re par are e text text for analysis analysis Am Ende des Extrahierungsprozesses präsentiert die Textanalyselösung eine Liste mit extrahierten Termen, die in Gruppen zusammengefasst und einem Typ zugewiesen sind. Indizes geben an, wie häufig ein Term A Apply pplly T pp Text ext Deploy to predictive tive Build categories Extract concepts in jedem Dokument werden Link Analysis Analysisowie im Korpus insgesamt vorkommt. Sie models für jedes Dokument im Korpus präsentiert. Workflow Prepare P rep re par are e text text for analysis Build categories Deploy to predictive ctive models 3. Schritt: Aufdecken von Meinungen, Beziehungen, Fakten und Ereignissen mittels IBM SPSS Text Link Analysis Workflow Prepare P rep re par are e text text for analysis analysis Apply Text Link Analysis Extract concepts Extract concepts Nach Abschluss des Extrahierungsprozesses haben Analysten dieto predictive A Apply pply pp ly T Text ext Deploy ctive Build categories Link Analysis Analys Analy s models Option, mittels Textlinkanalyse Beziehungen zwischen Konzepten auf Satzebene sowie Meinungen oder Qualifikatoren, die mit diesen Konzepten verbunden sind, zu beschreiben. Workflow Prepare P repar epare e text text for analysis analys analys ysis is Apply App pplly Text Text Link Analysis Analys Analy s Extract concepts 14 Build categories Deploy to predictive models IBM Software Business Analytics IBM SPSS Text Analytics Mithilfe der Textlinkanalyse, die außerdem zum Beschreiben von Fakten und Ereignissen dient, können Analysten positive und negative Konzepte in Textantworten ermitteln und isolieren. Die IBM SPSS Text Analytics-Lösungen ermitteln jedoch nicht nur einfache positive/ negative Aussagen, sondern bieten darüber hinaus Einblick in positive oder negative Einstellungen durch „Lesen“ textabhängiger Hinweise, wie beispielsweise die Satzstruktur. So würden Stimmungen, wie die in den folgenden Beispielsätzen angegebenen, korrekt in Gruppen zusammengefasst werden, obwohl eine Meinung positiv, eine negativ und eine gemischt ist: Der Hotelmanager war sehr zuvorkommend. Der Hotelmanager war ausgesprochen unhöflich. Das Hotelpersonal war zuvorkommend, das Zimmer jedoch zu klein. Durch Kombinieren von Termen, die einem Typ zugewiesen sind (d. h. Personen, Organisationen, Gene usw.), linguistischen Beziehungen, Literalzeichenfolgen und Boole'schen Operatoren ermöglicht die Textlinkanalyse das Aufdecken komplexer Verknüpfungen und die Ausgabe in einem benutzerdefinierten Format. Textausdrücke können in Daten umgewandelt werden, die quantifiziert und mit anderen quantifizierbaren Ergebnissen kombiniert werden können. Diese Daten können Organisationen beispielsweise nutzen, um vorherzusagen, welche Kunden (nach Demografie, nach Wert, nach Branche) sich wahrscheinlich am stärksten für bestimmte Produktoder Dienstmerkmale interessieren. Mit der Funktion der Textlinkanalyse zur Aufdeckung von Verbindungen zwischen Fakten und Ereignissen können Organisationen außerdem vielfältige Initiativen, angefangen von Marketingformationen über Betrugserkennung bis hin zur Forschung im Bereich der Biowissenschaft, unterstützen. In der NLP-basierten Textanalyse hätten die drei folgenden Phrasen die gleiche Bedeutung: Unternehmen A wurde von Unternehmen B übernommen. Unternehmen B übernahm Unternehmen A. Die Übernahme von Unternehmen A durch Unternehmen B ist abgeschlossen. Falls ein Textdokument „Die Übernahme von Unternehmen A durch Unternehmen B ist gescheitert“ lauten würde, würde die Textlinkanalyse (TLA) völlig richtig erkennen, dass die Transaktion nicht stattfand. Regeln für die Textlinkanalyse in IBM SPSS Text Analytics-Produkten sind im Ressourceneditor enthalten. (Beispiele für Textlinkanalysen finden Sie in Anhang C auf Seite 28.) 15 IBM Software Business Analytics IBM SPSS Text Analytics Mit IBM SPSS Text Analytics-Lösungen können Sie eine Liste der extrahierten Konzepte und Meinungen zusammen mit Visualisierungen wie die Webgrafik oben rechts anzeigen. Die Grafik gibt Aufschluss über die Konzepte oder Meinungen, die in Umfragen oder anderen Dokumenten zusammen gefunden werden. Dickere Linien geben dabei Konzepte an, die häufiger zusammen gefunden wurden. Elemente des IBM SPSS Text Link Analysis-Moduls Das IBM SPSS Text Link Analysis-Modul umfasst drei Bereiche: Variablen, Makros und Regeln. Eine Variable kann als „semantische Klasse“ betrachtet werden. Das heißt, sie entspricht den Typen, die von der Extraktor-Engine im Schritt zum Zuweisen von Typen zugewiesen wurden. Alle extrahierten Terme, die unter demselben Typ gruppiert wurden, werden daher als dieselbe Variable zu einer Gruppe zusammengefasst. Eine Variablendefinition besteht aus folgender Syntax: • • Ein eindeutiger Variablenname Ein Typ Im folgenden Beispiel ist „Person“ der Name der Variable, wie in Makros und Regeln verwendet, und „P“ ist der interne Typcode, der von der Extraktor-Engine zugewiesen wurde: [variable] name=Person value=P 16 IBM Software Business Analytics IBM SPSS Text Analytics Ein Makro wird innerhalb eines Musters verwendet, um Variablen oder Wortlisten zu gruppieren und Musterregeln zu vereinfachen. Eine Makrodefinition besteht aus folgender Syntax: • • Ein eindeutiger Makroname Eine Definition, d. h. die Liste der Variablen, Wörter und/oder Makros Angenommen, die drei Variablen lauten „Positive“, „Negative“ sowie „Contextual“ und das Makro lautet „mOpion“: [macro] name=mOpinion value=($Positive|$Negative|$Contextual) Statt eine Regel mit ($Positive|$Negative|$Contextual) zu definieren, können Sie stattdessen das Makro $mOpinion verwenden, da beide äquivalent sind. Ein Muster ist eine Boole'sche Abfrage, mit der ein Satz abgeglichen wird. Muster enthalten eines oder mehrere der folgenden Elemente: Variablen, Makros oder Literalzeichenfolgen. Die Syntax für Muster lautet wie folgt: • • • • Eine eindeutige Muster-ID Ein Mustername (muss nicht eindeutig sein) Der Wert (die Mustersyntax für den Abgleich) Die Ausgabe (das Format, das erstellt werden soll, wenn eine Übereinstimmung mit dem Muster vorliegt). Für eine einzige Regel können mehrere Ausgaben für einen einzelnen Satz oder ein Satzteil vorhanden sein (insbesondere im Falle der Koordination). Angenommen, die folgende Regel gilt, wobei: #@# John Doe is the director of ABCD Inc. in France. [pattern(201)] name = 1_201 value = $Person ($SEP|$mDet|$mSupport|as|then){1,2} @{0,1} $Function (of|with|for|in|to|at) @{0,1} $Organization @{0,2} $Location output(1) =$1\t#1\t$4\t#4\t$7\t#7\t$9\t#9 17 IBM Software Business Analytics IBM SPSS Text Analytics Die Extraktor-Engine liest jeden Satz und versucht, folgende Sequenz abzugleichen: • • Workflow Prepare text for analysis • Extract concepts • • • Workflow • Prepare text for analysis Workflow Prepare P rep re par are e text text for analysis analysis Workflow Prepare P rep re par are e text text for analysis • Extract concep concepts conc epts ep ts • Der Name einer Person, gefolgt von: Ein oder zwei Kommas ($SEP), Determinator ($mDet), Hilfsverb ($mSupport), den Zeichenfolgen „then“ oder „as“ gefolgt von: 0 oder 1 Wort (@{0,1}, gefolgt von: Apply Text Deploy to predictive categories Link Analysis models Einer Funktion ($Function), gefolgtBuild von: Einer der folgenden Zeichenfolgen: „von“, „mit“, „für“, „in“, „bis“ oder „bei“, gefolgt von: 0 oder 1 Wort (@{0,1}, gefolgt von: Dem Namen einer Organisation, gefolgt von: 0, 1 oder 2 Wörtern (@{0.2}, gefolgt von: A Apply pplly T pp Text ext Deploy to predictive ctive Build categories Linkeines Analysis Analys Analy A naly na lys ly sOrts ($Location) models Dem Namen Dieses Beispiel würde folgende Sätze abgleichen: • Max Mustermann, Geschäftsführer der ABCD GmbH in Deutschland • Max Mustermann ist der Geschäftsführer der ABCD GmbH in DeutschlandAApply pplly T pp Text ext Deploy to predictive tive Build categories Extract concepts Link Analysis Analysi models • Unternehmen C hat Martina Mustermann zum CEO der DGF Ltd. in den USA ernannt Muster werden nicht basierend auf der Reihenfolge ihres Auftretens, sondern basierend auf ihrer ID zusammengesetzt. Da die erste Regel, die ein MusterApply abgleicht, „gewinnt“ und das Abgleichen durch andere ctive Text Deploy to predictive Build categories Extract concepts Link Analysis models Regeln verhindert, ist es wichtig, das die spezifischsten Muster zuerst deklariert werden und dann erst die eher allgemeinen Muster. Workflow Prepare P rep re par are e text text for analysis analysis Build categories Deploy to predictive ctive models 4. Schritt: Aufbau von Kategorien Workflow Prepare P repar epare e text text for analysis analys analys ysis is A Apply pply pp ly T Text ext Link Analysis Analys Analy s Extract concepts Die nächsten Schritte beim Analysieren von Textdokumenten sind der Aufbau von Kategorien und die Kategorisierung von Dokumenten. Apply App pplly Text Text Link Analysis Analys Analy s Extract concepts Build categories Deploy to predictive models Da jeder Datenbestand einzigartig ist, variieren die ausgewählten Techniken und die Reihenfolge, in der sie angewendet werden, höchstwahrscheinlich von Projekt zu Projekt. Der Klassifizierungsprozess ist jedoch in jedem Fall iterativ: Ein Forscher wendet eine bestimmte Technik an, wertet die Ergebnisse aus, nimmt entweder an der ausgewählten Technik oder den resultierenden Kategorien Änderungen vor und optimiert die Kategorien. 18 IBM Software Business Analytics IBM SPSS Text Analytics In IBM SPSS-Lösungen stehen sowohl automatisierte als auch manuelle Klassifizierungstechniken zur Verfügung. Die automatisierten, linguistikbasierten Techniken umfassen folgende: • • • • Konzeptableitung Konzepteinbeziehung Semantische Netze Kookkurrenzregeln Diese Techniken können sowohl auf Nomen und Qualifikatoren als auch auf Adjektive angewendet werden. Sie klassifizieren Terme, indem sie Begriffe identifizieren, die wahrscheinlich dieselbe Bedeutung haben (so genannte Synonyme) oder spezifischer (so genannte Hyponyme) als die durch einen Begriff repräsentierte Kategorie sind. Für sauberere Ergebnisse schließen diese linguistischen Techniken Adjektive und andere Qualifikatoren aus. Die Konzeptableitung stellt eine Technik dar, bei der ein Konzept dadurch klassifiziert wird, indem andere, damit verwandte Konzepte ermittelt werden. Dies erfolgt durch eine Analyse, ob bestimmte Konzeptkomponenten morphologisch verwandt sind. So wird beispielsweise das Konzept „Möglichkeiten zum Aufstieg“ mit den Konzepten „Möglichkeit des Aufstiegs“ und „Aufstiegsmöglichkeit“ zu einer Kategorie zusammengefasst. Das Verfahren funktioniert mit Daten unterschiedlicher Länge und erzeugt eine geringere Anzahl an kompakten Kategorien. Bei der Konzepteinbeziehung werden Konzepte kategorisiert, indem Konzepte ermittelt werden, die in anderen Konzepten einbezogen sind. So werden die Terme „relationale Datenbank“ und „multidimensionale Datenbank“ beispielsweise mit dem Term „Datenbank“ zu einer Gruppe zusammengefasst. Eine Reihe von Konzepten, die auf Einbeziehung beruht, entspricht häufig einer taxonomischen Hierarchie (d. h. einer semantischen „ISA“-Beziehung). Bei diesem Verfahren werden zunächst Uni- oder Multiterme ermittelt, die in anderen Multitermen enthalten (und als Suffix, Präfix oder optionale Elemente positioniert) sind. Anschließend werden diese Terme zu einer Gruppe zusammengefasst. Der Algorithmus, der ermittelt, ob die Terme in anderen enthalten sind, ignoriert die Wortstellung und das Vorhandensein von Funktionswörtern wie „in“ oder „von“. Das Verfahren funktioniert mit Umfrageantwortdaten unterschiedlicher Länge und erzeugt eine große Anzahl an kompakten Kategorien. Semantische Netze kategorisieren Terme basierend auf bekannten Wortbeziehungen, die in einem integrierten Netz enthalten sind. Bei diesem Verfahren werden zunächst die möglichen Bedeutungen der einzelnen Konzepte ermittelt. Konzepte, die Synonyme oder Hyponyme darstellen, werden dann zu einer Kategorie zusammengefasst. Diese Technik erzielt sehr gute Ergebnisse, wenn die Begriffe dem semantischen Netz bekannt und nicht zu mehrdeutig sind. Sie ist weniger nützlich, wenn der Text eine große Menge spezieller, domänenspezifischer Terminologie enthält, die das Netz nicht erkennt. Am Anfang der Kategorisierung kann diese Technik allein verwendet werden, um festzustellen, welche Kategorien aufgebaut werden. 19 IBM Software Business Analytics IBM SPSS Text Analytics Kookkurrenzregeln basierend auf einer „Ko-Wortanalyse”dienen zur Gruppierung von Termen auf der Grundlage der Häufigkeit, mit der sie innerhalb des Korpus von Dokumenten gemeinsam vorkommen (kookkurrieren). Terme zeigen eine deutliche Kookkurrenz, wenn sie häufig in denselben Dokumenten, Umfrageantworten oder anderen Texten vorkommen und nur selten allein auftreten. Diese Technik kann insbesondere bei größeren Datenbeständen gute Ergebnisse erzielen. Mithilfe von Kookkurrenzregeln können Sie Konzepte ermitteln und gruppieren, die innerhalb des Korpus von Dokumenten oder Datensätzen eng miteinander verwandt sind. Mit diesem Ansatz können Analysten die Anzahl der kookkurrierenden Konzepte, die zu einer Gruppe zusammengefasst werden können, auf eine Regel beschränken. Außerdem können sie den Kategorisierungsprozess beschleunigen, indem sie die Anzahl der Dokumente oder Datensätze, die beim Erstellen von Kategorien verwendet werden sollen, beschränken. Verfügbare Änderungen zur Verbesserung der Effektivität Beim Aufbau von Kategorien mithilfe lingustikbasierter Techniken können Benutzer bestimmte Verfahren auswählen und dann Parameter, wie die Anzahl der zu erstellenden Kategorien oder die Anzahl der Vorkommen eines einzelnen Terms, ändern. Wurde beispielsweise ein semantisches Netz als eines der Verfahren ausgewählt, kann der Analyst das Profil auswählen, um das Verhalten der zugrunde liegenden Algorithmen entweder als „breit“ oder „eng“ zu definieren. Ein breites Profil behandelt mehrdeutige Terme effizient. Mit diesem Profil werden zwar mehr Kategorien erstellt, jedoch Terme in Kategorien zusammengefasst, die nicht eng mit dem Kontext Ihrer Daten verknüpft sind. Ein enges Profil schließt Terme mit einem hohen Grad an Mehrdeutigkeit aus und konzentriert sich auf die offenkundigsten Beziehungen zwischen Termen. Dadurch werden tendenziell weniger und kleinere Kategorien erstellt. Darüber hinaus können Benutzer den für die Gruppierung von Termen erforderlichen Mindestabstand definieren. Je niedriger der Wert, desto mehr Ergebnisse werden angezeigt. Diese Ergebnisse weisen jedoch u. U. einen höheren Grad an Mehrdeutigkeit auf. Durch Auswahl eines höheren Werts erhält ein Analyst zwar weniger Ergebnisse, diese Ergebnisse sind jedoch mit größerer Wahrscheinlichkeit auf signifikante Weise miteinander verknüpft oder verbunden. Eine andere Möglichkeit, den Aufbau von Kategorien zu beeinflussen, besteht darin, eine Mindestanzahl für die Kookkurrenz eines Konzepts im Text festzulegen, damit dieses Konzept extrahiert wird. Der Wert 2 beschränkt die Extraktion beispielsweise auf solche Konzepte, die mindestens zweimal im Korpus von Datensätzen oder Dokumenten vorkommen. In Kombination mit den weiter oben beschriebenen automatisierten linguistischen Techniken ermöglichen manuelle Verfahren Benutzern von IBM SPSS Text Analytics-Lösungen, Terme durch Ziehen und Ablegen in Gruppen einzubeziehen (oder explizit auszuschließen). Darüber hinaus können Benutzer eigene Code-Frames anwenden oder Kategorien importieren, die zuvor aus IBM® SPSS® Text Analytics for Surveys exportiert wurden. Eine andere Möglichkeit besteht darin, Kategoriecodes und Code-Frames mit der Code-FrameManager-Funktion von IBM SPSS zu kopieren, einzufügen und zu bearbeiten. 20 Workflow IBM Software Business Analytics Prepare text for analysis Apply Text Link Analysis Extract concepts IBM SPSS Text Analytics Build categories Deploy to predictive models Workflow Prepare text for analysis Nach dem Aufbau von Kategorien können Benutzer diese mithilfe einer Reihe von Optionen verfeinern. Ein Analyst kann z. B.Deploy folgende A Apply pplly T pp Text ext to predictive ctive Build categories Extract concep concepts conc epts ep ts Link Analysis Analys Analy A naly na lys ly s models Änderungen vornehmen: • Workflow • • Prepare P rep re par are e text text for analysis analysis Extract concepts • • • Workflow • Prepare P rep re par are e text text for analysis Workflow Prepare P rep re par are e text text for analysis analysis Extract concepts Einer Kategoriedefinition Konzepte oder Meinungen hinzufügen Eine Kategoriedefinition bearbeiten Kategorien zusammenführen Kategorien von in eine A Apply ppllyeiner pp T Text ext „Verzweigung“ des BaumdiagrammsDeploy to predictive tive Build categories Link Analysis Analysi models andere verschieben Kategorien löschen Visuelle Grafiken erstellen, die zeigen, wie Kategorien miteinander kooperieren, und anschließend Anpassungen vornehmen Änderungen an den verwendeten linguistischen Ressourcen vornehmen und daraufhin erneut extrahieren Deploy to predictive Apply Kategorien Text ctive Link Analysis Build categories models Nach dem Erstellen von Kategorien können Organisationen eingehenden Kommentaren, E-Mails oder Dokumenten basierend auf der Wahrscheinlichkeit, dass bestimmten Arten von Termen im Text vorkommen, IDs hinzufügen. Mithilfe dieser Kategorisierung von Dokumenten können A Apply pply pp ly T Text ext Organisationen Kommentare oder Dokumente Deploy to predictive ctive Build categories Extract concepts Link Analysis Analys Analy s models den entsprechenden Einzelpersonen, Gruppen oder Systemen effizient zur Verfügung stellen. Workflow Prepare P repar epare e text text for analysis analys analys ysis is Apply App pplly Text Text Link Analysis Analys Analy s Extract concepts Build categories Deploy to predictive models 5. Schritt: Bereitstellen der Ergebnisse für Vorhersagemodelle Das Bereitstellen der Textanalyseergebnisse für Vorhersagemodelle stellt den Schritt dar, der die Textanalyse mit der Entscheidungsfindung verknüpft. In den anfänglichen Implementierungen der Textanalyse bestand die Bereitstellung darin, Konzeptbeziehungen visuell darzustellen und diese ggf. in Berichte zu integrieren. Die Berichte mussten dann von den Managern interpretiert werden, bevor strategische oder taktische Pläne entwickelt werden konnten. In jüngster Zeit sind Organisationen zum Batch-Scoring übergegangen, das häufig außerhalb der Spitzenzeiten durchgeführt wird, um basierend auf den Textanalysemodellen aktualisierte Vorhersagen effizienter in ihre Datenbanken zu integrieren. Heute ermöglichen effiziente Computerprozessoren und andere technologische Neuerungen eine Analyse gewaltiger Mengen von Textdaten in nur wenigen Stunden. Spezielle Berichte können erstellt und basierend auf der Rolle der Personen oder ihrer Zugehörigkeit zu einer bestimmten Arbeitsgruppe weitergeleitet werden. Alternativ können Modelle in Systeme integriert werden, um automatisch Verkaufsangebote zu erstellen, kreditwürdige Kunden unverzüglich zu ermitteln, ausgesprochen positive oder negative Kunden hervorzuheben oder Muster möglichen kriminellen Verhaltens zu erkennen zu geben, um nur einige Beispiele zu nennen. 21 IBM Software Business Analytics Durch Ausführen von IBM SPSS Text Analytics auf Unternehmensebene kann der Return on Investment eines Unternehmens im Hinblick auf die Textanalyse und die damit verbundenen Technologien erheblich gesteigert werden. IBM SPSS Text Analytics Die zunehmende Anzahl der Modelle, die von Organisationen entwickelt werden, bringt es mit sich, dass diese Modelle und die damit verknüpften Prozesse denselben Verwaltungsaufwand erfordern wie andere wertvolle Assets. Um dieser Anforderung gerecht zu werden, umfassen IBM SPSS-Lösungen die Möglichkeit, solche Assets zentral und sicher zu speichern und sicherzustellen, dass die richtigen Modelle für die Analyse verwendet werden und dass auf nachprüfbare Weise aufgezeichnet wird, von wem die einzelnen Modelle aufgerufen, geändert oder angewendet wurden. Anwenden der Textanalyse auf Unternehmensebene Organisationen, die den Wert der Textanalyse erkennen, beginnen im Normalfall damit, ein spezifisches Unternehmensproblem anzugehen. • • • • • • Eine Fachhochschule oder eine Universität führt beispielsweise Umfragen mit dem Ziel durch, den Zufriedenheitsgrad der Studenten mit dem Kursangebot ihres Instituts zu erhöhen und Änderungen zu ermitteln, die die Studentenbindung verbessern können. Ein Unternehmen mit einem hohen Kundenabwanderungsgrad kann beispielsweise das in Callcenter-Notizen enthaltene Kundenfeedback analysieren und die in diesem Text ermittelten Muster mit bestimmtem Kundenverhalten vergleichen. Auf diese Weise können die Ansprechpartner der Kunden im Unternehmen erkennen, wenn ein Kunde mit dem Gedanken spielt abzuwandern, und die entsprechenden Gegenmaßnahmen treffen, um die Wahrscheinlichkeit einer Abwanderung zu reduzieren. Ein pharmazeutisches Unternehmen kann die Effektivität einer bestimmten Behandlung auswerten, indem Textkommentare von Probanden einbezogen werden, die beschreiben, wie sich die Probanden vor, während und nach der Behandlung fühlten. Ein Unternehmen, das auf die Auswertung gewaltiger Textdatenmengen angewiesen ist, kann die Textanalyse einsetzen, um Trends oder Muster zu ermitteln und den Mitarbeitern so zu ermöglichen, ihre Aufmerksamkeit auf die Dokumente mit der größten Relevanz zu konzentrieren, um die Produktivität zu steigern. Ein Marktforschungsunternehmen oder ein Großunternehmen, das international tätig ist, muss möglicherweise Feldumfragen in 20 verschiedenen Ländern durchführen. Das Unternehmen erhält Freitextantworten in 15 verschiedenen Sprachen und verfügt nicht über die erforderlichen Ressourcen, um alle Daten in der Muttersprache auszuwerten. Mithilfe der erweiterten Übersetzung kann das Unternehmen eine Stimmungsanalyse durchführen und alle Ergebnisse in englischer Sprache zentralisieren. Ein Geheimdienst muss möglicherweise Dokumente, Telefontranskripte oder E-Mails in mehreren Sprachen überprüfen, um Beziehungen zwischen terroristischen Zellen aufzudecken. Sobald Organisationen mit der Textanalyse Erfolge erzielen, entsteht häufig der Wunsch, die Textanalyse in anderen Abteilungen oder geografischen Bereichen einzusetzen oder andere Unternehmensprobleme anzugehen. Durch Ausführen von IBM SPSS Text Analytics auf Unternehmensebene kann der Return on Investment eines Unternehmens im Hinblick auf die Textanalyse und die damit verbundenen Technologien erheblich gesteigert werden. Die Textanalyse stellt ein Unternehmen jedoch auch vor gewisse Herausforderungen. Mit der richtigen Textanalyselösung und entsprechender Anleitung können diese Herausforderungen jedoch erfolgreich bewältigt werden. 22 IBM Software Business Analytics IBM SPSS Text Analytics Fazit Die Herausforderung, die Text darstellt, ist Teil der übergeordneten Informationsherausforderung, der Organisationen heute gegenüberstehen. Mit der Menge der verfügbaren Informationen, die in den letzten Jahrzehnten enorm gestiegen ist, hat auch die Bedeutung zugenommen, Informationen schnell zu finden, relevante von irrelevanten Informationen zu unterscheiden und Einblicke mit anderen zu teilen, um taktische Reaktionen und strategische Planung zu unterstützen. Das Bewältigen der neuen Herausforderungen, die diese Informationsflut darstellt, kann für Unternehmen einen entscheidenden Wettbewerbsvorteil und für Forscher und Organisationen des öffentlichen Diensts eine erhebliche Steigerung der Effektivität bedeuten. Organisationen, die linguistikbasierte Textanalyseverfahren von IBM SPSS mit dem Ziel eingesetzt haben, alle Daten effektiv und strategisch zu nutzen, haben messbare Vorteile erzielt. Ihre Erfahrungen wurden in einem kürzlich erschienen Bericht von dem unabhängigen Beratungsunternehmen Nucleus Research in Guidebook: SPSS Text Mining beschrieben. Zu den in dem Bericht genannten Vorteilen gehören u. a. folgende: • • • • Durch Nutzen der Erkenntnisse aus Kundenkommentaren konnte ein Telekommunikationsunternehmen 51 Prozent seiner unzufriedenen Kunden nach nur zwei Monaten zu sehr zufriedenen Kunden machen. Organisationen wie Versicherungsunternehmen und Finanzinstitute können Callcenter-Daten nutzen und mit anderen Informationen kombinieren, um bessere Programme zu ermitteln und gewinnbringende Kunden zu halten. In einigen Unternehmen konnten Analysten ihre Produktivität um bis zu 50 Prozent steigern. Ein Unternehmen im Technologiesektor verwendet IBM SPSS Text Analytics, um Managern auf höherer Ebene unverzüglich Feedback zu einer bestimmten Produktlinie zur Verfügung zu stellen. Einer der für den Bericht befragten Benutzer gab an: „Zuvor mussten wir uns entscheiden, ob wir qualitative oder quantitative Forschung betreiben möchten. Jetzt entfällt diese Entscheidung, da wir beides kombinieren können.“ Die IBM SPSS Text Analytics-Lösungen verfügen über eine Fülle von Verfahren sowie über die erforderliche Skalierbarkeit und Anpassbarkeit, um die Herausforderungen jeder Organisation in Bezug auf die Textanalyse zu meistern. Darüber hinaus unterstützen sie die bewährte CRISPDM-Methode und verfügen über eine offene Architektur, die die über die Textanalyse gewonnenen Erkenntnisse anderen Organisationssystemen und Prozessen verfügbar macht. Durch Optimierung der Relevanz und Genauigkeit von Vorhersagemodellen unterstützen IBM SPSS Text Analytics-Lösungen Organisationen dabei, deutliche, messbare Vorteile aus Textdaten zu erzielen und einen Wettbewerbsvorteil bei der Bewältigung neuer Herausforderungen und Nutzen neuer Chancen zu gewinnen, die durch aktuelle und künftige Textinformationswellen entstehen. 23 IBM Software Business Analytics IBM SPSS Text Analytics IBM SPSS-Produkte für die Textanalyse IBM® SPSS® Modeler Premium bietet die besten Textanalysefunktio- nen der Branche über benutzerfreundliche Oberflächen. Es ist vollständig in die Data Mining-Workbench von IBM® SPSS® Modeler (sowohl Client- als auch Serverversion) integriert. Das Produkt verwendet linguistikbasierte Textanalyseverfahren, um Konzepte und Beziehungen im Text zu ermitteln und anschließend eine Klassifizierung, Clustering und andere statistischen Verfahren für diese Konzepte auszuführen. IBM SPSS Modeler Premium kann Text in den Muttersprachen Eng- lisch, Französisch, Niederländisch, Deutsch, Spanisch, Italienisch, Portugiesisch und Japanisch sowie Text in über einem Dutzend anderer Sprachen durch Übersetzung verarbeiten. IBM SPSS Modeler Premium unterstützt die Erstellung von Modellen, die Text oder unstrukturierte Daten mit tabularischen oder strukturierten Daten kombinieren, um Bedingungen, Aktionen oder Verhalten zuverlässiger vorherzusagen. Darüber hinaus können mit IBM SPSS Modeler Premium entwickelte Modelle über IBM SPSS Vorhersageanwendungen in Betriebssysteme eingebettet werden. Bei IBM SPSS Text Analytics for Surveys handelt es sich um ein Desktoptool, das mithilfe von IBM SPSS Text Analytics-Verfahren Freitextantworten in Umfragen quantifizieren kann, sodass Meinungen und Stimmungen zusammen mit anderen Umfragedaten analysiert werden können. IBM SPSS Text Analytics for Surveys automatisiert die Klassifizierung und Kategorisierung von Textkonzepten und ermöglicht Benutzern gleichzeitig, manuell einzugreifen, um die Ergebnisse zu verfeinern. Ergebnisse können entweder als Datensatztabellen oder als Dichotomien exportiert werden, um mit der statistischen Software von IBM SPSS weiter analysiert zu werden. IBM® SPSS® Collaboration and Deployment Services stellt ein zentrales Repository für Textanalyseergebnisse bereit und bietet Funktionen für Automatisierung, Authoring und Versionserstellung für Anwendungen mit IBM SPSS Text Analytics-Produkten. 24 IBM Software Business Analytics IBM SPSS Text Analytics Anhang A: Erläuterung einiger IBM SPSS Text Analytics-Begriffe Begriff Erläuterung Blog Eine Website mit Kommentaren zu einem bestimmten Thema. Leser können Kommentare in einem interaktiven Format hinzufügen. Einträge werden im Normalfall in umgekehrter chronologischer Reihenfolge angezeigt. Wird auch als „Web-Log“ bezeichnet. Bayesianisches Netz wahrscheinlichkeitstheoretisches grafisches Modell, das eine Reihe von Ein Variablen und deren wahrscheinliche Abhängigkeiten darstellt. Ein Bayesianisches Netz könnte z. B. die wahrscheinlichen Beziehungen zwischen Erkrankungen und Symptomen darstellen. Mit gegebenen Symptomen kann das Netz die Wahrscheinlichkeit für das Vorhandensein verschiedener Erkrankungen berechnen. Boole'sche Logik/Abfragen Terminus aus der mathematischen Logik, der die durch die drei grundlegenden Ein logischen Operatoren UND, ODER und NICHT verknüpften Propositionen angibt. Kandidat Ein Term, der eine Äquivalenzklasse darstellt und zum Zwecke der Querindizierung beibehalten wird. Kategorie Eine der grundlegenden und bestimmten Klassen, denen Entitäten oder Konzepte angehören. Klassifikation Gruppierung einer Reihe von Entitäten, die bestimmte formale oder externe Die Eigenschaften teilen. Clustering Der Prozess, Elemente wie Dokumente auf der Basis ihrer Ähnlichkeit zu gruppieren. Das Ziel besteht darin, ein Datenset so aufzuteilen, dass sich ähnliche Datensätze in derselben Gruppe befinden und die Gruppen sich möglichst voneinander unterscheiden. Computerlinguistik Teilgebiet der Linguistik, das Computer zur Modellierung von Sprachsystemen Ein einsetzt. Es umfasst automatisches Parsen, Computerverarbeitung und Computersimulation von grammatischen Modellen zur Erzeugung und zum Parsen von Sätzen. Das Ziel besteht darin, die menschliche Sprache als kognitives System zu modellieren. Konzept ine abstrakte oder allgemeine Idee, die aus bestimmten Instanzen verallgemeinert E wird. Konzeptklasse Eine Gruppe ähnlicher Konzepte, die sich von anderen Gruppen unterscheidet. Äquivalenzklasse ine Gruppe gebeugter Terme, die durch eine Form dargestellt wird. Diese Form, E die zur Indizierung beibehalten wird, wird als Kandidat bezeichnet. Im Allgemeinen handelt es sich dabei um die am häufigsten vorkommende Form eines Terms oder um die vom Benutzer explizit definierte Form. Ereignisextrahierung er Prozess, das Auftreten von Konzepten und Beziehungen durch Verstehen der D Bedeutung eines Textkorpus zu suchen. Ereignisse können die berufliche Tätigkeit einer Person oder eine Erscheinung in der realen Welt, z. B. eine Firmenfusion oder -übernahme, der Ausbruch einer Krankheit oder ein terroristischer Angriff, umfassen. Fuzzy-Logik (unscharfe Logik) in aus der Mathematik abgeleiteter Begriff, der sich auf die Unbestimmtheit in E Verbindung mit der Analyse einer linguistischen Einheit oder eines Musters bezieht. Indizierung er Prozess der Suche nach Schlüsselkonzepten innerhalb einer Gruppe von D Dokumenten und der Entwicklung einer Zuordnung aus den Konzepten zu den Dokumenten, in denen sie gefunden werden. Schlüsselwörter Die wichtigsten und aussagekräftigsten Wörter in einem Dokumentensatz. Latente semantische Analyse (Latent Semantic Analysis, LSA) in patentiertes mathematisches oder statistisches Verfahren zum Extrahieren und E Darstellen der Ähnlichkeit der Bedeutung von Wörtern und Textpassagen durch Analysierenen großer Textmengen mit einer allgemeinen Form der Faktorenanalyse. 25 IBM Software Business Analytics IBM SPSS Text Analytics Anhang A: Erläuterung einiger IBM SPSS Text Analytics-Begriffe – Forts. Linguistik Die Untersuchung allgemeiner und universeller Eigenschaften von Sprache. Morphologie as Teilgebiet der Grammatik, das sich mit der Struktur oder den Formen von D Wörtern beschäftigt. Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) omputeranalyse und die Erzeugung von Text mit natürlicher Sprache. Das Ziel C besteht darin, Möglichkeiten zu schaffen, damit natürliche Sprache entweder als Medium dient, mit dem Benutzer mit Computersystemen interagieren, oder als das Objekt, das von einem System zu einer nützlicheren Form verarbeitet wird. Genauigkeit as Maß, wie gut Informationsgewinnungssysteme Dokumente auswählen, die für D eine Abfrage relevant. Relevanz in Maß für den Erfolg eines Informationssystems, Material bereitzustellen, das die E Anforderungen des Benutzers erfüllt. Semantik in wichtiges Teilgebiet der Linguistik, das sich mit der Untersuchung der E Bedeutung von Sprache beschäftigt. Statistik ine Reihe von Methoden, die dazu dienen, allgemeine Informationen aus E spezifischen Daten abzuleiten. Der Begriff wird auch zur Beschreibung der aus diesen Methoden abgeleiteten berechneten Werte verwendet. Stoppwort in häufig verwendetes Wort (wie „ein“ oder „der“), das vom NLP-Programm E sowohl beim Extrahieren von Konzepten aus Dokumenten als auch bei der Indizierung ignoriert werden soll. Support Vector Machines (SVM, „Stützvektormethoden“) ine Reihe verwandter überwachter Lernmethoden zur Klassifizierung und E Regression, die zu einer Familie allgemeiner linearer Klassifikatoren gehören. Eine besondere Eigenschaft von Support Vector Machines (SVMs) besteht darin, dass sie gleichzeitig den empirischen Klassifizierungsfehler minimieren und den geometrischen Randbereich der Klassengrenzen maximieren. Daher werden sie auch als „Maximum Margin Classifiers“ bezeichnet. Synonym Der Fall, wenn im Text mehrere Begriffe mit der gleichen Bedeutung auftreten. Syntax as Teilgebiet der Grammatik, das sich mit den Regeln zur Kombination von D Wörtern in Sätzen beschäftigt. Taxonomie heorie und Praxis der Klassifizierung. Taxonomien oder Klassifikationsschemata T setzen sich aus Einheiten zusammen, die als Taxa (Kategorien oder Klassen) bezeichnet werden und in einer hierarchischen Struktur angeordnet sind, im Normalfall durch unter/übergeordnete Beziehungen. Begriff in Wort oder ein Ausdruck, das bzw. der in einigen Anwendungsfällen eine E bestimmte Bedeutung hat oder für einen wissenschaftlichen, künstlerischen, beruflichen oder thematischen Bereich spezifisch ist. Textanalyse er Prozess zur automatischen Extrahierung von Informationen aus großen D Sammlungen von Dokumenten. Textlinkanalyse ine Technik zur Ermittlung und Isolierung positiver und negativer Konzepte sowie E von Fakten und Ereignissen in einem Textkorpus. Thesaurus ine Sammlung von Synonymen und Antonymen. Thesaurus-Datenbanken, die nach E internationalen Standards erstellt werden, sind im Allgemeinen hierarchisch nach Themen und Oberbegriffen strukturiert. Durch Platzieren der einzelnen Begriffe in einen Kontext ermöglicht ein solcher Thesaurus Benutzern, zwischen ähnlichen Begriffen mit unterschiedlichen Bedeutungen zu unterscheiden. Ein Thesaurus wird häufig als Basis zur Indizierung von Onlinematerial verwendet. Man spricht auch von Ontologie. Wiki oftware, mit der Benutzer kurzerhand Webseiten erstellen, bearbeiten und S verknüpfen können. Wikis werden häufig zur Erstellung von auf Kooperation beruhenden Websites für das Wissensmanagement verwendet. 26 IBM Software Business Analytics IBM SPSS Text Analytics Anhang B: Algorithmen zum Zuweisen von Äquivalenzklassen In der IBM SPSS Text Analytics-Lösung werden die folgenden Algorithmen zum Zuweisen von Konzepten zu Äquivalenzklassen verwendet. Beugung Arznei = Arzneien Synonym Vollform: Eine gesamte Extraktion ist mit einer anderen äquivalent. Primäre Nebenniereninsuffizienz = Morbus Addison Komponente: Zwei verschiedene Extraktionen sind äquivalent, wobei eine Modulo-Variation in den Komponenten vorliegt. Bonbonniere = Bonboniere Auslassen von Schlüsselwörtern ABCD GmbH = ABCD Geografische Variante grillieren = grillen Lexikalische Variante grammatikalische Besonderheiten = grammatische Besonderheiten Groß-/Kleinbuchstaben Apolipoprotein A = Apolipoprotein a Auslassen von/Variation bei Funktionswörtern ulceration of the mucosa = ulceration of mucosa; éclipses du soleil = éclipse de soleil Varianten bei Trennzeichen Trennzeichen können Leerzeichen, Bindestriche, Verschmelzung, Apostroph s oder Punkte sein. Zollinger-Ellison-Syndrom = Zollinger Ellison Syndrom Home Shopping = Homeshopping Web-tv = Web tv Webtv = Web tv Boolescher Operator = Boole'scher Operator Umstellung der Komponenten Myotonie Becker = Becker Myotonie Leiter des Unternehmens = Unternehmensleiter zeste râpé d’un citron = zeste de citron râpé 27 IBM Software Business Analytics IBM SPSS Text Analytics Akzentuierte/nichtakzentuierte Zeichen: Dieses Phänomen tritt sehr häufig in Sprachen wie Französisch, Spanisch, Italienisch und Niederländisch auf. são Paulo = sao Paulo evguéni primakov = evgueni primakov évènements du kosovo = événements du kosovo Allgemein/spezifisch: Das Gruppieren von Extrakten unter einem normalisierten Term kann als Suche nach dem „besten Deskriptor“ betrachtet werden. In einigen Anwendungsfällen können spezifische Terme allgemeinen Begriffen zugeordnet werden. Lippenstift = Kosmetik Wimperntusche = Kosmetik Rechtschreibprüfung/unscharfe Übereinstimmung Auf der Grundlage der Auslassung von Vokalen oder doppelt auftretenden Konsonanten oder anderen Algorithmen. technischher Support = technischer Support techinischer Support = technischer Support Anhang C: Beispiele für IBM SPSS Text Link Analysis Offene Umfragen, Callcenter-Daten und Daten aus anderen CRM-Systemen: Aus dem Satz „I have found support services to be very helpful, friendly and courteous“ würde die Textlinkanalyse Folgendes ableiten: [pattern(0306)] name = 0306 _positive_opinion value = $mExtract @{0,2} ($mSupport|would|could|to) @{0,1} (a|rather|quite|pretty|very)? $mOpinion $SEP? $mOpinion ($SEP|$mCoord){1,2} $mOpinion output(1) = $1\t#1\t$6\tPositive output(2) = $1\t#1\t$8\tPositive output(3) = $1\t#1\t$10\tPositive Dies führt zu folgendem Ergebnis: support services <Unknown> helpful <Positive> support services <Unknown> friendly <Positive> support services <Unknown> courteous <Positive> Aus dem Satz „My problem has not been solved“ würde die Textlinkanalyse Folgendes ableiten: pattern(011)] name = 011 value = ($mTopic|$Negative) @{0,1} $mAdvNeg @{0,1} $Positive output = $1\t#1\tnot $5\tNegative problem <Negative> not resolved <Negative> 28 IBM Software Business Analytics IBM SPSS Text Analytics Genomforschung: Aus dem Satz „studies with the protein kinase C inhibitor, Calphostin C,...,“ würde die Textlinkanalyse Folgendes ableiten: [pattern(003)] name = (003) value = $Gene $Agent $SEP? $Gene output(1) = $4\t#4\t$2\t#2\t$1\t#1 Dies führt zu folgendem Ergebnis: calphostin C <Gene> inhibits <Action> protein kinase C <Gene>. Marktinformationen: Aus dem Satz „IBM Inc. completes acquisition of SPSS“ würde die Textlinkanalyse Folgendes ableiten: [pattern(303)] name = 303 value = $Org @{0,1} $mSupport $Action of @{0,2} $Org output = $1\t#1\t$4\t#4\t$7\t#7\tcompleted)\tStatus Dies führt zu folgendem Ergebnis: *ibm inc.* <Organization> acquires <Action> spss <Organization> completed <Status> Weiterführende Literatur zur Textanalyse Bücher Andersson, Birger, Maria Bergholtz, and Paul Johannesson (Eds.). Natural Language Processing and Information Systems: 6th International Conference on Applications of Natural Language to Information Systems. NLDB 2002, Stockholm, Sweden, 27.-28. Juni 2002: Revised Papers (Lecture Notes in Computer Science, 2553, Heidelberg: Springer-Verlag, 2002). Berry, Michael W. and Malu Castellanos (Eds.). Survey of Text Mining II: Clustering, Classification, and Retrieval. London: Springer-Verlag London Ltd., 2008 Feldman, R. and J. Sanger. The Text analytics Handbook. Cambridge, England: Cambridge University Press, 2007. Jackson, Peter and Isabelle Moulinier. Natural Language Processing for Online Applications: Text Retrieval, Extraction and Categorization. Amsterdam: John Benjamins Publishing Company, 2002. Jurafsky, Daniel and James H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Englewood Cliffs, New Jersey: Prentice Hall, 2000. Manning, Christopher D. and Hinrich Schutze. Foundations of Statistical Natural Language Processing. Cambridge: MIT Press, 2001. Sullivan, Dan. Document Warehousing and Text analytics: Techniques for Improving Business Operations, Marketing and Sales. New York: Wiley Computer Publishing, 2001. 29 IBM Software Business Analytics IBM SPSS Text Analytics Artikel und Abhandlungen Anderson Analytics, LLC. Leverage the Voice of Your Customers. Stamford, Conn., Juni 2007. Grimes, Seth. „A Brief History of Text Analytics“, b-eye-network, 20. Oktober 2007. http://www.b-eye-network.com/view/6311 Hearst, Marti A. „Untangling Text Data Mining“. Proceedings of the ACL’99: the 37th Annual Meeting of the Association for Computational Linguistics. College Park: University of Maryland, Juni 1999. Jouve, O. et al. „Two measures for identifying the perception of risk associated with the introduction of transgenic plants“. Scientometrics, 1999, Vol 44, No. 3, pp. 401-426. „Leximappe is dead: long live co-word analysis! Application to identify the main actors within the field of risk assessment through the introduction of transgenic plants“. 1998: International Conference on Science and Technology Indicators: Use of ST indicators for science policy and decision-making. Hinxton (Great Britain). Martin, E., E. Bremer, MC. Guerin, C. DeSesa, and O. Jouve. „Analysis of Protein-Protein Interactions through Biomedical Literature: Text Mining of Abstracts vs. Text Mining of Full Text Articles“. Knowledge Exploration in Life Science Informatics, International Symposium, KELSI 2004, Mailand, Italien, 25.-26. November 2004, Proceedings. Nucleus Research. Guidebook: SPSS Text analytics. Document H99. Wellesley, Mass. Dezember 2007. Weitere Ressourcen • • • Association for Computational Linguistics: www.aclweb.org Informationen zu anderen Gruppen, die Forschung in den Bereichen Computerlinguistik und Verarbeitung natürlicher Sprache betreiben: www.dmoz.org/Computers/Artificial_Intelligence/Natural_Language Text Analytics Summit: http://www.textanalyticsnews.com/ 30 IBM Software Business Analytics IBM SPSS Text Analytics Informationen zu IBM Business Analytics Die Software IBM Business Analytics liefert umfassende, einheitliche und korrekte Informationen, denen Entscheidungsträger zum Verbessern der Unternehmensleistung vertrauen. Ein umfassendes Portfolio aus Geschäftsvorteilen, fortgeschrittener Analytik, finanziellen Vorteilen und Strategiemanagement sowie Analyseanwendungen bietet Ihnen sofort klare und umsetzbare Einblicke in die aktuelle Leistung und gibt Ihnen die Möglichkeit, zukünftige Ergebnisse vorherzusagen. Als Teil dieses Portfolios unterstützt IBM SPSS Predictive Analytics Software Organisationen, zukünftige Ereignisse vorherzusagen und proaktiv auf Basis dieser Erkenntnisse zu handeln, um bessere Geschäftsergebnisse zu erzielen. Kunden aus den Bereichen Wirtschaft, öffentlicher Verwaltung und Lehre verlassen sich weltweit auf IBM SPSS Technologie als Wettbewerbsvorteil zur Kundengewinnung, -bindung und Erhöhung der Kundenumsätze bei gleichzeitiger Betrugsreduzierung und Risikominimierung. Durch die Integration von IBM SPSS Software in ihre täglichen Prozesse werden Organisationen zur Predictive Enterprise – sie sind dadurch in der Lage Entscheidungen zu treffen und zu automatisieren, um die Geschäftsziele zu erreichen und einen messbaren Wettbewerbsvorteil zu gewinnen. Für mehr Informationen besuchen Sie bitte www.ibm.com/spss/de. 31 © Copyright IBM Corporation 2010 IBM Corporation Route 100 Somers, NY 10589 Eingeschränkte Rechte für Mitarbeiter der US-Regierung – Benutzung, Duplizierung und Veröffentlichung beschränkt durch GSA ADP Schedule-Vertrag mit IBM Corp. Hergestellt in den USA Mai 2010 Alle Rechte vorbehalten IBM, das IBM Logo, ibm.com, WebSphere, InfoSphere und Cognos sind Marken oder eingetragene Marken der International Business Machines Corporation in den USA und/oder anderen Ländern. Wenn diese oder andere eingetragene Markenbegriffe von IBM mit einem Markenzeichen (® oder TM) gekennzeichnet sind, wenn Sie zum ersten Mal in diesen Informationen vorkommen, weist dies darauf hin, dass es sich zum Zeitpunkt der Veröffentlichung dieser Informationen um in den USA eingetragene Marken oder Marken nach Gewohnheitsrecht von IBM handelt. Solche Marken können auch in anderen Ländern eingetragene Marken oder Marken nach Gewohnheitsrecht sein. Eine aktuelle Liste der Marken von IBM finden Sie im Internet unter „Copyright and trademark information“ (www.ibm. com/legal/copytrade.shtml). SPSS ist eine Marke von SPSS, Inc., an IBM Company, die in vielen Gerichtsbezirken weltweit eingetragen ist. Weitere Unternehmens-, Produkt- und Servicenamen können Marken anderer Hersteller sein. Bereiten Sie bitte auf Business Analytics-Software IMW14301-DEDE-01