Meistern neuer Herausforderungen in der Textanalyse

Transcription

Meistern neuer Herausforderungen in der Textanalyse
IBM Software
Business Analytics
IBM® SPSS® Text Analytics
Meistern neuer
Herausforderungen
in der Textanalyse
Aufbereiten unstrukturierter Daten für die
Vorhersageanalyse
Einführung
Inhalt:
1 Einführung
3Was ist die Textanalyse und wie wird
sie verwendet?
5Ansätze für das Textverstehen
6Der IBM SPSS Text Analytics-Prozess
22Anwenden der Textanalyse auf Unternehmensebene
23Fazit
24IBM SPSS-Produkte für die
Textanalyse
25Anhang A
Es ist allgemeinhin bekannt, dass die Informationsflut in den vergangenen 20 Jahren explosionsartig zugenommen hat. Diese Zunahme wird
laut Experten voraussichtlich anhalten, da Millionen von Menschen, die
Onlineressourcen verwenden, ihre Nutzung ausdehnen werden, und
Millionen von Menschen, die heute noch ohne Zugang zu derartigen
Ressourcen sind, einen solchen erhalten werden.
Entsprechend sind die sowohl in Geschäfts- als auch Regierungsorganisationen gespeicherten Informationen exponentiell gewachsen.
Hier einige wenige Beispiele:
•
•
27Anhang B
28Anhang C
•
29Weiterführende Literatur zur
Textanalyse
31Informationen zu IBM Business
Analytics
•
•
Meinungsforschungsumfragen werden zunehmend online durchgeführt
und die Ergebnisse in Echtzeit geteilt.
Der Boom in Softwareanwendungen zur Unterstützung der Abläufe in
Vertrieb, Kundendienst oder Callcenter hat zu gewaltigen Textmengen
geführt, die elektronisch in den Notizenfeldern dieser Anwendungen
gespeichert sind.
Schätzungen der Technologieanalysten bei IDC zufolge werden jeden
Tag 62 Milliarden E-Mails gesendet.
Durchsuchbare Websites generieren jeden Tag genügend Informationen, um Millionen von Büchern zu füllen.
Blogs und Wikis, die von Einzelpersonen und Gruppen für private und
berufliche Zwecke erstellt werden, nehmen exponentiell zu: Zum
Zeitpunkt der Erstellung des vorliegenden Dokuments könnte die Zahl
der Blogs bei 100 Millionen liegen und jede Sekunde kommt ein neues
Blog hinzu.
Eine solche enorme Expansion des globalen Informationsaustausches
wäre vor 40 Jahren unvorstellbar gewesen. Damals waren die meisten
Geschäfts- und Regierungsmitteilungen sowie Nachrichtenberichte und
Werbung papierbasiert.
Doch bereits vor 40 Jahren begannen visionäre Forscher nach Möglichkeiten zu suchen, das Wissen der in der Medizin und anderen wissenschaftlichen Bereichen sowie in Regierungsbehörden und in Unternehmen tätigen Personen zu erweitern, indem zuvor unbekannte
Verbindungen in großen Sammlungen von Textdokumenten mithilfe von
IBM Software
Business Analytics
Highlights:
IBM SPSS Text Analytics ermittelt
Verbindungen und Beziehungen in allen
Arten von „unstrukturierten“ Daten.
Dadurch haben Organisationen folgende
Möglichkeiten:
•
Aufdecken von Verbindungen zwischen
Personen und Organisationen und
zwischen Überzeugungen, Stimmungen
und Ereignissen
•
Transformation von Text in quantifizierbare
Daten, mit denen die Leistung von
Vorhersagemodellen verbessert werden
können
•
Anleitung von Geschäftsentscheidungen
mit einem besseren Verständnis für die
Kunden, Mitarbeiter, Studenten oder
Gemeinschaften
IBM SPSS Text Analytics
Computertechnologien aufgedeckt werden. Sie schufen die Fachrichtung der so genannten Computerlinguistik, die heute an zahlreichen
Universitäten sowie öffentlichen und privaten Forschungszentren
weltweit Anwendung findet.
Die Computerlinguisten konzentrierten sich zunächst darauf, nach
Möglichkeiten zum Kategorisieren und Erforschen von Konzepten zu
suchen, die sich in Büchern, wissenschaftlichen Fachblättern, juristischen Schriftsätzen, Patentanmeldungen, Zeitungen, Berichten und
anderen papierbasierten Unterlagen, die in digitale Formate konvertiert
werden konnten , fanden. In jüngerer Zeit erweiterten die Linguisten
ihr Forschungsgebiet auf Möglichkeiten, die gewaltige Menge an
digital veröffentlichten Textdaten zu „schürfen“ (Data Mining). Dazu
gehören beispielsweise Onlineausgaben von Zeitungen, wissenschaftliche Journale und Tagungsberichte. Darüber hinaus gibt es eine Fülle
von Inhalten, die in digitaler Form entstehen, z. B. Websites, Blogs,
Wikis, E-Mails, Instant Messaging (IM) sowie in Formularen, Umfragen und Wissenschafts-, Regierungs- oder Unternehmensdatenbanken
eingebetteter Text.
Zunehmende Anerkennung findet die Tatsache, dass die Textanalyse in
verschiedenen Bereichen wissenschaftlicher Forschung zu einem
wesentlichen Bestandteil geworden ist und dass sie einen wertvollen
Beitrag zu anderen Formen der Datenanalyse leistet, insbesondere
wenn sie eingesetzt wird, um das potenzielle menschliche Verhalten in
bestimmten Situationen vorherzusagen. Die Textanalyse ist beispielsweise für eine umfassende Betrachtung des Kundenverhaltens wesentlich,
da sie Einblicke in die Nuancen der Einstellungen und Meinungen
bietet, die das Verhalten beeinflussen. Angesichts der exponentiellen
Zunahme von Text in Onlineformaten müssen Möglichkeiten gefunden
werden, um diese Daten zu strukturieren und sie Forschern und
Entscheidungsträgern verfügbar zu machen.
Im vorliegenden Dokument wird die Textanalyse kurz definiert, es
werden verschiedene Ansätze zur Textanalyse beschrieben und anschließend wird näher auf die Techniken zur Verarbeitung natürlicher Sprache
(Natural Language Processing, NLP) eingegangen, die von IBM SPSS Text
Analytics-Lösungen verwendet werden. Abschließend folgen Beschreibungen dieser Lösungen für und ihre Rolle in der Vorhersageanalyse.
Eine kurze Definition der auf die Textanalyse bezogenen Begriffe
finden Sie in Anhang A auf den Seiten 25 – 26. Diese Begriffe werden
beim ersten Vorkommen in diesem Dokument kursiv dargestellt.
2
IBM Software
Business Analytics
IBM SPSS Text Analytics
Was ist die Textanalyse und wie wird sie
verwendet?
Zunächst mag es hilfreich sein, die Bedeutung der Begriffe
„Textanalyse“ und „Vorhersageanalyse“ zu erläutern.
Im Vorfeld muss ein Missverständnis ausgeräumt werden: Textanalyse
ist nicht das gleiche wie die Suche. Suchmaschinen stellen einen
„Top-down-Ansatz“ für die Suche nach Informationen in Textmaterial
dar. Das bedeutet, dass Endbenutzer wissen müssen, wie sie Suchanfragen strukturieren, um genau die gewünschte Information zu erhalten.
Im Gegensatz dazu ist die Textanalyse ein „Bottom-Up-Ansatz“. Für
die Textanalyse müssen die Benutzer keine bestimmten Suchbegriffe
kennen. Stattdessen deckt die Textanalyse die Konzepte und Motive
auf, die in einem Korpus von Dokumenten enthalten sind, und bildet
die Beziehungen zwischen ihnen ab.
Eine eher formelle Definition wäre folgende: Die Textanalyse ist eine
Methode zum Extrahieren nutzbaren Wissens aus unstrukturierten
Textdaten durch Identifizierung der Kernkonzepte, Stimmungen und
Trends. Dieses Wissen dient dann zur Unterstützung des Entscheidungsprozesses. Bei einem „Dokument“ kann es sich um einen Artikel
in einem wissenschaftlichen Fachblatt, Freitextantworten auf eine
Markforschungsumfrage, Datensätze aus einer Datenbank (z. B.
Callcenter-Notizen oder Kunden-E-Mails), Inhalte aus einer Nachrichtenmeldung oder auch um einen Tatortbericht handeln.
Die Textanalyse entdeckt Verbindungen und Beziehungen nicht innerhalb
eines einzelnen Dokuments, jedoch innerhalb einer großen Sammlung oder
eines „Korpus“ von Dokumenten. Diese Verbindungen und Beziehungen
können dann so organisiert werden, dass eine eigenständige Analyse oder
eine Analyse in Kombination mit anderen Daten ermöglicht wird.
Die Anwender der Textanalyse können Algorithmen zur Beschreibung von
Konzeptclustern oder Zusammenhängen zwischen bestimmten Konzepten
oder benannten Entitäten einsetzen. Die Ergebnisse der Textanalyse
können dann in Modelle zur Vorhersageanalyse integriert werden.
Vorhersageanalysen versorgen den Entscheidungsprozess mit Informationen und steuern ihn, indem eine Kombination aus fortgeschrittenen
Analysen und Entscheidungsoptimierung auf die Daten angewendet
werden mit dem Ziel, Geschäftsprozesse zu verbessern, um bestimmte
unternehmerische Zielvorgaben zu erreichen. Durch die Einbeziehung
von Text- oder „unstrukturierten“ Daten neben den in Datenbanken
oder Transaktionsdatensätzen vorhandenen „strukturierten“ Daten
können die durch Data Mining gewonnenen Einblicke vertieft werden.
Textdaten lassen häufig Einstellungen und Stimmungen erkennen, die
in Kombination mit demografischen oder verhaltensbezogenen Daten
Analysten in die Lage versetzen, Ereignisse, Verhalten oder Aktionen, an
denen sich Einzelpersonen oder Gruppen wahrscheinlich beteiligen,
zuverlässiger vorherzusagen.
3
IBM Software
Business Analytics
Die Textanalyse verfolgt einen völlig
anderen Ansatz als Suchmaschinentechnologien. Für die Textanalyse müssen die
Benutzer keine bestimmten Suchbegriffe
kennen. Stattdessen deckt die
Textanalyse die Konzepte und Motive, die
in einem Korpus von Dokumenten enthalten sind, auf und bildet die Beziehungen
zwischen ihnen ab.
IBM SPSS Text Analytics
Die Textanalyse bietet Organisationen in vielen verschiedenen
Einsatzgebieten erwiesenermaßen messbare Vorteile. Für gewerbliche
Organisationen gehören dazu folgende:
•
•
•
•
Unterstützung eines verbesserten Customer Relationship Management
(CRM) durch Bereitstellen einer umfassenderen Betrachtung der Kunden,
ihrer Wünsche und Präferenzen, was zu effektiverem Marketing,
einer reduzierten Kundenabwanderungsrate und zu verbesserter
Kundentreue sowie einem verbesserten Lebenszeitwert führt
Erfassen der Kundenmeinung durch Umfragen oder Daten aus Web
2.0-Interaktionen zur Verbesserung von Kundenbindung und
Markenüberwachung
Beschleunigung der Zykluszeiten in der Entwicklung und
Verbesserung von Produkten sowie frühzeitige Erkennung von
Produktproblemen durch Garantieanalysen
Erlangen eines besseren Überblicks über den Wettbewerb
Die Textanalyse findet auch im öffentlichen Sektor Anwendung, zum
Beispiel in folgenden Bereichen:
•
•
•
Aufdecken von Mustern, die auf möglicherweise betrügerisches
Verhalten schließen lassen
Ermitteln von Verbindungen zwischen kriminellen Gruppen
Identifizieren möglicher Sicherheitsrisiken oder illegaler Aktivität
Darüber hinaus kann die Textanalyse in der Wissenschaft und der
medizinischen Forschung unschätzbare Dienste leisten, z. B. in
folgenden Fällen:
•
•
•
Beschleunigung der Untersuchung von sekundären
Forschungsmaterialien, wie Patentberichte und Artikel in Fachblättern
Identifizieren zuvor unbekannter Zusammenhänge zwischen Personen,
Forschungsprojekten oder Produkten
Minimieren des Zeitaufwands für den Arzneimittelentdeckungsprozess
Dies sind nur einige Beispiele dafür, wie die Textanalyse eingesetzt wird
und wie sie die Vorhersageanalyse verbessern kann. Weitere Anwendungsbereiche kommen täglich hinzu. Die Organisationen können es sich
einfach nicht leisten, diese Fülle von Textinformationen zu ignorieren.
4
IBM Software
Business Analytics
IBM SPSS Text Analytics
Ansätze für das Textverstehen
Textdaten lassen häufig Einstellungen
und Stimmungen erkennen, die
Analysten in Kombination mit
demografischen oder
verhaltensbezogenen Daten in die Lage
versetzen, Ereignisse, Verhalten oder
Aktionen, an denen sich Einzelpersonen
oder Gruppen wahrscheinlich beteiligen,
zuverlässiger vorherzusagen.
Zur Durchführung einer Textanalyse stehen einem Unternehmen
mehrere Ansätze zur Verfügung. In der Vergangenheit musste im
Hinblick auf Genauigkeit und Geschwindigkeit sowie im Hinblick auf
die Personalkosten und die Kosten der Computertechnologien ein
Kompromiss gefunden werden. Heute profitieren Organisationen von
den Vorteilen einer verbesserten Genauigkeit und reduzierter Kosten
durch Anwenden von Computertechnologien auf die Textanalyse. Es
besteht jedoch stets die Notwendigkeit, menschliches Wissen in den
Prozess zu integrieren.
Ein erster Ansatz zum Textverstehen besteht ganz einfach darin,
Dokumente von Personen lesen zu lassen, die deren Inhalte notieren
und entscheiden, in welche Kategorien sie abgelegt werden sollten.
Marktforscher kategorisieren oder „kodieren“ beispielsweise häufig
Freitextantworten in Umfragen. Da Personen Texte gut verstehen, ist
dieser Ansatz zwar äußerst genau, jedoch zeitaufwändig und kostspielig.
Darüber hinaus kann ein manueller Ansatz keine Anleitung zum
Identifizieren von Beziehungen oder Trends in den analysierten Daten
bieten. Angesichts der enormen Textmengen, die nun häufig auch in
mehreren Sprachen verfügbar sind, sind andere Ansätze erforderlich.
Ein zweiter Ansatz besteht in der Anwendung automatisierter Lösungen auf der Basis von Statistiken. Einige dieser Lösungen zählen jedoch
lediglich, wie oft Begriffe vorkommen, und berechnen daraus ihre Nähe
zu verwandten Begriffen. Da sie nicht in der Lage sind, Mehrdeutigkeiten in menschlichen Sprachen zu berücksichtigen, gehen relevante
Beziehungen unter Umständen in der Fülle an irrelevanten Erkenntnissen unter – oder werden gänzlich übersehen. Einige dieser statistikbasierten Lösungen wiegen diesen Mangel auf, indem sie Analysten
Möglichkeiten zum Erstellen von Regelwerken bieten, mit denen
irrelevante Ergebnisse unterdrückt werden können. Doch diese
Regelwerke müssen von den Analysten erstellt und ständig aktualisiert
werden, was zusätzliche Kosten und Komplexität zur Folge hat.
5
IBM Software
Business Analytics
Die linguistikbasierte Textanalyse bietet
die Geschwindigkeit und Kosteneffizienz
statistikbasierter Systeme, jedoch mit
einem weitaus höheren Grad an Genauigkeit. Darüber hinaus sind die beteiligten
Techniken transparenter. Dies bedeutet,
dass sie von Benutzern geändert werden
können, um die Genauigkeit der
Ergebnisse weiter zu erhöhen.
IBM SPSS Text Analytics
Andere statistikbasierte Lösungen setzen auf lernfähige Werkzeuge wie
bayesianische Netze, neuronale Netze, Support Vector Machines (SVM) bzw.
die latente semantische Analyse (Latent Semantic Analysis, LSA). Während
diese Lösungen effektiver als andere statistische Ansätze sein können, ist
ihr Nachteil, dass sie „Black Boxes“ sind, d. h., sie verwenden versteckte
Mechanismen, die nur von hochqualifizierten Statistikern oder Programmierern angepasst werden können.
Die linguistikbasierte Textanalyse bietet die Geschwindigkeit und Kosteneffizienz statistikbasierter Systeme, jedoch mit einem weitaus höheren
Grad an Genauigkeit. Diese Textanalyse basiert auf dem als Verarbeitung
natürlicher Sprache (Natural Language Processing, NLP) bekannten
Forschungsgebiet. Das Verstehen von Sprache, das mit dem NLP-Ansatz
möglich ist, durchbricht die Mehrdeutigkeit von Text und macht die
linguistikbasierte Textanalyse so zu dem Ansatz mit der größtmöglichen
Genauigkeit.
Anfänglich erfordern linguistikbasierte Lösungen u. U. menschliche
Eingriffe, z. B. beim Entwickeln von Wörterbüchern für eine bestimmte
Branche oder ein Forschungsgebiet. Der daraus resultierende Vorteil ist
jedoch nicht von der Hand zu weisen: Die Ergebnisse sind genauer und
die beteiligten Techniken transparenter. Dies bedeutet, dass sie von
Benutzern geändert werden können, um die Genauigkeit der Ergebnisse
weiter zu erhöhen.
Der IBM SPSS Text Analytics-Prozess
Wie das Data Mining ist auch die Textanalyse ein iterativer Prozess, der am
effektivsten ist, wenn er einer bewährten Methode folgt. Dadurch wird die
Produktivität der Analysten maximiert und die Vergleichbarkeit der Ergebnisse unterstützt. Erkenntnisse aus der einen Analyse können außerdem dazu
verwendet werden, andere Analysen mit Informationen zu versorgen oder
diese anzuleiten, und datengesteuerte Entscheidungen werden erleichtert.
Beim Data Mining wird der auf Industrienormen basierende Cross-Industry Standard Process for Data Mining (CRISP-DM) eingesetzt, der von
Tausenden von Organisationen weltweit verwendet wird. Die gleiche
Methode unterstützt auch die Textanalyse.
In diesem Dokument werden die linguistischen Prozesse der Textanalyse
beschrieben, die dem groben Leitfaden der CRISP-DM-Methode
insofern folgen, als sobald die Daten verstanden, aufbereitet und modelliert sind, die resultierenden Modelle bewertet werden, unabhängig davon,
ob sie nur textanalytische Ergebnisse umfassen oder mit anderen Daten
kombiniert sind. Die Ergebnisse werden schließlich entweder als Berichte
oder als Auswertungen bereitgestellt und speisen somit automatische
Systeme wie Empfehlungs-Engines. Wie beim Data Mining bestehen die
beiden Hauptschritte bei der Textanalyse in der Datenaufbereitung und
dem Datenverständnis.
6
IBM Software
Business Analytics
IBM SPSS Text Analytics
In den nächsten Abschnitten wird beschrieben, wie Analysten die
IBM SPSS Text Analytics-Produkte für die Textanalyse einsetzen.
Der Prozess umfasst sieben Hauptschritte:
1. Vorbereiten des Texts für die Analyse
2. Extrahieren von Konzepten
3. Aufdecken von Meinungen, Beziehungen, Fakten und Ereignissen
mittels Textlinkanalyse
4. Aufbau von Kategorien
5. Erstellen von Textanalysemodellen
6. Zusammenführen von Textanalysemodellen mit anderen
Datenmodellen
7. Bereitstellen der Ergebnisse für Vorhersagemodelle
Da der Schwerpunkt dieses Dokuments auf den in IBM SPSS Text
Analytics-Produkten integrierten Funktionen liegt, werden die ersten
vier Schritte dieses Prozesses behandelt, wobei auch am Rande auf die
Bereitstellung der Ergebnisse eingegangen wird.
Workflow
Prepare text
for analysis
Apply Text
Link Analysis
Extract concepts
Build categories
Deploy to predictive
models
Workflow
Der Workflow ist ähnlich, unabhängig davon, ob das Ziel der Analyse
Apply Text
Deploy to predictive
Build categories
in Fachblättern,
von
Link Analysis interne Dokumente, Webseiten, der Wortlaut
models
Umfrageantworten,
Callcenter-Notizen
oder andere Textdatenquellen
A
Apply
pplly T
pp
Text
ext
Deploy tosind.
predictive
ctive
Build categories
Workflow
Prepare text
for analysis
Extract conceptsArtikel
Prepare text
for analysis
Extract concep
concepts
conc
epts
ep
ts
Link Analysis
Analys
Analy
A
naly
na
lys
ly
s
Prepare text
for analysis
Extract concep
concepts
conc
epts
ep
ts
A
Apply
pplly T
pp
Text
ext
Link Analysis
Analys
Analy
A
naly
na
lys
ly
s
Build categories
Deploy to predictive
ctive
models
Prepare
P
rep
re
par
are
e text
text
for analysis
analysis
Extract concepts
A
Apply
pplly T
pp
Text
ext
Link Analysis
Analysi
Build categories
Deploy to predictive
tive
models
models
Workflow
Workflow
Workflow
Workflow
Prepare
P
rep
re
par
are
e text
text
for analysis
analysis
Prepare
P
rep
re
par
are
e text
text
for analysis
Workflow
Workflow
Prepare
P
rep
re
par
are
e text
text
for analysis
Prepare
P
rep
re
par
are
e text
text
for analysis
analysis
Workflow
1. Schritt: Vorbereiten des Texts für die Analyse
Zur Durchführung einer Textanalyse ist eine Sammlung oder ein
A
Apply
pplly T
pp
Text
ext
Deploykleine
to predictive
tive
vonLink
Dokumenten
erforderlich.
Ein Korpus kann eine
Build categories
Analysis
Analysi
models
Stichprobe oder
Millionen von Dokumenten umfassen. DieDeploy
DokumenApply Text
to predictive
ctive
Build categories
Extract concepts
Link
Analysis
te können in mehreren Sprachen verfasst sein und verschiedene models
Dateitypen repräsentieren: HTML, PDF, ASCII, E-Mail und gängige
Microsoft® Office-Formate.
Extract concepts „Korpus“
Extract conceptsIBM
Apply
Text
Deploy to predictive
ctive
SPSS Text
Analytics-Lösungen
können
Text in allen genannten
Build categories
Link Analysis
models
®
®
Formaten verarbeiten. Darüber hinaus können sie in IBM SPSS Data
A
Apply
pply
pp
ly T
Text
ext
Deploy to predictive
ctive
Build categories
Extract concepts
Link Analysis
Analys
Analy
s gespeicherten Text sowie Text aus RSS-Feeds
models
Collection-Formaten
(einschließlich Blogs und News-Feeds), Datenbanken und anderen
ODBC-kompatiblen Quellen verarbeiten.
Workflow
Prepare
P
rep
re
par
are
e text
text
for analysis
analysis
Extract concepts
A
Apply
pply
pp
ly T
Text
ext
Link Analysis
Analys
Analy
s
Build categories
Deploy to predictive
ctive
models
Prepare
P
repar
epare
e text
text
for analysis
analys
analys
ysis
is
Extract concepts
Apply
App
pplly Text
Text
Link Analysis
Analys
Analy
s
Build categories
Deploy to predictive
models
Apply
App
pplly Text
Text
Link Analysis
Analys
Analy
s
Build categories
Deploy to predictive
models
Workflow
7
Prepare
P
repar
epare
e text
text
for analysis
analys
analys
ysis
is
Extract concepts
IBM Software
Business Analytics
IBM SPSS Text Analytics
IBM SPSS Text Analytics-Lösungen verwenden leistungsstarke,
linguistikbasierte Funktionen zur Vorbereitung von Textdokumenten
für die Analyse. Die Vorbereitung der Dokumente erfolgt in drei
Schritten:
•
•
•
Sprachidentifikation
Dokumentkonvertierung
Segmentierung
Obwohl diese Schritte im Hintergrund ausgeführt werden, ist es nützlich,
die Vorgänge dieser Phase des Textanalyseprozesses zu verstehen.
Sprachidentifikation
Für Korpora, die mehrere Sprachen verwenden, ist die Sprachidentifikation der erste Schritt im Extraktionsprozess. (Für Korpora mit nur
einer Sprache entfällt dieser Schritt.)
Das IBM SPSS Text Analytics-Extraktionsprogramm erkennt über 80
Sprachen in verschiedenen Formaten basierend auf für jede Sprache
spezifische Muster, die als „n-Gramme“ bezeichnet werden. Zur Identifizierung der einzelnen Sprachen werden rund 400 n-Gramme verwendet.
Nachfolgend ist eine Teilmenge von Tri-Grammen aufgeführt, die zur
Erkennung von Französisch dienen (einige sind Buchstabenkombinationen, andere sind Kombinationen aus Buchstaben und Leerzeichen):
„ le“, „omm“, „ à“, „mma“, „le “, „du “, „nt “, „ma “, „ et“, „té “, „ dé“,
„les“, „ur “, „ux “, „une“, „ ré“, „iod“, „pou“, „rp“, „ui “, „ait“, „rpa“, „pré“,
„ ce“, „ité“, „ire“, „ée “, „com“, „par“, „ef “, „od “, „au “, „iqu“, „ref“, „ ét“,
„oit“, „lpa“, „our“, „tio“, „air“, „eur“, „ du“, „és“ „.av“, „ns “, „tai“
Mit IBM SPSS Text Analytics-Lösungen können sieben Muttersprachen
extrahiert werden: Englisch, Französisch, Spanisch, Niederländisch,
Deutsch, Italienisch und Portugiesisch. (IBM SPSS Text AnalyticsProdukte unterstützen außerdem die Extraktion von japanischen
Konzepten. Dabei findet jedoch ein anderer Prozess als der in diesem
Dokument beschriebene Anwendung.)
Durch den Einsatz der IBM® SPSS® Modeler Premium Language
Translation Interface (Schnittstelle zur Übersetzung von Sprache)
werden außerdem Übersetzungen aus zahlreichen Sprachen unterstützt, einschließlich: Arabisch, Chinesisch, Hindi, Persisch, Rumänisch,
Russisch, Somali und Schwedisch.
Dokumentkonvertierung
Nachdem die Sprache identifiziert wurde, konvertiert die IBM SPSS Text
Analytics-Lösung die Dokumente in ein Format, das für die weitere
Analyse verwendet werden kann. Gängige Dateitypen werden dabei
mithilfe von integrierten Filtern in ein Klartextformat konvertiert.
8
IBM Software
Business Analytics
IBM SPSS Text Analytics
Text aus Datenbanken und anderen ODBC-kompatiblen Quellen kann
ebenfalls konvertiert werden. In einem XML-basierten Dokument kann
mithilfe der Tags beispielsweise angegeben werden, welcher Text extrahiert werden soll, einschließlich Seitentitel, Metadaten und DokumentTags, falls gewünscht. Mit der IBM SPSS Text Analytics-Lösung werden
zudem Nichttextelemente wie Grafikdateien entfernt, die für die Textanalyse unbrauchbar sind.
Segmentierung
Nachdem die Dokumente in ein Klartextformat konvertiert wurden,
segmentiert die Textanalyselösung den Text in einzelne Elemente, aus
denen die Konzepte extrahiert werden. Die IBM SPSS Text AnalyticsSoftware identifiziert Markierungen für das Ende von Sätzen, Absätzen
und Dokumenten. Außerdem werden bestimmte Sonderzeichen oder
Zeichenfolgen entfernt bzw. durch Leerzeichen ersetzt.
Workflow
Prepare text
for analysis
Extract concepts
In diesem Schritt wird der Text von der Software automatisch optimal für
das Data Mining korrigiert oder aufbereitet. Die Software identifiziert
beispielsweise Zeichenfolgen aus dem Eingabetext auf der Basis von
Trennzeichen. Trennzeichen umfassen Leerzeichen, Tabulatoren,
Zeilenumschaltungen und Satzzeichen. In den nächsten Schritten des
Prozesses wird jedes Wort, das ein Satzzeichen enthält, dem kein Leerzeichen vorangeht oder folgt, von den IBM SPSS Text Analytics-Technologien als Teil eines
Begriffs behandelt. Beispiele:
Apply Text
Deploy to predictive
Link Analysis
•
•
Workflow
Prepare text
for analysis
•
Extract concep
concepts
conc
epts
ep
ts
Build categories
models
U.S.
xalpha(s) Protein
x,k-ATPase Beta-m Untereinheit
Die IBM SPSSAApply
Text
Analytics-Lösungen können außerdemDeploy
fehlerhafte
pplly T
pp
Text
ext
to predictive
ctive
Build categories
Link Analysis
Analys
Analy
A
naly
na
lys
ly
s
models
Zeichensetzung im Text berücksichtigen, z. B. falsche Verwendung
von
Punkten, Kommata, Schrägstrichen und anderen Satzzeichen.
Workflow
Prepare
P
rep
re
par
are
e text
text
for analysis
analysis
Workflow
Prepare
P
rep
re
par
are
e text
text
for analysis
Deploy to predictive
tive
models
Mit den Prozessen der Konzeptextraktion können Analysten Konzepte
aufdecken, die ihnen andernfalls möglicherweise in einem bestimmten
Apply Text
Deploy to predictive
ctive
Build categories
Extract concepts
Link Analysis verborgen bleiben würden. Außerdem können
models sie
Satz von Dokumenten
Instanzen dieser Konzepte in einer großen Sammlung von Textdokumenten finden, wo immer sie auftreten.
Der Prozess zur Extraktion von Konzepten umfasst fünf Hauptschritte:
Extract concepts •
•
•
•
Workflow
•
Prepare
P
repar
epare
e text
text
for analysis
analys
analys
ysis
is
Build categories
2. Schritt: Extrahieren von Konzepten
Workflow
Prepare
P
rep
re
par
are
e text
text
for analysis
analysis
A
Apply
pplly T
pp
Text
ext
Link Analysis
Analysi
Extract concepts
A
Apply
pply
pp
ly T
Text
ext
Build categories
Link Analysis
Analys
Analy
s
Verwalten linguistischer
Ressourcen
Termextrahierung
Zuweisung des Typs
Erstellen von Äquivalenzklassen
Indizierung
Apply
App
pplly Text
Text
Link Analysis
Analys
Analy
s
Extract concepts
9
Build categories
Deploy to predictive
ctive
models
Deploy to predictive
models
IBM Software
Business Analytics
IBM SPSS Text Analytics
Verwalten linguistischer Ressourcen
Die mit der IBM SPSS Text
Analytics-Lösung mitgelieferten
linguistischen Ressourcen müssen nicht
angepasst werden. Eine Anpassung ist
jedoch möglich und führt in einigen
Fällen zur Steigerung der Effizienz der
Konzeptextrahierung.
Obwohl die mit der IBM SPSS Text Analytics-Lösung mitgelieferten
linguistischen Ressourcen in den meisten Fällen nicht geändert werden
müssen, ist es hilfreich zu wissen, welche Ressourcen verfügbar sind.
Linguistische Ressourcen sind hierarchisch aufgebaut. Auf der obersten
Ebene befinden sich spezialisierte Ressourcenvorlagen, die jeweils einen
Satz aus Bibliotheken, zusammengestellten Ressourcen sowie einige
erweiterte Ressourcen enthalten. Bibliotheken umfassen wiederum
mehrere Wörterbücher.
Für alle unterstützten Sprachen ist eine IBM SPSS Standard-Ressourcenvorlage im Lieferumfang enthalten. Für englischsprachige Texte sind
außerdem benutzerdefinierte Vorlagen für eine Vielzahl bestimmter
Anwendungsbereiche enthalten, z. B. CRM, Marketinginformationen,
Genontologie, Genomforschung, medizinische Fachtitel oder MeSH®,
IT, Meinungen und Sicherheitsinformationen. Für einige andere
Sprachen sind ebenfalls benutzerdefinierte Vorlagen verfügbar.
Jede Vorlage kann mehrere Bibliotheken umfassen. Die Budgetbibliothek (Budget Library) dient z. B. dazu, Begriffe, die sich auf Kosten
beziehen, zu extrahieren. Die Meinungsbibliothek (Opinions Library)
enthält Tausende von Worten, die Einstellungen, Qualifikatoren oder
Präferenzen darstellen, die auf eine Meinung zu einem Thema hinweisen. Sie ist in den Sprachen Englisch, Französisch, Spanisch, Niederländisch, Deutsch und Japanisch verfügbar. Eine Kernbibliothek (Core
Library) steht in allen Sprachen zur Verfügung.
Jede Bibliothek enthält mehrere Wörterbücher, die aus Wortlisten,
Beziehungen und anderen Informationen bestehen, die zum Angeben
oder Anpassen der Extrahierung dienen. In den IBM SPSS Text Analytics-Lösungen stehen zwei Arten von Wörterbüchern zur Verfügung:
zusammengestellte Wörterbücher, die von Benutzern nicht geändert
werden können, und andere Wörterbücher, die geändert werden können.
Die IBM SPSS Text Analytics-Lösungen umfassen zwei Arten von
zusammengestellten Wörterbüchern:
•
•
Ein Extraktionswörterbuch für jede Sprache, das eine Liste von
Grundformen mit einem Code für die Wortart (Part of Speech)
umfasst. Die im Extraktionswörterbuch für englischsprachige Texte
angegebenen Wortarten sind z. B. Nomen, Verb, Adjektiv, Adverb,
Partizip, Koordinator, Determinator und Präposition.
Wörterbücher für benannte Entitäten, die aus Listen mit Eigennamen
bestehen, welche zur Zuweisung von extrahierten Begriffen zu Typen
dienen. Typen umfassen Organisationen, Personen, Orte und Produkte.
10
IBM Software
Business Analytics
IBM SPSS Text Analytics
Die Wörterbücher müssen von Benutzern nicht angepasst werden, um
zufriedenstellende Ergebnisse von den IBM SPSS Text Analytics-Lösungen zu erhalten. Die Extraktionseffizienz im Text-Mining kann
jedoch durch benutzerdefinierte Wörterbücher verbessert werden.
Benutzerdefinierte Wörterbücher sind beispielsweise folgende:
•
•
•
•
•
Typwörterbücher, die einem Wort eine bestimmte Kategorie zuordnen.
Sie können z. B. Typen erstellen, die in Ihrer Branche häufig auftreten
und die Produktnamen Ihres Unternehmens einschließen. Auf diese
Weise kann beispielsweise eine Organisation, die Garantieansprüche in
Verbindung mit Fahrzeugverkäufen prüft, die verschiedenen Kfz-Teile,
auf die in den Dokumenten verwiesen wird, korrekt typisieren.
Ausschlusswörterbücher, die das Ausschließen von Konzepten aus der
Konzeptdatenbank erzwingen.
Synonymwörterbücher, die Begriffe mit ähnlichen Bedeutungen
identifizieren, um Konzepte mit einem höheren Grad an Aussagekraft
zu erzeugen. Diese Wörterbücher dienen auch zum Definieren von
Akronymen.
Wörterbücher mit Schlüsselwörtern, die Produkte, Organisationen,
Namen, Begriffe und Orte durch Verifizieren des Vorhandenseins von
Wörtern identifizieren.
Das globale Wörterbuch, das Vorrang vor Typ- und Schlüsselwortwörterbüchern hat, um Mehrdeutigkeiten zwischen diesen Wörterbüchern im
Falle von bestimmen Wörtern (in bestimmten Bereichen) abzugleichen.
IBM SPSS Text Analytics-Produkte umfassen den IBM SPSS Ressourceneditor. Mit dem Ressourceneditor können Benutzer vorhandene
Wörterbücher bearbeiten, benutzerdefinierte Wörterbücher erstellen
und bearbeiten und spezielle Regeln erstellen, wie beispielsweise Regeln
für die IBM Textlinkanalyse (siehe Seite 11 – 13). Außerdem bietet der
IBM Ressourceneditor die Möglichkeit, benutzerdefinierte Typzuweisungen zu erstellen. Ein Unternehmen, das auf die Automobilbranche
bezogene Dokumente prüft, kann z. B. eine Typzuweisung für bestimmte PKW-Modelle definieren.
Die linguistischen Ressourcen des IBM SPSS Ressourceneditors sind
so entwickelt worden, dass eine Anwendung von verschiedenen
Anwendungen und Benutzern gemeinsam verwendet werden kann.
Analysten können vorhandene Wörterbücher problemlos importieren
sowie Vorlagen und Bibliotheken mit benutzerdefinierten Wörterbüchern exportieren und freigeben, Regeln festlegen und Prioritäten für
den Termextrahierungsvorgang definieren.
Termextrahierung
Der erste Schritt im Konzeptextrahierungsprozess der IBM SPSS Text
Analytics-Lösung besteht darin, Kandidaten zu ermitteln, die dann
weiter analysiert werden. Kandidaten sind Wörter oder Wortgruppen,
mit denen Konzepte im Text identifiziert werden.
Zur Erleichterung dieses Prozesses umfassen die IBM SPSS-Lösungen
integrierte Techniken zur Identifizierung linguistischer und nichtlinguistischer Entitäten.
11
IBM Software
Business Analytics
IBM SPSS Text Analytics
Identifizierung nichtlinguistischer Entitäten
Die IBM SPSS Text Analytics-Lösungen ermöglichen die Extrahierung
von Entitäten innerhalb von Text, die nicht als Wörter betrachtet werden.
Diese nichtlinguistischen Entitäten umfassen u. a. folgende: URLs,
E-Mail- und IP-Adressen, Telefonnummern, Sozialversicherungsnummern, Währungen, Uhrzeit und Datum, Gewichte und Maßeinheiten.
Die IBM SPSS Text Analytics-Lösung verwendet ein Regelwerk, das als
„reguläre Ausdrücke“ bezeichnet wird, um bekannte Muster für diese
nichtlinguistischen Entitäten zu extrahieren. Eine Zahl im Format
999-99-9999 würde z. B. extrahiert und als US-amerikanische Sozialversicherungsnummer typisiert werden. Entsprechend würde eine Nummer wie
z. B. +33.1.55.55.5555 extrahiert und als französische Telefonnummer
klassifiziert werden. Um die Verwendbarkeit zu erweitern, können Benutzer
eigene Regeln zum Identifizieren nichtlinguistischer Entitäten festlegen.
Identifizierung linguistischer Entitäten
Nachdem benannte und nichtlinguistische Entitäten identifiziert
wurden, verwendet die IBM SPSS Text Analytics-Software linguistische
Extraktionstechniken, um relevante Wörter und Wortgruppen aus dem
Eingabetext zu identifizieren. Ein Begriff, der aus einem Wort besteht,
wird als „Uniterm“ bezeichnet. Mehrere Wörter umfassende Begriffe
sind so genannte „Multiterme“.
Einzelne Wörter, die nicht im Extrahierungswörterbuch enthalten sind,
gelten als Uniterme. Uniterme erhalten abhängig von dem Wert, den
sie für die Analyse darstellen, eine besondere Behandlung.
Multiterme-Kandidaten sind häufig aus grammatikalischer/linguistischer
Sicht als Nominalphrasen strukturiert. Diese Multiterme werden über
Extraktoren auf der Grundlage von Wortklasse-Mustern ermittelt. Der
Multiterm Sportwagen, der dem Wortklasse-Muster „Nomen-Nomen“
entspricht, besteht beispielsweise aus zwei Komponenten. Der Multiterm
schneller Sportwagen, der dem Wortklasse-Muster „Adjektiv-NomenNomen“ entspricht, besteht aus drei Komponenten. Jede Sprache weist
im Normalfall rund 15 – 20 Muster auf. Die maximale Mustergröße liegt
abhängig von der jeweiligen Sprache bei etwa sieben Komponenten.
Die IBM SPSS-Lösungen werden mit Wortklasse-Standardmustern
ausgeliefert, die im Wesentlichen Nominalphrasen darstellen. Benutzer
können mit dem Ressourceneditor der Software jedoch kurzerhand
eigene Muster erstellen (siehe Seite 11).
Zuweisung des Typs
Nach dem Extrahieren der Kandidaten wird diesen ein Typ zugewiesen.
Das Zuweisen eines Typs erleichtert das Verstehen des Inhalts eines
Textdokuments.
Ein Schritt in diesem Prozess ist die Ermittlung benannter Entitäten
(„Named Entities“). Benannte Entitäten umfassen Personen, Unternehmen, Produktnamen und Orte. In vielen Fällen spielen die Listen
mit benannten Entitäten eine wichtige Rolle bei der Festlegung von
Kategorien oder bei der Aufdeckung von Beziehungen, die wiederum
Aufschluss über bestimmte Bedingungen oder Verhaltensmuster geben.
12
IBM Software
Business Analytics
IBM SPSS Text Analytics
Mit Wörterbüchern für benannte Entitäten sowie internen Wörterbüchern wird das Vorhandensein von Wörtern oder Mustern überprüft
und ein Term als benannte Entität eingestuft.
Diese Wörterbücher enthalten für jede Sprache eine umfassende Liste
mit Vornamen. Bei Ermittlung dieser Vornamen werden diese von der
Textanalyselösung als Kandidaten behandelt. Außerdem verwendet die
Textanalyselösung einen bestimmten Algorithmus für Zeichenfolgen,
die aus Großbuchstaben bestehen (z. B. bei Berufsbezeichnungen),
sodass diese speziellen Muster extrahiert werden können. Wissenschaftliche Termini wie Gene, Aminosäuren und Proteine können ebenfalls
ermittelt werden. Dazu werden Erweiterungen der in der Anwendung
eingebetteten linguistischen Regeln verwendet.
Die IBM SPSS Text Analytics-Lösungen stellen außerdem zusammengesetzte und benutzerdefinierte Wörterbücher bereit, um anderen extrahierten Termen einen semantischen Typ zuzuweisen. Mithilfe eines Systems aus
Prioritäten überprüft die Lösung eine extrahierte Liste von Begriffen. Die
zusammengesetzten Wörterbücher erzwingen eine bestimmte Reihenfolge
bei der Typisierung von Organisationen, Einzelpersonen, Produkten
und Orten. Benutzerdefinierte Wörterbücher werden in der Reihenfolge angewendet, in der sie im Ressourceneditor definiert sind.
Erstellen von Äquivalenzklassen
Bei einer Äquivalenzklasse handelt es sich um eine einzelne Form von
mehreren Varianten desselben Wortes oder Ausdrucks.
Die IBM SPSS Text Analytics-Lösung verwendet eine Reihe von
Synonymdateien und integrierten Algorithmen, um Kandidaten zu
vergleichen und Äquivalenzklassen zu ermitteln. Diese Funktion stellt
zum Beispiel sicher, dass die Begriffe Leiter des Unternehmens und
Unternehmensleiter nicht als unterschiedliche Konzepte betrachtet
werden. Außerdem sorgt die Funktion für Konsistenz der extrahierten
Ausdrücken über mehrere Extrahierungsdurchgänge.
Benutzer können außerdem die Substitution eines Terms durch einen
anderen erzwingen. Nehmen Sie z. B. folgende Ersetzungen vor:
•
•
Mgr durch Manager
k/A durch keine Angabe
Von der Textanalyselösung werden Substitutionen stets angewendet, auch
wenn sich der Ersatzterm nicht in den eigentlichen Dokumenten befindet.
Darüber hinaus gruppiert die Textanalyselösung mithilfe von Fuzzy-Logik
(unscharfe Logik) ähnliche Ausdrücke, ohne dass benutzerdefinierte
Ressourcen erforderlich sind. Dabei werden Rechtschreibvarianten
ermittelt, indem Vokale und doppelt oder dreifach auftretende
Konsonanten entfernt werden und anschließend ein Vergleich
durchgeführt wird. Beispiele:
•
•
•
techinischer Support = technischer Support
korregieren = korrigieren
addidas = adidas
13
IBM Software
Business Analytics
IBM SPSS Text Analytics
Diese Funktionen sind äußerst nützlich, wenn die Textqualität schlecht
ist, wie dies beispielsweise bei Freitextantworten für Umfragen,
E-Mails und CRM-Daten der Fall sein kann.
Mithilfe von integrierten Algorithmen erkennt und „korrigiert“ die IBM
SPSS Text Analytics-Software außerdem Folgendes: (Weitere Informationen zu diesen Algorithmen finden Sie in Anhang B auf Seite 27.)
•
•
•
•
•
Workflow
Prepare text
for analysis
Workflow
Prepare text
for analysis
Entfernen von Beugungsendungen. Beispiel: US-Konsument =
US-Konsumenten.
Entfernen von Funktionswörtern. Produktion für die Industrie =
Produktion für Industrie.
Trennzeichenvarianten. Stress frei = stressfrei. Außerdem stress-frei =
stressfrei.
Permutation der Komponenten. Beispiel: Vertreter der Unternehmen
= Unternehmensvertreter.
Akzentuierte/nichtakzentuierte Zeichen. Beispiel: evguéni primakov =
evgueni primakov.
Um zu bestimmen, welches Konzept als Zielkonzept für die Äquivalenzklasse verwendet werden soll, wendet der Extraktor folgende
Apply Text
Deploy to predictive
Extract concepts Regeln in der angegebenen Reihenfolge
Build an:
categories
Link Analysis
models
Benutzerdefiniertes Synonym
Die am häufigsten auftretende Form des Begriffs im Korpus
• Die kürzeste Form des Begriffs (Diese entspricht im Normalfall der
Grundform des Begriffs.)
A
Apply
pplly T
pp
Text
ext
Deploy to predictive
ctive
Build categories
Extract concep
concepts
conc
epts
ep
ts • Die erste Form,
die
Link Analysis
Analys
Analy
A
naly
na
lys
ly
s in der Liste der extrahierten Begriffe auftritt
models
•
Indizierung
Workflow
Prepare
P
rep
re
par
are
e text
text
for analysis
analysis
Am Ende des Extrahierungsprozesses präsentiert die Textanalyselösung
eine Liste mit extrahierten Termen, die in Gruppen zusammengefasst
und einem Typ zugewiesen sind. Indizes geben an, wie häufig ein Term
A
Apply
pplly T
pp
Text
ext
Deploy to predictive
tive
Build categories
Extract concepts in jedem Dokument
werden
Link Analysis
Analysisowie im Korpus insgesamt vorkommt. Sie models
für jedes Dokument im Korpus präsentiert.
Workflow
Prepare
P
rep
re
par
are
e text
text
for analysis
Build categories
Deploy to predictive
ctive
models
3. Schritt: Aufdecken von Meinungen, Beziehungen, Fakten
und Ereignissen mittels IBM SPSS Text Link Analysis
Workflow
Prepare
P
rep
re
par
are
e text
text
for analysis
analysis
Apply Text
Link Analysis
Extract concepts
Extract concepts
Nach Abschluss
des
Extrahierungsprozesses haben Analysten
dieto predictive
A
Apply
pply
pp
ly T
Text
ext
Deploy
ctive
Build categories
Link Analysis
Analys
Analy
s
models
Option, mittels Textlinkanalyse Beziehungen zwischen Konzepten
auf
Satzebene sowie Meinungen oder Qualifikatoren, die mit diesen
Konzepten verbunden sind, zu beschreiben.
Workflow
Prepare
P
repar
epare
e text
text
for analysis
analys
analys
ysis
is
Apply
App
pplly Text
Text
Link Analysis
Analys
Analy
s
Extract concepts
14
Build categories
Deploy to predictive
models
IBM Software
Business Analytics
IBM SPSS Text Analytics
Mithilfe der Textlinkanalyse, die außerdem zum Beschreiben von
Fakten und Ereignissen dient, können Analysten positive und negative
Konzepte in Textantworten ermitteln und isolieren. Die IBM SPSS
Text Analytics-Lösungen ermitteln jedoch nicht nur einfache positive/
negative Aussagen, sondern bieten darüber hinaus Einblick in positive
oder negative Einstellungen durch „Lesen“ textabhängiger Hinweise,
wie beispielsweise die Satzstruktur.
So würden Stimmungen, wie die in den folgenden Beispielsätzen
angegebenen, korrekt in Gruppen zusammengefasst werden, obwohl
eine Meinung positiv, eine negativ und eine gemischt ist:
Der Hotelmanager war sehr zuvorkommend.
Der Hotelmanager war ausgesprochen unhöflich.
Das Hotelpersonal war zuvorkommend, das Zimmer jedoch zu klein.
Durch Kombinieren von Termen, die einem Typ zugewiesen sind (d. h.
Personen, Organisationen, Gene usw.), linguistischen Beziehungen,
Literalzeichenfolgen und Boole'schen Operatoren ermöglicht die
Textlinkanalyse das Aufdecken komplexer Verknüpfungen und die
Ausgabe in einem benutzerdefinierten Format. Textausdrücke können
in Daten umgewandelt werden, die quantifiziert und mit anderen
quantifizierbaren Ergebnissen kombiniert werden können.
Diese Daten können Organisationen beispielsweise nutzen, um
vorherzusagen, welche Kunden (nach Demografie, nach Wert, nach
Branche) sich wahrscheinlich am stärksten für bestimmte Produktoder Dienstmerkmale interessieren.
Mit der Funktion der Textlinkanalyse zur Aufdeckung von Verbindungen zwischen Fakten und Ereignissen können Organisationen außerdem vielfältige Initiativen, angefangen von Marketingformationen über
Betrugserkennung bis hin zur Forschung im Bereich der Biowissenschaft, unterstützen. In der NLP-basierten Textanalyse hätten die drei
folgenden Phrasen die gleiche Bedeutung:
Unternehmen A wurde von Unternehmen B übernommen.
Unternehmen B übernahm Unternehmen A.
Die Übernahme von Unternehmen A durch Unternehmen B ist abgeschlossen.
Falls ein Textdokument „Die Übernahme von Unternehmen A durch
Unternehmen B ist gescheitert“ lauten würde, würde die Textlinkanalyse (TLA) völlig richtig erkennen, dass die Transaktion nicht stattfand.
Regeln für die Textlinkanalyse in IBM SPSS Text Analytics-Produkten
sind im Ressourceneditor enthalten. (Beispiele für Textlinkanalysen
finden Sie in Anhang C auf Seite 28.)
15
IBM Software
Business Analytics
IBM SPSS Text Analytics
Mit IBM SPSS Text Analytics-Lösungen können Sie eine Liste der extrahierten Konzepte und Meinungen zusammen
mit Visualisierungen wie die Webgrafik oben rechts anzeigen. Die Grafik gibt Aufschluss über die Konzepte oder
Meinungen, die in Umfragen oder anderen Dokumenten zusammen gefunden werden. Dickere Linien geben dabei
Konzepte an, die häufiger zusammen gefunden wurden.
Elemente des IBM SPSS Text Link Analysis-Moduls
Das IBM SPSS Text Link Analysis-Modul umfasst drei Bereiche:
Variablen, Makros und Regeln.
Eine Variable kann als „semantische Klasse“ betrachtet werden. Das
heißt, sie entspricht den Typen, die von der Extraktor-Engine im
Schritt zum Zuweisen von Typen zugewiesen wurden. Alle extrahierten
Terme, die unter demselben Typ gruppiert wurden, werden daher als
dieselbe Variable zu einer Gruppe zusammengefasst. Eine Variablendefinition besteht aus folgender Syntax:
•
•
Ein eindeutiger Variablenname
Ein Typ
Im folgenden Beispiel ist „Person“ der Name der Variable, wie in
Makros und Regeln verwendet, und „P“ ist der interne Typcode, der
von der Extraktor-Engine zugewiesen wurde:
[variable] name=Person
value=P
16
IBM Software
Business Analytics
IBM SPSS Text Analytics
Ein Makro wird innerhalb eines Musters verwendet, um Variablen oder
Wortlisten zu gruppieren und Musterregeln zu vereinfachen. Eine
Makrodefinition besteht aus folgender Syntax:
•
•
Ein eindeutiger Makroname
Eine Definition, d. h. die Liste der Variablen, Wörter und/oder Makros
Angenommen, die drei Variablen lauten „Positive“, „Negative“ sowie
„Contextual“ und das Makro lautet „mOpion“:
[macro]
name=mOpinion
value=($Positive|$Negative|$Contextual)
Statt eine Regel mit ($Positive|$Negative|$Contextual) zu definieren,
können Sie stattdessen das Makro $mOpinion verwenden, da beide
äquivalent sind.
Ein Muster ist eine Boole'sche Abfrage, mit der ein Satz abgeglichen
wird. Muster enthalten eines oder mehrere der folgenden Elemente:
Variablen, Makros oder Literalzeichenfolgen. Die Syntax für Muster
lautet wie folgt:
•
•
•
•
Eine eindeutige Muster-ID
Ein Mustername (muss nicht eindeutig sein)
Der Wert (die Mustersyntax für den Abgleich)
Die Ausgabe (das Format, das erstellt werden soll, wenn eine
Übereinstimmung mit dem Muster vorliegt). Für eine einzige Regel
können mehrere Ausgaben für einen einzelnen Satz oder ein Satzteil
vorhanden sein (insbesondere im Falle der Koordination).
Angenommen, die folgende Regel gilt, wobei: #@# John Doe is the
director of ABCD Inc. in France.
[pattern(201)]
name = 1_201
value = $Person ($SEP|$mDet|$mSupport|as|then){1,2} @{0,1} $Function (of|with|for|in|to|at) @{0,1} $Organization @{0,2} $Location
output(1) =$1\t#1\t$4\t#4\t$7\t#7\t$9\t#9
17
IBM Software
Business Analytics
IBM SPSS Text Analytics
Die Extraktor-Engine liest jeden Satz und versucht, folgende Sequenz
abzugleichen:
•
•
Workflow
Prepare text
for analysis
•
Extract concepts
•
•
•
Workflow
•
Prepare text
for analysis
Workflow
Prepare
P
rep
re
par
are
e text
text
for analysis
analysis
Workflow
Prepare
P
rep
re
par
are
e text
text
for analysis
•
Extract concep
concepts
conc
epts
ep
ts
•
Der Name einer Person, gefolgt von:
Ein oder zwei Kommas ($SEP), Determinator ($mDet), Hilfsverb
($mSupport), den Zeichenfolgen „then“ oder „as“ gefolgt von:
0 oder 1 Wort (@{0,1}, gefolgt von:
Apply Text
Deploy to predictive
categories
Link Analysis
models
Einer Funktion
($Function), gefolgtBuild
von:
Einer der folgenden Zeichenfolgen: „von“, „mit“, „für“, „in“, „bis“
oder „bei“, gefolgt von:
0 oder 1 Wort (@{0,1}, gefolgt von:
Dem Namen einer Organisation, gefolgt von:
0, 1 oder 2 Wörtern
(@{0.2}, gefolgt von:
A
Apply
pplly T
pp
Text
ext
Deploy to predictive
ctive
Build categories
Linkeines
Analysis
Analys
Analy
A
naly
na
lys
ly
sOrts ($Location)
models
Dem Namen
Dieses Beispiel würde folgende Sätze abgleichen:
• Max Mustermann, Geschäftsführer der ABCD GmbH in Deutschland
• Max Mustermann ist der Geschäftsführer der ABCD GmbH in
DeutschlandAApply
pplly T
pp
Text
ext
Deploy to predictive
tive
Build categories
Extract concepts
Link Analysis
Analysi
models
• Unternehmen C hat Martina Mustermann zum CEO der DGF Ltd. in
den USA ernannt
Muster werden nicht basierend auf der Reihenfolge ihres Auftretens,
sondern basierend auf ihrer ID zusammengesetzt. Da die erste Regel,
die ein MusterApply
abgleicht,
„gewinnt“ und das Abgleichen durch
andere ctive
Text
Deploy to predictive
Build categories
Extract concepts
Link Analysis
models
Regeln verhindert,
ist es wichtig, das die spezifischsten Muster zuerst
deklariert werden und dann erst die eher allgemeinen Muster.
Workflow
Prepare
P
rep
re
par
are
e text
text
for analysis
analysis
Build categories
Deploy to predictive
ctive
models
4. Schritt: Aufbau von Kategorien
Workflow
Prepare
P
repar
epare
e text
text
for analysis
analys
analys
ysis
is
A
Apply
pply
pp
ly T
Text
ext
Link Analysis
Analys
Analy
s
Extract concepts
Die nächsten Schritte beim Analysieren von Textdokumenten sind der
Aufbau von Kategorien und die Kategorisierung von Dokumenten.
Apply
App
pplly Text
Text
Link Analysis
Analys
Analy
s
Extract concepts
Build categories
Deploy to predictive
models
Da jeder Datenbestand einzigartig ist, variieren die ausgewählten
Techniken und die Reihenfolge, in der sie angewendet werden, höchstwahrscheinlich von Projekt zu Projekt. Der Klassifizierungsprozess ist
jedoch in jedem Fall iterativ: Ein Forscher wendet eine bestimmte
Technik an, wertet die Ergebnisse aus, nimmt entweder an der ausgewählten Technik oder den resultierenden Kategorien Änderungen vor
und optimiert die Kategorien.
18
IBM Software
Business Analytics
IBM SPSS Text Analytics
In IBM SPSS-Lösungen stehen sowohl automatisierte als auch manuelle Klassifizierungstechniken zur Verfügung. Die automatisierten, linguistikbasierten Techniken umfassen folgende:
•
•
•
•
Konzeptableitung
Konzepteinbeziehung
Semantische Netze
Kookkurrenzregeln
Diese Techniken können sowohl auf Nomen und Qualifikatoren als auch
auf Adjektive angewendet werden. Sie klassifizieren Terme, indem sie
Begriffe identifizieren, die wahrscheinlich dieselbe Bedeutung haben (so
genannte Synonyme) oder spezifischer (so genannte Hyponyme) als die
durch einen Begriff repräsentierte Kategorie sind. Für sauberere
Ergebnisse schließen diese linguistischen Techniken Adjektive und
andere Qualifikatoren aus.
Die Konzeptableitung stellt eine Technik dar, bei der ein Konzept
dadurch klassifiziert wird, indem andere, damit verwandte Konzepte
ermittelt werden. Dies erfolgt durch eine Analyse, ob bestimmte
Konzeptkomponenten morphologisch verwandt sind. So wird beispielsweise das Konzept „Möglichkeiten zum Aufstieg“ mit den Konzepten
„Möglichkeit des Aufstiegs“ und „Aufstiegsmöglichkeit“ zu einer
Kategorie zusammengefasst. Das Verfahren funktioniert mit Daten
unterschiedlicher Länge und erzeugt eine geringere Anzahl an kompakten Kategorien.
Bei der Konzepteinbeziehung werden Konzepte kategorisiert, indem
Konzepte ermittelt werden, die in anderen Konzepten einbezogen sind.
So werden die Terme „relationale Datenbank“ und „multidimensionale
Datenbank“ beispielsweise mit dem Term „Datenbank“ zu einer
Gruppe zusammengefasst. Eine Reihe von Konzepten, die auf Einbeziehung beruht, entspricht häufig einer taxonomischen Hierarchie (d. h.
einer semantischen „ISA“-Beziehung). Bei diesem Verfahren werden
zunächst Uni- oder Multiterme ermittelt, die in anderen Multitermen
enthalten (und als Suffix, Präfix oder optionale Elemente positioniert)
sind. Anschließend werden diese Terme zu einer Gruppe zusammengefasst. Der Algorithmus, der ermittelt, ob die Terme in anderen enthalten sind, ignoriert die Wortstellung und das Vorhandensein von
Funktionswörtern wie „in“ oder „von“. Das Verfahren funktioniert mit
Umfrageantwortdaten unterschiedlicher Länge und erzeugt eine große
Anzahl an kompakten Kategorien.
Semantische Netze kategorisieren Terme basierend auf bekannten
Wortbeziehungen, die in einem integrierten Netz enthalten sind. Bei
diesem Verfahren werden zunächst die möglichen Bedeutungen der
einzelnen Konzepte ermittelt. Konzepte, die Synonyme oder Hyponyme darstellen, werden dann zu einer Kategorie zusammengefasst. Diese
Technik erzielt sehr gute Ergebnisse, wenn die Begriffe dem semantischen Netz bekannt und nicht zu mehrdeutig sind. Sie ist weniger
nützlich, wenn der Text eine große Menge spezieller, domänenspezifischer Terminologie enthält, die das Netz nicht erkennt. Am Anfang der
Kategorisierung kann diese Technik allein verwendet werden, um
festzustellen, welche Kategorien aufgebaut werden.
19
IBM Software
Business Analytics
IBM SPSS Text Analytics
Kookkurrenzregeln basierend auf einer „Ko-Wortanalyse”dienen zur
Gruppierung von Termen auf der Grundlage der Häufigkeit, mit der sie
innerhalb des Korpus von Dokumenten gemeinsam vorkommen
(kookkurrieren). Terme zeigen eine deutliche Kookkurrenz, wenn sie
häufig in denselben Dokumenten, Umfrageantworten oder anderen Texten
vorkommen und nur selten allein auftreten. Diese Technik kann
insbesondere bei größeren Datenbeständen gute Ergebnisse erzielen.
Mithilfe von Kookkurrenzregeln können Sie Konzepte ermitteln und gruppieren, die innerhalb des Korpus von Dokumenten oder Datensätzen eng miteinander verwandt sind. Mit diesem Ansatz können Analysten die Anzahl der kookkurrierenden Konzepte, die zu einer Gruppe zusammengefasst werden können,
auf eine Regel beschränken. Außerdem können sie den Kategorisierungsprozess
beschleunigen, indem sie die Anzahl der Dokumente oder Datensätze, die beim
Erstellen von Kategorien verwendet werden sollen, beschränken.
Verfügbare Änderungen zur Verbesserung der Effektivität
Beim Aufbau von Kategorien mithilfe lingustikbasierter Techniken können
Benutzer bestimmte Verfahren auswählen und dann Parameter, wie die
Anzahl der zu erstellenden Kategorien oder die Anzahl der Vorkommen
eines einzelnen Terms, ändern.
Wurde beispielsweise ein semantisches Netz als eines der Verfahren ausgewählt, kann der Analyst das Profil auswählen, um das Verhalten der zugrunde
liegenden Algorithmen entweder als „breit“ oder „eng“ zu definieren. Ein
breites Profil behandelt mehrdeutige Terme effizient. Mit diesem Profil
werden zwar mehr Kategorien erstellt, jedoch Terme in Kategorien zusammengefasst, die nicht eng mit dem Kontext Ihrer Daten verknüpft sind. Ein
enges Profil schließt Terme mit einem hohen Grad an Mehrdeutigkeit aus und
konzentriert sich auf die offenkundigsten Beziehungen zwischen Termen.
Dadurch werden tendenziell weniger und kleinere Kategorien erstellt.
Darüber hinaus können Benutzer den für die Gruppierung von Termen
erforderlichen Mindestabstand definieren. Je niedriger der Wert, desto
mehr Ergebnisse werden angezeigt. Diese Ergebnisse weisen jedoch u. U.
einen höheren Grad an Mehrdeutigkeit auf. Durch Auswahl eines höheren
Werts erhält ein Analyst zwar weniger Ergebnisse, diese Ergebnisse sind
jedoch mit größerer Wahrscheinlichkeit auf signifikante Weise miteinander
verknüpft oder verbunden.
Eine andere Möglichkeit, den Aufbau von Kategorien zu beeinflussen, besteht
darin, eine Mindestanzahl für die Kookkurrenz eines Konzepts im Text
festzulegen, damit dieses Konzept extrahiert wird. Der Wert 2 beschränkt die
Extraktion beispielsweise auf solche Konzepte, die mindestens zweimal im
Korpus von Datensätzen oder Dokumenten vorkommen.
In Kombination mit den weiter oben beschriebenen automatisierten linguistischen Techniken ermöglichen manuelle Verfahren Benutzern von IBM SPSS
Text Analytics-Lösungen, Terme durch Ziehen und Ablegen in Gruppen
einzubeziehen (oder explizit auszuschließen). Darüber hinaus können Benutzer
eigene Code-Frames anwenden oder Kategorien importieren, die zuvor aus
IBM® SPSS® Text Analytics for Surveys exportiert wurden. Eine andere Möglichkeit besteht darin, Kategoriecodes und Code-Frames mit der Code-FrameManager-Funktion von IBM SPSS zu kopieren, einzufügen und zu bearbeiten.
20
Workflow
IBM Software
Business Analytics
Prepare text
for analysis
Apply Text
Link Analysis
Extract concepts
IBM SPSS Text Analytics
Build categories
Deploy to predictive
models
Workflow
Prepare text
for analysis
Nach dem Aufbau von Kategorien können Benutzer diese mithilfe
einer Reihe von
Optionen
verfeinern. Ein Analyst kann z. B.Deploy
folgende
A
Apply
pplly T
pp
Text
ext
to predictive
ctive
Build categories
Extract concep
concepts
conc
epts
ep
ts
Link Analysis
Analys
Analy
A
naly
na
lys
ly
s
models
Änderungen vornehmen:
•
Workflow
•
•
Prepare
P
rep
re
par
are
e text
text
for analysis
analysis
Extract concepts
•
•
•
Workflow
•
Prepare
P
rep
re
par
are
e text
text
for analysis
Workflow
Prepare
P
rep
re
par
are
e text
text
for analysis
analysis
Extract concepts
Einer Kategoriedefinition Konzepte oder Meinungen hinzufügen
Eine Kategoriedefinition bearbeiten
Kategorien zusammenführen
Kategorien von
in eine
A
Apply
ppllyeiner
pp
T
Text
ext „Verzweigung“ des BaumdiagrammsDeploy
to predictive
tive
Build categories
Link Analysis
Analysi
models
andere verschieben
Kategorien löschen
Visuelle Grafiken erstellen, die zeigen, wie Kategorien miteinander
kooperieren, und anschließend Anpassungen vornehmen
Änderungen an den verwendeten linguistischen Ressourcen
vornehmen und
daraufhin erneut extrahieren Deploy to predictive
Apply Kategorien
Text
ctive
Link Analysis
Build categories
models
Nach dem Erstellen von Kategorien können Organisationen eingehenden Kommentaren, E-Mails oder Dokumenten basierend auf der
Wahrscheinlichkeit, dass bestimmten Arten von Termen im Text
vorkommen, IDs hinzufügen. Mithilfe dieser Kategorisierung von
Dokumenten können
A
Apply
pply
pp
ly T
Text
ext Organisationen Kommentare oder Dokumente
Deploy to predictive
ctive
Build categories
Extract concepts
Link Analysis
Analys
Analy
s
models
den entsprechenden
Einzelpersonen, Gruppen oder Systemen effizient
zur Verfügung stellen.
Workflow
Prepare
P
repar
epare
e text
text
for analysis
analys
analys
ysis
is
Apply
App
pplly Text
Text
Link Analysis
Analys
Analy
s
Extract concepts
Build categories
Deploy to predictive
models
5. Schritt: Bereitstellen der Ergebnisse für Vorhersagemodelle
Das Bereitstellen der Textanalyseergebnisse für Vorhersagemodelle
stellt den Schritt dar, der die Textanalyse mit der Entscheidungsfindung
verknüpft. In den anfänglichen Implementierungen der Textanalyse
bestand die Bereitstellung darin, Konzeptbeziehungen visuell darzustellen und diese ggf. in Berichte zu integrieren. Die Berichte mussten
dann von den Managern interpretiert werden, bevor strategische oder
taktische Pläne entwickelt werden konnten. In jüngster Zeit sind
Organisationen zum Batch-Scoring übergegangen, das häufig außerhalb der Spitzenzeiten durchgeführt wird, um basierend auf den
Textanalysemodellen aktualisierte Vorhersagen effizienter in ihre
Datenbanken zu integrieren.
Heute ermöglichen effiziente Computerprozessoren und andere
technologische Neuerungen eine Analyse gewaltiger Mengen von
Textdaten in nur wenigen Stunden. Spezielle Berichte können erstellt
und basierend auf der Rolle der Personen oder ihrer Zugehörigkeit zu
einer bestimmten Arbeitsgruppe weitergeleitet werden. Alternativ
können Modelle in Systeme integriert werden, um automatisch
Verkaufsangebote zu erstellen, kreditwürdige Kunden unverzüglich zu
ermitteln, ausgesprochen positive oder negative Kunden hervorzuheben oder Muster möglichen kriminellen Verhaltens zu erkennen zu
geben, um nur einige Beispiele zu nennen.
21
IBM Software
Business Analytics
Durch Ausführen von IBM SPSS Text
Analytics auf Unternehmensebene kann
der Return on Investment eines
Unternehmens im Hinblick auf die
Textanalyse und die damit verbundenen
Technologien erheblich gesteigert werden.
IBM SPSS Text Analytics
Die zunehmende Anzahl der Modelle, die von Organisationen entwickelt
werden, bringt es mit sich, dass diese Modelle und die damit verknüpften
Prozesse denselben Verwaltungsaufwand erfordern wie andere wertvolle Assets.
Um dieser Anforderung gerecht zu werden, umfassen IBM SPSS-Lösungen die
Möglichkeit, solche Assets zentral und sicher zu speichern und sicherzustellen,
dass die richtigen Modelle für die Analyse verwendet werden und dass auf
nachprüfbare Weise aufgezeichnet wird, von wem die einzelnen Modelle
aufgerufen, geändert oder angewendet wurden.
Anwenden der Textanalyse auf Unternehmensebene
Organisationen, die den Wert der Textanalyse erkennen, beginnen im
Normalfall damit, ein spezifisches Unternehmensproblem anzugehen.
•
•
•
•
•
•
Eine Fachhochschule oder eine Universität führt beispielsweise Umfragen
mit dem Ziel durch, den Zufriedenheitsgrad der Studenten mit dem
Kursangebot ihres Instituts zu erhöhen und Änderungen zu ermitteln, die
die Studentenbindung verbessern können.
Ein Unternehmen mit einem hohen Kundenabwanderungsgrad kann
beispielsweise das in Callcenter-Notizen enthaltene Kundenfeedback
analysieren und die in diesem Text ermittelten Muster mit bestimmtem
Kundenverhalten vergleichen. Auf diese Weise können die Ansprechpartner der
Kunden im Unternehmen erkennen, wenn ein Kunde mit dem Gedanken
spielt abzuwandern, und die entsprechenden Gegenmaßnahmen treffen, um
die Wahrscheinlichkeit einer Abwanderung zu reduzieren.
Ein pharmazeutisches Unternehmen kann die Effektivität einer
bestimmten Behandlung auswerten, indem Textkommentare von
Probanden einbezogen werden, die beschreiben, wie sich die Probanden
vor, während und nach der Behandlung fühlten.
Ein Unternehmen, das auf die Auswertung gewaltiger Textdatenmengen
angewiesen ist, kann die Textanalyse einsetzen, um Trends oder Muster zu
ermitteln und den Mitarbeitern so zu ermöglichen, ihre Aufmerksamkeit
auf die Dokumente mit der größten Relevanz zu konzentrieren, um die
Produktivität zu steigern.
Ein Marktforschungsunternehmen oder ein Großunternehmen, das international tätig ist, muss möglicherweise Feldumfragen in 20 verschiedenen
Ländern durchführen. Das Unternehmen erhält Freitextantworten in 15
verschiedenen Sprachen und verfügt nicht über die erforderlichen Ressourcen,
um alle Daten in der Muttersprache auszuwerten. Mithilfe der erweiterten
Übersetzung kann das Unternehmen eine Stimmungsanalyse durchführen
und alle Ergebnisse in englischer Sprache zentralisieren.
Ein Geheimdienst muss möglicherweise Dokumente, Telefontranskripte
oder E-Mails in mehreren Sprachen überprüfen, um Beziehungen zwischen
terroristischen Zellen aufzudecken.
Sobald Organisationen mit der Textanalyse Erfolge erzielen, entsteht häufig
der Wunsch, die Textanalyse in anderen Abteilungen oder geografischen
Bereichen einzusetzen oder andere Unternehmensprobleme anzugehen.
Durch Ausführen von IBM SPSS Text Analytics auf Unternehmensebene kann
der Return on Investment eines Unternehmens im Hinblick auf die Textanalyse und die damit verbundenen Technologien erheblich gesteigert werden. Die
Textanalyse stellt ein Unternehmen jedoch auch vor gewisse Herausforderungen. Mit der richtigen Textanalyselösung und entsprechender Anleitung
können diese Herausforderungen jedoch erfolgreich bewältigt werden.
22
IBM Software
Business Analytics
IBM SPSS Text Analytics
Fazit
Die Herausforderung, die Text darstellt, ist Teil der übergeordneten
Informationsherausforderung, der Organisationen heute gegenüberstehen.
Mit der Menge der verfügbaren Informationen, die in den letzten
Jahrzehnten enorm gestiegen ist, hat auch die Bedeutung zugenommen,
Informationen schnell zu finden, relevante von irrelevanten Informationen zu unterscheiden und Einblicke mit anderen zu teilen, um taktische
Reaktionen und strategische Planung zu unterstützen. Das Bewältigen
der neuen Herausforderungen, die diese Informationsflut darstellt, kann
für Unternehmen einen entscheidenden Wettbewerbsvorteil und für
Forscher und Organisationen des öffentlichen Diensts eine erhebliche
Steigerung der Effektivität bedeuten.
Organisationen, die linguistikbasierte Textanalyseverfahren von IBM
SPSS mit dem Ziel eingesetzt haben, alle Daten effektiv und strategisch
zu nutzen, haben messbare Vorteile erzielt. Ihre Erfahrungen wurden in
einem kürzlich erschienen Bericht von dem unabhängigen Beratungsunternehmen Nucleus Research in Guidebook: SPSS Text Mining beschrieben. Zu den in dem Bericht genannten Vorteilen gehören u. a. folgende:
•
•
•
•
Durch Nutzen der Erkenntnisse aus Kundenkommentaren konnte
ein Telekommunikationsunternehmen 51 Prozent seiner
unzufriedenen Kunden nach nur zwei Monaten zu sehr zufriedenen
Kunden machen.
Organisationen wie Versicherungsunternehmen und Finanzinstitute
können Callcenter-Daten nutzen und mit anderen Informationen
kombinieren, um bessere Programme zu ermitteln und gewinnbringende Kunden zu halten.
In einigen Unternehmen konnten Analysten ihre Produktivität um bis
zu 50 Prozent steigern.
Ein Unternehmen im Technologiesektor verwendet IBM SPSS Text
Analytics, um Managern auf höherer Ebene unverzüglich Feedback zu
einer bestimmten Produktlinie zur Verfügung zu stellen.
Einer der für den Bericht befragten Benutzer gab an: „Zuvor mussten
wir uns entscheiden, ob wir qualitative oder quantitative Forschung
betreiben möchten. Jetzt entfällt diese Entscheidung, da wir beides
kombinieren können.“
Die IBM SPSS Text Analytics-Lösungen verfügen über eine Fülle von
Verfahren sowie über die erforderliche Skalierbarkeit und Anpassbarkeit,
um die Herausforderungen jeder Organisation in Bezug auf die Textanalyse zu meistern. Darüber hinaus unterstützen sie die bewährte CRISPDM-Methode und verfügen über eine offene Architektur, die die über
die Textanalyse gewonnenen Erkenntnisse anderen Organisationssystemen und Prozessen verfügbar macht.
Durch Optimierung der Relevanz und Genauigkeit von Vorhersagemodellen unterstützen IBM SPSS Text Analytics-Lösungen Organisationen dabei, deutliche, messbare Vorteile aus Textdaten zu erzielen und
einen Wettbewerbsvorteil bei der Bewältigung neuer Herausforderungen und Nutzen neuer Chancen zu gewinnen, die durch aktuelle und
künftige Textinformationswellen entstehen.
23
IBM Software
Business Analytics
IBM SPSS Text Analytics
IBM SPSS-Produkte für die Textanalyse
IBM® SPSS® Modeler Premium bietet die besten Textanalysefunktio-
nen der Branche über benutzerfreundliche Oberflächen. Es ist vollständig in die Data Mining-Workbench von IBM® SPSS® Modeler (sowohl
Client- als auch Serverversion) integriert. Das Produkt verwendet
linguistikbasierte Textanalyseverfahren, um Konzepte und Beziehungen
im Text zu ermitteln und anschließend eine Klassifizierung, Clustering
und andere statistischen Verfahren für diese Konzepte auszuführen.
IBM SPSS Modeler Premium kann Text in den Muttersprachen Eng-
lisch, Französisch, Niederländisch, Deutsch, Spanisch, Italienisch,
Portugiesisch und Japanisch sowie Text in über einem Dutzend anderer
Sprachen durch Übersetzung verarbeiten. IBM SPSS Modeler Premium
unterstützt die Erstellung von Modellen, die Text oder unstrukturierte
Daten mit tabularischen oder strukturierten Daten kombinieren, um
Bedingungen, Aktionen oder Verhalten zuverlässiger vorherzusagen.
Darüber hinaus können mit IBM SPSS Modeler Premium entwickelte
Modelle über IBM SPSS Vorhersageanwendungen in Betriebssysteme
eingebettet werden.
Bei IBM SPSS Text Analytics for Surveys handelt es sich um ein
Desktoptool, das mithilfe von IBM SPSS Text Analytics-Verfahren
Freitextantworten in Umfragen quantifizieren kann, sodass Meinungen
und Stimmungen zusammen mit anderen Umfragedaten analysiert
werden können. IBM SPSS Text Analytics for Surveys automatisiert die
Klassifizierung und Kategorisierung von Textkonzepten und ermöglicht
Benutzern gleichzeitig, manuell einzugreifen, um die Ergebnisse zu
verfeinern. Ergebnisse können entweder als Datensatztabellen oder als
Dichotomien exportiert werden, um mit der statistischen Software von
IBM SPSS weiter analysiert zu werden.
IBM® SPSS® Collaboration and Deployment Services stellt ein
zentrales Repository für Textanalyseergebnisse bereit und bietet
Funktionen für Automatisierung, Authoring und Versionserstellung für
Anwendungen mit IBM SPSS Text Analytics-Produkten.
24
IBM Software
Business Analytics
IBM SPSS Text Analytics
Anhang A: Erläuterung einiger IBM SPSS Text Analytics-Begriffe
Begriff
Erläuterung
Blog
Eine
Website mit Kommentaren zu einem bestimmten Thema. Leser können
Kommentare in einem interaktiven Format hinzufügen. Einträge werden im
Normalfall in umgekehrter chronologischer Reihenfolge angezeigt. Wird auch als
„Web-Log“ bezeichnet.
Bayesianisches Netz
wahrscheinlichkeitstheoretisches grafisches Modell, das eine Reihe von
Ein
Variablen und deren wahrscheinliche Abhängigkeiten darstellt. Ein Bayesianisches
Netz könnte z. B. die wahrscheinlichen Beziehungen zwischen Erkrankungen
und Symptomen darstellen. Mit gegebenen Symptomen kann das Netz die
Wahrscheinlichkeit für das Vorhandensein verschiedener Erkrankungen berechnen.
Boole'sche Logik/Abfragen
Terminus aus der mathematischen Logik, der die durch die drei grundlegenden
Ein
logischen Operatoren UND, ODER und NICHT verknüpften Propositionen angibt.
Kandidat
Ein Term, der eine Äquivalenzklasse darstellt und zum Zwecke der Querindizierung
beibehalten wird.
Kategorie
Eine
der grundlegenden und bestimmten Klassen, denen Entitäten oder Konzepte
angehören.
Klassifikation
Gruppierung einer Reihe von Entitäten, die bestimmte formale oder externe
Die
Eigenschaften teilen.
Clustering
Der
Prozess, Elemente wie Dokumente auf der Basis ihrer Ähnlichkeit zu
gruppieren. Das Ziel besteht darin, ein Datenset so aufzuteilen, dass sich ähnliche
Datensätze in derselben Gruppe befinden und die Gruppen sich möglichst
voneinander unterscheiden.
Computerlinguistik
Teilgebiet der Linguistik, das Computer zur Modellierung von Sprachsystemen
Ein
einsetzt. Es umfasst automatisches Parsen, Computerverarbeitung und
Computersimulation von grammatischen Modellen zur Erzeugung und zum Parsen
von Sätzen. Das Ziel besteht darin, die menschliche Sprache als kognitives System
zu modellieren.
Konzept
ine abstrakte oder allgemeine Idee, die aus bestimmten Instanzen verallgemeinert
E
wird.
Konzeptklasse
Eine Gruppe ähnlicher Konzepte, die sich von anderen Gruppen unterscheidet.
Äquivalenzklasse
ine Gruppe gebeugter Terme, die durch eine Form dargestellt wird. Diese Form,
E
die zur Indizierung beibehalten wird, wird als Kandidat bezeichnet. Im Allgemeinen
handelt es sich dabei um die am häufigsten vorkommende Form eines Terms oder
um die vom Benutzer explizit definierte Form.
Ereignisextrahierung
er Prozess, das Auftreten von Konzepten und Beziehungen durch Verstehen der
D
Bedeutung eines Textkorpus zu suchen. Ereignisse können die berufliche Tätigkeit
einer Person oder eine Erscheinung in der realen Welt, z. B. eine Firmenfusion
oder -übernahme, der Ausbruch einer Krankheit oder ein terroristischer Angriff,
umfassen.
Fuzzy-Logik (unscharfe
Logik)
in aus der Mathematik abgeleiteter Begriff, der sich auf die Unbestimmtheit in
E
Verbindung mit der Analyse einer linguistischen Einheit oder eines Musters bezieht.
Indizierung
er Prozess der Suche nach Schlüsselkonzepten innerhalb einer Gruppe von
D
Dokumenten und der Entwicklung einer Zuordnung aus den Konzepten zu den
Dokumenten, in denen sie gefunden werden.
Schlüsselwörter
Die wichtigsten und aussagekräftigsten Wörter in einem Dokumentensatz.
Latente semantische
Analyse (Latent Semantic
Analysis, LSA)
in patentiertes mathematisches oder statistisches Verfahren zum Extrahieren und
E
Darstellen der Ähnlichkeit der Bedeutung von Wörtern und Textpassagen durch
Analysierenen großer Textmengen mit einer allgemeinen Form der Faktorenanalyse.
25
IBM Software
Business Analytics
IBM SPSS Text Analytics
Anhang A: Erläuterung einiger IBM SPSS Text Analytics-Begriffe – Forts.
Linguistik
Die Untersuchung allgemeiner und universeller Eigenschaften von Sprache.
Morphologie
as Teilgebiet der Grammatik, das sich mit der Struktur oder den Formen von
D
Wörtern beschäftigt.
Verarbeitung natürlicher
Sprache (Natural Language
Processing, NLP)
omputeranalyse und die Erzeugung von Text mit natürlicher Sprache. Das Ziel
C
besteht darin, Möglichkeiten zu schaffen, damit natürliche Sprache entweder als
Medium dient, mit dem Benutzer mit Computersystemen interagieren, oder als das
Objekt, das von einem System zu einer nützlicheren Form verarbeitet wird.
Genauigkeit
as Maß, wie gut Informationsgewinnungssysteme Dokumente auswählen, die für
D
eine Abfrage relevant.
Relevanz
in Maß für den Erfolg eines Informationssystems, Material bereitzustellen, das die
E
Anforderungen des Benutzers erfüllt.
Semantik
in wichtiges Teilgebiet der Linguistik, das sich mit der Untersuchung der
E
Bedeutung von Sprache beschäftigt.
Statistik
ine Reihe von Methoden, die dazu dienen, allgemeine Informationen aus
E
spezifischen Daten abzuleiten. Der Begriff wird auch zur Beschreibung der aus
diesen Methoden abgeleiteten berechneten Werte verwendet.
Stoppwort
in häufig verwendetes Wort (wie „ein“ oder „der“), das vom NLP-Programm
E
sowohl beim Extrahieren von Konzepten aus Dokumenten als auch bei der
Indizierung ignoriert werden soll.
Support Vector
Machines (SVM,
„Stützvektormethoden“)
ine Reihe verwandter überwachter Lernmethoden zur Klassifizierung und
E
Regression, die zu einer Familie allgemeiner linearer Klassifikatoren gehören.
Eine besondere Eigenschaft von Support Vector Machines (SVMs) besteht darin,
dass sie gleichzeitig den empirischen Klassifizierungsfehler minimieren und den
geometrischen Randbereich der Klassengrenzen maximieren. Daher werden sie
auch als „Maximum Margin Classifiers“ bezeichnet.
Synonym
Der Fall, wenn im Text mehrere Begriffe mit der gleichen Bedeutung auftreten.
Syntax
as Teilgebiet der Grammatik, das sich mit den Regeln zur Kombination von
D
Wörtern in Sätzen beschäftigt.
Taxonomie
heorie und Praxis der Klassifizierung. Taxonomien oder Klassifikationsschemata
T
setzen sich aus Einheiten zusammen, die als Taxa (Kategorien oder Klassen)
bezeichnet werden und in einer hierarchischen Struktur angeordnet sind, im
Normalfall durch unter/übergeordnete Beziehungen.
Begriff
in Wort oder ein Ausdruck, das bzw. der in einigen Anwendungsfällen eine
E
bestimmte Bedeutung hat oder für einen wissenschaftlichen, künstlerischen,
beruflichen oder thematischen Bereich spezifisch ist.
Textanalyse
er Prozess zur automatischen Extrahierung von Informationen aus großen
D
Sammlungen von Dokumenten.
Textlinkanalyse
ine Technik zur Ermittlung und Isolierung positiver und negativer Konzepte sowie
E
von Fakten und Ereignissen in einem Textkorpus.
Thesaurus
ine Sammlung von Synonymen und Antonymen. Thesaurus-Datenbanken, die nach
E
internationalen Standards erstellt werden, sind im Allgemeinen hierarchisch nach
Themen und Oberbegriffen strukturiert. Durch Platzieren der einzelnen Begriffe in einen
Kontext ermöglicht ein solcher Thesaurus Benutzern, zwischen ähnlichen Begriffen mit
unterschiedlichen Bedeutungen zu unterscheiden. Ein Thesaurus wird häufig als Basis
zur Indizierung von Onlinematerial verwendet. Man spricht auch von Ontologie.
Wiki
oftware, mit der Benutzer kurzerhand Webseiten erstellen, bearbeiten und
S
verknüpfen können. Wikis werden häufig zur Erstellung von auf Kooperation
beruhenden Websites für das Wissensmanagement verwendet.
26
IBM Software
Business Analytics
IBM SPSS Text Analytics
Anhang B: Algorithmen zum Zuweisen von
Äquivalenzklassen
In der IBM SPSS Text Analytics-Lösung werden die folgenden
Algorithmen zum Zuweisen von Konzepten zu Äquivalenzklassen
verwendet.
Beugung
Arznei = Arzneien
Synonym
Vollform: Eine gesamte Extraktion ist mit einer anderen äquivalent.
Primäre Nebenniereninsuffizienz = Morbus Addison
Komponente: Zwei verschiedene Extraktionen sind äquivalent, wobei
eine Modulo-Variation in den Komponenten vorliegt.
Bonbonniere = Bonboniere
Auslassen von Schlüsselwörtern
ABCD GmbH = ABCD
Geografische Variante
grillieren = grillen
Lexikalische Variante
grammatikalische Besonderheiten = grammatische Besonderheiten
Groß-/Kleinbuchstaben
Apolipoprotein A = Apolipoprotein a
Auslassen von/Variation bei Funktionswörtern
ulceration of the mucosa = ulceration of mucosa; éclipses du soleil = éclipse
de soleil
Varianten bei Trennzeichen Trennzeichen können Leerzeichen,
Bindestriche, Verschmelzung, Apostroph s oder Punkte sein.
Zollinger-Ellison-Syndrom = Zollinger Ellison Syndrom
Home Shopping = Homeshopping
Web-tv = Web tv
Webtv = Web tv
Boolescher Operator = Boole'scher Operator
Umstellung der Komponenten
Myotonie Becker = Becker Myotonie
Leiter des Unternehmens = Unternehmensleiter
zeste râpé d’un citron = zeste de citron râpé
27
IBM Software
Business Analytics
IBM SPSS Text Analytics
Akzentuierte/nichtakzentuierte Zeichen: Dieses Phänomen tritt sehr
häufig in Sprachen wie Französisch, Spanisch, Italienisch und Niederländisch auf.
são Paulo = sao Paulo
evguéni primakov = evgueni primakov
évènements du kosovo = événements du kosovo
Allgemein/spezifisch: Das Gruppieren von Extrakten unter einem
normalisierten Term kann als Suche nach dem „besten Deskriptor“
betrachtet werden. In einigen Anwendungsfällen können spezifische
Terme allgemeinen Begriffen zugeordnet werden.
Lippenstift = Kosmetik
Wimperntusche = Kosmetik
Rechtschreibprüfung/unscharfe Übereinstimmung Auf der Grundlage
der Auslassung von Vokalen oder doppelt auftretenden Konsonanten
oder anderen Algorithmen.
technischher Support = technischer Support
techinischer Support = technischer Support
Anhang C: Beispiele für IBM SPSS Text Link
Analysis
Offene Umfragen, Callcenter-Daten und Daten aus anderen
CRM-Systemen:
Aus dem Satz „I have found support services to be very helpful, friendly
and courteous“ würde die Textlinkanalyse Folgendes ableiten:
[pattern(0306)]
name = 0306 _positive_opinion
value = $mExtract @{0,2} ($mSupport|would|could|to) @{0,1} (a|rather|quite|pretty|very)? $mOpinion $SEP? $mOpinion ($SEP|$mCoord){1,2} $mOpinion
output(1) = $1\t#1\t$6\tPositive
output(2) = $1\t#1\t$8\tPositive
output(3) = $1\t#1\t$10\tPositive
Dies führt zu folgendem Ergebnis:
support services <Unknown> helpful <Positive>
support services <Unknown> friendly <Positive>
support services <Unknown> courteous <Positive>
Aus dem Satz „My problem has not been solved“ würde die Textlinkanalyse Folgendes ableiten:
pattern(011)]
name = 011
value = ($mTopic|$Negative) @{0,1} $mAdvNeg @{0,1} $Positive
output = $1\t#1\tnot $5\tNegative
problem <Negative> not resolved <Negative>
28
IBM Software
Business Analytics
IBM SPSS Text Analytics
Genomforschung:
Aus dem Satz „studies with the protein kinase C inhibitor, Calphostin
C,...,“ würde die Textlinkanalyse Folgendes ableiten:
[pattern(003)]
name = (003)
value = $Gene $Agent $SEP? $Gene
output(1) = $4\t#4\t$2\t#2\t$1\t#1
Dies führt zu folgendem Ergebnis: calphostin C <Gene> inhibits
<Action> protein kinase C <Gene>.
Marktinformationen:
Aus dem Satz „IBM Inc. completes acquisition of SPSS“ würde die
Textlinkanalyse Folgendes ableiten:
[pattern(303)]
name = 303
value = $Org @{0,1} $mSupport $Action of @{0,2} $Org
output = $1\t#1\t$4\t#4\t$7\t#7\tcompleted)\tStatus
Dies führt zu folgendem Ergebnis:
*ibm inc.* <Organization> acquires <Action> spss <Organization>
completed <Status>
Weiterführende Literatur zur Textanalyse
Bücher
Andersson, Birger, Maria Bergholtz, and Paul Johannesson (Eds.). Natural
Language Processing and Information Systems: 6th International Conference on
Applications of Natural Language to Information Systems. NLDB 2002,
Stockholm, Sweden, 27.-28. Juni 2002: Revised Papers (Lecture Notes
in Computer Science, 2553, Heidelberg: Springer-Verlag, 2002).
Berry, Michael W. and Malu Castellanos (Eds.). Survey of Text Mining II:
Clustering, Classification, and Retrieval. London: Springer-Verlag London
Ltd., 2008
Feldman, R. and J. Sanger. The Text analytics Handbook. Cambridge,
England: Cambridge University Press, 2007.
Jackson, Peter and Isabelle Moulinier. Natural Language Processing for
Online Applications: Text Retrieval, Extraction and Categorization.
Amsterdam: John Benjamins Publishing Company, 2002.
Jurafsky, Daniel and James H. Martin. Speech and Language Processing:
An Introduction to Natural Language Processing, Computational Linguistics
and Speech Recognition. Englewood Cliffs, New Jersey: Prentice Hall, 2000.
Manning, Christopher D. and Hinrich Schutze. Foundations of Statistical
Natural Language Processing. Cambridge: MIT Press, 2001.
Sullivan, Dan. Document Warehousing and Text analytics: Techniques for
Improving Business Operations, Marketing and Sales. New York: Wiley
Computer Publishing, 2001.
29
IBM Software
Business Analytics
IBM SPSS Text Analytics
Artikel und Abhandlungen
Anderson Analytics, LLC. Leverage the Voice of Your Customers. Stamford,
Conn., Juni 2007.
Grimes, Seth. „A Brief History of Text Analytics“, b-eye-network, 20.
Oktober 2007.
http://www.b-eye-network.com/view/6311
Hearst, Marti A. „Untangling Text Data Mining“. Proceedings of the
ACL’99: the 37th Annual Meeting of the Association for Computational
Linguistics. College Park: University of Maryland, Juni 1999.
Jouve, O. et al. „Two measures for identifying the perception of risk
associated with the introduction of transgenic plants“. Scientometrics,
1999, Vol 44, No. 3, pp. 401-426.
„Leximappe is dead: long live co-word analysis! Application to identify
the main actors within the field of risk assessment through the introduction of transgenic plants“. 1998: International Conference on
Science and Technology Indicators: Use of ST indicators for science
policy and decision-making. Hinxton (Great Britain).
Martin, E., E. Bremer, MC. Guerin, C. DeSesa, and O. Jouve. „Analysis
of Protein-Protein Interactions through Biomedical Literature: Text
Mining of Abstracts vs. Text Mining of Full Text Articles“. Knowledge
Exploration in Life Science Informatics, International Symposium,
KELSI 2004, Mailand, Italien, 25.-26. November 2004, Proceedings.
Nucleus Research. Guidebook: SPSS Text analytics. Document H99.
Wellesley, Mass. Dezember 2007.
Weitere Ressourcen
•
•
•
­Association for Computational Linguistics: www.aclweb.org
­Informationen zu anderen Gruppen, die Forschung in den Bereichen
Computerlinguistik und Verarbeitung natürlicher Sprache betreiben:
www.dmoz.org/Computers/Artificial_Intelligence/Natural_Language
Text Analytics Summit: http://www.textanalyticsnews.com/
30
IBM Software
Business Analytics
IBM SPSS Text Analytics
Informationen zu IBM Business Analytics
Die Software IBM Business Analytics liefert umfassende, einheitliche und
korrekte Informationen, denen Entscheidungsträger zum Verbessern der
Unternehmensleistung vertrauen. Ein umfassendes Portfolio aus
Geschäftsvorteilen, fortgeschrittener Analytik, finanziellen Vorteilen und
Strategiemanagement sowie Analyseanwendungen bietet Ihnen sofort
klare und umsetzbare Einblicke in die aktuelle Leistung und gibt Ihnen
die Möglichkeit, zukünftige Ergebnisse vorherzusagen.
Als Teil dieses Portfolios unterstützt IBM SPSS Predictive Analytics
Software Organisationen, zukünftige Ereignisse vorherzusagen und
proaktiv auf Basis dieser Erkenntnisse zu handeln, um bessere Geschäftsergebnisse zu erzielen. Kunden aus den Bereichen Wirtschaft, öffentlicher Verwaltung und Lehre verlassen sich weltweit auf IBM SPSS
Technologie als Wettbewerbsvorteil zur Kundengewinnung, -bindung
und Erhöhung der Kundenumsätze bei gleichzeitiger Betrugsreduzierung und Risikominimierung. Durch die Integration von IBM SPSS
Software in ihre täglichen Prozesse werden Organisationen zur Predictive Enterprise – sie sind dadurch in der Lage Entscheidungen zu treffen
und zu automatisieren, um die Geschäftsziele zu erreichen und einen
messbaren Wettbewerbsvorteil zu gewinnen. Für mehr Informationen
besuchen Sie bitte www.ibm.com/spss/de.
31
© Copyright IBM Corporation 2010
IBM Corporation
Route 100
Somers, NY 10589
Eingeschränkte Rechte für Mitarbeiter der US-Regierung – Benutzung,
Duplizierung und Veröffentlichung beschränkt durch GSA ADP Schedule-Vertrag
mit IBM Corp.
Hergestellt in den USA
Mai 2010
Alle Rechte vorbehalten
IBM, das IBM Logo, ibm.com, WebSphere, InfoSphere und Cognos sind Marken
oder eingetragene Marken der International Business Machines Corporation in den
USA und/oder anderen Ländern. Wenn diese oder andere eingetragene
Markenbegriffe von IBM mit einem Markenzeichen (® oder TM) gekennzeichnet
sind, wenn Sie zum ersten Mal in diesen Informationen vorkommen, weist dies
darauf hin, dass es sich zum Zeitpunkt der Veröffentlichung dieser Informationen um
in den USA eingetragene Marken oder Marken nach Gewohnheitsrecht von IBM
handelt. Solche Marken können auch in anderen Ländern eingetragene Marken oder
Marken nach Gewohnheitsrecht sein. Eine aktuelle Liste der Marken von IBM
finden Sie im Internet unter „Copyright and trademark information“ (www.ibm.
com/legal/copytrade.shtml).
SPSS ist eine Marke von SPSS, Inc., an IBM Company, die in vielen
Gerichtsbezirken weltweit eingetragen ist.
Weitere Unternehmens-, Produkt- und Servicenamen können Marken anderer
Hersteller sein.
Bereiten Sie bitte auf
Business Analytics-Software
IMW14301-DEDE-01