Analyse my smile

Transcription

Analyse my smile
Analyze My Smile
Intelligente Navigationsunterstützung durch
kontextsensitive Stimmungserkennung des
Nutzers über eine Webcam
Deborah Schmidt
Abstract: Das Ziel des im Folgenden beschriebenen Projektes ist die Darstellung
einer Möglichkeit, einen Gesichtsausdruck über die Auswertung zuvor ermittelter
Gesichtsmerkmale zu benennen. Der Prototyp erkennt dabei beliebig definierbare
Stimmungen und lässt sich entsprechend der Zielgruppe kalibrieren. Dessen
Einsatzvielfalt als alternative Art der Kommunikation zwischen Mensch und
Computer wird skizziert. Dabei wird auf einen möglichen Einfluss im Bereich der
Navigation auf Webseiten, in Spielen und anderen Programmen eingegangen.
1
Motivation
Die Geschichte der Kommunikation zwischen Mensch und Computer ist lang und
bunt. In den 1940er Jahren konnte man mit der Z1 von Konrad Zuse, dem ersten
binären Rechensystem, über eine numerische Tastatur interagieren [ROJAS 98]. Die in
den Sechzigern entwickelte Maus, die ihre Popularität allerdings erst rund 20 Jahre
später erlangte, ist bis heute eines der wichtigsten Eingabegeräte [@NETZWELT]. Ab
diesem Zeitpunkt war Interaktion mit dem Rechner durch Texteingabe und Zeigen auf
bestimmte Punkte möglich. Sprache zu übermitteln gelang mit Integration des schon
seit Ende des 19. Jahrhunderts existierenden Mikrofons. Dieser Schritt ermöglichte
Programmen, auf auditive Befehle zu reagieren. Die 1991 zuerst verwendeten
Webcams ermöglichten nicht nur die Übertragung vom Kaffeebestand eines
entfernten Raumes [@STAFFORD-FASER], sondern auch Videokonferenzen,
Webstreams von Urlaubsorten oder Fernsehsendungen, Videoblogs und vielem mehr.
Dabei wird die Webcam aber vorwiegend als Kommunikationsmittel zwischen Mensch
und Mensch genutzt, der Rechner dient lediglich als Übertragungsmedium. Eine
Interaktion zwischen Mensch und Computer über Videoinput ist bisher eher aus der
Spielbranche und aus experimentellen Projekten bekannt. Nähere Erläuterungen folgen
im nächsten Kapitel.
In der Technik der Navigation auf Webseiten wird bisher immer noch selten auf
Möglichkeiten außerhalb von Maus, Tastatur oder Touchpad zugegriffen. Möchte man
die Navigation schneller und intuitiver gestalten, könnte es hilfreich sein, mit
natürlichen Reaktionen des Benutzers interagieren zu können. Auf Webseiten gibt es
beispielsweise oft Bewertungsmöglichkeiten für Inhalte. Der Besucher einer Seite
betrachtet zuerst deren Inhalt. Ist er zufrieden, lächelt er zuerst, bevor er die Seite
positiv bewertet. Über natürliche Reaktionen denkt man nicht nach, Interaktionen mit
Eingabegeräten fordern
dagegen bewusste
Aktivität. Diese
spontanen
1
Gesichtsausdrücke, die viel über die emotionale Bewertung des auf dem Bildschirm zu
sehenden aussagen, möchte das im Folgenden vorgestellte Projekt einfangen.
Die Zusatzinformation über die aktuelle Stimmung des Nutzers lässt sich vielfältig
nutzen. Im Bereich der Webentwicklung wird immer mehr Wert darauf gelegt, den
Betrachter einer Website persönlich anzusprechen, wie zum Beispiel mit Avataren, die
als direkter Kommunikationspartner dienen sollen. Bisher beschränkt sich deren
Kommunikation mit dem Betrachter der Website jedoch weitestgehend auf den
Austausch von Schlagwörtern und ganzen Sätzen über die Tastatur. Könnte man den
Avatar befähigen, auf die Stimmung seines Anwenders zu reagieren, würde die
Kommunikation zwischen Mensch und Computer immer humanere Züge annehmen.
2
Verwandte Anwendungen
Technik, die den Menschen über die Webcam lokalisiert und seine Bewegungen
verfolgt, gibt es bereits. Das auf der Games Convention E3 2009 vorgestellte Project
Natal von Microsoft will ohne Controller jede Bewegung des realen Spielers auf die
Spielfigur abbilden können [@MICROSOFT]. Weniger professionell, aber von ähnlicher
Problematik sind Anwendungen, die das von der Webcam aufgezeichnete Video
editieren. Beispielsweise wird ein virtuelles Monster in der realen Umgebung auf dem
Bild der Webcam sichtbar, einzige Voraussetzung ist ein ausgedruckter Zettel mit
einem Muster, das von einem im Programm enthaltenen Bilderkennungsalgorithmus
wiedergefunden wird. Auf diesem Papier wird die Projektion der virtuellen Figur
stehend sichtbar und ist durch Verschieben des Zettels ebenfalls beweglich
[@BOFFSWAMA]. Letzteres stammt von den Softwareentwicklern von Boffswana, die
auch experimentelle Möglichkeiten präsentieren, mit Kopfbewegungen den
angezeigten virtuellen Raum zu drehen. Die Firma SeeStorm zum Beispiel bietet schon
kommerzielle Produkte, die den Gesichtsausdruck eines Handynutzers auf einen
Wunschavatar abbilden und diesen beim Gesprächspartner anzeigen (siehe Abbildung
1). Ähnlich zu Microsofts Project Natal werden auffällige Punkte im Bild berechnet, den
Positionen im Gesicht zugeordnet und auf den virtuellen Avatar übertragen. Allerdings
wird der reale Nutzer dabei nur nachgeahmt. Der Avatar stellt mit seinem Gesicht zwar
den gleichen Gesichtsausdruck wie den des Anwenders dar, kann ihn aber nicht selbst
interpretieren.
Abb. 1.: Snapshot aus „SeeStorm Computer Vision Demo“ [4]
(1) realer Nutzer, (2) Projektion auf Avatar, (3) berechnete Positionen von Merkmalen
2
Die Robotik beschäftigt sich ebenfalls mit der Stimmungserkennung. In [RUVOLO et
al. 08] ist von Social Robots die Rede, die je nach Stimmung des Gegenübers
unterschiedlich reagieren sollen. Allerdings findet deren Analyse über akustische
Wahrnehmung statt.
3
Theorie der Stimmungserkennung und bestehende Algorithmen
Zu Beginn gilt es, die Begriffe Stimmung, Emotion und Mimik voneinander
abzugrenzen. Die Mimik eines Gesichtes beschreibt dessen äußerliche Erscheinung und
entspricht dem Gesichtsausdruck. In dieser Ausarbeitung wird die Mimik gleichgesetzt
mit der Stimmung, die man bei der Betrachtung des Gesichtes vermuten würde. Der
emotionale Zustand des Menschen muss aber nicht immer seinem Erscheinungsbild
entsprechen. Diese mögliche Differenz zwischen Mimik und Emotion wird in dieser
Ausarbeitung nicht näher thematisiert.
Es existieren Veröffentlichungen mit sehr konkreten Ansätzen zur algorithmischen
Benennung eines Gesichtsausdrucks (vgl. [GUO et al. 05], [GESÙ et al. 08], [WU et al.
09]). Grundsätzlich wird von sechs Universalemotionen ausgegangen. Es handelt sich
hierbei um Trauer, Überraschung, Glück, Ekel, Angst und Wut (vgl. [EKMAN 99]).
Zusätzlich wird Neutralität als Emotion hinzugefügt. In den benannten Quellen werden
Algorithmen vorgestellt, die Fotos analysieren und daraufhin eine der oben benannten
Emotionen zuordnen. Um den Algorithmus zu überprüfen, werden Datenbanken
genutzt, die eine große Anzahl von verschiedenen Gesichtern enthalten. Diese
Gesichter wurden von den Erstellern der Datenbank manuell in Hinsicht auf ihre
Stimmung bewertet. Diese kann man mit den Ergebnissen des Algorithmus vergleichen
und dessen Fehlerrate bestimmen. Eine solche Datenbank ist beispielsweise die JAFFEDatabase (Japanese Female Faction Expression Database, vgl. [@JAFFE]), die 213 Fotos
japanischer Frauen enthält.
Abb. 2.: Lokalisierungsresultate aus [WU et al. 09],
basierend auf der [@JAFFE]-Datenbank
3
Die Analyse eines Gesichts erfolgt in den genannten Veröffentlichungen über
Eigenschaften von Gesichtsmerkmalen. Punkte von Augenbrauen, Pupillen,
Augenform, Nasen- und Mundlinie werden ermittelt und anhand deren Positionen
ausgewertet (siehe Abbildung 2).
4
Prototyp zur Stimmungserkennung
In dem hier vorgestellten Prototyp [@SMILE] werden keine Fotos analysiert, sondern ein
zufällig generiertes Gesicht, das über veränderbare Merkmale verfügt. Das Konzept
sieht vor, ein durch die Webcam erfasstes Gesicht auf eines der generierbaren
Ausdrücke abzubilden und dieses durch den im Folgenden vorgestellten Algorithmus
auszuwerten. Das Projekt löst sich von dem festen Muster genannter Stimmungen und
bietet die Möglichkeit, Stimmungen zielgruppenabhängig zu definieren. Als
Unterstützung von Avataren, die als Navigationshilfe im Web dienen, ist eine
Abgrenzung von Zufriedenheit, Unzufriedenheit und Irritation möglicherweise
interessanter als die Verwendung der Universalemotionen. In „Analyze My Smile“ wird
die oben genannte Stimmungskombination vorzugsweise getestet. Des weiteren
beruht das Projekt auf einer vorherigen Kalibrierung. Die Testpersonen müssen Zufallsgesichter im Zusammenhang mit einer Stimmung bewerten. Der aus dieser
Kalibrierung entstandene Datensatz dient dem Erkennungsalgorithmus als Grundlage.
Das macht das Ergebnis des Algorithmus abhängig von den Testpersonen, die, je nach
Einsatzgebiet des Produktes, gewählt werden sollten. So könnten individuellere
Ergebnisse je Zielgruppe erzielt werden.
Das Projektfenster visualisiert die im Folgenden beschriebenen Schritte des Algorithmus
zur Stimmungserkennung (siehe Abbildung 3).
Abb. 3.: Navigation des Projektfensters.
(1), (2) und (3) entsprechen Schritt 4.1, 4.2 und 4.3.
4.1
Zufällige Generierung eines Gesichtsausdrucks und Kalibrierung durch realen
Testnutzer
Im ersten Schritt wird ein Gesichtsausdruck generiert, der folgende Freiheiten hat: Die
Mundwinkel können unabhängig voneinander einen Neigungswinkel von -30 bis +30
Grad haben. Die Augenbrauen können ebenfalls unabhängig voneinander um -15 bis
+15 Grad geneigt sein. Diese Bereiche sind in 31 Stufen abrufbar. Außerdem ist deren
Höhe variabel in 11 Stufen. Somit können über 10 Millionen verschiedene
Gesichtsausdrücke erzeugt werden (siehe Abbildung 4). Es ist möglich, dass nicht alle
von einem Menschen umsetzbar sind, aber die Unterschiedlichkeit menschlicher
Gesichter empfiehlt, eine derart breite Spanne zuzulassen. Es ist notwendig,
ausreichend viele dieser Gesichter im Vorfeld zu bewerten, damit der Algorithmus für
möglichst viele dieser über 10 Millionen Möglichkeiten die richtige Stimmung
4
vorschlägt. Tests ergeben schon bei 500 Vorbewertungen eine Bestimmungsgenauigkeit von 80%. Im folgenden Kapitel wird detaillierter auf Testergebnisse eingegangen.
Abb. 4.: Zufällig erzeugte Gesichtsausdrücke
Die Kalibrierung erfolgt, indem die Testperson in einem Kalibrierungsfenster einen
zufälligen Gesichtsausdruck zu sehen bekommt. Dazu erscheint die Frage, ob eine
ebenfalls zufällig ausgewählte Stimmung dazu passt. Die Testperson kann das durch
entsprechende Buttons bestätigen oder verneinen.
4.2
Speicherung jeder Kalibrierung im Datensatz
Der Datensatz, der durch die Kalibrierung gebildet wird, besteht aus 80 Dateien. Für
jedes Merkmal (Höhe der Augenbrauen, Winkel der linken Augenbraue, Winkel der
rechten Augenbraue, linker Mundwinkel, rechter Mundwinkel) existieren 16 Dateien.
Folgendes Beispiel soll den Ablauf nach der Kalibrierung durch die Testperson erklären.
Für diesen zufälligen Ausdruck gelten folgende Parameter:
Augenbrauenhöhe (he)
:
3
px
Auge links
(le)
:
11
deg
Auge rechts
(re)
:
5
deg
Mund links
(lm)
:
-20
deg
rechts
(rm)
:
-16
deg
Frage: Bist du unzufrieden? Antwort: Ja.
Nun werden diese Informationen für jedes Merkmal in einer Datei gespeichert. Eine
Datei zur Speicherung der Augenbrauenhöhe sieht zum Beispiel so aus:
5
9
7
5
6
7
9
6
6
6
6
-9
- 11
-3
-9
-6
-3
- 11
- 14
-9
-9
-5
-5
-6
- 11
-4
- 11
-5
-6
-4
3
4
4
Die drei Spaltenvektoren stehen für je eine Stimmung
(unzufrieden, zufrieden, irritiert), jeder Spaltenvektor
enthält so viele Komponenten, wie mögliche Abstufungen
des Merkmals existieren. In diesem Fallbeispiel betrachten
wir die Augenbrauenhöhe. Sie kann zwischen 0 und 10
variieren, deshalb hat jede Spalte 11 Komponenten. Im
Beispiel liegt eine Höhe von 3px vor und die bestätigte
Stimmung ist „unzufrieden“. Deshalb wird die vierte
Komponente des ersten Spaltenvektors gewählt und dieser
anschließend inkrementiert. Hätte die Testperson mit
„Nein“ geantwortet, würde die gleiche Komponente
dekrementiert werden.
5
Zur Verbesserung der Effektivität des Algorithmus gibt es für jedes Gesichtsmerkmal
mehrere Dateien. Der Grund dafür ist eine Beachtung von den groben Korrelationen
der Merkmale. Das jeweilige Intervall, in dem ein Merkmal liegen kann, wird in zwei
Bereiche geteilt. Bei der Speicherung der Augenbrauenhöhe im Fallbeispiel wird
zusätzlich registriert, in welchem Teilintervall die anderen Merkmale liegen. Nach
diesen Kriterien wird die zugehörige Datei gewählt.
Möchte man diese Zusammenhänge nicht speichern, benötigt man für jedes Merkmal
nur eine Datei. Der Kalibrierungsaufwand minimiert sich etwas. Allerdings erzielt man
mit der komplexeren Methode durch Hinzunahme der Korrelationen der Merkmale
bessere Ergebnisse.
Im Projektfenster sind die vorhandenen Daten als Diagramme visualisiert. Pro Merkmal
lässt sich ein Diagramm aufrufen. Es bildet die Summe aller Dateien, die zu diesem
Merkmal gehören. Jeder Stimmung ist eine Kurve zugeordnet. Jede Kurve entspricht
den Spaltenvektoren der summierten Dateien und veranschaulicht die Resultate der
Kalibrierungen. Zu erwartende Trends sind deutlich zu sehen (siehe Abbildung 5, 6).
Abb.5.: Diagramm zur Kalibrierung des rechten Mundwinkels.
Erhöht sich der Wert des Mundwinkels, bewegt er sich also im Gesicht nach oben, ist
ein deutlicher Anstieg der Kurve zu sehen, die Zufriedenheit repräsentiert. Die Kurve
der Unzufriedenheit verhält sich komplementär. Außerdem ist auffällig, dass nicht die
gleiche Anzahl von irritierten wie von unzufriedenen oder zufriedenen Gesichtern
existiert . Die Kurve, die für Irritation steht, verläuft größtenteils unterhalb der anderen
Kurven (siehe Abbildung). Das liegt daran, dass für diese Stimmung die
6
Augenbrauenhöhe ausschlaggebender ist. Bei sehr hohen Augenbrauen steigt die
Wahrscheinlichkeit für einen irritierten Ausdruck deutlich (siehe Abbildung 6).
Abb.6.: Diagramm zur Kalibrierung der Augenbrauenhöhe.
4.3
Nutzung des Datensatzes zur Erkennung eines Ausdrucks
Der Algorithmus wählt wie im letzten Schritt die entsprechende Datei zu jedem
Merkmal und sucht sich den gespeicherten Wert in der Zeile der Datei, die dem aktuell
gemessenen Wert des Merkmals entspricht. Dieser Eintrag wird für jede Stimmung mit
den beiden benachbarten Einträgen (also eine Zeile weiter oben bzw. unten) gemittelt.
Das glättet die Kurve und man erhält schon bei wenigen Kalibrierungen sinnvolle
Ergebnisse. Daraufhin werden die Stimmungswerte prozentual miteinander verglichen.
Ist mindestens ein Wert negativ, wird der niedrigste auf null gesetzt und zu allen
anderen sein vorheriger Betrag addiert. Im oben genannten Beispiel bedeutet das:
Merkmal:
Augenbrauenhöhe
Zeile 3:
Zeile 4:
Zeile5:
7
5
6
-3
-9
-6
- 11
-4
- 11
Mittel:
wird zu:
prozentual:
6
~ 14,67
~ 85%
-6
~ 2,67
~ 15%
~ - 8,67
0
0%
7
Für jede Stimmung werden deren Prozentzahlen aller Merkmale addiert und durch die
Anzahl der Merkmale geteilt. Danach wird die Stimmung mit der höchsten
Wahrscheinlichkeit gewählt (vgl. Abb.6). Sind mehrere Stimmungen gleich
wahrscheinlich, entscheidet der Zufall.
Abb.7.: Ergebnis des Beispiels. Zu insgesamt
unter 100% kann es durch vorheriges
Runden kommen. Im Bild sind des weiteren
noch die jeweiligen Anteile der einzelnen
Gesichtsmerkmale
am
Gesamtergebnis
vermerkt.
5
Ergebnisse der Testreihen
Der Prototyp wurde in den verschiedenen Stadien seiner Entwicklung im Web zur
Verfügung gestellt und getestet [@SMILE]. Aufgrund des offenen Zugriffs auf die
Website ist nicht vollständig nachvollziehbar, wie viele Personen beteiligt waren.
Die bevorzugte Testeinstellung war eine Unterscheidung zwischen den Stimmungen
Unzufriedenheit, Zufriedenheit und Irritation. Mit dieser Kombination fanden die Tests
der im Folgenden skizzierten Versionen des Prototyps statt. Pro Testreihe wurden
mindestens 200 Analysen generierter Gesichter bewertet.
Die dritte Version entspricht dem im vorherigen Kapitel erläuterten Prototyp. Version 2
unterscheidet sich von ihrem Nachfolger nur bei der Berechnung der eines generierten
Gesichts zugrunde liegenden Stimmung. Hierbei wird der Wert eines Merkmals nicht
mit denen im Diagramm benachbarten Werten gemittelt. Die Tests ergaben, dass
gerade bei niedrigerer Kalibrierung, das heißt bei bis zu 2000 Vorbewertungen, ein
Mitteln der Werte eine um 5- bis 10-prozentig korrektere Analyse herbeiführte. Das ist
logisch, weil bisher noch nicht kalibrierte Werte bestimmter Gesichtsmerkmale von
einer möglichen Bewertung ähnlicher, das heißt benachbarter Werte profitieren. Bei
weiteren Kalibrierungen pegelte sich die Analysegenauigkeit beider Versionen bei fast
90 Prozent ein. Ein weiterer Vorteil ist die verbesserte Visualisierung der Daten als
Diagramm durch die Verwendung des Mittelwerts benachbarter Merkmalswerte. Die
Kurven werden geglättet und Trends lassen sich leichter ablesen. Die erste Version
ändert bei der Kalibrierung den Wert jedes Merkmals in einer entsprechenden Datei,
ohne die Werte der anderen Merkmale dabei zu berücksichtigen. Korrelationen
zwischen Merkmalen werden, im Gegensatz zur Speicherung in späteren Versionen,
8
richtige Analyse
ignoriert. Das bringt der ersten Version eine fast 10-prozentig schlechtere
Analysegenauigkeit und rechtfertigt den Mehraufwand bei der Kalibrierung späterer
Versionen.
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
0
500
1000 1500 2000 2500 3000 3500 4000 4500
Kalibrierungen
Version 1
Version 2
Version 3
richtige Analys e
Des Weiteren wurden die Universalemotionen nach [EKMAN 99] getestet. In der
Diagrammdarstellung der Kalibrierungen ist der gleiche Trend wie bei der vorherigen
Stimmungskombination zu erkennen: Traurigkeit dominiert den negativen Bereich der
Mundwinkel, Freude den positiven Bereich. Außerdem ist zu sehen, dass die
Wahrscheinlichkeit eines neutralen Gesichtsausdrucks bei um null Grad gedrehten
Mundwinkeln deutlich höher ist als in anderen Bereichen (vgl. Abb.8). Tests ergaben
bei 1500 Kalibrierungen bei bis zu 73% der Analysen ein korrektes Ergebnis.
80%
70%
60%
50%
40%
30%
20%
10%
0%
0
200
400
600
800
Emotionen nach
[EKMAN 99]
1000
1200
1400
1600
Kalibrierungen
9
Abb.8.: Diagramm zur Kalibrierung des rechten Mundwinkels bei sieben Stimmungen.
6
6.1
Einsatzmöglichkeiten
Avatarsteuerung auf Webseiten
Avatare sind virtuelle Figuren mit unterschiedlichstem Aussehen. Auf Webseiten sind
zum Beispiel Firmenmaskottchen geeignet, um den Besucher der Seite anzusprechen,
hübsche Frauen erzielen ebenso Aufmerksamkeit. Ein ansprechendes Äußeres ist
wichtig, denn Avatare sollen motivieren, helfen und den Besucher anregen, länger zu
verweilen. Sie dienen als direkte Ansprechpartner und sollten daher möglichst humane
Züge haben. Es gibt zum Beispiel Studien, die untersucht haben, auf welche Art ein
Avatar seine Augenlider bewegen muss, um ein möglichst realistisches, menschliches
Blinzeln zu imitieren [TAKASHIMA et al. 08]. Eine derartig realitätsnahe Umsetzung
von Avataren, wie sie oft bei Rollenspielen auftritt, ist weniger von Webseiten bekannt.
Sie haben den Nachteil, dass Rücksicht zu nehmen ist auf verschiedene Browser, ältere
Versionen oder nicht installierte Plugins. Außerdem ist es wichtig, auf möglichst
geringe Ladezeiten einer Seite zu achten. Das Aussehen eines Avatars ist aber nicht die
einzige Chance, ihn human zu gestalten.
Bisher kommunizieren Avatare mit dem Besucher der Webseite, indem sie ihm Fragen
stellen oder Hilfe anbieten, auf die mit Eingeben eines Textes über die Tastatur
geantwortet werden kann. Der Avatar versucht dann zu ermitteln, nach welchen
Informationen der Nutzer sucht. Technisch gute Avatarrealisationen leiten den
10
Suchenden sofort auf die gewünschte Seite um, geben ihren Text auch akustisch
wieder oder haben Antworten auf Fragen, die nicht aus dem Themengebiet der
Webseite stammen. Durch die Kalibrierungsdaten des vorgestellten Prototyps könnte
das Programm, das den Avatar realisiert, nach Ausgabe eines Satzes durch den Avatar
die emotionale Reaktion des Besuchers analysieren.
Abb.9.: Avatare webbasierter Anwendungen:
[@IKEA], [SAMSUNG], [@LOFTUSPHOTO], [@SMILE]
Ein Beispiel wäre ein Avatar auf einer Bildungs - oder Forschungsplattform. Die Seite
präsentiert wissenschaftliche Texte, Lehrmaterial und Neuigkeiten zu aktuellen
Forschungsschwerpunkten. Der Avatar erkundigt sich bei einem Besucher, ob Hilfe
gewünscht ist. Schlägt dessen Stimmung anschließend auf Unzufriedenheit um,
blendet sich der Avatar selbstständig aus und stört nicht weiter beim Surfen. Bei
Zufriedenheit kann eine Unterhaltung stattfinden, der Besucher kann Themenvorlieben
oder Suchbegriffe eingeben. Ist er nach der Präsentation von entsprechenden Artikeln
durch den Avatar immer noch zufrieden, sind vertiefende Informationen und
ausführlichere Texte möglicherweise angebracht. Schlägt seine Stimmung um in
schlechte Laune, können Artikel in der Darstellung verkürzt werden, beispielsweise
werden nur die Zusammenfassungen angezeigt. Ist der Nutzer irritiert, fragt der
Avatar, ob er unbekannte Formulierungen erklären kann oder ob er das falsche Thema
getroffen hat.
Auf kommerziellen Webseiten könnte ein Avatar durch eine Stimmungsanalyse
Kauftipps individueller gestalten. Hat der Kunde gerade eine Ware erstanden und
schaut missmutig angesichts des Preises, schlägt der Avatar reduzierte Ware vor und
merkt an, dass so Versandkosten gespart werden können. Ist er zufrieden, ist
möglicherweise ein Hinweis auf Unikate oder Designerstücke angebracht.
Zusätzlich kann der Avatar nach der Analyse die Gesichtszüge des Besuchers der
zugehörigen Seite übernehmen, um Mitgefühl zu imitieren. Zwischen Menschen ist
Nähe durch Verständnis und Nachahmung zu schaffen eine natürliche Reaktion.
6.2
Features für soziale Netzwerke und Spiele
Die ebenso im breiten Feld des Internets beheimateten Online Communities wie
Facebook oder Myspace bieten jedem registrierten Mitglied eine Eingabemöglichkeit,
11
durch die er seine aktuelle Stimmung öffentlich machen kann. Eine automatische
Erkennung wäre mit Hilfe von Projektresultaten vorstellbar.
Auch der Markt der Computerspiele vervielfältigt sich im Bereich der webbasierten
Spiele immer mehr. Besonders Online Rollenspiele üben eine immer größere
Faszination auf Menschen verschiedenster Altersgruppen oder Herkunftsländer aus.
Dabei kann man mit einem individuell erstellten Avatar in fantastischen oder realen
Welten kämpfen, Gespräche führen oder einfach so leben, wie man es in der realen
Welt gern täte [BOBERG 08]. Durch das ermittelte Wissen über die Stimmung des
Spielers könnte den virtuellen Counterpart bei schlechter Laune eine Art Schutzwall
umgeben, der es ihm ermöglicht, die Traumwelt ohne Behelligung durch andere
Spieler zu durchschreiten. Potentielle Gesprächspartner könnten den Hinweis erhalten,
dass der Spieler im Moment nur empfänglich für aufmunternde Worte oder
ablenkende Aktivitäten ist. Gleichfalls könnten die Entwickler unterschiedlichster Spiele
Nutzen aus einer möglichen Stimmungserkennung ziehen. Ihrem Ziel, Spieler möglichst
lang an ein Produkt zu binden, lässt sich näher kommen, indem man die Schwierigkeit
des Spieles abhängig von der Laune des Spielers macht. Ist er fortlaufend genervt oder
unzufrieden und beendet er das Spiel häufig mit einer solchen Stimmung, kann ihn ein
einfacheres Erreichen des nächsten Levels oder das Finden eines besonderen
Gegenstandes neu motivieren und die Spielfreude erhalten. Konsumenten, die Hürden
im Spiel ohne Probleme nehmen und ununterbrochen zufrieden sind, kann eine
kompliziertere Aufgabe neue Herausforderungen bringen. Verstärktes Interesse der
Bewältigung eines Problems hilft gegen aufkommende Langweile und führt zu noch
größerer Zufriedenheit bei erfolgreicher Lösung.
6.3
Intelligente Reaktion von Programmen auf den Anwender
Bei regelmäßiger Benutzung der gleichen Software kann es auftreten, dass Anwender
bestimmte Arbeitsschritte des Programms nicht benötigen oder als störend empfinden.
Beispielsweise könnte man auf die Frage, ob beim Schließen von Dateien wirklich
gespeichert werden soll, verzichten, wenn der Nutzer zufrieden aussieht und nach
Betätigen des Schließen-Buttons nicht plötzlich irritiert schaut. Software zur
Texteingabe wären in der Lage, Autokorrekturen von Wörtern rückgängig zu machen,
wenn das Gesicht des Anwenders negativ darauf reagiert. Auch Programme zum
Abspielen von Musik würden auf die individuellen Präferenzen des Nutzers gezielter
reagieren können, indem kurz nach der Anspielung eines Titels die Stimmungsanalyse
den Ausschlag gibt, ob die Wiedergabe ununterbrochen fortgesetzt oder zum
nächsten Titel gesprungen wird.
7
Ausblick und Fazit
Der Prototyp in seiner aktuellen Version beschränkt sich noch auf eine Demonstration
des Stimmungsanalyse anhand von generierten Gesichtern. An einer Interaktion mit
der Webcam wird derzeit gearbeitet. Dabei gibt es mehrere Herausforderungen. Die
Erkennung eines menschlichen Gesichtes erschwert sich einmal durch seine
Individualität. Verschiedene Personen können trotz unterschiedlicher Gesichtsausdrücke die gleiche Laune haben. Die Gesichtsmerkmale müssen möglicherweise
12
relativ zu einem neutralen Gesichtsausdruck berechnet werden, der individuell zu
Beginn der Interaktion der Software mit dem jeweiligen Anwender bestimmt wird.
Außerdem sind Drehung, Neigung und Entfernung eines Gesichtes zu beachten. Aber
auch nach der Umsetzung dieser Problematiken mögen die erläuterten
Anwendungsgebiete für eine Stimmungserkennung visionär bis utopisch anmuten.
Tatsächlich gibt es Hürden, die für eine Realisierung von stimmungsbasierten
Webhilfen oder Programmunterstützungen noch zu überwältigen sind. Der
ungehinderte Einblick in das private Umfeld eines Menschen durch seine Webcam und
die Angst vor einer möglichen Speicherung von Videomaterial, das seine Privatsphäre
enorm verletzen würde, könnte zunächst von der Nutzung derartiger Software
abschrecken. Arbeitet man beispielsweise mit Adobe Flash, um über das Netz auf eine
Webcam zuzugreifen, muss deren Besitzer bei jedem Aufruf der Seite mit den FlashDateien den Zugriff erneut erlauben. Bei Software, die ohne Internetverbindung
nutzbar ist, ist dieser Schritt möglicherweise zu vermeiden. Dem Anwender könnte die
Möglichkeit gegeben werden, zu entscheiden, ob und wo Daten seiner Webcam
ausgewertet oder gespeichert werden. Trotzdem bleibt eine Skepsis gegenüber der
Vorstellung, „beobachtet“ zu werden. Betrachtet man allerdings die Entwicklung der
Netzwelt, erscheint eine analysierende Webcam weitaus harmloser als so mancher
Seelenstriptease von Websurfern, die über Aufenthaltsorte, Beziehungszustände und
aktuelle Gedanken, egal, wie uninteressant sie auch sein mögen, freizügig und in
kürzesten Zeitabständen berichten. Tendenz steigend.
13
Referenzen
[ROJAS 98]
R. Rojas. Die Rechenmaschinen von Konrad Zuse. Springer
Verlag, Berlin, 1998, ISBN 3-540-63461-4.
[RUVOLO et al. 08]
P. Ruvolo, I. Fasel, J. Movellan. Auditory Mood Detection for
Social and Educational Robots. University of California San Diego, 2008.
[GUO et al. 05]
G. Guo and C. R. Dyer. Learning From Examples in the Small
Sample Case: Face Expression Recognition. Fellow, IEEE, IEEE TRANSACTIONS ON
SYSTEMS, MAN, AND CYBERNETICS—PART B: CYBERNETICS, Vol. 35, No. 3, 2005.
[GESÙ et al. 08]
V. di Gesù, B. Zavidovique, M. E. Tabacchi. Face Expression
Recognition through Broken Symmetries. Università degli Studi di Palermo, University
of Paris Sud XI, 2009.
[WU et al. 09]
Wu Peng, Li Xiao-hua, Zhou Ji-liu, Lei Gang. Face Expression
Recognition Based on Feature Fusion. College Of Computer Science, Sichuan
University, 2009.
[EKMAN 99]
P. Ekman, "Facial Expression", The Handbook of Cognition
and Emotion, T. Dalgeleish and M Power, John Wiley & Sons Ltd. 1999.
[TAKASHIMA et al. 08]
K. Takashima, Y. Omon, Y. Yoshimoto, Y. Itoh, Y.Kitamura,
F. Kishino. Effects of Avatar's Blinking Animation on Person Impressions. Osaka
University Suita, Jin-ai University Echizen, Sharp Corporation Tenri, Japan, 2008.
[BOBERG 08]
M. Boberg, P. Piippo, El Ollila. Designing Avatars. Nokia
Research Center, Finland, 2008.
[@NETZWELT]
R. Haberer: 40 Jahre Computermaus – Wie ein Zeiger die
Welt veränderte. Verfügbar im Web unter http://www.netzwelt.de/news/79098-40jahre-computermaus-zeiger-welt-veraenderte.html, eingesehen am: 2009-08-30.
[@STAFFORD-FASER]
Q. Stafford-Fraser. The Trojan Room Coffee Pot. Verfügbar
im Web unter http://www.cl.cam.ac.uk/coffee/qsf/coffee.html, eingesehen am:
2009-08-23.
[@MICROSOFT]
Firma Microsoft. Project Natal. Verfügbar im Web unter
http://www.xbox.com/en-US/live/projectnatal, eingesehen am: 2009-08-23.
[@BOFFSWAMA]
Unternehmen Boffwana. Thema: Papervision Augmented
Reality.
Verfügbar im Web unter http://www.boffswana.com/news/?p=392,
eingesehen am: 2009-08-23.
14
[@SEESTORM]
Firma SeeStorm. Computer Vision Demo. Verfügbar im Web
unter http://www.youtube.com/watch?v=CM9m2l1LHJg, eingesehen am: 2009-08-23.
[@JAFFE]
M. Kamachi, M. Lyons, J. Gyoba. The Japanese Female
Facial Expression (JAFFE) Database. Psychology Department, Kyushu University.
Verfügbar im Web unter http://www.kasrl.org/jaffe.html, eingesehen am: 2009-08-27.
[@IKEA]
Firma Ikea. Produktseite, Avatar Anna. Verfügbar im Web
unter http://www.ikea.com/de/de/, eingesehen am: 2009-08-30.
[@SAMSUNG]
Firma Samsung. Produktseite für Notebooks, Avatar Sam.
Verfügbar im Web unter http://notebook.samsung.de, eingesehen am: 2009-08-30
[@LOFTUSPHOTO]
D. & D. Loftus. Unternehmen Loftus Photography, Avatar
Kathleen. Verfügbar im Web unter
http://www.loftusphoto.com/ask_kathleen_page.php, eingesehen am: 2009-08-30.
[@SMILE]
D. Schmidt. Analyse My Smile Prototyp. Verfügbar im Web
unter http://smile.bplaced.net, eingesehen am: 2009-08-30.
15