Analyse my smile
Transcription
Analyse my smile
Analyze My Smile Intelligente Navigationsunterstützung durch kontextsensitive Stimmungserkennung des Nutzers über eine Webcam Deborah Schmidt Abstract: Das Ziel des im Folgenden beschriebenen Projektes ist die Darstellung einer Möglichkeit, einen Gesichtsausdruck über die Auswertung zuvor ermittelter Gesichtsmerkmale zu benennen. Der Prototyp erkennt dabei beliebig definierbare Stimmungen und lässt sich entsprechend der Zielgruppe kalibrieren. Dessen Einsatzvielfalt als alternative Art der Kommunikation zwischen Mensch und Computer wird skizziert. Dabei wird auf einen möglichen Einfluss im Bereich der Navigation auf Webseiten, in Spielen und anderen Programmen eingegangen. 1 Motivation Die Geschichte der Kommunikation zwischen Mensch und Computer ist lang und bunt. In den 1940er Jahren konnte man mit der Z1 von Konrad Zuse, dem ersten binären Rechensystem, über eine numerische Tastatur interagieren [ROJAS 98]. Die in den Sechzigern entwickelte Maus, die ihre Popularität allerdings erst rund 20 Jahre später erlangte, ist bis heute eines der wichtigsten Eingabegeräte [@NETZWELT]. Ab diesem Zeitpunkt war Interaktion mit dem Rechner durch Texteingabe und Zeigen auf bestimmte Punkte möglich. Sprache zu übermitteln gelang mit Integration des schon seit Ende des 19. Jahrhunderts existierenden Mikrofons. Dieser Schritt ermöglichte Programmen, auf auditive Befehle zu reagieren. Die 1991 zuerst verwendeten Webcams ermöglichten nicht nur die Übertragung vom Kaffeebestand eines entfernten Raumes [@STAFFORD-FASER], sondern auch Videokonferenzen, Webstreams von Urlaubsorten oder Fernsehsendungen, Videoblogs und vielem mehr. Dabei wird die Webcam aber vorwiegend als Kommunikationsmittel zwischen Mensch und Mensch genutzt, der Rechner dient lediglich als Übertragungsmedium. Eine Interaktion zwischen Mensch und Computer über Videoinput ist bisher eher aus der Spielbranche und aus experimentellen Projekten bekannt. Nähere Erläuterungen folgen im nächsten Kapitel. In der Technik der Navigation auf Webseiten wird bisher immer noch selten auf Möglichkeiten außerhalb von Maus, Tastatur oder Touchpad zugegriffen. Möchte man die Navigation schneller und intuitiver gestalten, könnte es hilfreich sein, mit natürlichen Reaktionen des Benutzers interagieren zu können. Auf Webseiten gibt es beispielsweise oft Bewertungsmöglichkeiten für Inhalte. Der Besucher einer Seite betrachtet zuerst deren Inhalt. Ist er zufrieden, lächelt er zuerst, bevor er die Seite positiv bewertet. Über natürliche Reaktionen denkt man nicht nach, Interaktionen mit Eingabegeräten fordern dagegen bewusste Aktivität. Diese spontanen 1 Gesichtsausdrücke, die viel über die emotionale Bewertung des auf dem Bildschirm zu sehenden aussagen, möchte das im Folgenden vorgestellte Projekt einfangen. Die Zusatzinformation über die aktuelle Stimmung des Nutzers lässt sich vielfältig nutzen. Im Bereich der Webentwicklung wird immer mehr Wert darauf gelegt, den Betrachter einer Website persönlich anzusprechen, wie zum Beispiel mit Avataren, die als direkter Kommunikationspartner dienen sollen. Bisher beschränkt sich deren Kommunikation mit dem Betrachter der Website jedoch weitestgehend auf den Austausch von Schlagwörtern und ganzen Sätzen über die Tastatur. Könnte man den Avatar befähigen, auf die Stimmung seines Anwenders zu reagieren, würde die Kommunikation zwischen Mensch und Computer immer humanere Züge annehmen. 2 Verwandte Anwendungen Technik, die den Menschen über die Webcam lokalisiert und seine Bewegungen verfolgt, gibt es bereits. Das auf der Games Convention E3 2009 vorgestellte Project Natal von Microsoft will ohne Controller jede Bewegung des realen Spielers auf die Spielfigur abbilden können [@MICROSOFT]. Weniger professionell, aber von ähnlicher Problematik sind Anwendungen, die das von der Webcam aufgezeichnete Video editieren. Beispielsweise wird ein virtuelles Monster in der realen Umgebung auf dem Bild der Webcam sichtbar, einzige Voraussetzung ist ein ausgedruckter Zettel mit einem Muster, das von einem im Programm enthaltenen Bilderkennungsalgorithmus wiedergefunden wird. Auf diesem Papier wird die Projektion der virtuellen Figur stehend sichtbar und ist durch Verschieben des Zettels ebenfalls beweglich [@BOFFSWAMA]. Letzteres stammt von den Softwareentwicklern von Boffswana, die auch experimentelle Möglichkeiten präsentieren, mit Kopfbewegungen den angezeigten virtuellen Raum zu drehen. Die Firma SeeStorm zum Beispiel bietet schon kommerzielle Produkte, die den Gesichtsausdruck eines Handynutzers auf einen Wunschavatar abbilden und diesen beim Gesprächspartner anzeigen (siehe Abbildung 1). Ähnlich zu Microsofts Project Natal werden auffällige Punkte im Bild berechnet, den Positionen im Gesicht zugeordnet und auf den virtuellen Avatar übertragen. Allerdings wird der reale Nutzer dabei nur nachgeahmt. Der Avatar stellt mit seinem Gesicht zwar den gleichen Gesichtsausdruck wie den des Anwenders dar, kann ihn aber nicht selbst interpretieren. Abb. 1.: Snapshot aus „SeeStorm Computer Vision Demo“ [4] (1) realer Nutzer, (2) Projektion auf Avatar, (3) berechnete Positionen von Merkmalen 2 Die Robotik beschäftigt sich ebenfalls mit der Stimmungserkennung. In [RUVOLO et al. 08] ist von Social Robots die Rede, die je nach Stimmung des Gegenübers unterschiedlich reagieren sollen. Allerdings findet deren Analyse über akustische Wahrnehmung statt. 3 Theorie der Stimmungserkennung und bestehende Algorithmen Zu Beginn gilt es, die Begriffe Stimmung, Emotion und Mimik voneinander abzugrenzen. Die Mimik eines Gesichtes beschreibt dessen äußerliche Erscheinung und entspricht dem Gesichtsausdruck. In dieser Ausarbeitung wird die Mimik gleichgesetzt mit der Stimmung, die man bei der Betrachtung des Gesichtes vermuten würde. Der emotionale Zustand des Menschen muss aber nicht immer seinem Erscheinungsbild entsprechen. Diese mögliche Differenz zwischen Mimik und Emotion wird in dieser Ausarbeitung nicht näher thematisiert. Es existieren Veröffentlichungen mit sehr konkreten Ansätzen zur algorithmischen Benennung eines Gesichtsausdrucks (vgl. [GUO et al. 05], [GESÙ et al. 08], [WU et al. 09]). Grundsätzlich wird von sechs Universalemotionen ausgegangen. Es handelt sich hierbei um Trauer, Überraschung, Glück, Ekel, Angst und Wut (vgl. [EKMAN 99]). Zusätzlich wird Neutralität als Emotion hinzugefügt. In den benannten Quellen werden Algorithmen vorgestellt, die Fotos analysieren und daraufhin eine der oben benannten Emotionen zuordnen. Um den Algorithmus zu überprüfen, werden Datenbanken genutzt, die eine große Anzahl von verschiedenen Gesichtern enthalten. Diese Gesichter wurden von den Erstellern der Datenbank manuell in Hinsicht auf ihre Stimmung bewertet. Diese kann man mit den Ergebnissen des Algorithmus vergleichen und dessen Fehlerrate bestimmen. Eine solche Datenbank ist beispielsweise die JAFFEDatabase (Japanese Female Faction Expression Database, vgl. [@JAFFE]), die 213 Fotos japanischer Frauen enthält. Abb. 2.: Lokalisierungsresultate aus [WU et al. 09], basierend auf der [@JAFFE]-Datenbank 3 Die Analyse eines Gesichts erfolgt in den genannten Veröffentlichungen über Eigenschaften von Gesichtsmerkmalen. Punkte von Augenbrauen, Pupillen, Augenform, Nasen- und Mundlinie werden ermittelt und anhand deren Positionen ausgewertet (siehe Abbildung 2). 4 Prototyp zur Stimmungserkennung In dem hier vorgestellten Prototyp [@SMILE] werden keine Fotos analysiert, sondern ein zufällig generiertes Gesicht, das über veränderbare Merkmale verfügt. Das Konzept sieht vor, ein durch die Webcam erfasstes Gesicht auf eines der generierbaren Ausdrücke abzubilden und dieses durch den im Folgenden vorgestellten Algorithmus auszuwerten. Das Projekt löst sich von dem festen Muster genannter Stimmungen und bietet die Möglichkeit, Stimmungen zielgruppenabhängig zu definieren. Als Unterstützung von Avataren, die als Navigationshilfe im Web dienen, ist eine Abgrenzung von Zufriedenheit, Unzufriedenheit und Irritation möglicherweise interessanter als die Verwendung der Universalemotionen. In „Analyze My Smile“ wird die oben genannte Stimmungskombination vorzugsweise getestet. Des weiteren beruht das Projekt auf einer vorherigen Kalibrierung. Die Testpersonen müssen Zufallsgesichter im Zusammenhang mit einer Stimmung bewerten. Der aus dieser Kalibrierung entstandene Datensatz dient dem Erkennungsalgorithmus als Grundlage. Das macht das Ergebnis des Algorithmus abhängig von den Testpersonen, die, je nach Einsatzgebiet des Produktes, gewählt werden sollten. So könnten individuellere Ergebnisse je Zielgruppe erzielt werden. Das Projektfenster visualisiert die im Folgenden beschriebenen Schritte des Algorithmus zur Stimmungserkennung (siehe Abbildung 3). Abb. 3.: Navigation des Projektfensters. (1), (2) und (3) entsprechen Schritt 4.1, 4.2 und 4.3. 4.1 Zufällige Generierung eines Gesichtsausdrucks und Kalibrierung durch realen Testnutzer Im ersten Schritt wird ein Gesichtsausdruck generiert, der folgende Freiheiten hat: Die Mundwinkel können unabhängig voneinander einen Neigungswinkel von -30 bis +30 Grad haben. Die Augenbrauen können ebenfalls unabhängig voneinander um -15 bis +15 Grad geneigt sein. Diese Bereiche sind in 31 Stufen abrufbar. Außerdem ist deren Höhe variabel in 11 Stufen. Somit können über 10 Millionen verschiedene Gesichtsausdrücke erzeugt werden (siehe Abbildung 4). Es ist möglich, dass nicht alle von einem Menschen umsetzbar sind, aber die Unterschiedlichkeit menschlicher Gesichter empfiehlt, eine derart breite Spanne zuzulassen. Es ist notwendig, ausreichend viele dieser Gesichter im Vorfeld zu bewerten, damit der Algorithmus für möglichst viele dieser über 10 Millionen Möglichkeiten die richtige Stimmung 4 vorschlägt. Tests ergeben schon bei 500 Vorbewertungen eine Bestimmungsgenauigkeit von 80%. Im folgenden Kapitel wird detaillierter auf Testergebnisse eingegangen. Abb. 4.: Zufällig erzeugte Gesichtsausdrücke Die Kalibrierung erfolgt, indem die Testperson in einem Kalibrierungsfenster einen zufälligen Gesichtsausdruck zu sehen bekommt. Dazu erscheint die Frage, ob eine ebenfalls zufällig ausgewählte Stimmung dazu passt. Die Testperson kann das durch entsprechende Buttons bestätigen oder verneinen. 4.2 Speicherung jeder Kalibrierung im Datensatz Der Datensatz, der durch die Kalibrierung gebildet wird, besteht aus 80 Dateien. Für jedes Merkmal (Höhe der Augenbrauen, Winkel der linken Augenbraue, Winkel der rechten Augenbraue, linker Mundwinkel, rechter Mundwinkel) existieren 16 Dateien. Folgendes Beispiel soll den Ablauf nach der Kalibrierung durch die Testperson erklären. Für diesen zufälligen Ausdruck gelten folgende Parameter: Augenbrauenhöhe (he) : 3 px Auge links (le) : 11 deg Auge rechts (re) : 5 deg Mund links (lm) : -20 deg rechts (rm) : -16 deg Frage: Bist du unzufrieden? Antwort: Ja. Nun werden diese Informationen für jedes Merkmal in einer Datei gespeichert. Eine Datei zur Speicherung der Augenbrauenhöhe sieht zum Beispiel so aus: 5 9 7 5 6 7 9 6 6 6 6 -9 - 11 -3 -9 -6 -3 - 11 - 14 -9 -9 -5 -5 -6 - 11 -4 - 11 -5 -6 -4 3 4 4 Die drei Spaltenvektoren stehen für je eine Stimmung (unzufrieden, zufrieden, irritiert), jeder Spaltenvektor enthält so viele Komponenten, wie mögliche Abstufungen des Merkmals existieren. In diesem Fallbeispiel betrachten wir die Augenbrauenhöhe. Sie kann zwischen 0 und 10 variieren, deshalb hat jede Spalte 11 Komponenten. Im Beispiel liegt eine Höhe von 3px vor und die bestätigte Stimmung ist „unzufrieden“. Deshalb wird die vierte Komponente des ersten Spaltenvektors gewählt und dieser anschließend inkrementiert. Hätte die Testperson mit „Nein“ geantwortet, würde die gleiche Komponente dekrementiert werden. 5 Zur Verbesserung der Effektivität des Algorithmus gibt es für jedes Gesichtsmerkmal mehrere Dateien. Der Grund dafür ist eine Beachtung von den groben Korrelationen der Merkmale. Das jeweilige Intervall, in dem ein Merkmal liegen kann, wird in zwei Bereiche geteilt. Bei der Speicherung der Augenbrauenhöhe im Fallbeispiel wird zusätzlich registriert, in welchem Teilintervall die anderen Merkmale liegen. Nach diesen Kriterien wird die zugehörige Datei gewählt. Möchte man diese Zusammenhänge nicht speichern, benötigt man für jedes Merkmal nur eine Datei. Der Kalibrierungsaufwand minimiert sich etwas. Allerdings erzielt man mit der komplexeren Methode durch Hinzunahme der Korrelationen der Merkmale bessere Ergebnisse. Im Projektfenster sind die vorhandenen Daten als Diagramme visualisiert. Pro Merkmal lässt sich ein Diagramm aufrufen. Es bildet die Summe aller Dateien, die zu diesem Merkmal gehören. Jeder Stimmung ist eine Kurve zugeordnet. Jede Kurve entspricht den Spaltenvektoren der summierten Dateien und veranschaulicht die Resultate der Kalibrierungen. Zu erwartende Trends sind deutlich zu sehen (siehe Abbildung 5, 6). Abb.5.: Diagramm zur Kalibrierung des rechten Mundwinkels. Erhöht sich der Wert des Mundwinkels, bewegt er sich also im Gesicht nach oben, ist ein deutlicher Anstieg der Kurve zu sehen, die Zufriedenheit repräsentiert. Die Kurve der Unzufriedenheit verhält sich komplementär. Außerdem ist auffällig, dass nicht die gleiche Anzahl von irritierten wie von unzufriedenen oder zufriedenen Gesichtern existiert . Die Kurve, die für Irritation steht, verläuft größtenteils unterhalb der anderen Kurven (siehe Abbildung). Das liegt daran, dass für diese Stimmung die 6 Augenbrauenhöhe ausschlaggebender ist. Bei sehr hohen Augenbrauen steigt die Wahrscheinlichkeit für einen irritierten Ausdruck deutlich (siehe Abbildung 6). Abb.6.: Diagramm zur Kalibrierung der Augenbrauenhöhe. 4.3 Nutzung des Datensatzes zur Erkennung eines Ausdrucks Der Algorithmus wählt wie im letzten Schritt die entsprechende Datei zu jedem Merkmal und sucht sich den gespeicherten Wert in der Zeile der Datei, die dem aktuell gemessenen Wert des Merkmals entspricht. Dieser Eintrag wird für jede Stimmung mit den beiden benachbarten Einträgen (also eine Zeile weiter oben bzw. unten) gemittelt. Das glättet die Kurve und man erhält schon bei wenigen Kalibrierungen sinnvolle Ergebnisse. Daraufhin werden die Stimmungswerte prozentual miteinander verglichen. Ist mindestens ein Wert negativ, wird der niedrigste auf null gesetzt und zu allen anderen sein vorheriger Betrag addiert. Im oben genannten Beispiel bedeutet das: Merkmal: Augenbrauenhöhe Zeile 3: Zeile 4: Zeile5: 7 5 6 -3 -9 -6 - 11 -4 - 11 Mittel: wird zu: prozentual: 6 ~ 14,67 ~ 85% -6 ~ 2,67 ~ 15% ~ - 8,67 0 0% 7 Für jede Stimmung werden deren Prozentzahlen aller Merkmale addiert und durch die Anzahl der Merkmale geteilt. Danach wird die Stimmung mit der höchsten Wahrscheinlichkeit gewählt (vgl. Abb.6). Sind mehrere Stimmungen gleich wahrscheinlich, entscheidet der Zufall. Abb.7.: Ergebnis des Beispiels. Zu insgesamt unter 100% kann es durch vorheriges Runden kommen. Im Bild sind des weiteren noch die jeweiligen Anteile der einzelnen Gesichtsmerkmale am Gesamtergebnis vermerkt. 5 Ergebnisse der Testreihen Der Prototyp wurde in den verschiedenen Stadien seiner Entwicklung im Web zur Verfügung gestellt und getestet [@SMILE]. Aufgrund des offenen Zugriffs auf die Website ist nicht vollständig nachvollziehbar, wie viele Personen beteiligt waren. Die bevorzugte Testeinstellung war eine Unterscheidung zwischen den Stimmungen Unzufriedenheit, Zufriedenheit und Irritation. Mit dieser Kombination fanden die Tests der im Folgenden skizzierten Versionen des Prototyps statt. Pro Testreihe wurden mindestens 200 Analysen generierter Gesichter bewertet. Die dritte Version entspricht dem im vorherigen Kapitel erläuterten Prototyp. Version 2 unterscheidet sich von ihrem Nachfolger nur bei der Berechnung der eines generierten Gesichts zugrunde liegenden Stimmung. Hierbei wird der Wert eines Merkmals nicht mit denen im Diagramm benachbarten Werten gemittelt. Die Tests ergaben, dass gerade bei niedrigerer Kalibrierung, das heißt bei bis zu 2000 Vorbewertungen, ein Mitteln der Werte eine um 5- bis 10-prozentig korrektere Analyse herbeiführte. Das ist logisch, weil bisher noch nicht kalibrierte Werte bestimmter Gesichtsmerkmale von einer möglichen Bewertung ähnlicher, das heißt benachbarter Werte profitieren. Bei weiteren Kalibrierungen pegelte sich die Analysegenauigkeit beider Versionen bei fast 90 Prozent ein. Ein weiterer Vorteil ist die verbesserte Visualisierung der Daten als Diagramm durch die Verwendung des Mittelwerts benachbarter Merkmalswerte. Die Kurven werden geglättet und Trends lassen sich leichter ablesen. Die erste Version ändert bei der Kalibrierung den Wert jedes Merkmals in einer entsprechenden Datei, ohne die Werte der anderen Merkmale dabei zu berücksichtigen. Korrelationen zwischen Merkmalen werden, im Gegensatz zur Speicherung in späteren Versionen, 8 richtige Analyse ignoriert. Das bringt der ersten Version eine fast 10-prozentig schlechtere Analysegenauigkeit und rechtfertigt den Mehraufwand bei der Kalibrierung späterer Versionen. 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 0 500 1000 1500 2000 2500 3000 3500 4000 4500 Kalibrierungen Version 1 Version 2 Version 3 richtige Analys e Des Weiteren wurden die Universalemotionen nach [EKMAN 99] getestet. In der Diagrammdarstellung der Kalibrierungen ist der gleiche Trend wie bei der vorherigen Stimmungskombination zu erkennen: Traurigkeit dominiert den negativen Bereich der Mundwinkel, Freude den positiven Bereich. Außerdem ist zu sehen, dass die Wahrscheinlichkeit eines neutralen Gesichtsausdrucks bei um null Grad gedrehten Mundwinkeln deutlich höher ist als in anderen Bereichen (vgl. Abb.8). Tests ergaben bei 1500 Kalibrierungen bei bis zu 73% der Analysen ein korrektes Ergebnis. 80% 70% 60% 50% 40% 30% 20% 10% 0% 0 200 400 600 800 Emotionen nach [EKMAN 99] 1000 1200 1400 1600 Kalibrierungen 9 Abb.8.: Diagramm zur Kalibrierung des rechten Mundwinkels bei sieben Stimmungen. 6 6.1 Einsatzmöglichkeiten Avatarsteuerung auf Webseiten Avatare sind virtuelle Figuren mit unterschiedlichstem Aussehen. Auf Webseiten sind zum Beispiel Firmenmaskottchen geeignet, um den Besucher der Seite anzusprechen, hübsche Frauen erzielen ebenso Aufmerksamkeit. Ein ansprechendes Äußeres ist wichtig, denn Avatare sollen motivieren, helfen und den Besucher anregen, länger zu verweilen. Sie dienen als direkte Ansprechpartner und sollten daher möglichst humane Züge haben. Es gibt zum Beispiel Studien, die untersucht haben, auf welche Art ein Avatar seine Augenlider bewegen muss, um ein möglichst realistisches, menschliches Blinzeln zu imitieren [TAKASHIMA et al. 08]. Eine derartig realitätsnahe Umsetzung von Avataren, wie sie oft bei Rollenspielen auftritt, ist weniger von Webseiten bekannt. Sie haben den Nachteil, dass Rücksicht zu nehmen ist auf verschiedene Browser, ältere Versionen oder nicht installierte Plugins. Außerdem ist es wichtig, auf möglichst geringe Ladezeiten einer Seite zu achten. Das Aussehen eines Avatars ist aber nicht die einzige Chance, ihn human zu gestalten. Bisher kommunizieren Avatare mit dem Besucher der Webseite, indem sie ihm Fragen stellen oder Hilfe anbieten, auf die mit Eingeben eines Textes über die Tastatur geantwortet werden kann. Der Avatar versucht dann zu ermitteln, nach welchen Informationen der Nutzer sucht. Technisch gute Avatarrealisationen leiten den 10 Suchenden sofort auf die gewünschte Seite um, geben ihren Text auch akustisch wieder oder haben Antworten auf Fragen, die nicht aus dem Themengebiet der Webseite stammen. Durch die Kalibrierungsdaten des vorgestellten Prototyps könnte das Programm, das den Avatar realisiert, nach Ausgabe eines Satzes durch den Avatar die emotionale Reaktion des Besuchers analysieren. Abb.9.: Avatare webbasierter Anwendungen: [@IKEA], [SAMSUNG], [@LOFTUSPHOTO], [@SMILE] Ein Beispiel wäre ein Avatar auf einer Bildungs - oder Forschungsplattform. Die Seite präsentiert wissenschaftliche Texte, Lehrmaterial und Neuigkeiten zu aktuellen Forschungsschwerpunkten. Der Avatar erkundigt sich bei einem Besucher, ob Hilfe gewünscht ist. Schlägt dessen Stimmung anschließend auf Unzufriedenheit um, blendet sich der Avatar selbstständig aus und stört nicht weiter beim Surfen. Bei Zufriedenheit kann eine Unterhaltung stattfinden, der Besucher kann Themenvorlieben oder Suchbegriffe eingeben. Ist er nach der Präsentation von entsprechenden Artikeln durch den Avatar immer noch zufrieden, sind vertiefende Informationen und ausführlichere Texte möglicherweise angebracht. Schlägt seine Stimmung um in schlechte Laune, können Artikel in der Darstellung verkürzt werden, beispielsweise werden nur die Zusammenfassungen angezeigt. Ist der Nutzer irritiert, fragt der Avatar, ob er unbekannte Formulierungen erklären kann oder ob er das falsche Thema getroffen hat. Auf kommerziellen Webseiten könnte ein Avatar durch eine Stimmungsanalyse Kauftipps individueller gestalten. Hat der Kunde gerade eine Ware erstanden und schaut missmutig angesichts des Preises, schlägt der Avatar reduzierte Ware vor und merkt an, dass so Versandkosten gespart werden können. Ist er zufrieden, ist möglicherweise ein Hinweis auf Unikate oder Designerstücke angebracht. Zusätzlich kann der Avatar nach der Analyse die Gesichtszüge des Besuchers der zugehörigen Seite übernehmen, um Mitgefühl zu imitieren. Zwischen Menschen ist Nähe durch Verständnis und Nachahmung zu schaffen eine natürliche Reaktion. 6.2 Features für soziale Netzwerke und Spiele Die ebenso im breiten Feld des Internets beheimateten Online Communities wie Facebook oder Myspace bieten jedem registrierten Mitglied eine Eingabemöglichkeit, 11 durch die er seine aktuelle Stimmung öffentlich machen kann. Eine automatische Erkennung wäre mit Hilfe von Projektresultaten vorstellbar. Auch der Markt der Computerspiele vervielfältigt sich im Bereich der webbasierten Spiele immer mehr. Besonders Online Rollenspiele üben eine immer größere Faszination auf Menschen verschiedenster Altersgruppen oder Herkunftsländer aus. Dabei kann man mit einem individuell erstellten Avatar in fantastischen oder realen Welten kämpfen, Gespräche führen oder einfach so leben, wie man es in der realen Welt gern täte [BOBERG 08]. Durch das ermittelte Wissen über die Stimmung des Spielers könnte den virtuellen Counterpart bei schlechter Laune eine Art Schutzwall umgeben, der es ihm ermöglicht, die Traumwelt ohne Behelligung durch andere Spieler zu durchschreiten. Potentielle Gesprächspartner könnten den Hinweis erhalten, dass der Spieler im Moment nur empfänglich für aufmunternde Worte oder ablenkende Aktivitäten ist. Gleichfalls könnten die Entwickler unterschiedlichster Spiele Nutzen aus einer möglichen Stimmungserkennung ziehen. Ihrem Ziel, Spieler möglichst lang an ein Produkt zu binden, lässt sich näher kommen, indem man die Schwierigkeit des Spieles abhängig von der Laune des Spielers macht. Ist er fortlaufend genervt oder unzufrieden und beendet er das Spiel häufig mit einer solchen Stimmung, kann ihn ein einfacheres Erreichen des nächsten Levels oder das Finden eines besonderen Gegenstandes neu motivieren und die Spielfreude erhalten. Konsumenten, die Hürden im Spiel ohne Probleme nehmen und ununterbrochen zufrieden sind, kann eine kompliziertere Aufgabe neue Herausforderungen bringen. Verstärktes Interesse der Bewältigung eines Problems hilft gegen aufkommende Langweile und führt zu noch größerer Zufriedenheit bei erfolgreicher Lösung. 6.3 Intelligente Reaktion von Programmen auf den Anwender Bei regelmäßiger Benutzung der gleichen Software kann es auftreten, dass Anwender bestimmte Arbeitsschritte des Programms nicht benötigen oder als störend empfinden. Beispielsweise könnte man auf die Frage, ob beim Schließen von Dateien wirklich gespeichert werden soll, verzichten, wenn der Nutzer zufrieden aussieht und nach Betätigen des Schließen-Buttons nicht plötzlich irritiert schaut. Software zur Texteingabe wären in der Lage, Autokorrekturen von Wörtern rückgängig zu machen, wenn das Gesicht des Anwenders negativ darauf reagiert. Auch Programme zum Abspielen von Musik würden auf die individuellen Präferenzen des Nutzers gezielter reagieren können, indem kurz nach der Anspielung eines Titels die Stimmungsanalyse den Ausschlag gibt, ob die Wiedergabe ununterbrochen fortgesetzt oder zum nächsten Titel gesprungen wird. 7 Ausblick und Fazit Der Prototyp in seiner aktuellen Version beschränkt sich noch auf eine Demonstration des Stimmungsanalyse anhand von generierten Gesichtern. An einer Interaktion mit der Webcam wird derzeit gearbeitet. Dabei gibt es mehrere Herausforderungen. Die Erkennung eines menschlichen Gesichtes erschwert sich einmal durch seine Individualität. Verschiedene Personen können trotz unterschiedlicher Gesichtsausdrücke die gleiche Laune haben. Die Gesichtsmerkmale müssen möglicherweise 12 relativ zu einem neutralen Gesichtsausdruck berechnet werden, der individuell zu Beginn der Interaktion der Software mit dem jeweiligen Anwender bestimmt wird. Außerdem sind Drehung, Neigung und Entfernung eines Gesichtes zu beachten. Aber auch nach der Umsetzung dieser Problematiken mögen die erläuterten Anwendungsgebiete für eine Stimmungserkennung visionär bis utopisch anmuten. Tatsächlich gibt es Hürden, die für eine Realisierung von stimmungsbasierten Webhilfen oder Programmunterstützungen noch zu überwältigen sind. Der ungehinderte Einblick in das private Umfeld eines Menschen durch seine Webcam und die Angst vor einer möglichen Speicherung von Videomaterial, das seine Privatsphäre enorm verletzen würde, könnte zunächst von der Nutzung derartiger Software abschrecken. Arbeitet man beispielsweise mit Adobe Flash, um über das Netz auf eine Webcam zuzugreifen, muss deren Besitzer bei jedem Aufruf der Seite mit den FlashDateien den Zugriff erneut erlauben. Bei Software, die ohne Internetverbindung nutzbar ist, ist dieser Schritt möglicherweise zu vermeiden. Dem Anwender könnte die Möglichkeit gegeben werden, zu entscheiden, ob und wo Daten seiner Webcam ausgewertet oder gespeichert werden. Trotzdem bleibt eine Skepsis gegenüber der Vorstellung, „beobachtet“ zu werden. Betrachtet man allerdings die Entwicklung der Netzwelt, erscheint eine analysierende Webcam weitaus harmloser als so mancher Seelenstriptease von Websurfern, die über Aufenthaltsorte, Beziehungszustände und aktuelle Gedanken, egal, wie uninteressant sie auch sein mögen, freizügig und in kürzesten Zeitabständen berichten. Tendenz steigend. 13 Referenzen [ROJAS 98] R. Rojas. Die Rechenmaschinen von Konrad Zuse. Springer Verlag, Berlin, 1998, ISBN 3-540-63461-4. [RUVOLO et al. 08] P. Ruvolo, I. Fasel, J. Movellan. Auditory Mood Detection for Social and Educational Robots. University of California San Diego, 2008. [GUO et al. 05] G. Guo and C. R. Dyer. Learning From Examples in the Small Sample Case: Face Expression Recognition. Fellow, IEEE, IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART B: CYBERNETICS, Vol. 35, No. 3, 2005. [GESÙ et al. 08] V. di Gesù, B. Zavidovique, M. E. Tabacchi. Face Expression Recognition through Broken Symmetries. Università degli Studi di Palermo, University of Paris Sud XI, 2009. [WU et al. 09] Wu Peng, Li Xiao-hua, Zhou Ji-liu, Lei Gang. Face Expression Recognition Based on Feature Fusion. College Of Computer Science, Sichuan University, 2009. [EKMAN 99] P. Ekman, "Facial Expression", The Handbook of Cognition and Emotion, T. Dalgeleish and M Power, John Wiley & Sons Ltd. 1999. [TAKASHIMA et al. 08] K. Takashima, Y. Omon, Y. Yoshimoto, Y. Itoh, Y.Kitamura, F. Kishino. Effects of Avatar's Blinking Animation on Person Impressions. Osaka University Suita, Jin-ai University Echizen, Sharp Corporation Tenri, Japan, 2008. [BOBERG 08] M. Boberg, P. Piippo, El Ollila. Designing Avatars. Nokia Research Center, Finland, 2008. [@NETZWELT] R. Haberer: 40 Jahre Computermaus – Wie ein Zeiger die Welt veränderte. Verfügbar im Web unter http://www.netzwelt.de/news/79098-40jahre-computermaus-zeiger-welt-veraenderte.html, eingesehen am: 2009-08-30. [@STAFFORD-FASER] Q. Stafford-Fraser. The Trojan Room Coffee Pot. Verfügbar im Web unter http://www.cl.cam.ac.uk/coffee/qsf/coffee.html, eingesehen am: 2009-08-23. [@MICROSOFT] Firma Microsoft. Project Natal. Verfügbar im Web unter http://www.xbox.com/en-US/live/projectnatal, eingesehen am: 2009-08-23. [@BOFFSWAMA] Unternehmen Boffwana. Thema: Papervision Augmented Reality. Verfügbar im Web unter http://www.boffswana.com/news/?p=392, eingesehen am: 2009-08-23. 14 [@SEESTORM] Firma SeeStorm. Computer Vision Demo. Verfügbar im Web unter http://www.youtube.com/watch?v=CM9m2l1LHJg, eingesehen am: 2009-08-23. [@JAFFE] M. Kamachi, M. Lyons, J. Gyoba. The Japanese Female Facial Expression (JAFFE) Database. Psychology Department, Kyushu University. Verfügbar im Web unter http://www.kasrl.org/jaffe.html, eingesehen am: 2009-08-27. [@IKEA] Firma Ikea. Produktseite, Avatar Anna. Verfügbar im Web unter http://www.ikea.com/de/de/, eingesehen am: 2009-08-30. [@SAMSUNG] Firma Samsung. Produktseite für Notebooks, Avatar Sam. Verfügbar im Web unter http://notebook.samsung.de, eingesehen am: 2009-08-30 [@LOFTUSPHOTO] D. & D. Loftus. Unternehmen Loftus Photography, Avatar Kathleen. Verfügbar im Web unter http://www.loftusphoto.com/ask_kathleen_page.php, eingesehen am: 2009-08-30. [@SMILE] D. Schmidt. Analyse My Smile Prototyp. Verfügbar im Web unter http://smile.bplaced.net, eingesehen am: 2009-08-30. 15