Seminar Reader - Mensch-Computer Interaktion
Transcription
Seminar Reader - Mensch-Computer Interaktion
SEMINAR READER – STUDENT WORK Novel Input Devices for the Human-Computer Interaction Neue Eingabegeräte für die Mensch-Computer Interaktion 2007 Prof. Dr. Harald Reiterer Werner A. König Human-Computer Interaction Group, University of Konstanz Seminar Description: Traditional input devices like mouse and keyboard are widely used for more than 40 years. Since the user interfaces and their application domain and environment has changed over the years the question we should ask is: "Do such input devices really fit our current/future requirements?" In the seminar we will discuss this question particularly with regard to use cases, which need per se very flexible and mobile interaction mechanisms, e.g. for presentations, collaborative work or for the general interaction with very large displays. Conventional input devices are either not applicable or reveal several drawbacks for these application domains. Therefore the students in this seminar will invent novel input devices and interaction techniques e.g. for large displays like the Powerwall. In practice they may build up on existing tracking frameworks for optical body-, hand- or laser-tracking or evolve radically new devices from scratch. The students are encouraged to physically implement their ideas and use them in real scenarios. The seminar is organized as a regular "workshop" with theoretical and practical topics. http://hci.uni-konstanz.de NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007 Fuchteln statt klicken - Feasibilitystudie und technische Umsetzung zur Handgestenerkennung für die Interaktion an großen, hochauflösenden Displays Stephanie Föhrenbach Abstract— Bei einer Interaktion mit großen, hochauflösenden Displays stossen herkömmliche Eingabegeräte wie die Maus und die Tastatur schnell an Ihre Grenzen. Aufgrund der physikalischen Ausmaße und der hohen Informationsdichte der Darstellungsfläche, der limitierten Sehfähigkeit des Menschen und den wechselnden Interaktionsabständen und Positionen sind andere Geräte zur Mensch-Computer-Interaktion gefragt. In dieser Ausarbeitung wird die Hand als Eingabegerät betrachtet und eine Methodik zur Umsetzung einer Handgestenerkennung an großen, hochauflösenden Displays vorgestellt. Ein Handschuh in Kombination mit einem optischen Trackingsystem dient zur Bestimmung der Fingerpositionen und der Lage der Hand. Zur Handidentifikation und Fingerklassifizierung wird ein Algorithmus verwendet, welcher die Anatomie der Hand berücksichtigt und so eine sehr hohe Klassifikationsgenauigkeit erreicht. Die verwendeten Gesten werden aus alltäglichen Gesten abgeleitet und tragen damit zu einer als natürlich empfundenen Interaktion bei. Das entwickelte System erreicht eine zeitnahe Verarbeitung mit einer vom Anwender nicht wahrnehmbaren Verzögerung und ist somit zum Einsatz für die Mensch-Computer-Interaktion geeignet. Index Terms—Freehand Gestures, Pointing, Very Large Displays, Whole Hand Interaction. 1 E INLEITUNG UND M OTIVATION Große, hochauflösende Displays (LHRD) zeichnen sich durch eine sehr große Darstellungsfläche mit einer hohen Auflösung aus. Die Konstanzer Powerwall, welche in diese Kategorie von Displays fällt, weißt eine Darstellungsfläche von 5,20 x 2,15 m mit 4640 x 1920 Pixel auf. Das limitierte menschliche Sehvermögen [10, 7] führt dazu, daß sich Benutzer vor LHRD bewegen müssen, um die dargestellten Informationen zu betrachten. Benutzer entfernen sich von der Darstellungsfläche um sich einen Überblick zu verschaffen und treten näher heran um Details zu betrachten. Diese notwendige Bewegungsfreiheit zu ermöglichen ist somit von entscheidender Bedeutung bei der Auswahl eines geeigneten Eingabegerätes und beim Gestalten von Interaktionstechniken für LHRD. Balaktishan und Vogel [14] formulieren mehrere Charakteristikas, durch welche sich eine Interaktion vor LHRD auszeichnen sollte: ’Accuracy’, ’Acquisition Speed’, ’Pointing and Selection Speed’, ’Comfortable Use’ und ’Smooth Transition between Interaction Distances’. Es stellt sich die Frage in wie weit die Hand als Interaktionsgerät mit Gesten zum Auslösen von Interaktionen diese Charakteristikas erfüllen kann. In [1] wurden drei Eigenschaften von Handgesten als Vorteil hervorgehoben: 1. Natural Interaction: Gesten sind einen natürliche Form des Kommunizieren und einfach zu erlernen. erfüllen. Die natürliche Interaktion könnte sich direkt auf den Punkt ’Comfortable Use’ auswirken. Eine direkte Interaktion, kombiniert mit der Möglichkeit mehrere Parameter gleichzeitig zu spezifizieren, kann sich positiv auf die Punkte ’Acquisition Speed’ und ’Pointing and Selection Speed’ auswirken. Zusätzlich dazu räumen Handgesten die erforderliche Bewegungsfreiheit ein, und erzwingen nicht den Einsatz verschiedener Interaktionstechniken in Abhängigkeit der Entfernung vom Display, wie dies etwa bei Touchscreens der Fall ist. Zur Auslösung einer Interaktion kann direkt vor dem Display die gleiche Handgeste verwendet werden als auch in drei Metern Entfernung. Die Bewegung des Benutzers könnte sogar als weiterer Parameter bei der Interaktion ausgewertet werden und somit einen echten Mehrwert und nicht nur ein notwendiges Übel darstellen. 2 T ECHNISCHER AUFBAU UND A NSATZ Die Gestenerkennung soll zur Interaktion vor großen, hochauflösenden Displays (LHRD) verwendet werden. In dem konkreten Anwendungsfall wird eine Powerwall der Firma Barco verwendet, welche an der Universität Konstanz installiert ist. Die Konstanzer Powerwall weißt eine Darstellungsfläche von 5,20 x 2,15 m und eine Auflösung von 4640 x 1920 Pixel auf.[11] 2. Terse and Powerfull Interaction: Eine Geste kann mehrere Parameter spezifizieren. So kann sie zusätzlich zu einem Kommando auch dessen Parameter spezifiziern. Neben der Auswertung Geste ja/nein, kann auch die Art ihrer Durchführung in Betracht gezogen werden, wie in etwa die Geschwindigkeit mit welcher die Hand bewegt wird oder an welcher Position im Raum sich der Gestikulierende befindet. 3. Direct Interaction: Die Interaktion geschieht unmittelbar basierend auf den Bewegungen der Hand. Die Bedeutung der Gesten muss nicht vom Benutzer über ein weiteres Gerät dem System bekannt gemacht werden. Diese Eigenschaften lassen vermuten, dass Handgesten das Potential haben, zumindest einige der geforderten Charakteristiken zu • Stephanie Föhrenbach, E-mail: [email protected]. Abbildung 1. Technischer Aufbau. Vor der Powerwall interagiert der Benutzer über Handgesten mit der Anwendung. Zum Tracken der Position und Lage der Hand mit ihren Fingern im Raum vor der Powerwall wird das optische Trackingsystem DTrack der Firma A.R.T. advanced realtime tracking GmbH eingesetzt. Infrarot Kameras tracken sowohl passive als auch aktive Mar- NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007 • Wird ein 6dof Target nicht eindeutig von allen Kameras erkannt, befinden sich in den Outputdaten möglicherweise sowohl die Daten zum 6dof Target, als auch 3D Positionen einzelner Targetmarker als 3dof Objekte. ker und Targets und senden die erfassten Daten mit einer Frequenz von bis zu 60 Hertz via UDP an eine beliebige Zieladresse. Dort werden diese dann analysiert und bilden die Rohdaten zur Gestenerkennung. 3 T RACKING S YSTEM DT RACK • Ein einzelner 3dof Marker kann als zwei verschiedene Marker mit abweichenden Positionen erkannt werden. DTrack ist ein optisches Tracking System. Es basiert auf Infrarot Kameras, welche einen kalibierten drei dimensionalen Raum beobachten. In diesem können, auf die Kameras abgestimmte, passive und aktive Marker getrackt werden. Die getrackten Daten werden dann mit einer Frequenz von wahlweise 60 oder 30 Hertz über UPD Pakete an eine vom Anwender beliebig konfigurierbare IP Adresse und Portnummer gesendet.[5] Abbildung 2 zeigt das im Raum vor der Powerwall definierte Koordinatensystem. Es ist als Rechtssystem angelegt, d.h. größere z-Werte gehen in den Raum hinein. • Selbst wenn Marker oder Targets absolut ruhig gehalten werden, sind die dazu ermittelten Positions- und Rotationswerte über mehrere UDP Pakete nicht konstant, sondern schwanken. Die Abweichungen können dabei bis zu 1 mm betragen. • Infrarotstrahlen, reflektierende Oberflächen, wie z. B. Reflektionsmarker auf Fahrradtaschen, und Sonnenlicht können sich störend auf das Tracking auswirken. • Ein ganz entscheidender Faktor für die Qualität der Trackingdaten ist eine exakte Raumkalibrierung, diese sollte sehr sorgfältig durchgeführt werden. 4 H ANDERKENNUNG 4.1 Abbildung 2. Tracking Koordinatensystem vor der Konstanzer Powerwall (=Raumkoordinatensystem). Die Kameras senden Infrarotstrahlen aus, welche von passiven Markern reflektiert und dadurch von den Kameras erkannt werden. Aktive Marker senden Infrarostrahlen aus, welche dann von den Kameras erkannt werden. Für einen einzelnen Marker kann das Trackingsystem seine Position im Raum berechnen. Diese Art von Markern wird als 3dof (three degrees of freedom) Marker bezeichnet, was die drei Freiheitsgrade x, y und z einer 3D Position beschreibt. Mehrere 3dof Marker können durch eine fixe Anordnung zu einem 6dof (six degrees of freedom) Targets zusammengestellt werden. Bei diesen Targets wird, zusätzlich zur Position im Raum, die Rotation bezüglich der drei Achsen des Raumkoordinatensystems bestimmt und als Rotationsmatrix in den Outputdaten angegeben. Damit ein solches Target erkannt wird, muss dieses einmalig kalibriert werden. Während jedes Target über eine eindeutige ID verfügt und damit die zugehörigen Daten in dem UDP Paket referenziert werden können, werden Marker fortlaufend durchnummeriert und behalten die gleiche ID immer nur solange sie fortlaufend getrackt werden. Verliert das Trackingsystem zwischenzeitlich den Marker, bekommt dieser beim erneuten Erkennen nicht mehr die vorherige, sondern eine neue ID. Damit ist das eindeutige Zuordnen von 3D Positionen innerhalb des UPD Pakets zu Markern nicht möglich.[5] Handschuhdesign Um ein Tracken der Hand zu ermöglichen, wird die Hand durch Marker und Targets abgebildet. Die Grundlage bildet ein herkömmlicher Kosmetikhandschuh. Dieser erlaubt ein schnelles Anlegen und verhindert gleichzeitig ein versehentliches Berühren der Marker mit der Haut, was eine Beeinträchtigung ihrer Reflektionseigenschaft zur Folge hätte. Auf den Handschuh wird jeweils oberhalb des zweitäußersten Phalanx1 des Daumen, Zeige-, Mittel- und kleinen Finger ein passiver 3dof Marker angebracht. Der Ringfinger wird ausgelassen, da dieser von allen Fingern am wenigsten selbstständig und unabhängig von den jeweils benachbarten Fingern bewegt werden kann. Zur Befestigung der Marker werden Senkschrauben mit einem M3 Gewinde vom Handschuhinneren durch ein Loch geführt und mit Heißkleber fixiert. Abbildung 4. Hand- und Fingerknochen.[13] Eine solche Anbringung bringt folgende Vorteile mit sich: • Die Anbringung oberhalb des Fingers erlaubt es dem Benutzer seine Hand weiterhin unbehindert zu verwenden. So können z. B. auch mit angezogenem Hanschuh eine Tastatur bedient oder handschriftliche Notizen gemacht werden. Dies wäre nicht möglich, wenn die Marker vor der Fingerkuppe als direkte Verlängerung der Finger oder unterhalb der Finger angebracht werden. • Eine Anbringung über dem zweitäußersten Phalanx schränkt die Bewegungsfreiheit der Finger in Richtung der Handinnenfläche nicht ein, wie es z. B. beim Bilden einer Faust der Fall ist. Die Marker stoßen hierbei nicht mit der Handinnenfläche zusammen. Zusätzlich dazu erlaubt es diese Positionierung, den Handschuh wie gewohnt durch festhalten an den Fingerspitzen auszuziehen. Abbildung 3. Tracking Objekte: Passive 3dof Marker und 6dof Targets.[6] Bei einer Auswertung der Daten sind einige Eigenwilligkeiten des Tracking Systems zu berücksichtigen: • Marker, welche oben auf der Hand angebracht sind, können mit der derzeit an der Powerwall angebrachten Kameras besonders gut erkannt werden. 1 Als Phalanx werden die einzelnen Fingerknochen bezeichnet[13] FÖHRENBACH, STEPHANIE: HANDGESTENERKENNUNG FÜR DIE INTERAKTION AN GROSSEN, HOCHAUFLÖSENDEN DISPLAYS Um neben den Positionen der einzelnen Fingern auch die Lage bzw. die Orientierung der Hand im Raum bestimmen zu können, wird auf den Handrücken ein 6dof Target angebracht. Dabei wird es so positioniert, daß sich ein Marker oberhalb des Zeigefinger-Handrückengelenks befindet. Dies ist später zur Berechnung der Cursorposition von Bedeutung und wird in Abschnitt 5.2 näher erläutert. Bei dem Design des Targets sollten folgende Punkte beachtet werden: • Obwohl nur vier Marker zur Definition eines Targets notwendig sind, sollte eine höhere Anzahl verwendet werden. Dies erhöht die Wahrscheinlichkeit der Targetidentifikation, selbst wenn nicht alle Marker für die Kameras sichtbar sind. • Bei der Markeranordnung des Targets ist darauf zu achten, daß bei den am häufigsten vorkommenden Handhaltungen, die Kameras möglichst viele Marker gleichzeitig sehen und diese sich nicht gegenseitig verdecken. • Die zum Körper hin angeordneten Marker sollten erhöht angebracht werden, damit diese bei einem Anwinkeln der Hand in Richtung Körper länger sichtbar sind. eindeutige Nummer für das Target vergeben. Der Targetursprung entspricht der Position für welche das Tracking System die 3D Koordinaten als Targetposition zurückliefert. Dieser Targetursprung ist nach der Kalibrierung in den Marker oberhalb des Zeigefinger-Handrückengelenks zu verschieben. 2 . Die so festgelegte Position des Targetursprungs trägt bei der Gestenverwendung zu einer intuitiven Positionierung des Cursors bei. 4.3 Algorithmische Handerkennung und Fingerklassifizierung Bewegt sich die Hand vor der Powerwall werden die 3dof Marker und das 6dof Handrückentarget von dem Trackingsystem DTrack getrackt und die Positions- und Rotationswerte mit bis zu 60 fps3 an eine beliebige IP Adresse mit zugehörigem Port versendet. Alle zu einem Zeitpunkt getrackten Objekte (3dof Marker und 6dof Targets) werden innerhalb eines Datenpakets versendet. Aus den übermittelten Werten ist die Hand mit ihren Fingern zusammenzusetzten, folgende Informationen über die Inhalte der Datenpakete sind dabei relevant: • 3dof Daten beinhalten eine 3D Position, welche die Position des Markers innerhalb des Raumkoordinatensystems beschreibt. • 6dof Daten beinhalten ebenfalls eine 3D Position, welche die Position des Targets innerhalb des Raumkoordinatensystems beschreibt. Zusätzlich dazu wird eine Rotationsmatrix übermittelt, welche die Rotation des Targets relativ zum Raumkoordinatensystems beschreibt. Ausgangslage zur Ermittlung der Rotationsmatrix ist die Lage des Handtargets während der Kalibrierung. • Zu jedem Objekt wird eine BodyID übermittelt. 6dof Targets können darüber eindeutig identifiziert werden, bei 3dof Marker ist dies lediglich eine willkürlich Nummer, die bei jedem Neuerkennen eines Markers fortlaufend vergeben wird.4 Abbildung 5. Handschuh mit 3dof Markern und 6dof Target. 4.2 Kalibrierung des Handschuhs Nach der Definition und Anbringung des 6dof Targets ist dieses zu kalibrieren. Erst eine Kalibrierung schafft die Vorraussetzung um die Lage der Hand im Raum zu bestimmen und die ermittelten Daten dem Handschuh zuzuordnen. Vorbereitend werden die 3dof Fingermarker von dem Handschuh entfernt. Anschließend wird der Handschuh in eine Position gebracht, die einem geraden Zeigen auf die Powerwall entspricht. Diese Ausrichtung ist bei der Cursorpositionierung von entscheidender Bedeutung (siehe Abschnitt 5.2). Die Kalibrierung ist ’due to room’ durchzuführen, dadurch wird die Rotation beim Tracken relativ zum Raumkoordinatensystem bestimmt. Die Lage, in welcher sich das Target während der Kalibirierung befindet entspricht dadurch einer Ausrichtung, in welcher das Target keinerlei Drehung bezüglich einer der drei Achsen des Raumkoordinatensystems aufweist.[5] In nachfolgenden Abschnitten wird diese Lage auch als ’Ausgangslage’ bezeichnet. Abbildung 6. Kalibrierungsposition vor der Powerwall und die entsprechenden Einstellungen. Durch die Kalibrierung wird die Markeranzahl und ihre geometrische Anordnung bestimmt, der Targetursprung definiert und eine Der zur Erkennung und Zusammensetzung der Hand entwickelte Algorithmus (siehe Abbildung 7) gliedert sich in drei Schritte: 1. Handidentifikation und Extraktion von potentiellen Fingern aus dem jeweiligen Frame. 2. Finger-Handzuordnung und Noiseentfernung. 3. Klassifikation der Finger in Daumen, Zeige-, Mittel- und kleinen Finger. 4.3.1 Schritt 1: Handidentifikation und Extraktion von potentiellen Fingern Bei den Daten jedes 6dof Targets wird geprüft ob die BodyId der Id eines Handtargets entspricht. Wenn ja, werden diese 6dof Daten und alle 3dof Daten innerhalb des gleichen Frames extrahiert und dienen als Input für den zweiten Schritt des Algorithmus, der FingerHandzuordnung und Noiseentfernung. 4.3.2 Schritt 2: Finger-Handzuordnung und Noiseentfernung Abbildung 8 zeigt den Ablauf des nachfolgend beschriebenen Vorgehens, Verweise beziehen sich auf diese Darstellung. In dem zweiten Schritt der Handerkennung und -zusammensetzung wird für das 6dof Target eine neue Hand angelegt. Die Targetdaten werden als Daten des Handrückens übernommen. Der Position des Handrückens wird die Position des Targetursprungs zugewiesen, die Rotationsmatrix beschreibt die Lage des Handrückens. Die Finger werden als nicht klassifiziert gekennzeichnet (a). In einer Schleife wird 2 Die Software DTrack ABCMan erlaubt ein solches Verschieben des Targetursprungs. Dazu ist die Bodydatei des Targets, welche die Daten zu der Markeranzahl, ihrer geometrischen Anordnung und den Targetursprung enthält, zu laden und der Ursprung manuell zu versetzen. 3 fps = frames per second, 60 fps entpricht dabei einer Frequenz von 60 Hertz 4 Zum genauen Aufbau des übertragenen UDP Pakets siehe[5] NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007 Abbildung 9. Translation und Rotation der Positionsdaten mit resultierender Ausgangslage. Abbildung 7. Struktur des Handerkennungsalgorithmus. von dem Trackingsystem aussortiert werden. Sehen jedoch nicht alle Kameras das Target mit einer ausreichenden Qualität, kann es vorkommen, daß Targetmarker nicht als Targetbestandteil erkannt werden, dadurch nicht herausgefiltert werden und dann fälschlicherweise als 3dof Daten im UDP Paket enthalten sind. Grundlage für die Targeterkennung des Trackingsystems sind Bodyfiles, welche bei der Kalibrierung eines Targets angelegt werden. Sie beinhalten Daten zur Markeranzahl , ihrer geometrischen Anordnung und dem Targetursprung. Die Positionsdaten sind relativ zur Lage des Targets im Raumkoordinatensystem während der Kalibrierung abgelegt. Diese 3D Positionen der einzelnen Targetmarker werden in Schritt (f) mit der Position des versetzten und rotierten Fingerkandidaten verglichen. Befindet sich die Position innerhalb eines bestimmten Abstands von einem Targetmarker, wird dieser Fingerkandidat nicht übernommen, da es sich um die Position eines Target- und nicht eines Fingermarkers handelt. Die Positionen sollten dabei nicht auf genaue Übereinstimmung geprüft werden, da sich durch Trackingungenauigkeiten Abweichungen ergeben können. Insbesondere dann, wenn das Trackingsystem selbst die Marker aufgrund der Geometriedaten des Bodyfiles nicht mehr zuordnen kann. In Schritt (g) wird der Fingerkandidat nach erfolgreicher Prüfung in die Fingerliste übernommen, welche nach Bearbeitung aller 3dof Objekte, zusammen mit der in (a) angelegten Hand, zur Fingerklassifizierung weitergegeben werden (h). 4.3.3 Abbildung 8. Algorithmus zur Finger-Handzuordnung und Noiseentfernung. nachfolgend jedes 3dof Objekt aus der übergebenen Liste abgearbeitet (b). Als erstes wird die Distanz des 3dof Objekts zum Handrücken ermittelt. Überschreitet diese einen zuvor festgelegten handschuhspezifischen Grenzwert wird das 3dof Objekt aussortiert, da es zu weit entfernt ist und somit kein Finger sein kann (c). Als Grenzwert sollte der Abstand gewählt werden, welcher maximal zwischen einem Fingermarker und dem Handrückentargetursprung möglich ist. Abhängig von der Trackinggenauigkeit kann auf diesen Wert noch ein Toleranzbereich hinzuaddiert werden. Befindet sich das 3dof Objekt innerhalb der Fingerreichweite wird dieses als Fingerkandidat übernommen (d). Nachfolgend wird die 3D Position des Fingerkandidaten, die 3D Position des Handrückens und die Roationsmatrix des Handtargets in homogene Koordinaten überführt. Die Position des Fingerkandidaten wird dann um die Position des Handrückens versetzt (= Translation) und durch Multiplikation mit der Inversen der Rotationsmatrix des Handtargets in die Ausgangslage gedreht (= Rotation) (e).[3] Durch die Translation und anschließende Rotation ist die Position des Fingers immer relativ zur Ausgangslage (= Ausrichtung und Lage der Hand während der Kalibrierung). Diese eindeutige Lage und Ausrichtung der Hand und ihrer Finger ist eine wichtige Vorraussetzung für die nachfolgende Fingerklassifizierung. Sie bildet ebenfalls die Grundlage für die Noiseentfernung. Anschließend wird der Noise aus den Daten entfernt. Als Noise werden Daten von 3dof Objekten bezeichnet, die auf Marker des 6dof Targets zurückzuführen sind. Diese sollten beim Erkennen des Targets Schritt 3: Fingerklassifikation Durch die in Abschnitt 4.2 beschriebene Durchführung der Kalibrierung und dem Verschieben und Rotieren der Fingerdaten in Schritt 2 der Handerkennung und -zusammensetzung ist die Lage und Position des Handrückens bekannt. Abbildung 10 zeigt die Hand mit den Fingermarkern in dieser Haltung. Abbildung 10. Definierte Lage des Handrückens im Koordinatensystem. Durch die immer eindeutige Lage des Handrückens können bei der Fingerzuordnung Gelenkbewegungen oberhalb des Handrückens vernachlässigt werden. Die Position der Finger kann sich nur aus Bewegungen, ausgehend vom Handrücken hin zu den Fingerspitzen, ergeben. Der menschliche Bewegungsapparat erlaubt folgende für die Fingerklassifizierung relevanten Gelenkbewegungen [13]: • Flexion. Bei der Flexion (flex = beugen) nimmt der Winkel zwischen den an der Bewegung beteiligten Knochen ab. • Extension. Bei der Extension (extensio = Streckung) vergrößert sich der Winkel zwischen den beteiligten Knochen. FÖHRENBACH, STEPHANIE: HANDGESTENERKENNUNG FÜR DIE INTERAKTION AN GROSSEN, HOCHAUFLÖSENDEN DISPLAYS • Abduktion. Die Abduktion (ab = weg; ductio = Führung) ist im Allgemeinen die Bewegung eines Knochens von einer Ebene weg. Bei der Abduktion der Finger bewegen sich diese von einer durch den Mittelfinger gedachten Linie weg. • Adduktion. Die Adduktion (ad = hin; ductio = Führung) ist die Gegenbewegung zur Abduktion und entspricht einer Bewegung der Finger zu der durch den Mittelfinger gedachten Linie hin. • Opposition. Die Opposition als Gelenkbewegung ist nur mit dem Daumen möglich. Bei dieser Bewegung wird der Daumen quer über die Handfläche geführt und kann so die Spitzen der anderen Finger berühren. Abbildung 11. Gelenkbewegungen: Flexion und Extension, Abduktion, Adduktion, Opposition. Mit dem Wissen um die Lage und Position des Handrückens, kombiniert mit den relevanten Gelenkbewegungen, lässt sich ein Algorithmus entwickeln, welcher eine Klassifizierung des Fingertyps durchführt. Abbildung 12 zeigt den Ablauf des Algorithmus. Nachfolgende Verweise beziehen sich auf diese Abbildung. auf einen Marker zurückführen kann (dies ist der gleiche Effekt, welcher bei dem fälschlichen Übermitteln von 3dof Daten von Targetmarkern auftritt). In diesem Fall ist es nicht möglich eine echte Position für den Fingermarker zu bestimmen. Bei einer Anzahl kleiner vier werden nicht alle Fingermarker gesehen. Eine korrekte Zuordnung ist auch hier nicht möglich, da der Algorithmus einen Fingertyp immer basierend auf den Positionsdaten aller vier Fingermarker bestimmt. Somit ist das Sehen aller Fingermarker eine Grundvorraussetzung zur korrekten Fingerklassifizierung. Als erster Finger kann der kleine Finger klassifiziert werden (b). Es ist der Finger, welcher den größten x-Wert aufweist. Die Positionierung der Fingermarker im Koordinatensystem und die anatomisch möglichen Gelenkbewegungen erlauben es keinem anderen Finger einen größeren x-Wert einzunehmen. Von den verbleibenden drei Fingern wird der Daumen als nächstes klassifiziert. Dazu wird der Abstand zwischen den beiden größten zWerten mit einem zuvor definierten Mindestabstand verglichen (c). Dieser Mindestabstand ist der größere der beiden Abstände auf der zAchse, welcher zwischen dem Zeigefinger- und Daumenmarker bzw. dem Mittelfinger- und Daumenmarker entsteht, wenn der Zeige- und Mittelfinger komplett angewinkelt werden und gleichzeitig der Daumen von links an den Zeigefinger anlehnt und geradeaus von dem Handgelenk weg gestreckt wird. Ist der Abstand größer als dieser Mindestabstand (d) ist der Finger mit dem größten z-Wert der Daumen. Ist der Abstand kleiner (e), bedeutet dies, dass entweder der Zeige- oder Mittelfingermarker sich näher am Handgelenk befinden könnten als der Daumenmarker und somit den größten z-Wert der verbliebenen Finger aufweisen könnten. In solch einem Fall muss der Daumen jedoch links von dem Zeige- und Mittelfinger liegen, da ansonsten die oben beschriebene Position nicht eingenommen werden kann. Damit ist in diesem Fall derjenige der beiden verglichenen Finger der Daumen, welcher den kleineren x-Wert aufweist. In Schritt (e) wird dieser entsprechend zugewiesen und der Daumen ist klassifiziert. Zur Klassifizierung des Zeige- und Mittelfingers wird der Abstand auf der x-Achse zwischen den verbleibenden zwei Fingern mit einem zuvor ermittelten Mindestabstand (minDistNeighbouringFingers) verglichen (f). Dieser Mindestabstand ist der größte Abstand auf der xAchse zwischen den Zeige- und Mittelfingermarker bei folgenden drei Fingerhaltungen: 1. Zeigefinger und Mittelfinger liegen genau nebeneinander. 2. Der Zeigefinger wird unter dem Mittelfinger durchgeführt und so weit rechts wie möglich positioniert, während der Mittelfinger so weit links wie möglich positioniert wird. 3. Der Mittelfinger wird unter dem Zeigefinger durchgeführt und so weit links wie möglich positioniert, während der Mittelfinger so weit rechts wie möglich positioniert wird. Ist der Abstand der beiden Finger größer als der Mindestabstand, wird der Finger mit dem kleinsten x-Wert als Zeigefinger klassifiziert und der Finger mit dem größten x-Wert als Mittelfinger (g). Ist der Abstand kleiner, wird der Abstand der beiden Finger auf der y-Achse mit einem weiteren Mindestabstand (minDistFingerUnderneath) verglichen (h). Dieser Mindestabstand auf y-Achse beschreibt den Abstand, welcher notwendig ist, um die beiden Finger untereinander zu positionieren und ist der größte Abstand auf der y-Achse bei folgenden zwei Fingerstellungen: Abbildung 12. Algorithmus zur Fingerklassifikation. Zu Begin (a) wird sichergestellt, daß genau vier Fingerkandidaten vorhanden sind. Ist dies nicht der Fall, wird keine Klassifizierung durchgeführt. Eine Anzahl größer vier deutet darauf hin, daß ein Marker von verschiedenen Kameras auf unterschiedlichen Positionen gesehen wurde und das Trackingsystem diese beiden Positionen nicht 1. Der Zeigefinger wird unter dem Mittelfinger durchgeführt und so weit rechts wie möglich positioniert, während der Mittelfinger so weit links wie möglich positioniert wird. In dieser Position ist dann der Höhenabstand zwischen den beiden Fingerkuppen so weit wie möglich zu reduzieren. 2. Der Mittelfinger wird unter dem Zeigefinger durchgeführt und so weit links wie möglich positioniert, während der Zeigefinger so weit rechts wie möglich positioniert wird.In dieser Position ist dann der Höhenabstand zwischen den beiden Fingerkuppen so weit wie möglich zu reduzieren. NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007 Ist der Abstand kleiner als der Mindestabstand bedeutet dies, daß der Zeigefinger neben dem Mittelfinger liegt, somit wird der Finger mit dem kleinsten x-Wert als Zeigefinger und der Finger mit dem größten x-Wert als Mittelfinger klassifiziert (i). Ist der Abstand größer, weißt dies darauf hin, daß die Finger untereinander bzw. übereinander liegen. Eine eindeutige Klassifizierung ist hier nicht mehr möglich, da die beiden Marker die jeweils gleichen 3D Positionen im Raum einnehmen können. Somit kann mit Sicherheit nur zwischen dem oberen und unteren Finger unterschieden, jedoch nicht bestimmt werden, ob der Zeige- oder Mittelfinger der obere oder untere Finger ist. In diesem Fall wird die Annahme getroffen, daß der Zeigefinger als oben liegender Finger wahrscheinlicher ist. Diese Haltung ist natürlicher und tritt z. B. auf, wenn mit dem ausgestreckten Zeigefinger, bei angewinkelten anderen Fingern, auf ein rechts liegendes Objekt gezeigt wird. Die andere mögliche Haltung, in welcher der Mittelfinger oben liegt, wird durch das Durchführen des Zeigefingers unter dem Mittelfinger eingenommen, entspricht keiner natürlichen Handhaltung und ist nur unter Anstrengung einzunehmen. Diese Haltung ist daher bei einer Interaktion sehr viel unwahrscheinlicher. Aufgrund dieser heuristischen Annahme wird der Finger mit dem größten y-Wert als Zeigefinger klassifiziert und der Finger mit dem kleinsten y-Wert als Mittelfinger (j). Ein großer Vorteil dieses Handerkennungsalgorithmus ist das zeitgleiche Tracken aller Marker und Targets mit einer, durch das Trackingsystem beschränkten, maximalen Frequenz von 60 Hertz. Im Vergleich dazu erlaubt das kommerzielle Fingertrackingsystem von A.R.T. lediglich eine maximale Frequenz von 20 Hertz pro Finger. Die Klassifizierung der einzelnen Finger erfolgt über die Taktfrequenz, welche den Fingern zugewiesen wird.[4] Aufgrund dieses Vorgehens ist das Tracken einzelner Finger immer beschränkt auf maximal ’Anzahl Finger’ / ’maximale Trackingfrequenz’, wohingegen bei dem hier vorgestellten Algorithmus die maximal mögliche Frequenz voll ausgenutzt werden kann. Dies ermöglicht eine höhere Genauigkeit bei der Gestenklassifizierung und eine schnellere Interaktion. 5 das Zielobjekt im Rücken oder an der Seite des Zeigenden befindet und die genaue Lokalierung des Zielobjektes nicht wichtig ist. 6 Abbildung 13. Zeigegesten: mit dem ausgestreckten Zeigefinger, mit der offenen Hand und mit dem Daumen. Die Gesten des präzisen Griffs werden in mehrere Familie unterteilt. Die jeweils einer Familie zugehörigen Gesten zeichnen sich durch übereinstimmende kinästhetische Eigenschaften und eines ebenso gemeinsamen semantischen Themas aus. Die R-Familie beschreibt Gesten, in welchen die Daumen- und Zeigefingerspitze in Ringform zusammengeführt werden, was als Ring bezeichnet wird. Semantisch wird mit diesen Gesten ausgedrückt, mit etwas Bestimmtem sehr präzise, sehr genau zu sein und aus diesem Grund besondere Aufmerksamkeit angebracht ist. G ESTENERKENNUNG 5.1 Gestenauswahl Adam Kendon beschreibt ein breites Spektrum von Gesten. Beginnend mit den hochstrukturierten und künstlichen Zeichensprachen, über die immer noch künstlichen, aber auf kultureller Ebene geteilten Symbole wie das ’Thumbs Up’ Zeichen, bis hin zur Gestikulation, die unbewußt und parallel zur Sprache stattfindet.[2] Für die Mensch-ComputerInteraktion ist besonders die kulturell erworbene und intuitive Gestik interessant, um damit eine ähnlich intuitive und natürliche Interaktion mit dem Computer zu ermöglichen. Die Verwendung von Zeichen aus dem Vorrat von Zeichensprachen würde vom Benutzer verlangen, zusätzlich zu den Interaktionsmöglichkeiten und der Technik, auch die Interaktionszeichen zu erlernen und stellt damit einen höheren Lernaufwand dar. Bei denen für die HCI interessanten Gesten beschreibt Kendon, neben weiteren, in [9] die zwei Gruppen der Zeigegesten und des Präzisen Griffs. Zeigegesten weisen auf ein Objekt, einen Ort oder eine Richtung, welche durch die Projektion einer geraden Linie, als Verlängerung des am weitesten aussen liegenden Körperteils des Sprechers identifiziert werden5 . Die insgesamt sieben verschiedenen Zeigegesten werden in drei Gruppen eingeteilt: dem Zeigen mit dem ausgestreckten Zeigefinger, dem Zeigen mit der offenen Hand und dem Zeigen mit dem Daumen. Beim Zeigen mit dem ausgestreckten Zeigefinger, ist immer genau das spezifische, individuelle Objekt auf welches gezeigt wird von Bedeutung, während beim Zeigen mit der offenen Hand das Zielobjekt etwas ist, das mit dem behandelten Thema zu tun hat, jedoch nicht explizit behandelt wird. So ist z. B. folgender Satz in Kombination mit dem ausgestreckten Zeigefinger als Zeigegeste denkbar: ’Das große schwarze Poster dort hinten links’, wohingegen der Satz ’Die Poster da hinten an der Wand’ eher mit einer offenen Hand als Zeigegeste kombiniert wird. Der Daumen wird zum Zeigen verwendet, wenn sich 5 Nachfolgend wird stellvertretend für Objekt, Ort und Richtung als mögliches Ziel einer Zeigegeste der Begriff Objekt verwendet Abbildung 14. Präziser Griff Geste: Ring Geste der R-Familie. Die beschriebenen Gesten sollen, mit Ausnahme der Daumen Zeigegeste, erkannt werden, um diese bei der Interaktion mit der Powerwall einzusetzen. Das Zeigen mit dem Daumen wird aufgrund der dazugehörigen semantischen Bedeutung, also dem Zeigen ausserhalb des Sichtfeldes des Zeigenden und der nicht notwendigen genauen Lokalisierung des Zielobjektes nicht verwendet. Zur Positionierung des Cursors auf der Powerwall wird das Zeigen mit der offenen Hand verwendet. Diese Gruppe der Zeigegesten zeichnet sich dadurch aus, daß die genaue Haltung der Finger nicht entscheidend ist, sondern lediglich die Ausrichtung des Handrückens den Ausschlag zur Positionierung gibt. Die Verwendung dieser Geste gibt dem Benutzer die Freiheit, seine Hand bei der Positionierung des Cursors genau gleich zu verwenden, wie er dies beim Zeigen auf reale Zielobjekte unbewußt bereits anwendet. Das Zeigen mit dem Zeigefinger und die Ring Geste sollen als statische Geste erkannt werden. Das heißt, daß die Positionierung der Finger entscheidend zur Gestenerkennung ist. Die Bezeichnung als statische Geste geschieht hierbei in Anlehnung an Harling und Edwards [8], die Gesten, unabhängig von ihrer semantischen Bedeutung, nach der Art ihrer Durchführung und Handhaltung, in vier Klassen unterteilen. Die Klassifizierung erfolgt dabei nach zwei Aspekten : statische vs. dynamische Fingerposition bzw. Handhaltung und statische vs. dynamische Lage der gesamten Hand. Sowohl die Zeigefinger-, als auch die Ringgeste fallen in die Kategorie statische Handhaltung und statische Lage, da sie sich dadurch auszeichnen, daß die Haltung der 6 Zeigegesten werden auch als deiktisch bezeichnet. Dieser in der Linguistik verwendete Begriff bezeichnet die Eigenschaft bestimmter sprachlicher Einheiten, auf Personen, Sachen, Zeit oder Raum in einem Kontext hinzuweisen.[12] FÖHRENBACH, STEPHANIE: HANDGESTENERKENNUNG FÜR DIE INTERAKTION AN GROSSEN, HOCHAUFLÖSENDEN DISPLAYS Finger entscheidend ist. Zeitliche Verläufe der Fingerbewegungen und die Lage der Hand im Raum sind nicht ausschlaggebend. 5.2 Positionierung des Cursors Zur Berechnung der Cursorposition auf der Powerwalloberfläche wird die Position des Handrückens und die Ausrichtung der Hand im Raum, relativ zum Raumkoordinatensystem, benötigt. Beide Informationen werden von dem Trackingsystem in Form einer 3D Position und einer Rotationsmatrix für das 6dof Handrückentarget geliefert. Die Ausrichtung der z-Achse des Handrückens wird durch den 3D Punkt verlängert und mit der 2D Oberfläche der Powerwall geschnitten. Der so berechnete Schnittpunkt ergibt die Position des Cursors. Abbildung 15. Berechnung der Cursorposition. Die Verlängerung der Ausrichtung der z-Achse erfordert eine darauf abgestimmte Kalibrierung des Targets. Dieses sollte in einer Handstellung kalibriert werden, welche dem Zeigen geradeaus auf die Powerwall entspricht (siehe Abschnitt 4.2). Damit wird der Cursor immer in der Verlängerung der Zeigerichtung angezeigt. Die 3D Position eines 6dof Targets ist die Position des Targetursprungs. Dieser Ursprung wird bei der Kalibrierung erstmalig bestimmt und kann nachfolgend manuell verändert werden (siehe Abschnitt 4.2). Untersuchungen zur Cursorpositionierung vor der Powerwall mit verschiedenen Targetursprungspositionen ergaben, daß die Definition des Targetursprungs oberhalb des Zeigefinger-Handrückengelenks eine Art der Cursorpositionierung ergibt, welche intuitiv beim Zeigen mit der offenen Hand erwartet wird. 5.3 Methodik zur Erkennung statischer Gesten Statische Gesten zeichnen sich dadurch aus, daß alleinig die Position der Finger zueinander entscheidend für deren Erkennung ist. Am Beispiel der ausgestreckten Zeigefingergeste soll eine Methodik zur Erkennung vorgestellt werden. Zu Beginn ist zu definieren, was die Geste auszeichnet und sie von anderen Gesten und Fingerhaltungen abgrenzt. In diesem Fall ist die Handhaltung gekennzeichnet durch einen ausgestreckten Zeigefinger, wobei gleichzeitig alle anderen Finger angewinkelt und in einer entspannteren Lage sind. Die Position der einzelnen Finger wird wie in Abschnitt 4.3 beschrieben aus den Daten des Trackingsystems ermittelt. Unter Berücksichtigung des Koordinatensystems, in welchem sich diese Positionen befinden, ergeben sich für diese Geste zwei Maße, welche zur Erkennung der Geste verwendet werden können: der Abstand der Zeigefingerposition zur x-z-Ebene und der Abstand zwischen der Zeigefinger- und Mittelfingerposition auf der y-Achse. Abbildung 16 verdeutlicht diese beiden kennzeichnenden Maße. Nach der Identifizierung der ausschlaggebenden Maße sind die zugehörigen Schwellenwerte festzulegen. In diesem Fall wäre das ein Mindestabstand des Zeigefingers zur x-z-Ebene, und ein Mindestabstand auf der y-Achse zwischen dem Zeige- und Mittelfinger. Sobald beide Mindestabstände erreicht sind wird die Geste erkannt. Zusätzlich zu den beiden Schwellwerten zur Erkennung der Geste, ist es erforderlich einen weiteren Schwellwert zur erneuten Wiedererkennung einer Geste zu definieren. Der Wiedererkennungsschwell- Abbildung 16. Kennzeichnende Abstände der Zeigefingergeste. wert ist dabei in Bezug auf den aktiven Finger bzw. das Maß zu definieren, welches am stärksten von der Geste abhängt und aus diesem Grund den stärksten Indikator für die Gestenerkennung darstellt. Bei der Zeigefingergeste wird hierfür ein weiterer Mindestabstand des Zeigefingers zur x-z-Ebene definiert, welcher nach dem Verlassen einer Geste erst unterschritten werden muss, bevor ein erneutes Erkennen möglich ist. Obwohl beide Maße, also sowohl der ’Abstand zwischen dem Zeige- und Mittelfinger auf der y-Achse’ als auch der ’Abstand des Zeigefingers von der x-z-Ebene’, von dem aktiven Zeigefinger abhängen, ist das zweite Maß der stärkere Indikator zur Gestenerkennung. Es hängt alleinig vom Zeigefinger ab und wird nicht zusätzlich noch von den Bewegungen des Mittelfingers beeinflußt. Diese Mittelfingerbewegung ist zwar wichtig für die Geste, ein ausgestreckter Zeigefinger ist jedoch viel entscheidender als ein angewinkelter Mittelfinger. Durch einen solchen Wiedererkennungsschwellwert wird erreicht, daß beim Verlassen der Geste, z. B. bedingt durch das Zittern der Hand oder Trackingungenauigkeiten, die Geste fälschlicherweise sofort wieder erkannt wird, da sich die Werte der Maße kurzzeitig wieder oberhalb der Schwellwerte befinden. Abbildung 17. Erkennung der Zeigefingergeste in Abhängigkeit der Schwellwerte. Abbildung 17 zeigt die Aufzeichnung des wiederholten Durchführen der Zeigefingergeste. Deutlich ist die Abhängigkeit der identifizierten Maße von der Geste ersichtlich. Die Schwellwerte sind so festzulegen, daß die Geste in allen hier ersichtlichen Fällen zuverlässig erkannt wird. Bei der Festlegung ist zu beachten, daß es zu Trackingungenauigkeiten und unterschiedlich ausgeprägten Gesten durch den Benutzer kommen kann. Aus diesen Gründen sollte bei der Bestimmung der Schwellwerte eine gewisse Toleranz mit berücksichtigt werden. Die am schwächsten ausgeprägte Geste, welche gerade noch erkannt werden soll, dient als Vorgabe für die Festlegung des Schwellwerts. Die Werte dieser Geste werden um die Toleranzbereiche ergänzt und ergeben somit die Vorgaben für die Schwellwerte. Wichtig ist ebenso sicherzustellen, daß Fingerbewegungen, welche nicht als Geste erkannt werden sollen, durch die festgesetzten Schwellwerte nicht fälschlicherweise als Geste erkannt werden. Abbildung 17 zeigt neben den Maßen der Geste auch NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007 die zugehörigen Schwellwerte. Das Resultat der Schwellwerte ist anhand der roten Linie ’Geste erkannt’ ersichtlich und entspricht dem gewünschten Verhalten. 6 B EWERTUNG UND AUSBLICK In weiterführenden Arbeiten wurde die in dieser Ausarbeitung beschriebene Vorgehensweise zur Gestenerkennung eingesetzt um eine Handgesteninteraktion für große, hochauflösende Displays umzusetzten. Dabei zeigte sich, daß sich für den Anwender keine wahrnehmbare Verzögerung vom Zeitpunkt der Gestenausführung bis zur entsprechenden Reaktion der Anwendung ergab. Zudem ergibt sich durch das eingesetzte Verfahren zur Cursorpositionierung, basierend auf der Palm-Pointinggeste, eine intuitive Steuerung des Cursors, welche zugleich eine sehr schnelle Positionierung über die gesamte Displayfläche ermöglicht. Ein Nachteil des vorgestellten Verfahrens ist dessen Abhängigkeit von der Qualität des Tracking Systems und der Sichtbarkeit der Marker. So kann es vorkommen, daß Marker von Fingern verdeckt werden und dadurch eine Klassifizierung der Finger und die darauf basierende Gestenerkennung nicht möglich ist. Als Alternative zu einem optischen System könnte ein mit Sensoren ausgerüsteter Handschuh dienen. Das optische Trackingsystem bietet jedoch den Vorteil der Rotationsinformation der Hand. Diese Daten und das damit verbundene Zurückführen der 3D Fingermarker Positionen in eine definierte Ausgangslage bildet die Grundlage für den vorgestellten Algorithums zur Handidentifikation und Fingerklassifikation. Trotz diesem Nachteil scheint nach einer ersten Beurteilung die Hand als Eingabegerät und Handgesten zur Interaktion an großen, hochauflösenden Displays gut geeignet zu sein. Dem Benutzer wird eine hohe Bewegungsfreiheit eingeräumt, welche bei dieser Displayart von ausschlaggebender Bedeutung ist. Die Gestenerkennung und Umsetzung in eine Interaktion ist schnell und erfüllt dadurch eine wichtige Vorraussetzung für Interaktionstechniken der Mensch-ComputerInteraktion. Ein weiterer Vorteil der vorgestellten Lösung ist die kurze Rüstzeit, welche zum Anlegen des Handschuhs benötigt wird. Nachdem der Handschuh einmalig kalibriert wurde, ist dieser sofort nach dem Anziehen verwendbar. Es ist keine Nachkalibration notwendig, wie es z. B. bei dem kommerziellen Fingertrackingsystem von ART notwendig sein kann [4]. Der verwendete Kosmetikhandschuh ist angenehm zu tragen und weißt komplett montiert ein Gewicht von 51 Gramm auf. Dadurch ist er selbst bei längerer Verwendung nicht zu schwer.7 Ein weiterer Vorteil ist die intuitive und schnelle Positionierung des Cursors. Als berührungslose Interaktion eignet sich die Handgesteninteraktion zudem insbesondere für die Konstanzer Powerwall, deren Darstellungsfläche berührungsempfindlich ist und eine direkte Interaktion auf der Oberfläche nicht erlaubt. L ITERATUR [1] T. Baudel and M. Beaudouin-Lafon. Charade: remote control of objects using free-hand gestures. Commun. ACM, 36(7):28–35, 1993. [2] J. Eisenstein and R. Davis. Visual and linguistic information in gesture classification. In SIGGRAPH ’07: ACM SIGGRAPH 2007 courses, page 15, New York, NY, USA, 2007. ACM Press. [3] J. Foley and A. V. Dam. Fundamentals of Interactive Computer Graphics. Addison-Wesley, 1982. [4] A. R. T. GmbH. A.R.T. Fingertracking. User’s Manual, v1.0.1 edition, 2006. [5] A. R. T. GmbH. DTrack Technical Appendix, v1.24 edition, 2006. [6] A. R. T. GmbH. Markers, targets. http://www.ar-tracking.de, October 2007. [7] E. B. Goldstein. Wahrnehmungspsychologie. Spektrum Akademischer Verlag, 2002. [8] P. A. Harling and A. D. N. Edwards. Hand tension as a gesture segmentation cue. In Gesture Workshop, pages 75–88, 1996. [9] A. Kendon. Gesture. Visible Action as Utterance. Cambridge, 2004. 7 Im Vergleich dazu wiegt die GO 2.4GHz Optical Air Mouse von Gyration, welche auch im freien Raum ohne statische Unterlage verwendet werden kann, 129 Gramm und damit mehr als doppelt so viel. [10] W. A. König. Referenzmodell und Machbarkeitsstudie für ein neues Zoomable User Interface Paradigma. mastersthesis, University of Konstanz, Jun 2006. Demo-Video ZOIL Prototype (37 MB). [11] W. A. König, H.-J. Bieg, and H. Reiterer. Laserpointer-interaktion fr groe, hochauflsende displays. In Mensch Computer 2007: Interaktion im Plural, 7. Konferenz fr interaktive und kooperative Medien, pages 69 – 78. Oldenbourg Verlag, Sep 2007. [12] Meyers. Meyers lexikon online 2.0. http://lexikon.meyers.de/meyers/deiktisch, October 2007. [13] G. Tortora and B. Derrickson. Anatomie und Physiologie. WILEY-VCH Verlag, 2006. [14] D. Vogel and R. Balakrishnan. Distant freehand pointing and clicking on very large, high resolution displays. In UIST ’05: Proceedings of the 18th annual ACM symposium on User interface software and technology, pages 33–42, New York, NY, USA, 2005. ACM Press. NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007 State-of-the-Art: Eye-Tracker als Analyse- und Eingabemedium Andrea Söter Abstract—Vor mehr als 100 Jahren fingen Forscher an, Augenbewegungen zu untersuchen. Etwa 50 Jahre später wurden die Ergebnisse dieser Untersuchungen bereits für erste Tests verwendet, bei denen die Gebrauchstauglichkeit von Objekten überprüft werden sollte. Weitere 30 Jahre später kam zum ersten Mal die Idee auf, Blickbewegungen für die Interaktion mit dem Computer zu nutzen und seitdem wurde auf diesem Gebiet viel Forschung betrieben. Mittlerweile sind erste kommerzielle Systeme erhältlich und werden vor Allem Anwendern mit beschränkten motorischen Fähigkeiten bei funktionierenden kognitiven Fähigkeiten empfohlen. Diese Arbeit gibt zunächst eine kurze Einführung in die Geschichte und die Grundlagen des Eye-Tracking. Anschließend wird diese Methode in Hinblick auf Usability-Untersuchungen betrachtet, bevor der Fokus auf das aktuelle Thema des Eye-Tracking als Eingabenmedium gerichtet wird. Hier werden bisherige Ideen und Interaktionsvorschläge sowie Anbieter genauer untersucht und danach eine Nutzeneinschätzung basierend auf vorangegangenen Untersuchungen vorgenommen. Index Terms—Eingabemedien, Eye-Tracker, Mensch-Computer-Interaktion, HCI. 1 E INLEITUNG Eye-Tracking nennt man die Registrierung der Blickbewegungen einer Person. Blickbewegungen sind die Gesamtheit der relativen Bewegungen des Auges in Bezug auf den Kopf und der Fixationen, bei denen das Auge für längere Zeit einen Punkt fixiert [24]. In 90% seiner Zeit unternimmt der Mensch Fixationen, die etwa 100 bis 2000ms andauern können. Eine Konzentration liegt bei 200600ms. Bei kürzeren Fixationen werden keine Informationen wahrgenommen, da jeweils kurze Zeit vor und nach einer Sakkade das visuelle Wahrnehmungsvermögen eingeschränkt ist. Während einer Fixation befindet sich das gewünschte Objekt in der Fovea, den Ort des schärfsten Sehens auf der Netzhaut. Diese Region umfasst etwa einen Grad des Blickwinkels, was in etwa so groß ist wie die Breite des Daumens bei ausgestreckter Hand [18]. Die durchschnittliche Fixationsdauer beim Lesen liegt bei etwa 225ms, bei visuellen Suchaufgaben bei ungefähr 275ms und bei der Betrachtung von Bildern bei etwa 330ms. Allerdings gibt es hier einen Zusammenhang zwischen Fixationsdauer und Aufgabenschwere: liest eine Person kompliziertere Satzkonstruktionen, ist die Dauer seiner Fixationen höher. Kürzere Fixationen werden gemacht, wenn man bereits Erfahrung mit einer Aufgabe hat. Auch bei Reaktionsaufgaben, wie beispielsweise dem Autofahren, sind Fixationen eher kürzer [12, 4]. Die Bewegungen des Auges lassen sich in „jitter“, Sakkaden und langsame Folgebewegungen unterteilen [24, 4]. „Jitter“ sind während Fixationen auftretende, kaum merkbare Zitterbewegungen mit einer Größe von weniger als einem Grad des Blickwinkels [18]. Sakkaden erfolgen zwischen zwei Fixationen, dauern etwa 10 bis 80ms und können Höchstgeschwindigkeiten von bis zu 1000◦ pro Sekunde annehmen [4]. Diese Daten sind jeweils vom Wachheitszustand und von der Sprungweite abhängig, die etwa 2 bis 50◦ beträgt. Während der Sakkaden werden keine Informationen aufgenommen. Sie dienen lediglich dazu, Zielobjekte in die Fovea zu bewegen, den Ort im Auge, an dem das schärfste Sehen möglich ist [4]. Es existieren so genannte Express-Sakkaden, die jedoch nichts mit schnelleren Augenbewegungen sondern mit kürzerer Bearbeitungszeit im Gehirn zu tun haben. Sie treten auf, wenn die Aufmerksamkeit einer Person bereits behoben ist, bevor ein visueller Stimulus an einer anderen Stelle erscheint. Dann ist die Zeit zwischen dem Auftreten dieses Stimulus und seiner Fixation sehr gering [4]. Folgebewegungen werden auch „dynamische Fixationen“ genannt, da • Andrea Söter. • [email protected] • Matrikelnr: 01/556143 währenddessen Informationen wahrgenommen und verarbeitet werden. Um das zu gewährleisten sind sie mit Geschwindigkeiten von weniger als 80◦ in der Sekunde deutlich langsamer als Sakkaden. Folgebewegungen treten meist im Straßenverkehr bei der Beobachtung sich bewegender Objekte auf [12, 4, 24]. 1.1 Geschichte Das erste Mal in der Geschichte wurden Blickbewegungen im Jahre 1879 untersucht, als Javal entdeckt, dass das Lesen aus Fixationen und Sakkaden besteht. Von da an wurden Methoden gesucht, um Blickbewegungen aufzeichnen und sie auf ihre Eigenschaften untersuchen zu können. Der erste Eye-Tracker wurde dann 1898 von Huey gebaut. Er bestand aus einer Gips-Kontaktlinse mit einem Loch für die Pupille. An der Linse war ein Pointer aus Aluminium befestigt, der auf einer Tafel die Bewegungen des Auges aufzeichnete. Dieses mechanische und physisch unangenehme Verfahren wird auf nachfolgender Abbildung 1 veranschaulicht [24, 15]. Abbildung 1. Huey’s Eye-Tracker 1898, Quelle: [15] Bereits im Jahre 1901 bauten Dodge und Cline den ersten berührungslosen Eye-Tracker, der fotografisch funktionierte: im Auge reflektierte Lichter wurden auf einer Fotoplatte aufgenommen. Diese Methode funktionierte zwar nur in horizontaler Richtung, doch der erste Schritt in Richtung Cornea-Reflex-Methode war getan [15]. Judd, McAllister und Steel bauten darauf 1905 eine Vorrichtung, die Augenbewegungen auch in vertikaler Richtung aufzeichnen konnte. Hierbei wurde weißes Material in das Auge der Versuchspersonen eingeführt, die Bewegungen aufgezeichnet und der Blick aus der Lage der weißen Stellen errechnet. Zum ersten Mal wurden Eye-Tracking-Methoden im Jahre 1947 für die Usability-Forschung eingesetzt. Fitts, Jones und Milton untersuchten dabei die Gebrauchstauglichkeit von Cockpits indem sie NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007 die Augenbewegungen von Piloten bei der Landung eines Flugzeuges auf Film aufnahmen. Nur ein Jahr später wurde der erste am Kopf befestigte Eye-Tracker von Hartridge und Thomson entwickelt. Weitere zwei Jahre später entwickelte Mackworth einen am Kopf befestigten Eye-Tracker, der Augenbewegungen mit Hilfe der Cornea-Reflex-Methode aufzeichnete - mehrere Lichter werden dabei ins Auge gestrahlt und aus ihren Reflexionen kann der Blick in horizontaler und vertikaler Richtung bestimmt werden. In den 70er Jahren fingen Forscher an, Augenbewegungen mit kognitiven Prozessen zu verbinden, doch der Forschungsschwerpunkt in dieser Zeit waren dennoch technische Verbesserungen. Man wollte Eye-Tracker bauen, die ihren Benutzer weder stören noch beeinflussen. Hierfür wurden mehrere Infrarot-Lichtquellen ins Auge gestrahlt und reflektiert werden um anschließend Kopf- und Augenbewegungen unterscheiden zu können. Auch war es das Ziel höhere Genauigkeiten und kleinere Fehlerraten bei der Benutzung von Eye-Trackern zu erzielen. Mittlerweile existiert eine Vielzahl unterschiedlicher Eye-Tracker teilweise am Kopf befestigte, teilweise entfernte Geräte - die den Blick mittels Reflexion mehrerer Lichter berechnen können und die die Blickbewegungsdaten sofort aufzeichnen und verarbeiten können [24, 15]. Blickbewegungsregistrierung wird in verschiedenen Gebieten bei verschiedenen Anwendungsszenarien verwendet. In der Medizin beispielsweise wird Eye-Tracking genutzt, um Fehlsichtigkeiten aufzudecken. Im Bereich der Neurowissenschaften kommen EyeTracker bei der Untersuchung von Patienten mit Schizophrenie zum Einsatz. Psychologen setzen Eye-Tracker in den Bereichen der Wahrnehmungs- und Entscheidungspsychologie ein, die auch für die Themen Marktforschung und Platzierung der Produkte in einem Supermarkt eine wichtige Rolle spielen [24]. Eye-Tracker können aber auch auf dem Gebiet der MenschComputer-Interaktion genutzt werden, um Benutzerschnittstellen auf ihre Gebrauchstauglichkeit zu untersuchen [14] oder als Eingabewerkzeug unter Anderem für Menschen, die aufgrund motorischer Behinderungen nicht in der Lage sind, konventionelle Eingebegeräte zu bedienen [21]. Diese beiden Anwendungsgebiete werden in den nachfolgenden Kapiteln näher betrachtet. 2 S TATE - OF - THE -A RT: E YE -T RACKER 2.1 ALS nommen wird. • Betrachtungsdauer: Hierbei wird untersucht, wie lange ein Objekt insgesamt wahrgenommen wird. • Fixationsorte: Für diesem Punkt ist von Interesse, welche Stellen eines Objektes oder einer ganzen Webseite überhaupt fixiert werden. • Fixationshäufigkeit: Dieser Punkt betrifft die Häufigkeit, mit der die jeweiligen Stellen eines Objektes oder einer Webseite fixiert werden. • Fixationsreihenfolge: Das bedeutet, dass auch untersucht wird, in welcher Reihenfolge verschiedene Informationseinheiten fixiert werden. • Gazegröße: Die Gazegröße schließlich besagt, wie viele aufeinander folgende Fixationen vom Benutzer innerhalb einzelner Bereiche oder Informationseinheiten platziert wurden. Zudem gibt es einen Zusammenhang zwischen Fixationsdauer und Informationsverarbeitung, der in Abbildung 2 verdeutlicht wird. Bei einer Fixationsdauer von etwa 50 bis 80ms gelingt lediglich eine Lokalisation: Der Mensch bemerkt, dass sich an einer bestimmten Stelle in seiner Umwelt ein Objekt befindet. Bei Fixationsdauern von etwa 100 bis 250ms dekodiert ein Mensch zusätzlich Oberflächenmerkmale wie Farbe, Form, Größe, Beschaffenheit des Gesehenen und verarbeitet somit figurativ. Bei einer Dauer von circa 200 bis 480ms erfolgt bereits die semantische Verarbeitung, bei der das Gesehene in eine Kategorie eingeordnet wird. Hier erkennt der Sehende, ob es sich bei dem Objekt beispielsweise um einen Mann oder eine Frau handelt. Zur gleichen Zeit erfolgt die selbstreferentielle Verarbeitungsphase, die auch kreative oder metakognitive Phase genannt wird. In dieser Phase verbindet die Person Gefühle mit den gesehenen Objekten und entscheidet zum Beispiel ob er sie als sympathisch oder unsympathisch empfindet. Längere Fixationsdauern von etwa 500 bis beliebig vielen Millisekunden erfolgen meist nur dann, wenn während der Lösung eines Problems über das betreffende Objekt kommuniziert und es dabei fixiert wird [22, 4, 14]. A NALYSEMEDIUM Grundlagen Auf der Netzhaut des Auges befindet sich eine Stelle, an der nur Zapfen, Rezeptoren für farbiges Licht, zu finden sind. Nur an dieser Stelle, der sogenannten Fovea centralis sieht der Mensch scharf. Je weiter man sich von hier in die äußeren Netzhautbereiche bewegt, umso unschärfer werden Objekte wahrgenommen. In den Randbereichen sieht der Mensch nicht einmal mehr Farben [4, 12]. Die Aufmerksamkeit des Menschen wird daher durch seine Blicke indiziert [5]: es wird immer dorthin geschaut, wo im nächsten Schritt gehandelt wird. Aufgrund dieser Tatsache, können Eye-Tracker zur Gebrauchstauglichkeitsuntersuchung von Benutzerschnittstellen genutzt werden. Der erste Versuch hierfür wurde, wie oben beschrieben, im Jahre 1947 unternommen. Zu Beachten ist hier jedoch, dass Menschen oft in der Peripherie liegende Objekte aus den Augenwinkeln beobachten können, um sich anschließend zu entscheiden, ob sie dorthin schauen wollen oder nicht. Dies kann jedoch nicht mit einem Eye-Tracker aufgezeichnet werden. Es gibt verschieden Variablen, die den Blickverlauf charakterisieren und mit Hilfe derer eine Usability-Untersuchung durchgeführt werden kann [14]. Diese werden in nachfolgender Liste genauer erläutert. • Auffälligkeit: Diese gibt Aufschluss darüber, ob ein Objekt auffällig genug ist, als dass es von Benutzern als solches wahrge- Abbildung 2. Fixationsdauer und Informationsverarbeitung, Quelle: [14] 2.2 Arten Es gibt unterschiedliche Arten von Eye-Trackern, die in verschiedenen Anwendunssituationen Verwendung finden. Remote Eye-Tracker sind Kameras, die nicht am Kopf befestigt werden und die Blickbewegungen aus der Ferne aufzeichnen. Bei remote Eye-Trackern gibt es keine Kopfgestelle, Übertragungskabel oder Kinnstützen, sodass eine gewisse Mobilität möglich ist. Kopfbewegungen werden hier zwar kompensiert, aber ein definierter SÖTER et al.: STATE-OF-THE-ART: EYE-TRACKER ALS ANALYSE- UND EINGABEMEDIUM Aufbau von Eye-Tracker, Versuchsperson und Untersuchungsobjekt ist dennoch von Nöten. Diese Art der Eye-Tracker (siehe Abbildung 3) werden oft für Usability-Untersuchungen von Websites verwendet. Anbieter hierfür sind neben Anderen auch Interactive Minds [9] und Eye Square [7], die neben der Hardware auch Software für Usability Untersuchungen liefern. Während sich der erste Anbieter bezüglich der Funktion seiner Software bedeckt hält, wirbt Eye Square mit einer Software, die bei der Gebrauchstauglichkeitsuntersuchung einer Webseite den Blickverlauf, Mausbewegungen und den Pfad durch verschiedene Unterseiten aufzeichnet. Abbildung 5. Head-Supported Eye-Tracker, Quelle: [17] 2.3 Abbildung 3. Remote Eye-Tracker, Quelle: [13] Eine weitere Art von Eye-Trackern nennt man head-mounted Eye-Tracker (Abbildung 4). Diese werden am Kopf der Versuchsperson fixiert, sodass sich diese frei bewegen kann. Nur die Kabel, die vom Gerät zu einem aufzeichnenden Rechner führen bzw. der Bereich, in dem der Blicke korrekt errechnet werden, beschränken die Bewegungsfreiheit. Die Augenbewegungen werden von kleinen Kameras aufgezeichnet, die sich meist seitlich oder unter dem Auge befinden. Diese Art des Eye-Tracking wird unter Anderem bei Untersuchungen im Bereich der Entscheidungspsychologie beispielsweise in Supermärkten verwendet, da sich Versuchspersonen hier frei durch den Raum bewegen müssen. Auf dem Kopf zu tragende Eye-Tracker werden unter Anderem von den Unternehmen Eyetracking Inc. [6] und Eye Suare [7] zusammen mit Software für Usability-Testing und Marktforschungszwecke angeboten. Abbildung 4. Head-Mounted Eye-Tracker, Quelle: [19] Eine Zwischenstufe zwischen remote und head-mounted EyeTrackern existiert in Form der head-supported Eye-Tracker. Die Aufzeichnung der Blickbewegungen erfolgt remote, doch der Kopf bleibt fixiert (vgl. Abbildung 5). Da Kopfbewegungen hier nicht kompensiert werden müssen, können Hochleistungssysteme dieser Art Abtastraten von über 1000Hz bei einer Genauigkeit von 0,5◦ des Blickwinkels erreichen. Solche Geräte werden unter Anderem in der Neuropsychologie und der Forschung verwendet und sind beispielsweise bei SMI (SensoMotoric Instruments) [17] erhältlich. Nutzeneinschätzung Ob ein Eye-Tracker bei Usability-Untersuchungen verwendet werden sollte, hängt neben dem Budget von vielen weiteren Faktoren ab. Als großen Vorteil sehen Oertel und Schultz die Tatsache, dass das Auftreten von Problemstellen mit Hilfe eines Eye-Trackers genauer lokalisiert werden kann. Während bei Befragungen der Testpersonen eher allgemeine und schwer überprüfbare Angaben aufgenommen werden, gibt die Untersuchung der Blickbewegungen mehr Aufschluss über das Auftreten eines Problems [14]: an jenen Stellen, an denen Testpersonen Probleme hatten, gibt es deutlich weniger Fixationen mit geringerer Verweildauer. Weiter können auch Gründe für Nutzungsprobleme identifiziert werden, wenn man den Blick der Testperson mit der Stelle vergleicht, an der er eigentlich sein sollte: Befinden sich Objekte an unkonventioneller Stelle, werden sie oft nicht gefunden, da Testpersonen dorthin blicken und dort suchen, wo sie diese Objekte erwarten [14]. Es können auch Strategien im Umgang mit Benutzerschnittstellen erkannt werden, um anschließend die weitere Gestaltung daran anzulehnen. Bewegen sich Benutzer beispielsweise nicht in konventioneller Leserichtung sondern vertikal durch ein Interface, könnte man als Information für das Redesign daraus ziehen, dass man die Objekte umordnen sollte [14]. Neben diesen Vorteilen gibt es eine Reihe von Nachteilen, die gegen das Verwenden von Eye-Trackern bei Usability-Untersuchungen sprechen. Zunächst sind diese Geräte sehr kostspielig und haben selbst eine geringe Gebrauchstauglichkeit: Remote Eye-Tracker erlauben nur geringe Kopfbewegungen und die head-mounted Version ist schwer und deshalb nicht lange tragbar. Die Genauigkeit war bisher meist auch gering. Bewegt die Testperson den Kopf, erfolgt eine gewisse Verzögerung bis der remote Eye-Tracker das Auge wieder erkennt. Bewegt die Testperson ihren Kopf in Richtung Eye-Tracker oder von ihm weg, geht die Kalibrierung verloren. Die Kalibrierung ist somit nicht nur für jeden weiteren Benutzer erforderlich, sondern manchmal auch während eines Usability-Tests mehrfach zu tätigen. Eine Untersuchung von Schnipke und Todd aus dem Jahre 2000 ergab zudem, dass die Erfolgsrate bei Eye-Tracking-Experimenten sehr gering ist. Nur 37,5% der Versuchspersonen lieferten hier akzeptable Eye-Tracking-Daten, wobei akzeptable Daten durch einen Vergleich von Augenpositionscursor, Mauszeiger und der Lage von Objekten bestimmt wurden. Während bei akzeptablen Daten eine Übereinstimmung der drei Indikatoren vorzufinden war, stimmte die Blickposition bei inakzeptablen Daten nicht mit den Handlungen des Benutzers überein [16]. Bei diesen befand sich der Augenpositions-Cursor entweder an Stellen, an denen keine Objekte vorhanden waren, obwohl die jeweiligen Personen offensichtlich an anderer Stelle interagierten oder aber er sprang auf dem Bildschirm umher. Bei manchen Versuchspersonen war der Cursor nicht einmal auf dem Bildschirm zu sehen. Aufgrund dieser geringen Erfolgsrate steigt wiederum der Preis solcher Untersuchungen, da diese mit weiteren Personen erneut durchgeführt werden müssten, um eine akzeptable Menge an Eye-Tracking-Daten zu erhalten [16]. Schnipke und Todd ließen bei ihrem Experiment bewusst nur Personen teilnehmen, die keine Brille trugen und den Eye-Tracker somit nicht „verwirren“ sollten. Brillenträger könnten falsche Ergebnisse liefern, da ihre Brillen Spiegelungen hervorrufen könnten, die der NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007 Eye-Tracker fälschlicherweise als Blickdaten interpretieren würde oder sie könnten nicht-spiegelndes Glas verwenden, das auch die Spiegelung von Infrarotlicht ausblenden würde. Solche Einschränkungen in der Auswahl der Versuchspersonen würde in anderen Untersuchungen die Repräsentativität dieser beschränken, was einen weiteren Nachteil dieser Art des Usability-Testing darstellt. Doch trotz dieser Einschränkung waren die Ergebnisse von Schnipke und Todd wenig erfreulich. Sie erkannten, dass eine Person verschiedene Merkmale aufweisen muss, um für Eye-Tracking-Experimente geeignet zu sein: ihre Pupille muss zunächst genügend Licht reflektieren, darf jedoch weder zu groß, noch von Wimpern oder Lidern verdeckt sein. Weiter darf die Iris nicht zu hell sein und auch das Gesicht darf nicht transpirieren, da es sonst Licht reflektieren würde, das der Eye-Tracker falsch interpretieren könnte. Ein weiteres Problem stellen Augen dar, die nach einer gewissen Zeit zu trocken sind, sodass die Versuchsperson sie zum Schutz schließt oder verdeckt [16]. Sibert und Jacob untermauern dieses Experiment mit Erfahrungen aus ihrer Evaluation aus dem selben Jahr. Sie fanden ebenfalls heraus, dass nicht alle Personen für Eye-Tracking-Experimente geeignet sind, da die damals erwerblichen Eye-Tracker zumeist Schwierigkeiten mit Kontaktlinsen, trockenen Augen, schwach reflektierenden Hornhäuten sowie Brillen, die sich bei Helligkeit dunkel verfärben, aufwiesen. Die Erfolgsquote war hier jedoch mit 61% deutlich höher als bei Schnipke’s und Todd’s Versuch. Zudem stellten Sibert und Jacob fest, dass Eye-Tracker stets besser wurden und prognostizierten für die Zukunft Geräte, die diese Probleme eines Tages lösen könnten [18]. Angesichts dieser Vielzahl kostspieliger Nachteile, wirkt bei Usability-Untersuchungen die Verhältnismäßigkeit von Nutzen und dem gegebenen Aufwand und Preis eher gering. Konventionelle Methoden des Usability Engineering, genauer: Einhaltung von Normen, Benutzerbefragungen, Benutzertests verbunden mit Videound Sprachaufzeichnungen,... liefern ebenfalls gute Hinweise ohne die hohen Kosten des Eye-Trackings, die durch die benötigte Hardware sowie gegebenenfalls der mehrmaligen Durchführung der Untersuchung entstehen [16]. Zudem muss dabei nicht der große Aufwand eventueller mehrfacher Kalibrierung unternommen werden. 3 S TATE - OF - THE -A RT: E YE -T RACKER ALS E INGABEMEDIUM 3.1 Grundlagen Der Blick eines Menschen zeigt implizit den Punkt seiner Aufmerksamkeit an. Auch bei der Interaktion mit der Welt sind seine Augen auf die Stellen gerichtet, an denen er auch andere Operationen ausführt. [5, 18, 25]. Zudem sind Augenbewegungen aufgrund der Anatomie des Augapfels leicht, schnell und in jegliche Richtung durchführbar. Hände hingegen sind aufgrund der Struktur des Armes eingeschränkt und zudem nicht so schnell wie Sakkaden. Auch können Augen eine beliebige Strecke in nahezu konstanter Zeit hinlegen, während Hände für weitere Strecken mehr Zeit benötigen [18]. Da Augenbewegungen darüber hinaus natürlich sind und unter geringer kognitiver Last erfolgen, sind sie in Kombination mit Eye-Trackern für Eingabetätigkeiten sehr gut geeignet [18]. Erfolgt Eingabe mit den Augen, könnten die Hände frei bleiben. Gerade Menschen mit motorischen Behinderungen können auf andere Weise keinen Computer bedienen [10, 11, 21, 25]. Andere könnten mit ihren Händen weitere Aufgaben erledigen [20] oder sie könnten die Eingabe mittels Augenbewegungen lediglich aus Bequemlichkeit nutzen. Aufgrund dieser Überlegungen gab es bereits in den 80er Jahren die erste Ideen und Interaktionskonzepte für die Interaktion mit Hilfe der Augen [2]. Im nachfolgenden Kapitel werden diese genauer beleuchtet. 3.2 Untersuchungen Zum ersten Mal hatte Richard A. Bolt im Jahre 1981 die Idee, bei der Interaktion mit einem Computer Augenbewegungen, Sprache und Gesten zu kombinieren. Für die Verwirklichung sollte die interagierende Person ein Miniatur-Eye-Tracking-System mit Ortsensor an der Brille tragen, damit freies Bewegen im Raum ermöglicht wird. Der Blick sollte aus Infrarot-Reflexionen des Auges errechnet werden. Seine Idee war, beispielsweise ein Objekt auf dem Bildschirm so zu bewegen, dass man es eine gewisse Zeit lang fixierte während man sagte: „Bewege das“, anschließend den Blick an den Zielort wandte und sagte: „Dorthin“. Alternativ könnte der Zielort mittels Fingerzeig angedeutet werden [2]. Er erprobte diese Technik damals zwar noch nicht an verschiedenen Versuchspersonen, doch er kam zu dem Ergebnis, dass die Kombination verschiedener Eingabemedien nützlicher, schneller und intuitiver sein müsste als die isolierte Komponente. Wenige Jahre später testeten Ware und Mikaelian zum ersten Mal Interaktionen mit Unterstützung durch Blickbewegungen. Sie untersuchten, ob Augenbewegungen alleine oder verbunden mit einem Auswahlknopf für die Objektwahl schneller ist. Außerdem wollten sie wissen, ab welcher Objektgröße eine Interaktion mittels Eye-Gaze überhaupt sinnvoll ist [23]. Für ihre Untersuchungen verwendeten sie einen remote Eye-Tracker mit einer Genauigkeit von 0,5◦ des Blickwinkels, der das Auge der jeweiligen Versuchsperson inklusive Infrarotreflexionen der Hornhaut aufzeichnete. Um die Geschwindigkeit der Eye-Gaze-Interaktion zu überprüfen, wurden in einem Test verschiedene, untereinander angeordnete Objekte angezeigt, von denen eines markiert wurde, das der Benutzer anschließend ansehen und auswählen musste. Unter Anderem wurden die Schwellwertmethode und das Drücken eines Hardwarebuttons zur Auswahl genutzt. Beim zweiten Teil des Tests, der die ideale Objektgröße bestimmen sollte, wurden 16 Elemente quadratisch angeordnet und die Versuchspersonen sollten diese in der Reihenfolge ansehen und auswählen, in der sie markiert werden. Für die Auswahl wurden wieder sowohl die Schwellwertmethode mit einem Schwellwert von 0,4 Sekunden, als auch die HardwareButton-Methode genutzt. Nach jedem Durchlauf wurde die Größe der 16 Objekte verändert. Die Versuchspersonen hatten bei diesen Tests die Anweisung, so schnell wie möglich zu interagieren, dabei aber dennoch auf eine möglichst hohe Genauigkeit zu achten. Ware und Mikaelian kamen zu dem Ergebnis, dass Eye-GazeInteraktion zwar schnell, verbunden mit einem Auswahlknopf aber schneller ist, da ein Objekt nicht einen gewissen Schwellwert lang fixiert werden muss, bevor es ausgewählt wird. Motorisch behinderte Personen könnten jedoch auch nur die Schwellwert-Methode gut nutzen. Interaktionen mittels Augenbewegungen ist laut dieser Untersuchung nur ab einer bestimmten Objektgröße sinnvoll: die Fehlerrate liegt erst bei Objekten, die größer sind als 1◦ des Blickwinkels unter 10% (siehe Abbildung 6). Weiter wurde herausgefunden, dass die Fehlerrate bei der Interaktion mittels Eye-Gaze allein geringer ist (vgl. Abbildung 6), was darauf zurückzuführen ist, dass Versuchspersonen ihre Blickbewegung und das Drücken des Auswahlknopfes zu synchronisieren versuchten, was zu einer verfrühten Auslösung des Knopfes führte. Bei der Interaktion mit Eye-Gaze alleine waren die Personen gezwungen, ihre Interaktionen nacheinander auszuführen, was auch die längere Dauer dieser Interaktionsform verursacht. Im Jahre 1990 stellte Jacob seine Sammlung verschiedener Interaktionsmodi für verschiedene Aufgaben vor [10]. Die Auswahl eines Objektes aus einer Menge an Objekten, könnte mittels Auswahlbutton oder einer Verweilzeit erfolgen. Die Schwellwertmethode empfand er zwar als angenehmer, doch er fand, dass zu lange Dauern unnatürlich waren und Benutzer denken könnten, das System sei abgestürzt, wenn nach zu langer Fixation nichts passierte. Eine zu kurze Verweildauer könnte zur Folge haben, dass Objekte versehentlich gewählt würden. Deshalb wäre es wichtig, Ergebnisse leicht rückgängig zu machen. Eine Verweilzeit von etwa 150ms empfand er als richtigen Mittelweg zwischen diesen beiden Problemen. Diese Zeit war zwar etwas länger, als der später von ihm und Sibert errechnete durchschnittliche Klick, dessen Ausführung nur 116ms dauerte, doch die Auswahl mittels Blick war dennoch schneller [18]. Attribute eines Objektes würden in einem gesonderten Bildschirmbereich zu betrachten sein, nachdem das gewünschte Objekt lange genug fixiert wurde. Objekte bewegen konnten Jacob’s Versuchspersonen SÖTER et al.: STATE-OF-THE-ART: EYE-TRACKER ALS ANALYSE- UND EINGABEMEDIUM Abbildung 6. Fehlerrate der Schwellwertmethode im Vergleich zur Auswahlknopf-Methode, Quelle: [23] indem sie nach dem Blick darauf einen Mausklick tätigten, anschließend an den Zielort blickten und den Mausknopf losließen. Auf diese Weise konnten Benutzer schneller mit dem System interagieren, als wenn sie nach Blick auf ein gewünschtes Objekt die Maus für die komplette Bewegung nutzten. Diese konventionellere Art der Interaktion erschien neben der schnellen Eye-Gaze-Interaktion als langsam und unangenehm. Scrollen ermöglichte Jacob indem er Pfeile ober- und unterhalb eines Textes anbrachte, die fixiert werden mussten um den Text in die jeweilige Richtung zu bewegen. Menükommandos konnten in seinem Szenario gewählt werden, indem sich ein Pull-Down-Menü nach gewisser Fixationsdauer öffnete und seine Befehle preisgab. Die Auswahl des jeweiligen Befehles sollte jedoch mittels Mausklick erfolgen, da gerade unbekannte Befehle länger fixiert würden und eine längere Verweildauer somit nicht unbedingt dem Wunsch nach Auswahl gleich käme. Wollten die Versuchspersonen Texte eingeben, so geschah dies mit Hilfe der Tastatur, nachdem das gewünschte Textfeld mittels Fixation ausgewählt wurde [10]. Bei Jacob’s Untersuchung saßen die Versuchspersonen an einem konventionellen Rechner, während der remote Eye-Tracker auf dem Tisch nebenan angebracht wurde. Zwei Lichter wurden in die Augen gestrahlt und reflektiert, damit Kopf- und Augenbewegungen besser unterschieden werden konnten. Mit der Apparatur konnte unter den gegebenen Bedingungen eine Genauigkeit von etwa einem bis zwei Grad des Augenwinkels erreicht werden. Jacob kam zu dem Ergebnis, dass die Verwendung natürlicher Augenbewegungen besser für Interaktionen geeignet ist, als antrainierte Bewegungen, da erstere intuitiver und natürlicher sind. Er bemerkte auch, dass der Eye-Tracker trotz seiner Unaufdringlichkeit schwer zu ignorieren war, da der Raum etwas abgedunkelt werden musste und sein leises Summen nicht überhörbar war. Eine höhere Genauigkeit meinte Jacob mit einer festen Kopfposition erreichen zu können, doch diese hätte den Eye-Tracker noch aufdringlicher gemacht. Jacob fand weiter heraus, dass die Interaktion mittels Maus und Tastatur noch genauer waren [10]. Im Jahr 2000 wurden diese Interaktionstechniken zum Teil formal auf ihre Schnelligkeit und Eignung überprüft. Das Ergebnis war, dass die Interaktion mittels Eye-Gaze bei einer einfachen Auswahl-Aufgabe durchschnittlich fast doppelt so schnell war, wie die mit der Maus. Während bei der Maus von Durchgang zu Durchgang ein Lerneffekt aufzutreten schien, war die Eye-Gaze-Interaktion stetig gleich bleibend schnell [18]. Etwa 2002 hatten Farid, Murtaugh und Starck die Idee, eine visuelle Maus zu schaffen, die die physische Maus ersetzt, da der Mauszeiger auch auf konventionellen Monitoren mit dem Blick verfolgt und kontrolliert wird [8]. Das Anwendungsszenario war hier die Betrachtung riesiger Bilddaten aus der Astronomie (Bilder können hier Auflösungen von bis zu 16.000 x 16.000 Pixel haben) oder der Medizin (Bilddaten mit Auflösungen von typischerweise 4.500 x 4.500 Pixel) sowie die Kontrolle multipler Video-Streams. Eine einfache Zoom-in- und zurück-Funktion sollte dafür implementiert werden [8]. Abgeleitet vom visuellen Verhalten, das durch die jeweilige Verweildauer auf einem Objekt definiert wird, wird ein visueller Mausklick vorgenommen: betrachtet die Versuchsperson eine Stelle in einem Bild einen gewissen Schwellwert lang, so wird dort hineingezoomt und ein höher aufgelöster Ausschnitt des Bildes wird auf eine natürliche Weise detailliert angezeigt. Bei der Kontrolle verschiedener Video-Streams sollte jeweils der Videoclip aus einer Sammlung von Videos abgespielt werden, den der Benutzer fixiert. Alle anderen sollten im „Pause“-Modus bleiben. Wandert das Interesse des Benutzers, repräsentiert durch seinen abschweifenden Blick, zu einem anderen Video und bleibt dort für eine gewisse Verweilzeit stehen, so wird der aktuell abgespielte Film pausiert und der neue Film wird gestartet. Der Versuchsaufbau bestand bei Farid, Murtaugh und Starck aus einem remote Eye-Tracker mit einer Genauigkeit von 0,5◦ des Blickwinkels, sowie einer Infrarotkamera unter dem Monitor für die Aufzeichnung der Gaze-Aktivität. Verarbeitet wurden die Gaze-Daten am Nebentisch. Bei diesem Aufbau waren Kopfbewegungen innerhalb einem Fuß3 möglich [8]. Zhai hatte im darauf folgenden Jahr zwei Ideen, deren Durchführbarkeit er mit Hilfe eines remote Eye-Trackers mit einer Geschwindigkeit von 30Hz überprüfte, der den Blick mit Hilfe der Cornea-Reflex-Methode - der aufgenommenen Reflexion zweier Infrarot Lichtquellen - errechnete. Das erste Projekt nannte er „MAGIC“ Pointing (Manual Aquisition with Gaze Inititated Cursor) [25]. Dabei sollten Augenbewegungen mit manuellem Mausinput der Interaktion dienen: die Augen lenken den Mauszeiger in die unmittelbare Nähe des gewünschten Objektes. Das Überwinden der letzten Distanz und Auswahl mittels Klick werden anschließend mit der Maus ausgeführt. Der Vorteil dieser Methode liegt darin, dass Objekte beliebiger Größe trotz eventueller Ungenauigkeit des Eye-Trackers ausgewählt werden können. Außerdem muss der Benutzer den Cursor nie suchen, da er nach Aktivierung in unmittelbarer Nähe seines Fixationspunktes erscheint. Zhai’s zweites Projekt trägt den Namen „EASE“ (Eye Assisted Selection and Entry) [25] und soll die Eingabe chinesischer Zeichen effizienter gestalten. Im Chinesischen existieren verschiedene Worte mit der selben Aussprache. Bisher werden deshalb die ersten Buchstaben in Pinyin, dem offiziellen chinesischen phonetischen Alphabet, basierend auf römischen Lettern getippt, woraufhin sich eine Liste mit Symbolvorschlägen öffnet. Der Benutzer muss anschließend die ID des gewünschten Symbols eintippen, damit das Zeichen auf dem Bildschirm erscheint. Zhais Lösungsvorschlag für diese umständliche Art der Eingabe ist ein mit den Augen gesteuertes System, bei dem man nach Aufklappen der Symbol-Liste das gewünschte Zeichen fixiert und durch Drücken der Leertaste einfügt [25]. Er stellte fest, dass Blinzeln nicht für eine Auswahl geeignet ist, da es ungesteuert sehr oft und unbewusst vorgenommen wird. Gesteuertes Blinzeln hingegen wäre sehr unnatürlich. Er bemerkte auch, dass ein Schwellwert zwar sinnvoll, jedoch sehr langwierig ist. Deshalb sollte sein Vorschlag der Eye-Gaze-Interaktion mit der Benutzung von Maus bzw. Tastatur unterstützt werden. Zhai fand zudem heraus, dass die von ihm vorgeschlagene Art der Interaktion sehr schnell ist und zudem unter geringer kognitiver Last erfolgt, da der Blick der Versuchspersonen stets auf dem Bildschirm bleiben kann und nicht zwischen Monitor und Tastatur umherwandern muss. Seine Versuchspersonen bekundeten zudem eine hohe subjektive Zufriedenheit [25]. Wieder ein Jahr später hatte Surakka die Idee, Augenbewegungen mit der Bewegung von Gesichtsmuskeln zu kombinieren und diese als Interaktionsmöglichkeit für den Computer zu nutzen. Für seine Versuche sollte das gewünschte Objekt mittels Blick angedeutet werden. Ein Klick wurde nach Kontraktion des Corrugator Supercilii, dem Muskel der Stirnrunzeln auslöst, vorgenommen [20]. Die NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007 Integration anderer Muskeln hält Surakka ebenfalls für möglich, doch er entschied sich hier für den Corrugator Supercilii aufgrund der Nähe zu den Augen. Zudem runzeln Personen in der realen Welt dann die Stirn, wenn sie erhöhte kognitive Aktivitäten leisten müssen. Auf diese Art kann Stirnrunzeln mit Aufgaben verbunden werden, die eine Änderung der Ausmerksamkeit erfordern. Aufgezeichnet wurden bei Surakka die Augenbewegungen mit einem remote Eye-Tracker, die Muskelaktivität des Corrugator Supercilii wurde mit Hilfe einer Verstärkers aufgenommen. Als Aufgabenstellung wurden jeweils zwei Objekte auf dem Bildschirm angezeigt, von denen eines das Zielobjekt und das andere das „Home“-Objekt war. Nachdem der Benutzer das Zielobjekt erfolgreich fixiert hatte, was durch ein Aufblinken des selben angedeutet wurde, musste er zum „Home“-Objekt zurückkehren. Surakka fand heraus, dass es einen Trade-Off zwischen Geschwindigkeit und Genauigkeit gibt: Aufgaben können sehr schnell erfüllt werden, wenn sie nicht genau sein müssen. Im Gegenzug können sie besonders genau erfüllt werden, wenn beliebig viel Zeit dafür vorhanden ist [20]. Aufgrund dessen, sollten die Versuchspersonen versuchen, bei einer möglichst hohen Geschwindigkeit eine möglichst hohe Genauigkeit zu erzielen. Seine Untersuchung ergab, dass Interaktion mit der Maus bei kleineren Distanzen signifikant schneller ist, als Surakka’s Gazingand-Frowning-Technik. Bei größeren Distanzen ist letzteres schneller, jedoch ist der Unterschied statistisch nicht signifikant. Der Grund hierfür liegt laut Surakka darin, dass Versuchspersonen bei seiner Technik warten mussten bis der Eye-Tracker den Blickpunkt genau errechnet hatte, bevor sie die Stirn runzeln konnten. [20]. Des Weiteren ist die Interaktion mit der Maus genauer, was laut Surakka auch an der Ungenauigkeit der bisherigen Eye-Tracker-Technologie vor Allem bei der Kompensation von Kopfbewegungen liegt. Bei der Mausinteraktion ist die Objektgröße irrelevant: die unterschiedlichen Fehlerraten sind statistisch nicht signifikant. Bei der Interaktion mit dem Eye-Tracker jedoch verbesserte sich die Fehlerrate bei steigender Objektgröße. Ähnlich wie bei der Untersuchung von Ware und Mikaelian [23] wird eine Objektgröße von etwa 40mm als ideal empfunden [20]. Surakka fand allerdings heraus, dass seine Methode schneller ist als die normale Gaze-Interaktion, weil Objekte nicht einen gewissen Schwellwert lang fixiert werden müssen, bevor mit ihnen interagiert werden kann. Zusätzlich bleiben, im Gegensatz zu Zhai’s Interaktionsvorschlägen [25], die Hände frei. Die Befragung der Benutzer nach ihrem subjektiven Empfinden ergab, dass die Interaktion mittels Gazing-and-Frowning als schneller aber auch als schwieriger und weniger genau wahrgenommen wird [20]. 3.3 eignet oder R6 Remote [1], ein remote Eye-Tracker der an einem Tisch befestigt werden kann und von dort aus agiert. Chronos Vision bietet einen head-mounted 3D Eye-Tracker mit einer Aufnahmegeschwindigkeit von 400Hz bei einer Genauigkeit von weniger als 0,1◦ des Blickwinkels an. Kopf- und Augenbewegungen werden hier ebenfalls unterschieden, wobei die Besonderheit dieses Eye-Trackers darin liegt, dass der Kopf auch zum betrachteten Objekt hin- oder von ihm zurück bewegt werden kann. Die Bearbeitung der Tracking-Daten erfolgt in Real-Time. Eine Software zeichnet die Augenbewegungen auf und speichert relevante Bilddaten, sodass eine spätere offline Bearbeitung ermöglicht wird [3]. SR-Research liefert mit ihrer EyeLink-Serie weitere Eye-Tracking Geräte, die teilweise vom Max-Planck-Institut für Forschungsarbeiten genutzt werden. Die Serie EyeLink 1000 bzw. 2K ist sowohl als head-supported Tower-Ausführung als auch als remote Desktop-Ausführung erhältlich. Die Geräte haben Aufzeichnungsgeschwindigkeiten von 1000 bzw. 2000Hz und arbeiten mit einer Genauigkeit von durchschnittlich 0,315◦ . Sowohl der Desktop-Version, die sich etwa 40 bis 70cm vor dem Benutzer befinden sollte, als auch der Tower-Version, die sich genau 38cm vor den Augen des Benutzers befindet, wird eine gute bis exzellente Kompatibilität mit Brillen nachgesagt und beide Ausführungen errechnen den Blick mit Hilfe der Cornea-Reflex-Methode. Während bei dem Tower ein Infrarot-Spiegel angebracht ist, der nur Infrarot-Reflexionen der Augen der Versuchsperson zurückstrahlt (vgl. Abbildung 7), funktioniert die Desktop-Variante ohne Spiegel. Bei letzterer sind Kopfbewegungen innerhalb einem Bereich von 25mm möglich [19]. Anbieter Einige Hersteller bieten Eye-Tracker an, die für Interaktionstätigkeiten ideal sind. Teilweise wird aber nur die Hardware bereitgestellt. Wie die große Anzahl der Untersuchungen im vorigen Kapitel auch zeigt, ist das Thema „Eye-Tracking als Eingabewerkzeug“ bisher eher in der Forschung relevant. Am Ende dieses Kapitels wird jedoch ein Anbieter für Komplettlösungen genannt. Die ASL (Applied Science Laboratories) bieten eine Vielzahl unterschiedlicher remote und head-mounted Eye-Tracker an [1]. Viele Untersuchungen aus dem vorangegangenen Kapitel wurden mit Eye-Trackern dieses Hersteller gemacht, sodass er hier Erwähnung finden sollte. Eye-Tracker von ASL bieten eine EyeHead Integration (kurz: „EHI“), mit deren Hilfe sowohl Augen, als auch Kopfbewegungen getrackt werden können. Dabei wird ein Infrarot-Licht ins Auge gestrahlt, das die Pupille erhellt und zugleich eine Reflexion auf der Hornhaut verursacht. Bewegen sich diese Lichtpunkte in die selbe Richtung, kann von einer Kopfbewegung ausgegangen werden, bewegen sie sich in verschiedene Richtungen, unternimmt der Proband eine Augenbewegung. Aus diesen beiden Lichtreflexionen können zudem die x- und y-Koordinaten des Blickes errechnet [18]. Die Hardware von ASL wird mit einer Analysesoftware geliefert, die Augenbewegungen aufzeichnet. Beispiele von Eye-Trackern der Firma ASL sind Mobile Eye [1], ein Eye-Tracker, der an einer leichten Brille befestigt ist und sich deshalb auch für längere Untersuchungen Abbildung 7. Tower-Mounted EyeLink, Quelle: [19] Der head-mounted Teil der EyeLink-Serie nennt sich EyeLink bzw. EyeLink II und ist in Abbildung 4 zu sehen. Die Aufzeichnungsgeschwindigkeiten dieser Geräte liegen bei 250 bzw. 500Hz, während die Genauigkeit mit durchschnittlich 0,5◦ ebenfalls etwas geringer ist, als die der remote und head-supported Variante. Beide Eye-Tracker sind mit drei Kameras bestückt, von denen zwei die Augen- und eine die Kopfposition erfassen soll. Während EyeLink den Blick noch mittels Pupil-Only-Tracking erfasste, bei der aus der Ausrichtung der Pupille der Blick errechnet wurde, ist es beim EyeLink II möglich auf die Cornea-Reflex-Methode zu wechseln. Die Kompatibilität mit Brillen- und Kontaktlinsenträgern ist mit dem Pupil-Only-Tracking jedoch besser. Der Bereich, in dem sich die Versuchsperson vom Untersuchungsobjekt befinden sollte beträgt 40 bis 140cm. Die Software die mit EyeLink-Geräten mitgeliefert wird, kann Fixationen, Sakkaden und Blinzeln unterscheiden [19]. Tobii ist ein Hersteller, der sich besonders Menschen mit verschiedenen motorischen Behinderungen wie beispielsweise Multipler Sklerose oder Schäden am Rückgrat, aber funktionierenden kognitiven Funktionen widmet. Er stellt Geräte her, mit Hilfe derer diese Personen mit ihrer Umwelt kommunizieren können. MyTobii SÖTER et al.: STATE-OF-THE-ART: EYE-TRACKER ALS ANALYSE- UND EINGABEMEDIUM P10 [21] ist ein portables, durch Augenbewegungen kontrolliertes Kommunikationsgerät mit einem 15” Touchscreen. Computer und Blickbewegungsregistrierungseinheit sind in diesem Gerät vereint. MyTobii D10 [21] hingegen ist ein stationärer 17” Bildschirm mit eingebauter Blickbewegungsregistrierungseinheit, der an einem beliebigen externen Computer angeschlossen werden kann. Beide Geräte können auf verschiedene Fähigkeitsstufen ihrer Benutzer konfiguriert werden und können laut Anbieter innerhalb von 30 Sekunden selbstständig kalibriert werden. Die Arbeitsdistanz zu diesen Geräten sollte etwa 50 bis 70cm betragen. Bei einer Aufzeichnungsgeschwindigkeit von 40Hz erreichen beide Geräte eine Genauigkeit von 0,5◦ , was bei der angegebenen Distanz einer Objektgröße von etwa 0,5cm entspricht. Tobii verspricht eine hohe Genauigkeit und eine gute Kompensation von Kopfbewegungen (auch der von Behinderungen verursachten) mit einem maximalen Kompensationsfehler von weniger als einem Grad des Blickwinkels. Die Kompatibilität mit Brillenund Kontaktlinsenträgern ist sehr gut [21]. Tobii bietet als einziger Hersteller von Eye-Tracking-Hardware auch Softwarelösungen an. Je nach Fähigkeit des Benutzers kann dabei eine Auswahl mittels Schwellwertmethode oder Drücken eines Mausknopfes getroffen werden. Es existiert von Textverarbeitungen über Verwaltung von E-Mails zu Spielen eine gewisse Anzahl spezielle Software von Tobii selbst, doch auch mit Software von Drittanbietern, die Tobii unterstützen können diese Geräten betrieben werden. MyTobii-Anwendungen versprechen automatisches Panning und Zooming, schnelle Wechsel zwischen Ansichten und eine Priorisierung der Informationen basierend auf der Aufmerksamkeit des Benutzers. Windows-Anwendungen können weiter genutzt werden, indem der Mauszeiger mit den Augen bewegt wird, was jedoch laut Tobii umständlicher ist, als die MyTobii Direct Control. Auch können von Tobii Hardwarekomponenten zu Integration von Eye-Control in eigene Geräte erworben werden, sowie Frameworks zur Entwicklung von Eye-Gaze-Control Interfaces [21]. 3.4 Nutzeneinschätzung Augenbewegungen sind viel schneller als Bewegungen der Hände und im Gegensatz dazu nicht von der Entfernung abhängig. Des Weiteren wird Aufmerksamkeit mittels Blick gelenkt: Die Stelle, an der gehandelt wird, wird in der realen wie in der virtuellen Welt immer fixiert, bevor an ihr Interaktionen vorgenommen werden. Die dadurch auftretende geringe kognitive Last, Natürlichkeit und Schnelligkeit von Blickbewegungen führt dazu, dass sie sich sehr gut für eine Nutzung bei der Eingabe eignen [18, 25]. So kann Eye-Gaze-Interaktion mit wenig zusätzlicher Anstrengung mit anderen Eingabegeräten kombiniert werden [18]. Funktioniert das Eye-Gaze-Interaktionssystem gut, kann der Benutzer sich so fühlen, als würde es seine Gedanken lesen und seine Befehle erahnen [18]. Für die Benutzergruppe der motorisch Behinderten ist die Interaktion mit Hilfe des Blickes die einzige Möglichkeit der Interaktion und sie verbessert die Kommunikation dieser Gruppe mit ihrer Umwelt [21, 10, 25]. In anderen Bereichen, wie beispielsweise der Chirurgie, könnte blickgesteuerte Interaktion eingesetzt werden, damit die Hände frei bleiben, die in diesem Fall für das Operieren benötigt werden [20]. Ansonsten sollte die Kombination mit der Maus in Betracht gezogen werden um eine höhere Effizienz zu erreichen. Werden für die Interaktion natürliche Augenbewegungen eingesetzt, so ist diese Art der Interaktion auch einfach und intuitiv [18]. Zudem ist sie direkt und absolut und bietet beispielsweise bei Videospielen oder Multiple-Video-Streaming eine höhere Bequemlichkeit und einen höheren Spaßfaktor. Als Nachteile gelten für das Eye-Tracking als Eingabewerkzeug die selben Punkte, wie bereits in Kapitel 2.3 genannt: unter Anderem sein hoher Preis, seine geringe Gebrauchstauglichkeit und seine geringe Genauigkeit. Diese Faktoren werden sich jedoch dank fortschreitender technologischer Entwicklung stets verbessern [18]. Zusätzlich ist an dieser Stelle aber auch das Problem zu nennen, dass gerade motorisch behinderte Benutzer, die ihre Hände nicht nutzen können, einen Assistenten bräuchten, da die Interaktionswerkzeuge nicht selbstständig anlegen (vgl. Surakka [20]) bzw. kalibrieren können. Tobii ist hier eine Ausnahme, da eine selbstständige Kalibrierung möglich ist [21]. Zusammenfassend lässt sich sagen, dass bisher einige gute Ideen zur Interaktion vorgeschlagen wurden, deren Umsetzung motorisch Behinderten die Kommunikation mit ihrer Umwelt ermöglichen könnte [21, 10, 25]. Auch könnten Eye-Tracker als Eingabemedien in Situationen genutzt werden, in denen die Hände für schwierige Operationen genutzt werden müssen [20]. Hierfür sollten die Systeme jedoch genauer und preisgünstiger werden, sowie die Kompatibilität mit Brillen- und Kontaktlinsenträgern müsste verbessert werden, denn obwohl Anbieter damit werben, zeigen Untersuchungen, dass diese noch ausbaufähig ist [16]. Dank technoligischer Weiterentwicklung auf diesem Gebiet dürften diese Nachteile jedoch bald der Vergangenheit angehören [18]. L ITERATUR [1] ASL. Applied science laboratories, anbieter von eye-tracking-hardware. http://www.a-s-l.com/, 2007. [2] R. A. Bolt. Eyes at the interface. ACM Human Factors in Computer Systems Conference, pages 360–362, April 1981. [3] Chronos-Vision. Chronos 3d eye-tracker. www.chronos-vision.de, 2007. [4] S. M. Dornhöfer, S. Pannasch, and P. J. Unema. Augenbewegungen und deren registrierungsmethoden. TU Dresden. [5] Z. G. Edward Cutrell. What are you looking for? an eye-tracking study of information usage in web search. CHI 2007 Proceedings - Gaze & Eye-Tracking, pages 407–416, April 2007. [6] ETI. Eyetracking inc., consumer marketing, interface usability. http://www.eyetracking.com/, 2007. [7] EyeSquare. Eye square - the usability company. http://www.eyesquare.com/deutsch/, 2007. [8] M. Farid, F. Murtagh, and J. Starck. Computer display control and interaction using eye-gaze. [9] InteractiveMinds. Interactive minds, remote eye tracker. http://www.interactive-minds.de/, 2007. [10] R. J. Jacob. What you look at is what you get: Eye movement-based interaction techniques. CHI 1990 Proceedings, pages 11–18, April 1990. [11] R. J. Jacob and K. S. Karn. Eye tracking in human-computer interaction and usability research: Ready to deliver the promises. [12] M. Joos, M. Rötting, and B. M. Velichkovsky. Bewegungen des menschlichen auges: Fakten, methoden und innovative anwendungen, 2002. [13] J. Nielsen. F-shaped pattern for reading web content. http://www.useit.com/alertbox/reading_pattern.html, 2006. [14] K. Oertel and R. Schultz. Im auge des betrachters - softwarequalitätssicherung durch blickbewegungsregistrierung. Fraunhofer Institut für Graphische Datenverarbeitung, 2003. [15] K.-J. Räihä. New interaction techniques. TAUCHI, 2006. [16] S. K. Schnipke and M. W. Todd. Trials and tribunals of using an eyetracking system. CHI 2000 Short Talks, pages 273–274, April 2000. [17] SensoMotoric-Instruments. Head-supported eye-tracker iview x hi-speed. http://www.smivision.com/en/eye-gaze-trackingsystems/products/iview-x-hi-speed.html, 2007. [18] L. E. Sibert and R. J. Jacob. Evaluation of eye gaze interaction. CHI 2000, April 2000. [19] SR-Research. Eyelink. www.eyelinkinfo.com, 2007. [20] V. Surakka, M. Illi, and P. Isokoski. Gazing and frowning as a new human-computer-interaction technique. ACM Transactions on Applied Perceptions, 1(1):40–56, July 2004. [21] Tobii. Broschüren, produktbeschreibungen, etc. www.tobii.com, 2007. [22] B. Velichkovsky, A. Sprenger, and M. Pomplun. Auf dem Weg zur Blickmaus: Die Beeinflussung der Fixationsdauer durch kognitive und kommunikative Aufgaben. Teubner Stuttgart, 1997. [23] C. Ware and H. Mikaelian. An evaluation of an eye tracker as a device for computer input. CHI + GI 1987, pages 183–188, 1987. [24] Wikipedia. Blickbewegungsregistrierung. http://de.wikipedia.org/wiki/Eyetracking, 2007. [25] S. Zhai. What’s in the eyes for attentive input. Communications of the ACM, pages 34–39, March 2003. NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007 Eigenbau Eye-Tracker Toni Schmidt Abstract—Im Rahmen dieser Seminararbeit wurde zum einen ein mobiler Eye-Tracker entworfen. Dieses Gerät ist für den Einsatz als Interaktionsmedium für große, hochauflösende Displays gedacht. Der Tracker wurde auf einer Arbeitsschutzbrille aufgebaut, an der die verwendete Industriekamera, sowie ein Spiegel und eine Infrarot-LED angebracht wurden. Die Befestigung erfolgte über Holzgestelle, die über Metallstangen an der Brille befestigt wurden. Die entwickelte Software verwendet den Starburst-Algorithmus von Li, D., Parkhurst, D. J. (2005) [16]. Damit ist die Software in der Lage, die Pupillenmitte zu bestimmen. Zusätlich wird das Kamerabild des Auges mit eingezeichneter Pupillenellipse in einem Fenster ausgegeben, so dass die Möglichkeit zur Kontrolle durch den Nutzer besteht. Weiterhin wird ein Überblick über die wichtigsten Eye-Tracking Methoden gegeben. Bei der Electro-Oculography werden die Augenbewegungen über Spannungsunterschiede auf der Haut gemessen. Die Scleral Contact Lens-Methode verwendet eine Kontaktlinse, in der eine Spule eingarbeitet ist, um deren Position in einem Elektromagnetfeld zu bestimmen. Videobasierte Techniken verwenden Kameras, um die Position der Pupille und der Cornea-Reflektion optisch zu bestimmen. Darüber hinaus werden die verbreitesten Eye-Tracker vorgestellt. Diese sind grob in zwei Kategorien unterteilbar: Remote Eye-Tracker sind relativ zum Display montiert, während Head-Mounted-Systeme am Kopf der Testperson befestigt werden. Ein kurzer geschichtlicher Überblick zeigt die Anfänge des Eye-Trackings auf. 1 E INLEITUNG Eye-Tracking ist ein viel genutztes Instrument in Forschung und Industrie. Zu den bekanntesten und verbreitetsten Nutzungsfeldern gehören Usability-, Marketing- und Lesestudien. Zudem ist es für psychologische Wahrnehmungsexperimente unerlässlich. Auch die Nutzung als Eingabemedium ist sinnvoll, um beispielsweise gelähmten Menschen die Interaktion mit einem Computer zu ermöglichen. Ein neues Nutzungsfeld stellt die Verwendung eines Eye-Trackers als Eingabemedium für Anwendungen, die auf großen, hochauflösenden Displays laufen, dar. Der Anwender hätte dadurch die Möglichkeit, unabhängig von beschränkenden Eingabegeräten, wie beispielsweise der Maus, und frei vor dem Display beweglich, mit der Anwendung zu interagieren. Auch die Kombination mit anderen mobilen Eingabegeräten, wie z.B. einem Laserpointer, eröffnet vielfältige Möglichkeiten. Bevor aber Interaktionstechniken für ein solches Szenario entwickelt werden können, ist es nötig, die erforderlichen Voraussetzungen zu schaffen. Dies beinhaltet die Bereitstellung der Hardund Software, sowie die Aneignung theoretischer Kenntnisse auf dem Gebiet des Eye-Trackings. Zu diesem Zweck wurde im Rahmen dieser Arbeit ein Eigenbau Eye-Tracker entworfen und gebaut, sowie die entsprechende TrackingSoftware entwickelt. Zudem werden in dieser Arbeit Überblicke über die verschiedenen Tracking-Methoden, sowie über die verbreitetsten Eye-Tracker gegeben. Damit werden Voraussetzungen geschaffen, die die Entwicklung von Interaktions- oder anderen, mit dem EyeTracking verwandten, Techniken, ermöglichen. 2 G ESCHICHTLICHER Ü BERBLICK Die ersten Beobachtungen zum Verhalten der Augenbewegungen stammen aus dem Jahr 1879 von Louis Emile Javal. Dieser stellte fest, dass sich das Auge beim Lesen nicht kontinuierlich bewegt. Vielmehr stellt das Bewegungsmuster eine Abfolge von kleinen, schnelle Sprüngen dar. Diese sind heute als Sakaden bekannt. Das erste Gerät, das als ,,Eye-Tracker” bezeichnet werden kann, stammt von Huey aus dem Jahre 1908. Huey entwickelte eine Art Kontaktlinse aus Keramik, die auf die Pupille aufgesetzt wurde. An dieser Linse war ein Zeigestift montiert, der die Augenbewegungen auf ein Blatt Papier abzeichnete. • Toni Schmidt ist Student an der Universitt Konstanz, E-mail: [email protected]. Das erste System, das weniger invasiv war, stammt von Buswell 1922. Er nutzte einen Lichtstrahl, der über einen Spiegel auf die Cornea reflektiert wurde und anschließend auf Zelluloid aufgezeichnet wurde. [2] Die ersten Ansätze zu der heute viel genutzten ,,Video-Based Combined Pupil/ Corneal Reflection”-Methode stammen von Kenneth Mason aus den späten 1960er Jahren. Er schlug ein automatisiertes System vor, das die Pupille und die Cornea-Reflektion filmte und daraus die Blickrichtung berechnete. In den frühen 1970er Jahren wurde diese Idee dann von John Merchant und Richard Morrisette in einem von der U.S. Air Force gesponsertem Projekt umgesetzt. Sie entwickelten das Öculometer“. Diese System bestand sowohl aus Algorithmen zur Erfassung der Pupille und deren geometrischen Zentrums, sowie der Erfassung der CorneaReflektion relativ zur Pupille. [18] Das erste System, das eine Infrarot-Leuchtdiode nutzt, um das Auge zu beleuchten stammt von Hutchnson (1989). [15] 3 E YE -T RACKING T ECHNIKEN Es existieren eine Reihe von Eye-Tracking-Techniken, die alle ihre Vor- und Nachteile haben. Videobasierte Techniken sind heute am weitesten verbreitet, da sie, im Vergleich zu anderen Methoden, leichter Umzusetzen und weniger störend für die Testperson sind. Die wichtigsten Anforderungen an eine Tracking-Technik sind Genauigkeit, Schnelligkeit und Robustheit. Zusätzlich sollte die Testperson möglichst wenig eingeengt werden. Auch sollte die Technik an verschiedenen Menschen gleich funktionieren. 3.1 Electro-Oculography (EOG) Bei dieser Technik werden Elektroden um das Auge herum befestigt. Mit diesen wird dann die elektrische Spannung der Haut gemessen. Die Differenzen zwischen diesen Spannungen werden anschließend genutzt, um die Augenposition zu bestimmen. Die Bandbreite der Spannungen reicht von 15-200 µV . Eine Bewegung des Auges um ein Grad entspricht dabei einem Spannungsunterschied von 20 µV [14]. 3.2 Scleral Contact Lens Eine sehr präzise Methode zur Messung von Augenbewegungwn ist die Scleral Contact Lens-Methode. Hierbei wird eine große Kontaktlinse in das Auge gesetzt. Diese Linse bedeckt nicht nur die Pupille, sondern auch die Sclera, also die weiße Augenhaut. Dies verhindert ein Verrutschen, wie es bei einer Linse, die nur die Pupille bedeckt, geschehen würde. In die Kontaktlinse ist eine kleine Spule eingearbeitet. Wird diese Spule nun durch ein elektromagnetisches Feld bewegt, NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007 Abbildung 1. Electro-Oculography [11] Abbildung 3. Pupille und Cornea-Reflektion [9] kann ihre Position durch Messung von Unterschieden des elektromagnetischen Feldes bestimmt werden. Diese Methode ist genau bis auf etwa 5-10 Bogensekunden über einen Bereich von ca. fünf Grad [14]. Allerdings erfordert das Einsetzen der Linsen viel Übung und das Tragen ist sehr unkomfortabel. Der Abstand zwischen Pupillenmitte und einer Cornea-Reflektion bleibt bei Kopfbewegungen relativ konstant, ändert sich aber bei einer Rotation des Auges. Neuere, so genannte Generation-V-Eye-Tracker, verwenden zusätzlich auch die vierte Purkinje-Reflektion, um zwischen Translation und Rotation des Auges zu unterscheiden. Bei Translationen des Auges wandern beide Purkinje-Reflektionen den exakt gleichen Weg. Bei Rotationen hingegen bewegen sie sich unterschiedlich weit. Diese Art des Trackings wird als Dual-Purkinje Image Technik bezeichnet [19]. Allerdings ist die vierte Purkinje-Reflektion relativ undeutlich, was eine sehr kontrollierte Lichtumgebung bedingt. Abbildung 2. Scleral Contact Lens [7] 3.3 Video-basierte Techniken Unter dieser Kategorie ist eine Menge von Erfassungsmethoden zu verstehen, die optische Aufnahmen des Auges zur Bestimmung dessen Position verwenden. Der Fachausdruck hierfür lautet VideoOculography [14]. Zur Erkennung der Augenposition werden die klar unterscheidbaren optischen Merkmale des Auges verwendet. Zu diesen gehören der Umriss der Pupille, Reflektionen auf der Cornea oder der Limbus (die Grenze zwischen Iris und Scalera). Das Erfassen des Limbus ist allerdings nur bedingt geeignet, da die Augenlider den Limbus teilweise überdecken. Daher ist diese Methode praktisch nur zum horizontalen Erfassen der Augenbewegungen geeignet [14]. Die Auswertung der Bilddaten geschieht heutzutage normalerweise automatisch. Vor dem Aufkommen von leistungsfähigen Rechnern ist die Auswertung aber durchaus auch manuell erfolgt, indem jedes Bild einzeln analysiert wurde. Die bisher betrachteten Methoden haben alle gemeinsam, dass sie nur die Augenposition relativ zum Kopf bestimmen können. Es ist daher nötig, den Kopf zu fixieren oder seine Position durch ein zusätzliches Tracking-System zu bestimmen. Bei der Video-Based Combined Pupil/Corneal Reflection werden mindestens zwei Referenzpunkte auf dem Auge genutzt, um Augenbewegungen von Kopfbewegungen zu trennen. Diese sind normalerweise das Zentrum der Pupille und eine Reflektion auf der Cornea. Die Reflektionspunkte auf der Cornea werden auch Purkinje-Reflektionen oder Purkinje-Bilder genannt. Durch den anatomischen Aufbau des Auges gibt es vier solcher Reflektionspunkte. Eye-Tracker verwenden üblicherweise den ersten und in manchen Fällen zusätzlich den vierten [14]. Abbildung 4. Die vier Purkinje-Reflektionen [6] Die Erzeugung der Reflektionspunkte geschieht üblicherweise durch eine Infrarotlichtquelle in Form von einer oder mehrerer Leuchtdioden. Diese IR-Quelle dient zusätzlich zur Beleuchtung des Auges mit IR-Licht, was den Vorteil bringt, vom Umgebungslicht unabhängig zu sein. Außerdem flexibilisiert eine IR-Beleuchtung die Befestigung der Kameras, da durch spezielle Spiegel nur das IR-Licht umgeleitet, sichtbares Licht aber durchgelassen wird. So können Kameras beispielsweise an der Seite des Kopfes angebracht werden. Eye-Tracker, die nach diesem Prinzip fuktionieren, können sowohl Head-Mounted, als auch Table-Mounted sein. Hierbei kompensieren die Table-Mounted-Systeme die tatsächliche Kopfbewegung, während die Head-Mounted-Systeme ein Verrutschen des Eye-Trackers auf dem Kopf kompensieren. 4 E YE -T RACKING -S YSTEME Es existiert eine Vielzahl von Eye-Tracking-Systemen. Im Rahmen dieser Arbeit wird nur auf videobasierte Systeme eingegangen. Diese können grob in Remote- und Head-Mounted-Systeme unterteilt werden. Bei Remote-Systemen befinden sind die Kameras fest montiert und unabhängig von der Testperson angebracht. Hierbei kann noch die Untergruppe der Head-Fixed Systeme herausgehoben werden, bei denen der Kopf fixiert wird, um ein genaueres Tracking zu ermöglichen. Bei Head-Mounted-Systemen sind Kameras und IR-Lichtquellen relativ zum Kopf angebracht. Dies geschieht durch ein Gestell oder eine spezielle Brille. Nachfolgend wird ein Überblick über die verbreitetsten Systeme und deren technische Merkmale und Aufbau gegeben. 4.1 Remote-Systeme Hierbei sind die Kameras, die die Augenbewegungen aufzeichnen und die Infrarotlichtquellen fest, auf beispielsweise einem Tisch, vor dem Monitor positioniert. Diese Systeme haben den Vorteil, dass die Testperson kein beengendes Gestell auf dem Kopf tragen muss. Zudem wird das Blickfeld nicht beeinträchtigt. Allerdings ist die Genauigkeit schlechter als bei Head-MountedSystemen, da nur einen kleiner Bildausschnitt für das eigentliche Auswerten der Augenbewegung genutzt werden kann. Zudem beeinträchtigen Kopfbewegungen sie Genauigkeit, da diese schwer zu kompensieren sind. 4.1.1 Das Tobii-System Tobii bietet kommerzielle Remote-Lösungen an. Die Tracking Systeme sind direkt in einen Monitor integriert. Das Unternehmen bietet Lösungen für Analyse bzw. Studien (T60/T120) und für Menschen mit Behinderungen (P10/D10) an. Die P10/D10 Systeme können dabei auch an Rollstühlen befestigt werden. Zusätzlich wird ein Standalone-System (X120)angeboten, das ohne einen Monitor ausgeliefert wird. Tobii gibt die Genauigkeit seiner Tracker mit 0,5◦ an bzw. 0,5 cm an. Die Datenrate beträgt 60 bzw. 120 Hz, anhängig von der Ausführung. Die Arbeitsdistanz wird mit 50-70 cm angegeben. Der Kopf kann, je nach System, in einem Bereich von 30x15x20cm bis 44x22x30cm bewegt werden. Zusätzlich bietet Tobii Software für die Evaluation von Augenbewegungen (Tobii Studio Analysis Software), sowie für die Interaktion mit den Augen (MyTobii Software) an [13]. LC gibt die durchschnittliche Genauigkeit mit 0,45◦ bzw. 0,38 cm bei einem Abstand von Kopf zu Monitor von 51 cm an. Der Kopf darf sich dabei um ca. 3 cm in jede Richtung bewegen. Die Datenrate beträgt 60 Hz. [8] Abbildung 6. The Eyegaze Analysis System [8] 4.2 4.2.1 Abbildung 5. Tobii T60/T120 [13] 4.1.2 LC Technologies EYEGAZE LC Technologies bietet Systeme für Analyse und Interaktion an. Die Systeme sind so aufgebaut, dass eine Kamera unterhalb eines handelsüblichen Monitors angebracht wird. Das System, das für Interaktion entworfen wurde (The Eyegaze Communication System) kann an einem Rollstuhl befestigt werden. LC Technologies hat zudem eine Point-and-Click Lösung entwickelt, die die Kontrolle von militärischen Fahrzeugen erleichtern soll. Die Systeme haben die Besonderheit, dass sie eine Kamera mit Zoomfunktion nutzen. Dadurch wird die Genauigkeit erhöht, allerdings sinkt auch die Toleranz gegenüber Kopfbewegungen. Head-Mounted Systeme Head-Mounted-Systeme haben die Kameras und IR-Lichtquellen relativ zum Kopf befestigt. Dies geschieht üblicherweise über ein Headband oder eine Brillenkonstruktion. Man kann grob zwischen zwei Kategorien unterscheiden: Eye-Tracker, die für Tests an einem Arbeitsplatz entworfen wurden und solche, die für den mobilen Einsatz bestimmt sind. Die ersteren werden eingesetzt, um den Blickpunkt auf einem Display zu bestimmen. Bei ihnen sind Schnelligkeit und Genauigkeit von großer Bedeutung, um beispielsweise einzelne Sakaden zu identifizieren. Solche Systeme sind relativ schwer und unkomfortabel, da sie sehr fest fixiert werden müssen. Sie verwenden Hochgeschwindigkeitskameras, die mit bis zu 1000Hz arbeiten. Diese Systeme arbeiten üblicherweise binokular. Systeme, die für den mobilen Einsatz bestimmt sind, haben den Zweck, den Fokuspunkt der Testperson in der Umgebung festzustellen. Hierzu wird eine Szenekamera verwendet, die in Kopfrichtung filmt und auf deren Bild der Fokuspunkt der Testperson eingezeichnet wird. Dabei soll sich die Testperson auch möglichst frei bewegen können. Die Ausführung ist meist sehr minimal und leicht gehalten, um die Testperson wenig einzuschränken. Es folgt eine kurze Übersicht über die verbreitetsten Systeme. SR Research Ltd. EyeLink II Dieses System wird über ein Headband auf dem Kopf befestigt. Die Kameras und IR-LEDs sind über ein Gestell unterhalb der Augen angebracht. Zusätzlich ist eine Frontkamera in das Gestell eingebaut. Diese hat den Sinn, an den Rändern des Monitors befestigte aktive IR-Lichtquellen zu erkennen und daraus die Kopfposition im Raum zu bestimmen. [10] Das Erfassen der Augen geschieht, laut Hersteller, mit 500Hz und einem durchschnittlichen Blickpositionsfehler von 0,5◦ . Die Auflösung beträgt 0,025◦ - 0,01◦ , je nach verwendetem Modus. Es kann sowohl nur die Pupille, als auch die Pupille mit der ersten und der vierten Purkinje-Reflektion erfasst werden, was die Einsatzflexibilität steigert. 4.2.2 SMI Research SMI bietet verschiedene mobile Lösungen an. Zum einen eine hochmobile, portable Ausführung (iView X HED). Diese dient dazu, den Fokuspunkt im Blickfeld zu erfassen, was anschließend durch das Abtragen auf das Bild einer Szenenkamera visualisiert wird. Die Datenrate beträgt 50-200Hz, die Auflösung 0,1◦ und die Genauigkeit 0,5◦ 1◦ (Herstellerangaben). Darüber hinaus bietet SMI einen Tracker an, der für klinische Studien bestimmt ist (3D VOG Video-Oculography System). Bei diesem NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007 Abbildung 9. 3D VOG Video-Oculography System [5] Abbildung 7. SR Research Ltd. EyeLink II [10] den Autoren verwendete Starburst-Algorithmus kommt auch in dem in dieser Arbeit vorgestellten Eye-Tracker zum Einsatz. [16] ist hervorzuheben, dass er die Augenbewegung in 3 Dimensionen erfasst, also auch die Torsion erkannt wird. Zusätzlich wird die Kopfposition durch einen linearen 3D-Beschleunigungssensor und einen 3D Rotationssensor erkannt. Die Auflösung beträgt 0,05◦ bis 0,1◦ (Herstellerangaben). Es werden beide Augen gefilmt. Die Kameras sind an der Seite des Kopfes angebracht und erkennen das Auge über Spiegel. [12] Abbildung 10. openEyes: a low-cost head-mounted eye-tracking solution [16] 5 D ER E IGENBAU E YE -T RACKER Der C-ETD Eye-Tracker der Firma Chronos Vision ist ein sehr schnelles System, das vor allem durch seine Datenrate von über 1000Hz hervorsticht. Wie bei den Systemen von SR Research und SMI wird auch hier binokular garbeitet. Der Tracker wird durch ein Headband am Kopf befestigt. Die Auflösung beträgt weniger als 0,1◦ bei einer Latenzzeit von 2 ms (Herstellerangaben). Optional können Bewegungssensoren angebracht werden, um die Kopfbewegungen zu erfassen. [5] Im Rahmen dieser Arbeit wurde ein Prototyp eines Head-Mounted Eye-Trackers entwickelt. Dieser ist soll eine Lücke in der bestehenden Produktlandschaft schließen. Bestehende Systeme, die eine hohe Genauigkeit und Datenrate bereitstellen, sind sehr teuer, durchaus in fünfstelligen Beträgen. Lösungen, die günstiger sind, nutzen durchgängig einfache Kameras, die weder eine hohe Auflösung, noch eine schnelle Aufnahmerate bieten. Der Ansatz, der in dieser Arbeit präsentiert wird, bietet hohe Flexibilität und Leistung bei geringen Anschaffungskosten und unkompliziertem Aufbau. Das Einsatzszenario für diesen Eye-Tracker ist eine Anwendung vor einem großen, hochauflösenden Display. Dabei steht die Nutzung als Eingabemedium im Vordergrund, weniger die Verwendung als Analysewerkzeug. Der Eye-Tracker und die zugehörige Software sind in der Lage, die Pupillenmitte eines Auges zu bestimmen. Da vor dem relevanten Display ein Body-Tracking System installiert ist, ist die Erfassung der Pupillenmitte mit entsprechender Kalibration ausreichend zur Bestimmung des Fokuspunkts auf dem Display. 4.2.4 5.1 Abbildung 8. 3D VOG Video-Oculography System [12] 4.2.3 Chronos Vision C-ETD openEyes: A low-cost head-mounted eye-tracking solution Dieser nicht-kommerzielle Eye-Tracker von Li, D., Babcock, J., Parkhurst, D. J. (2006) verwendet eine leichte Hardware, die an einer Brille angebracht ist. Im Fokus stehen die geringen Kosten, die die Autoren mit ca. 350 US Dollar bezeichnen. Das System besteht aus einer Brille, an der eine IR-LED, eine Augenkamera und eine Szenekamera befestigt sind. Die Augenbewegungen werden mit 30 Hz erfasst. Der von Aufbau des Eye-Trackers Der Eye-Tracker funktioniert nach dem Prinzip der VideoOculography. Das heißt, dass das Auge von einer Kamera gefilmt wird und Software nahezu in Echtzeit die Pupille erkennt. Als für Kamera und sonstige Anbauten wurde eine handelsübliche Arbeitsschutzbrille gewählt. Die Scheibe dieser Brille geht, ähnlich einer Skibrille, über eine große Fläche. Dadurch bietet die Brille auch ein robustes Plastikgehäuse für Befestigungen bei gleichzeitigem Tabelle 1. Technische Details der Kamera [1] Modellbezeichnung Sensortechnologie Anschluss Auflösung (v x h) Optisches Sensorformat Shuttersystem Max. Fps im Freerun-Modus bei voller Auflösung AOI Modi AOI mit 320 x 240 Pixeln (CIF) Subsampling Modi Subsampling Faktoren Pixeltaktbereich UI-1540-C CMOS USB 2.0 1280 x 1024 “ Rolling 25 fps H+V 232 fps H+V x2, x4 5 - 43 MHz Abbildung 11. Eigenbau Eye-Tracker hohem Tragekomfort durch elastisches Polstermaterial an den Brillenrändern. Da die Brille durchgängig auf dem Gesicht aufliegt, ist ein stabiler Sitz gegeben. Ein elastisches, verstellbares Band gewährleistet eine individuell einstellbare Passform. Die Kamera ist seitlich an der Brille befestigt. Da eine handelsübliche Industriekamera verwendet wurde, kam aufgrund des Gewichts und der Länge der Kamera keine andere Befestigungsposition in Frage. Die Kamera wird von einem Holzrahmen gehalten. Dieser Rahmen ist mit einer Metallstange im Rahmen der Brille gelagert. Dadurch sind Rahmen und Kamera drehbar, was eine individuelle Einstellung der Kameraposition auf eine Testperson ermöglicht. Da die Kamera an der Seite der Brille angebracht ist, ist ein Spiegel nötig, um das Auge zu filmen. Für den hier vorgestellten Prototyp wurde ein normaler Spiegel verwendet, der sowohl sichtbares, als auch Infrarotlicht spiegelt, was zum Testen des Prototypen ausreichend ist. Der Spiegel ist, wie auch die Kamera, über einen Holzrahmen drehbar im Brillenrahmen gelagert. Dadurch entsteht weitere Flexibilität bei der Anpassung auf eine Testperson. Unterhalb des Spiegels ist eine Leuchtdiode angebracht, die Licht im Infrarotbereich ausstrahlt. Diese dient zur Beleuchtung des Auges mit IR-Licht, um von äußeren Lichteinflüssen unabhängig zu sein. Die Diode ist für diesen Prototyp nur locker fixiert, da der Lichteinfluss auf das Auge schnell angepasst werden können muss. Die Diode wird über eine Batterie mit Spannung versorgt. Ein Ein/Aus-Schalter hilft, die Batterie zu schonen. Als Kamera wird das Modell uEye UI-1540-C der Firma iDS verwendet. Diese Kamera hat den Vorteil, dass sie ein StandardIndustriegehäuse besitzt. Das bedeutet, dass Objektive schnell gewechselt werden können, um unterschiedliche Konfigurationen zu testen. Außerdem passt so auch der Rahmen für unterschiedliche Kameramodelle gleichermaßen. Vor der Kamera wurde ein Infrarotfilter angebracht, um störendes Licht auszufiltern. Zusätzlich ist die SoftwareAPI, die iDS für seine Kameras bereitstellt, hilfreich. Als Objektiv wurde eine Weitwinkel-Objektiv von Pentax verwendet. Die Brennweite beträgt 4,8 mm, der Blendenbereich 1,8-C. 5.2 Der Tracking-Algorithmus Für diese Arbeit wurde der Starburst-Algorithmus von übernommen [17]. Dieser vereint merkmal- und modellbasierte Ansätze zur Erkennung der Pupille, der Cornea-Reflektion und deren Vektordifferenz. Merkmalbasierte Ansätze erkennen bestimmte Regionen und Punkte auf dem Auge mit Hilfe derer optischen Eigenschaften. Beispielsweise werden Schwellwerte eingesetzt, um besonders helle (z.B. die Cornea-Reflektion) oder dunkle (z.B. die Pupille) Regionen des Auges zu bestimmen. Modellbasierte Ansätze verwenden geometrische Modelle, die dann auf das Auge abgebildet werden. So wird zur Erkennung der Pupille beispielsweise versucht, eine Ellipse in das Bild hineinzupassen. Die beste Passform bestimmt dann die Position der Pupille. Solche Ansätze verwenden meist iterative Techniken. Abbildung 12. Eigenbau Eye-Tracker Der für diese Arbeit verwendete Algorithmus nutzt eine Kombination beider Ansätze. Hierbei wird zuerst die Cornea-Reflektion mit Hilfe eines Schwellwerts, der auf einen bestimmten Bereich des Bildes angewendet wird, erkannt. Nach dem Speichern ihrer Position wird sie dann mittels einer auf eine bivariante Gaußverteilung angewendete radiale Interpolation aus dem Bild entfernt. Dies ist nötig, um in den folgenden Schritten die Pupille verlässlicher erkennen zu können. Im nächsten Schritt sollen möglichst viele Punkte, die auf dem Rand der Pupille liegen, erkannt werden. Hierzu werden von einem beliebigen Startpunkt im Bild Strahlen in alle Richtungen ausgesandt. Sobald ein solcher Strahl einen Übergang von dunkel nach hell passiert, der einen bestimmten Grenzwert überschreitet, wird der Strahl gestoppt und der resultierende Punkt gespeichert. Dies ist motiviert durch die dunkle Pupille, die rundherum nur in hellere Regionen übergeht. Dieser Vorgang wird nun für alle Punkte des ersten Durchgangs wiederholt. Allerdings werden die Strahlen nun nur in einem Bereich von 50◦ in Richtung des initiellen Startpunkts verschossen. Hierdurch erzeugt ein Punkt, der auf dem Pupillenrand liegt, nur neue Punkte, die auch auf dem Pupillenrand liegen. Nach diesen zwei Stufen erhält man typischerweise ein Ergebnis, das viele Ausreißer, aber auch eine große Zahl von Punkten enthält, die auf dem Pupillenrand liegen. Um die Pupille nun genauer erkennen zu können, wird der Durchschnitt der schon erkannten Punkte als Ausgangsposition für einen neuen Durchgang genommen. Dieser neue Durchgang besteht wieder aus den oben beschriebenen zwei Phasen. Es werden nun mehrere Iterationen durchgeführt, was dazu führt, dass die neu generierten Startpunkte zur Pupillenmitte konvergieren. Es sind typischerweise ca. 5 Iterationen nötig, um ein gutes Ergebnis zu erhalten. Die erkannten Punkte aus der letzten Iteration werden als NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007 Abbildung 13. Bild der Kamera bei voller Auflösung Abbildung 14. Bild der Kamera nach gesetztem Aspect-Of-Interest Eingabe für den nächsten Schritt im Algorithmus verwendet. Die Pupille hat die Form einer Ellipse. Ziel des nächsten Schrittes ist, den Mittelpunkt dieser Ellipse möglichst genau zu bestimmen. Der übliche Ansatz hierzu ist die Verwendung der least-squares Analyse. Diese wird genutzt, um die Werte von unbekannten Mengen in einem statistischen Modell zu bestimmen. Dies geschieht durch die Minimierung der Quadrate der Residuen. Ein Residuum ist die Differenz zwischen geschätztem Wert und empirischem Wert. Diese Methode hat allerdings den Nachteil, dass sogenannte Outliner nicht berücksichtigt werden. Als Outliner sind in unserem Fall Punkte zu verstehen, die nicht auf dem Pupillenrand liegen, also beispielsweise auf der Grenze von Limbus und Lid. Um nun auch mit solchen Outlinern umzugehen wurde die Random Sample Consensus (RANSAC) Methode angewendet. Diese betrachtet nicht die Datenmenge als Ganzes, sondern viele kleine Teilmengen. Diese Teilmengen werden dann auf ein Modell aufgelegt. Danach wird das Modell gesucht, das der gesamten Datenmenge am besten entspricht. Anschließend wird noch die Vektordifferenz zwischen Pupille und Cornea-Reflektion ermittelt, was aber für diese Arbeit nicht relevant war. 5.3 Die Software-Umsetzung Der oben beschriebene Algorithmus ist als Open Source Projekt erhältlich (cvEyeTracker) [4]. Dieses Projekt nutzt OpenCV [3], eine Computer-Vision Bibliothek von Intel, zur Verarbeitung der Bilddaten. Beide Projekte sind in C++ geschrieben. Für das für diese Arbeit entwickelte Testprogramm wurde ein C++Programm verfasst, das die Kameradaten ausliest und an den Algorithmus übergibt. Das Auslesen des Kamerabilds erfolgt durch die API des Kameraherstellers. Das Kamerabild wird in einem Fenster in Echtzeit ausgegeben. Außerdem wird die vom Algorithmus berechnete Ellipse in das Bild eingezeichnet. So ist eine Überprüfung durch den Bediener möglich. Auch kann so die für die Beleuchtung zuständige IR-Leuchtdiode flexibel auf die optimale Position eingestellt werden. Abbildung 15. Mermalserkennung: Schritt (a) zeigt das Ergebnis des ersten Durchlaufs. (b) und (c) Zeigen zwei Ergebnisse des zweiten Durchlaufs. In (d) und (e) sind die Startpunkte der neuen Iterationen durch einen roten Punkt gekennzeichnet. (f) zeigt, dass die Startpunkte zur Pupillenmitte hin konvergieren [16] Abbildung 16. Herausfiltern der Outliner (rot) durch RANSAC [16] Um die Kameraleistung zu verbessern, hat der Nutzer die Möglichkeit, den Aspect-Of-Interest (AOI) manuell zu wählen. Dies geschieht durch aufziehen eines Rechtecks mit der Maus in dem Fenster, das das Kamerabild darstellt. Der AOI der Kamera ist initiell auf das Maximum, also 1280x1024, eingestellt. Durch die Verwendung eines Objektivs mit geringer Brennweite ist sichergestellt, dass das Auge immer im Kamerabild sichtbar ist. Das Beschränken der AOI auf die unmittelbare Umgebung des Auges erhöht die Verlässlichkeit des Algorithmus, sowie die Schnelligkeit der Kamera. Ein üblicher Bildausschnitt beträgt ca. 350x250 Pixel, was Kamerageschwindigkeiten von bis zu 200 fps zulässt. 6 S CHLUSS Das in dieser Arbeit präsentierte System ist in der Lage, in, für Interaktionszwecke, ausreichender Geschwindigkeit und Genauigkeit zu arbeiten. Zudem ist es flexibel genug, um auf verschiedene Testpersonen oder Kamerakonfigurationen schnell angepasst zu werden. Noch nicht realisiert ist die Anbindung des Head-Tracking Systems. Dies ist nötig, um den endgültigen Fokuspunkt des Nutzers auf dem Display Abbildung 17. Endergebnis mit auf die Pupille aufgepasster Ellipse [16] zu berechnen. Zudem sind weitere Feinabstimmungen am Algorithmus nötig, um die erforderte Robustheit für sich verändernde Lichtverhältnisse zu schaffen. L ITERATUR [1] ueye prospekt. quelle: http://www.mvplus.co.in/dawnloads/productbased/camera/ids/ueyeueyereprospektnd.pdf. [2] Webquelle: http://en.wikipedia.org/wiki/eyetracking. [3] Webquelle: http://sourceforge.net/projects/opencvlibrary/. [4] Webquelle: http://thirtysixthspan.com/openeyes/cveyetracker1.2.5.tar.gz. [5] Webquelle: http://www.chronos-vision.de/. [6] Webquelle: http://www.diku.dk/ panic/eyegaze/node9.html. [7] Webquelle: http://www.dizziness-and-balance.com/practice/images/eyecoil.jpg. [8] Webquelle: http://www.eyegaze.com/. [9] Webquelle: http://www.eyegaze.com/2products/development/devimages/devbroch2.jpg. [10] Webquelle: http://www.eyelinkinfo.com/index.php. [11] Webquelle: http://www.metrovision.fr/mv-po-notice-im18.jpg. [12] Webquelle: http://www.smivision.com. [13] Webquelle: http://www.tobii.com/. [14] A. T. Duchowski. Eye-Tracking Methodology: Theory and Practice. Springer Verlag London, 2003. [15] T. Hutchnson. Eye Movement Detector. U.S. Patent 4,836,670, 1989. [16] J. Li, D. Babcock and D. J. Parkhurst. openeyes: A low-cost headmounted eye-tracking solution. In Proceedings of the ACM Eye Tracking Research and Applications Symposium, 2006. [17] W. D. P. D. J. Li, D. Starburst: A hybrid algorithm for video-based eye tracking combining feature-based and model-based approaches. In Proceedings of the IEEE Vision for Human-Computer Interaction Workshop at CVPR, 1-8, 2005. [18] J. e. a. Merchant. A Remote Oculometer Permitting Head Movement. Aerospace Medical Research Laboratory,WrightPatterson Air Force Base, AMRL-TR-73-69, 1973. [19] C. D. d. G. . G. R. Mller, P. U. A comparison of a new limbus tracker, corneal reflection technique, purkinje eye tracking and electro-oculography, in G. d’Ydewalle J. V. Rensbergen, eds, Perception and Cognition. Elsevier Science Publishers, B.V., 1993. NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007 Bau eines Multitouch Displays Dominik Schmucki und Jochen Oekonomopulos Abstract—Multitouch Displays erlauben es dem Benutzer Eingaben mit mehreren Fingern auf einmal durchzuführen. Somit erhält man völlig neue Steuermöglichkeiten, da man mit mehreren Fingern von verschiedenen Händen relativ komplexe, eindeutige Befehle auf einer Ebene anzeigen kann. Index Terms—Multitouch, Display, Eingabegerät. 1 E INLEITUNG Ein normales berührungssensitives Display hat den Vorteil, dass es Ein- und Ausgabegerät miteinander kombiniert. Es wird dem Benutzer ermöglicht, mit seinen Händen direkt auf dem ausgegebenen Bild Befehle in den angeschlossenen Computer einzugeben. Die Benutzung eines weiteren Eingabegeräts (und die damit verbundene eventuelle Eingewöhnungsphase) ist somit nicht erforderlich. Allerdings kann es lediglich eine Berührung zur Zeit feststellen. Somit sind die Interaktionsmöglichkeiten auf sequentielle Eingaben begrenzt, ähnlich der Interaktion über eine Eintastenmaus. Diese Einschränkung verbietet in vielen Anwendungen einfache und intuitivere Möglichkeiten der Kommunikation mit einem Programm. Ein Multitouch Display hingegen nutzt die Vorteile des herkömmlichen berührungssensitives Displays und fügt die Funktionalität hinzu es mit mehreren Fingern gleichzeitig zu bedienen. So kann man eigene Gesten, die man mit mehreren Fingern auf dem Display eingibt, entwickeln und diese dann in eine komplexe Befehlsfolge für diverse spezifische Programme umwandeln. Diese Entwicklung erlaubt eine sehr intuitive Eingabe von Befehlen, sowie eine direkte Manipulation von Objekten auf dem Display. Wollte man zum Beispiel ein Objekt wie ein Foto auf dem Display drehen, wäre eine denkbare Geste mit zwei Fingern zu bewerkstelligen: Ein Finger wird fest auf das zu drehende Objekt gelegt und fungiert als die Achse, um die sich das Objekt drehen wird. Den zweiten Finger legen wir ebenfalls auf das Objekt und ziehen ihn auf dem Display in die gewünschte Drehrichtung. Zu beachten ist, dass die Ansätze für eine spezifische Fingererkennung noch am Anfang ihrer Entwicklung stehen. Es wird keine Unterscheidung der Finger vorgenommen, mit denen man die Eingabe macht. Wenn diese Hürde einmal genommen ist, werden zwar weniger intuitive, aber dafür komplexere und dennoch kompaktere Befehle möglich sein, indem man verschiedenen Fingern verschiedene Funktionalität zuweist. Darüber hinaus ist die Bedienung am Multitouch Display nicht nur auf eine Person beschränkt. Microsoft zeigt mit seinem Surface Projekt eine schöne Arbeitsumgebung, um mit meheren Menschen an einem Computer, wie an einem Tisch zu arbeiten. Als einführendes Beispiel für eine Anwendung, bei der die Multitouchfähigkeit eines Displays große Vorteile bietet, seien an dieser Stelle Landkartenprogramme wie NASA Worldwind oder Google Earth genannt. Das gerade Geoinformations-Anwendungen einfach via Multitouch zu bedienen sind, liegt daran, dass Operationen wie Zoomen und Rotieren sehr intuitiv mit mehreren Fingern bewerkstelligt werden können. Die Multitouch Forschungen haben bereits Anfang der 1980er Jahre begonnen [1]: 1.1 DigitalDesk 1991 stellte Pierre Wellner den DigitalDesk [5] der Öffentlichkeit vor. Dabei wird über einer glatten Oberfläche ein Projektor sowie eine Kamera installiert. Das Bild des Projektors wird auf die Oberfläche projeziert und die Kamera kann über eine Bildbearbeitungssoftware Berührungen mit dem Display erkennen. Bei dieser Technik gab es Abbildung 1. DigitalDesk das Problem, dass der Benutzer aufpassen musste, um nicht seinen eigenen Finger mit dem Rest seiner Hand vor der Kamera zu verdecken. 1.2 Digital Tape Drawing Eine weiter Technik stellte das Digital Tape Drawing Projekt [2] dar, dass 1999 vorgestellt wirde. Tape Drawing, also das Malen mit Klebeband, ist ein wichtiger Bestandteil des Automobildesigns. Dabei werden Formen von Karosserien in grossen Massstäben an eine Wand geklebt und mit ihnen gearbeitet. Doch das so entstehende Modell kann nicht erhalten werden, da es zerfaellt, sobald man es wieder von der Wand ablöst. Hier setzt das Digital Tape Drawing an, dass es dem Ingenieur ermöglicht vor einem Display zu stehen, und via Multitouch ein digitales Klebeband so verformen kann, wie er es von dem richtigen Band gewohnt ist. Die Technik wurde eigens für dieses Einsatzgebiet angepasst und kann somit schwer auf andere Gebiete erweitert werden. Das Display ist riesig, um auch 1:1 Modelle abbilden zu können und somit stationär. Desweiteren wurde die Multitouch Technik lediglich auf zwei Punkte reduziert und ist in Wirklichkeit auch kein echtes Multitouch, im Sinne des Wortes. Der Benutzer bekommt ein Eintastengerät in jede Hand, von dem die Position vor dem Display in Echtzeit ermittelt wird. Möchte der Benutzer eine Interaktion ausführen, so muss er nur die Taste drücken. Das funktioniert auf diesem Anwendungsgebiet sehr gut, da die Aktionen, die ein Ingenieur beim Tape Drawing vornimmt auf einige wenige beschränkt sind. 1.3 SmartSkin Im Jahr 2002 stellte Jun Rekimoto von Sony den SmartSkin [4] vor. Dabei handelt es sich um einen Tisch als Projektionsfläche, an dem NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007 Abbildung 2. Digital Tape Drawing mehrere Benutzer sitzen und Objekte auf der Projektionsfläche manipulieren können. Rekimoto benutzte hierfür nicht wie Wellner eine Kamera, sondern überzog den Tisch mit einem Sensornetz, dass die verschiedenen Berührungen registrierte. So brauchte er sich nicht um die Lichtanfälligkeit der Sensorkameras zu kümmern. Abbildung 4. Multitouch Demonstration auf Jeff Han’s Display Abbildung 5. Microsoft Surface Computer: Zugriff auf die Informationen von zwei auf das Surface gelegten Telefonen Abbildung 3. SmartSkin 1.6 1.4 Jeff Han’s Display Einen Durchbruch in der Öffentlichkeit erzielte Jefferson Han von der New York University im Jahre 2006, als er einen sehr kostengünstigen Prototypen bei der TED vorstellte [3]. Ein weiterer Vorteil neben den gerignen Kosten, ist der Aufbau des Displays. Han plazierte Beamer und Kamera hinter dem eigentlichen Display, so dass die Hand des Benutzers nicht mit den Eingabefingern interferriert. 1.5 Microsoft Surface Der Surface Computer von Microsoft aus dem Jahr 2007 geht noch einen Schritt weiter als normale Multitouch Displays. Naben der Bearbeitung der Oberfläche mit unterschiedlichen Gegenständen wie zum Beispiel verschiedenen Malpinseln, wird dem Benutzer die Interaktion mit dem Computer über normale Gegenstände ermöglicht, die allerdings speziell elektronisch markiert sein müssen. So kann man zum Beispiel sein Handy auf das Display legen und erhält (dann über Bluetooth oder WLAN) Zugriff auf die Speicherkarte und verschiedene Einstellungen des Telefons. Oder Man stellt ein Glas auf dem Display ab, dessen Markierung Informationen über das enthaltene Getränk enthält. Nachbau Wir haben uns entschieden, bei unserem Nachbau die von Han vorgestellte Technik zu verwenden. Dies hat verschiedene Gründe: zum einen gibt es schon einige Projekte, die sich mit einem Nachbau des Han Displays beschäftigen und Zugriff auf ihre Erfahrungen und Ergebnisse gegeben haben, und zum anderen ermöglicht Han den Bau einer vergleichsweise günstigen Variante eines Displays. 2 T ECHNIK In eine Plexiglasscheibe wird Infrarotlicht über die Seitenkanten eingestrahlt. Aufgrund von totaler innerer Reflexion tritt dieses Licht nur aus, wenn ein Gegenstand mit einer höheren optischen Dichte als das Plexiglas auf die Scheibe gelegt wird (wie zum Beispiel ein Finger). Dieses austretende Licht wird mit einer Infrarotkamera aufgenommen, und an einen Computer gesendet, der die Berührungspunkte in Koordinaten umrechnet. Das Prinzip der Totalen inneren Reflexion: Jedes Medium i hat eine eigene Dichte ni . Trifft Licht auf die Grenze zweier Medien, so gibt es drei Möglichkeiten, was mit dem Licht passiert: • Das Licht trifft genau im Lot auf die Mediengrenze: Abbildung 6. Prinzip des Multitouch Displays In diesem Fall passiert gar nichts, sofern die Medien Lichtdurchlässig sind. Das Licht wird in seiner Richtung nicht geändert und tritt in das andere Medium über • Das Licht trifft in einem zum Lot kleineren Winkel als θ auf die Mediengrenze, wobei θ abhängig von der Dichte n1 und n2 der zwei Medien ist (rote Markierung in Abbildung 2): Ein Teil des Lichts wird im inneren des ersten Mediums reflektiert (dieser Teil wird größer, je näher sich der Einfallswinkel an θ annähert). Der Rest des Lichts wird gebrochen, also in seiner Richtung geändert und geht in das zweite Medium über. • Das Licht trifft in einem Winkel zum Lot auf die Mediengrenze, der größer oder gleich θ ist (grüne Markierung in Abbildung 2): Das Licht wird an der Mediengrenze total reflektiert und bleibt im Inneren des Mediums. 3 V ERWENDETE M ATERIALIEN 3.1 Diffusor Um auf der Oberfläche, auf der man arbeitet, auch ein Bild zu sehen, wird ein Beamerbild auf die Scheibe projiziert. Damit dieses auf der Scheibe sichtbar wird, muss ein so genannter Diffusor installiert werden. Das beste Bild haben wir mit einem Angerauten Plexiglas erhalten. Es war gestochen scharf und gab bei der Berührung ein gutes sensitives Feedback. Darb̈er hinaus war es leicht den Finger auf dem Display zu bewegen, was bei einem glatten Plexiglas nicht immer der Fall ist, da die Fingeroberfläche bei viel Bewegung Feuchtigkeit verliert und es zu Reibung kommt. Einsetzen konnten wir es allerdings weder als Kombination aus Diffusor und Plexiglas, da eine totale innere Reflexion des Infrarotlichts eben durch die Rauhe Oberflächenstruktur nicht möglich war. Noch als reinen Diffusor, da das vom Finger reflektierte Infrarotlicht zu sehr gestreut wurde. Auch der Test mit einem diffusen Plexiglas (Milchglas) brachte keine zufriedenstellenden Ergebnisse (siehe Abbildung 8), da das vom Finger reflektierte Infrarotlicht, genau wie bei dem angerauhten Plexiglas zu sehr gestreut wurde. Unsere Tests haben ergeben, dass der beste Kompromiss in Sachen Kosten und Abbildungsleistung ein Bogen herkömmliches Pauspapier ist. Unser Wunsch es, aufgrund von Berührungseigenschaften, vor das Plexiglas anzubringen, war nicht möglich. Sobald man mit dem Finger das Papier auf das Plexiglas drückte, bekam man keine punktgenaue Fingerrepräsentation, sondern einen grossen Klecks, sehr ähnlich zu Abbildung 8, der daher kam, dass immer ein bischen mehr Diffusor das Plexiglas berührte, als der Teil den man durch den Finger auf das Glas drückte. Diesen Overhead kann man auch nicht einfach herausrechnen, da er je nach Position des Fingers (nah am Rand oder in der Mitte) und vor allem dem ausgeübten Druck, variierte. Und selbst wenn dies möglich wäre, so bekommt man spätestens dann Probleme, wenn man zwei Finger erkennen möchte, die so nah beieinander sind, dass sich ihr Overhead überlagert. Also brachten wir den Diffusor hinter der Plexiglasscheibe an und konnten damit gute Ergebnisse erziehlen. Beim Multitouch Display machen wir uns diese Eigenschaft der Medien zunutze, indem wir das Infrarotlicht so in die Scheibe schicken, dass es an der Scheibengrenze immer wieder reflektiert wird. Damit es nicht an den Rändern aus der Scheibe austritt, haben wir diese, an den Stellen an denen sich keine IR-Dioden befinden, mit spiegelndem Klebeband verklebt. Wird nun ein Finger auf die Plexiglasscheibe gelegt, so ändert man an dieser Stelle die Dichte des Mediums über der Scheibe, so dass diese höher ist, als die Dichte des Plexiglases. Das Licht, dass auf diese Stelle trifft, wird zum großen Teil zum Lot hin gebrochen und reflektiert und kann so, da es nun orthogonal zur Mediengrenze auf die andere Scheibenseite trifft, aus der Scheibe heraustreten und von einer IR-Kamera registriert werden. Abbildung 8. Diffusortest mit Rückprojektionsplexiglas. Umrisse sehr unscharf, schwer zu erkennen. Abbildung 7. Das Prinzip der Totalen inneren Reflexion 3.2 Beamer Es kann grundsätzlich jeder beliebige Beamer verwendet werden, der das vertikale Spiegeln des Ausgabebildes beherrscht. Die Spiegelung ist notwendig, damit das Bild für den Betrachter, der in die Richtung des Beamers schaut und nicht wie üblich vom Beamer weg, korrekt NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007 die Auflösung auf 640x480 Pixel beschränkt, was eine flüssige Erkennung bei 30 fps ermöglicht. Als Rechner für die Bilderkennung und -darstellung haben wir einen Intel Core 2 Duo mit 2 GHz und 2GB RAM verwendet. Abbildung 9. Diffursortest mit Pauspapier. Die Berührungspunkte sind viel klarer zu erkennen. Abbildung 11. Die Kamera mit aufgeklebtem Infrarotfilter. Auf dieser Abbildung noch nicht endgültig montiert. auf den Diffusor projiziert wird. Damit der Aufbau des Displays nicht zu viel Platz einnimmt, wird mit Vorteil ein Beamer mit Weitwinkelobjektiv verwendet. Ein Weitwinkelobjektiv erzeugt auf die gleiche Distanz ein wesentlich größeres Bild als ein herkömmliches Objektiv. Daraus ergibt sich ein geringerer Abstand zwischen Diffusor und Beamer. Die Auflösung sollte 1024x786 Pixel betragen. Wird ein Beamer mit höherer Auflösung gewählt, kann es sein, dass die Steuerung sehr ungenau wird: die verwendete Kamera hat eine maximale Auflösung von 1280x1024 Pixel. Für die Berührungserkennung kann aber nur ein Ausschnitt des aufgenommenen Bildes verwendet werden. Die Kamera ist am Holzrahmen hinter dem Display montiert. Damit auf das projizierte Bild keine Schatten geworfen werden, ist ein steiler Winkel der Kamera notwendig. Die Kamera liefert deshalb ein in der oberen Hälfte ungenaueres Bild der Displayrückseite. Durch die Kalibrierung der Kamera auf die aufzunehmende Fläche lässt sich dieser Umstand aber soweit korrigieren, dass der Benutzer nichts merkt, wenn er eine einigermassen grosse Eingabe, wie einen Finger benutzt. Bei genaueren Eingabegeräten, wie zum Beispiel einem Stift, wäre dieser Umstand sicher bemerkbar. Doch wäere auch das von dem Stift reflektierte Infrarotlicht zu schwach um bemerkt zu werden, da eine gewisse Filterung des Bildes stattfinden muss, um Artefakte wie Staub auf dem Display nicht als Eingabe zu verwerten. Abbildung 10. Weitwinkelbeamer können direkt hinter der Halterung für das Plexiglas platziert werden. Die Tafel auf der linken Seite schützt den Prototypen vor Sonnenlicht. 3.3 Kamera Die meisten veröffentlichten Konstruktionspläne von MultitouchDisplays sehen, meist aus Kostengründen, eine Webcam vor. Der Nachteil ist aber meist eine schlechte Auflösung, schlechte Bildqualität und geringe Framerate. Die von uns verwendete Kamera ist eine iDS uEye UI-2230-C mit einem aufgeklebten Hama Infrarotfilter. Die Bilderkennung benötigt viel Rechenleistung. Wir haben deshalb Abbildung 12. Plexiglas mit abgeklebter Kante. Die Oberfläche ist noch mit einer Schutzfolie abgeklebt. 3.4 Plexiglas Das verwendete Plexiglas hat eine Grösse von 700x900x10 mm. Es handelt sich dabei um ein GS Plexiglas (GS: gegossen, XT: extrudiert). Gegossenes Plexiglas ist hochwertiger als extrudiertes Plexiglas. Anmerkung: Plexiglas sollte nicht mit Alkohol oder Lösungsmittel gereinigt werden (Referenz: http://de.wikipedia.org/wiki/Polymethylmethacrylat). Da es verschiedene Typen von Plexiglas gibt, kann es sein, dass es für den hier beschriebenen Einsatzzweck (FTIR von IR-Licht) besser geeignetes Glas gibt als wir verwendet haben. Ein Physiker oder Kunststoffexperte könnte hier vielleicht weiter helfen. Durch den Bezug der verwendeten Plexiglasplatte in einer auf die Bearbeitung von Plexiglas spezialisierten Firma konnte viel Arbeit eingespart werden: um möglichst viel Licht von den im Rahmen angebrachten LEDs in das Plexiglas zu bringen, muss die Kante des Plexiglasplatte möglichst glatt sein. Versuche die Kante von Hand zu polieren scheiterten und erwiesen sich als zu aufwändig. Wir empfehlen deshalb die Kante direkt beim Lieferanten schwabbeln“ zu lassen. Der ” geringe Aufpreis steht in keinem Verhältnis zum Aufwand das ohne entsprechende Ausrüstung von Hand durchzuführen. Die Stellen an denen keine LEDs auf den Kanten aufliegen sind mit einem Aluminiumband (Autozubehör) abgeklebt um möglichst viel Licht zurück in die Platte zu reflektieren. Osram (SFH 4230). Jede einzelne dieser so genannten Power-LEDs besitzt eine Leistung von fast 2 W. Die flache Bauform ist ideal um sicherzustellen, dass so viel Licht wie möglich in das Plexiglas abgestrahlt wird. Gespiesen werden die LEDs von zwei Netzteilen der Firma Tridonic.Atco mit jeweils 10 W (eine Kette mit 5 LEDs in Serie, die andere mit 4). LEDs mit soviel Leistung müssen während des Betriebs zumindest passiv gekühlt werden. Der verwendete Rahmen aus Aluminiumprofilen eignet sich gut dafür. Die LEDs sind zuerst auf ein zugeschnittenes Stück Entwicklungsplatine und diese dann direkt in das Rahmenprofil eingeklebt worden. Abbildung 15. LED in Profil. Das Klebeband dient zum Schutz vor dem Klebstoff-Aktivator mit dem der Trocknungsprozess beschleunigt wird. Abbildung 13. Prototyp mit angeklebten LEDs. Die Kanten sind noch nicht verklebt. 3.6 Materialliste • Beamer, Kamera, IR-Filter: Lehrstuhl • Plexiglas: Mecacryl (Pfäffikon ZH, Schweiz), Deutschland: Firma Röhm • LEDs: Reichelt Elektronik • Netzteile: Tridonic.Atco (Ennenda, Schweiz) • Aluprofil: Industrieprofile, werden an vielen Stellen eingesetzt (Prototypenbau etc.) • Diffusor: Schreibwarenhandlung 3.7 Abbildung 14. Die LED wird auf einen Träger geklebt, ein kurzes Stück Draht angelötet und erst an dieses das Kabel. Auf diese Weise können Beschädigungen der LED durch zu grosse Hitze vermieden werden. 3.5 Infrarotlicht Der in den im Internet kusierenden Nachbauten gängige Ansatz bisher war die Verwendung einer hohen Zahl (zwischen 20 und 100) von Infrarot-LEDs mit einer Leistung von ca. 20 mW. Bedingt durch die Bauform (runde Kuppe), erweist es sich als schwierig, sämtliches emittiertes Infrarotlicht in das Plexiglas zu bringen. Möglichkeiten wäre das Begradigen des LED-Gehäuses oder das Anbohren des Plexiglases. Beides führt aber zu rauen Oberflächen die nachträglich mühsam poliert werden müssen. Wir verwenden insgesamt 9 LEDs des Typs Golden Dragon“ von ” Zusammenfassung und Aussicht Wir haben im Rahmen dieses Projekts das Display von Jeff Han nachgebaut. Da allerdings keine konkrete Anleitung von ihm verfügbar war, mussten wir uns teilweise auf vorhandene Nachbauten stützen und in diesem Zug eigene Materialtests durchführen, da entweder nicht immer sämtliche verwendete Materialien der Nachbauten verfügbar waren oder uns Möglichkeiten eingefallen sind vorhandene Probleme zu umgehen. Letzteres trifft vor allem auf die Entscheidung zu Power LEDs zu verwenden. Ein grosser Nachteil unseres Displays ist unserer Meinung nach das Gefühl der Bedienung. Durch trockene Finger kommt es zu Reibung auf dem Plexiglas und erfordert somit mehr Kraft des Benutzers bei Bewegungen. Vielleicht wäre es möglich ein leicht angerautes Plexiglas zu finden, dass den Ansprüchen der totalen inneren Reflexion genügt. ACKNOWLEDGEMENTS Die Autoren möchten sich ganz besonders bei dem Einsatz von David Schmucki bedanken, der uns mit seiner Zeit und seiner Fachkenntnis unterstützt hat, wo er nur konnte. NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007 L ITERATUR [1] B. Buxton. Overview of multitouch displays. http://www.billbuxton.com/multitouchOverview.html, 2007. [2] W. Buxton. Digital tape drawing. Proceedings of the ACM Symposium on User Interface Software and Technology (UIST’99), 161-169, 1999. [3] J. Han. Unveiling the genius of multi-touch interface design. TED 2006, February 2006. [4] J. Rekimoto. Smartskin: An infrastructure for freehand manipulation on interactive surfaces. CHI2002, 2002. [5] P. Wellner. The digitaldesk calculator: Tactile manipulation on a desktop display. Proceedings of the Fourth Annual Symposium on User Interface Software and Technology (UIST ’91), 27-33, 1991.