Seminar Reader - Mensch-Computer Interaktion

Transcription

Seminar Reader - Mensch-Computer Interaktion
SEMINAR READER – STUDENT WORK
Novel Input Devices for the Human-Computer
Interaction
Neue Eingabegeräte für die Mensch-Computer
Interaktion
2007
Prof. Dr. Harald Reiterer
Werner A. König
Human-Computer Interaction Group, University of Konstanz
Seminar Description:
Traditional input devices like mouse and keyboard are widely used for more than 40 years. Since the user
interfaces and their application domain and environment has changed over the years the question we
should ask is: "Do such input devices really fit our current/future requirements?" In the seminar we will
discuss this question particularly with regard to use cases, which need per se very flexible and mobile
interaction mechanisms, e.g. for presentations, collaborative work or for the general interaction with very
large displays. Conventional input devices are either not applicable or reveal several drawbacks for these
application domains. Therefore the students in this seminar will invent novel input devices and interaction
techniques e.g. for large displays like the Powerwall. In practice they may build up on existing tracking
frameworks for optical body-, hand- or laser-tracking or evolve radically new devices from scratch. The
students are encouraged to physically implement their ideas and use them in real scenarios. The seminar is
organized as a regular "workshop" with theoretical and practical topics.
http://hci.uni-konstanz.de
NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007
Fuchteln statt klicken - Feasibilitystudie und technische Umsetzung
zur Handgestenerkennung für die Interaktion an großen,
hochauflösenden Displays
Stephanie Föhrenbach
Abstract— Bei einer Interaktion mit großen, hochauflösenden Displays stossen herkömmliche Eingabegeräte wie die Maus und
die Tastatur schnell an Ihre Grenzen. Aufgrund der physikalischen Ausmaße und der hohen Informationsdichte der Darstellungsfläche, der limitierten Sehfähigkeit des Menschen und den wechselnden Interaktionsabständen und Positionen sind andere Geräte
zur Mensch-Computer-Interaktion gefragt. In dieser Ausarbeitung wird die Hand als Eingabegerät betrachtet und eine Methodik
zur Umsetzung einer Handgestenerkennung an großen, hochauflösenden Displays vorgestellt. Ein Handschuh in Kombination mit
einem optischen Trackingsystem dient zur Bestimmung der Fingerpositionen und der Lage der Hand. Zur Handidentifikation und
Fingerklassifizierung wird ein Algorithmus verwendet, welcher die Anatomie der Hand berücksichtigt und so eine sehr hohe Klassifikationsgenauigkeit erreicht. Die verwendeten Gesten werden aus alltäglichen Gesten abgeleitet und tragen damit zu einer als
natürlich empfundenen Interaktion bei. Das entwickelte System erreicht eine zeitnahe Verarbeitung mit einer vom Anwender nicht
wahrnehmbaren Verzögerung und ist somit zum Einsatz für die Mensch-Computer-Interaktion geeignet.
Index Terms—Freehand Gestures, Pointing, Very Large Displays, Whole Hand Interaction.
1 E INLEITUNG UND M OTIVATION
Große, hochauflösende Displays (LHRD) zeichnen sich durch eine
sehr große Darstellungsfläche mit einer hohen Auflösung aus. Die
Konstanzer Powerwall, welche in diese Kategorie von Displays fällt,
weißt eine Darstellungsfläche von 5,20 x 2,15 m mit 4640 x 1920 Pixel auf. Das limitierte menschliche Sehvermögen [10, 7] führt dazu,
daß sich Benutzer vor LHRD bewegen müssen, um die dargestellten
Informationen zu betrachten. Benutzer entfernen sich von der Darstellungsfläche um sich einen Überblick zu verschaffen und treten näher
heran um Details zu betrachten.
Diese notwendige Bewegungsfreiheit zu ermöglichen ist somit von
entscheidender Bedeutung bei der Auswahl eines geeigneten Eingabegerätes und beim Gestalten von Interaktionstechniken für LHRD. Balaktishan und Vogel [14] formulieren mehrere Charakteristikas, durch
welche sich eine Interaktion vor LHRD auszeichnen sollte: ’Accuracy’, ’Acquisition Speed’, ’Pointing and Selection Speed’, ’Comfortable Use’ und ’Smooth Transition between Interaction Distances’.
Es stellt sich die Frage in wie weit die Hand als Interaktionsgerät
mit Gesten zum Auslösen von Interaktionen diese Charakteristikas
erfüllen kann. In [1] wurden drei Eigenschaften von Handgesten als
Vorteil hervorgehoben:
1. Natural Interaction: Gesten sind einen natürliche Form des Kommunizieren und einfach zu erlernen.
erfüllen. Die natürliche Interaktion könnte sich direkt auf den Punkt
’Comfortable Use’ auswirken. Eine direkte Interaktion, kombiniert
mit der Möglichkeit mehrere Parameter gleichzeitig zu spezifizieren,
kann sich positiv auf die Punkte ’Acquisition Speed’ und ’Pointing
and Selection Speed’ auswirken. Zusätzlich dazu räumen Handgesten
die erforderliche Bewegungsfreiheit ein, und erzwingen nicht den Einsatz verschiedener Interaktionstechniken in Abhängigkeit der Entfernung vom Display, wie dies etwa bei Touchscreens der Fall ist. Zur
Auslösung einer Interaktion kann direkt vor dem Display die gleiche
Handgeste verwendet werden als auch in drei Metern Entfernung. Die
Bewegung des Benutzers könnte sogar als weiterer Parameter bei der
Interaktion ausgewertet werden und somit einen echten Mehrwert und
nicht nur ein notwendiges Übel darstellen.
2
T ECHNISCHER AUFBAU
UND
A NSATZ
Die Gestenerkennung soll zur Interaktion vor großen, hochauflösenden Displays (LHRD) verwendet werden. In dem konkreten Anwendungsfall wird eine Powerwall der Firma Barco verwendet, welche
an der Universität Konstanz installiert ist. Die Konstanzer Powerwall
weißt eine Darstellungsfläche von 5,20 x 2,15 m und eine Auflösung
von 4640 x 1920 Pixel auf.[11]
2. Terse and Powerfull Interaction: Eine Geste kann mehrere Parameter spezifizieren. So kann sie zusätzlich zu einem Kommando
auch dessen Parameter spezifiziern. Neben der Auswertung Geste ja/nein, kann auch die Art ihrer Durchführung in Betracht
gezogen werden, wie in etwa die Geschwindigkeit mit welcher
die Hand bewegt wird oder an welcher Position im Raum sich
der Gestikulierende befindet.
3. Direct Interaction: Die Interaktion geschieht unmittelbar basierend auf den Bewegungen der Hand. Die Bedeutung der Gesten
muss nicht vom Benutzer über ein weiteres Gerät dem System
bekannt gemacht werden.
Diese Eigenschaften lassen vermuten, dass Handgesten das Potential haben, zumindest einige der geforderten Charakteristiken zu
• Stephanie Föhrenbach, E-mail: [email protected].
Abbildung 1. Technischer Aufbau.
Vor der Powerwall interagiert der Benutzer über Handgesten mit der
Anwendung. Zum Tracken der Position und Lage der Hand mit ihren
Fingern im Raum vor der Powerwall wird das optische Trackingsystem DTrack der Firma A.R.T. advanced realtime tracking GmbH eingesetzt. Infrarot Kameras tracken sowohl passive als auch aktive Mar-
NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007
• Wird ein 6dof Target nicht eindeutig von allen Kameras erkannt,
befinden sich in den Outputdaten möglicherweise sowohl die Daten zum 6dof Target, als auch 3D Positionen einzelner Targetmarker als 3dof Objekte.
ker und Targets und senden die erfassten Daten mit einer Frequenz von
bis zu 60 Hertz via UDP an eine beliebige Zieladresse. Dort werden
diese dann analysiert und bilden die Rohdaten zur Gestenerkennung.
3
T RACKING S YSTEM DT RACK
• Ein einzelner 3dof Marker kann als zwei verschiedene Marker
mit abweichenden Positionen erkannt werden.
DTrack ist ein optisches Tracking System. Es basiert auf Infrarot Kameras, welche einen kalibierten drei dimensionalen Raum beobachten.
In diesem können, auf die Kameras abgestimmte, passive und aktive
Marker getrackt werden. Die getrackten Daten werden dann mit einer
Frequenz von wahlweise 60 oder 30 Hertz über UPD Pakete an eine vom Anwender beliebig konfigurierbare IP Adresse und Portnummer gesendet.[5] Abbildung 2 zeigt das im Raum vor der Powerwall
definierte Koordinatensystem. Es ist als Rechtssystem angelegt, d.h.
größere z-Werte gehen in den Raum hinein.
• Selbst wenn Marker oder Targets absolut ruhig gehalten werden, sind die dazu ermittelten Positions- und Rotationswerte über
mehrere UDP Pakete nicht konstant, sondern schwanken. Die
Abweichungen können dabei bis zu 1 mm betragen.
• Infrarotstrahlen, reflektierende Oberflächen, wie z. B. Reflektionsmarker auf Fahrradtaschen, und Sonnenlicht können sich
störend auf das Tracking auswirken.
• Ein ganz entscheidender Faktor für die Qualität der Trackingdaten ist eine exakte Raumkalibrierung, diese sollte sehr sorgfältig
durchgeführt werden.
4
H ANDERKENNUNG
4.1
Abbildung 2. Tracking Koordinatensystem vor der Konstanzer Powerwall
(=Raumkoordinatensystem).
Die Kameras senden Infrarotstrahlen aus, welche von passiven Markern reflektiert und dadurch von den Kameras erkannt werden. Aktive
Marker senden Infrarostrahlen aus, welche dann von den Kameras erkannt werden. Für einen einzelnen Marker kann das Trackingsystem
seine Position im Raum berechnen. Diese Art von Markern wird als
3dof (three degrees of freedom) Marker bezeichnet, was die drei Freiheitsgrade x, y und z einer 3D Position beschreibt.
Mehrere 3dof Marker können durch eine fixe Anordnung zu einem 6dof (six degrees of freedom) Targets zusammengestellt werden. Bei diesen Targets wird, zusätzlich zur Position im Raum, die
Rotation bezüglich der drei Achsen des Raumkoordinatensystems bestimmt und als Rotationsmatrix in den Outputdaten angegeben. Damit
ein solches Target erkannt wird, muss dieses einmalig kalibriert werden. Während jedes Target über eine eindeutige ID verfügt und damit
die zugehörigen Daten in dem UDP Paket referenziert werden können,
werden Marker fortlaufend durchnummeriert und behalten die gleiche
ID immer nur solange sie fortlaufend getrackt werden. Verliert das
Trackingsystem zwischenzeitlich den Marker, bekommt dieser beim
erneuten Erkennen nicht mehr die vorherige, sondern eine neue ID.
Damit ist das eindeutige Zuordnen von 3D Positionen innerhalb des
UPD Pakets zu Markern nicht möglich.[5]
Handschuhdesign
Um ein Tracken der Hand zu ermöglichen, wird die Hand durch Marker und Targets abgebildet. Die Grundlage bildet ein herkömmlicher
Kosmetikhandschuh. Dieser erlaubt ein schnelles Anlegen und verhindert gleichzeitig ein versehentliches Berühren der Marker mit der
Haut, was eine Beeinträchtigung ihrer Reflektionseigenschaft zur Folge hätte. Auf den Handschuh wird jeweils oberhalb des zweitäußersten
Phalanx1 des Daumen, Zeige-, Mittel- und kleinen Finger ein passiver
3dof Marker angebracht. Der Ringfinger wird ausgelassen, da dieser
von allen Fingern am wenigsten selbstständig und unabhängig von
den jeweils benachbarten Fingern bewegt werden kann. Zur Befestigung der Marker werden Senkschrauben mit einem M3 Gewinde vom
Handschuhinneren durch ein Loch geführt und mit Heißkleber fixiert.
Abbildung 4. Hand- und Fingerknochen.[13]
Eine solche Anbringung bringt folgende Vorteile mit sich:
• Die Anbringung oberhalb des Fingers erlaubt es dem Benutzer seine Hand weiterhin unbehindert zu verwenden. So können
z. B. auch mit angezogenem Hanschuh eine Tastatur bedient
oder handschriftliche Notizen gemacht werden. Dies wäre nicht
möglich, wenn die Marker vor der Fingerkuppe als direkte
Verlängerung der Finger oder unterhalb der Finger angebracht
werden.
• Eine Anbringung über dem zweitäußersten Phalanx schränkt die
Bewegungsfreiheit der Finger in Richtung der Handinnenfläche
nicht ein, wie es z. B. beim Bilden einer Faust der Fall ist. Die
Marker stoßen hierbei nicht mit der Handinnenfläche zusammen.
Zusätzlich dazu erlaubt es diese Positionierung, den Handschuh
wie gewohnt durch festhalten an den Fingerspitzen auszuziehen.
Abbildung 3. Tracking Objekte: Passive 3dof Marker und 6dof Targets.[6]
Bei einer Auswertung der Daten sind einige Eigenwilligkeiten des
Tracking Systems zu berücksichtigen:
• Marker, welche oben auf der Hand angebracht sind, können mit
der derzeit an der Powerwall angebrachten Kameras besonders
gut erkannt werden.
1 Als
Phalanx werden die einzelnen Fingerknochen bezeichnet[13]
FÖHRENBACH, STEPHANIE: HANDGESTENERKENNUNG FÜR DIE INTERAKTION AN GROSSEN, HOCHAUFLÖSENDEN DISPLAYS
Um neben den Positionen der einzelnen Fingern auch die Lage bzw.
die Orientierung der Hand im Raum bestimmen zu können, wird auf
den Handrücken ein 6dof Target angebracht. Dabei wird es so positioniert, daß sich ein Marker oberhalb des Zeigefinger-Handrückengelenks befindet. Dies ist später zur Berechnung der Cursorposition von
Bedeutung und wird in Abschnitt 5.2 näher erläutert. Bei dem Design
des Targets sollten folgende Punkte beachtet werden:
• Obwohl nur vier Marker zur Definition eines Targets notwendig sind, sollte eine höhere Anzahl verwendet werden. Dies
erhöht die Wahrscheinlichkeit der Targetidentifikation, selbst
wenn nicht alle Marker für die Kameras sichtbar sind.
• Bei der Markeranordnung des Targets ist darauf zu achten,
daß bei den am häufigsten vorkommenden Handhaltungen, die
Kameras möglichst viele Marker gleichzeitig sehen und diese
sich nicht gegenseitig verdecken.
• Die zum Körper hin angeordneten Marker sollten erhöht angebracht werden, damit diese bei einem Anwinkeln der Hand in
Richtung Körper länger sichtbar sind.
eindeutige Nummer für das Target vergeben. Der Targetursprung entspricht der Position für welche das Tracking System die 3D Koordinaten als Targetposition zurückliefert. Dieser Targetursprung ist nach
der Kalibrierung in den Marker oberhalb des Zeigefinger-Handrückengelenks zu verschieben. 2 . Die so festgelegte Position des Targetursprungs trägt bei der Gestenverwendung zu einer intuitiven Positionierung des Cursors bei.
4.3
Algorithmische Handerkennung und Fingerklassifizierung
Bewegt sich die Hand vor der Powerwall werden die 3dof Marker und
das 6dof Handrückentarget von dem Trackingsystem DTrack getrackt
und die Positions- und Rotationswerte mit bis zu 60 fps3 an eine beliebige IP Adresse mit zugehörigem Port versendet. Alle zu einem Zeitpunkt getrackten Objekte (3dof Marker und 6dof Targets) werden innerhalb eines Datenpakets versendet. Aus den übermittelten Werten ist
die Hand mit ihren Fingern zusammenzusetzten, folgende Informationen über die Inhalte der Datenpakete sind dabei relevant:
• 3dof Daten beinhalten eine 3D Position, welche die Position des
Markers innerhalb des Raumkoordinatensystems beschreibt.
• 6dof Daten beinhalten ebenfalls eine 3D Position, welche die
Position des Targets innerhalb des Raumkoordinatensystems beschreibt. Zusätzlich dazu wird eine Rotationsmatrix übermittelt,
welche die Rotation des Targets relativ zum Raumkoordinatensystems beschreibt. Ausgangslage zur Ermittlung der Rotationsmatrix ist die Lage des Handtargets während der Kalibrierung.
• Zu jedem Objekt wird eine BodyID übermittelt. 6dof Targets
können darüber eindeutig identifiziert werden, bei 3dof Marker
ist dies lediglich eine willkürlich Nummer, die bei jedem Neuerkennen eines Markers fortlaufend vergeben wird.4
Abbildung 5. Handschuh mit 3dof Markern und 6dof Target.
4.2
Kalibrierung des Handschuhs
Nach der Definition und Anbringung des 6dof Targets ist dieses zu
kalibrieren. Erst eine Kalibrierung schafft die Vorraussetzung um die
Lage der Hand im Raum zu bestimmen und die ermittelten Daten dem
Handschuh zuzuordnen.
Vorbereitend werden die 3dof Fingermarker von dem Handschuh
entfernt. Anschließend wird der Handschuh in eine Position gebracht,
die einem geraden Zeigen auf die Powerwall entspricht. Diese Ausrichtung ist bei der Cursorpositionierung von entscheidender Bedeutung (siehe Abschnitt 5.2).
Die Kalibrierung ist ’due to room’ durchzuführen, dadurch wird
die Rotation beim Tracken relativ zum Raumkoordinatensystem bestimmt. Die Lage, in welcher sich das Target während der Kalibirierung befindet entspricht dadurch einer Ausrichtung, in welcher das
Target keinerlei Drehung bezüglich einer der drei Achsen des Raumkoordinatensystems aufweist.[5] In nachfolgenden Abschnitten wird
diese Lage auch als ’Ausgangslage’ bezeichnet.
Abbildung 6. Kalibrierungsposition vor der Powerwall und die entsprechenden Einstellungen.
Durch die Kalibrierung wird die Markeranzahl und ihre geometrische Anordnung bestimmt, der Targetursprung definiert und eine
Der zur Erkennung und Zusammensetzung der Hand entwickelte
Algorithmus (siehe Abbildung 7) gliedert sich in drei Schritte:
1. Handidentifikation und Extraktion von potentiellen Fingern aus
dem jeweiligen Frame.
2. Finger-Handzuordnung und Noiseentfernung.
3. Klassifikation der Finger in Daumen, Zeige-, Mittel- und kleinen
Finger.
4.3.1
Schritt 1: Handidentifikation und Extraktion von potentiellen Fingern
Bei den Daten jedes 6dof Targets wird geprüft ob die BodyId der Id
eines Handtargets entspricht. Wenn ja, werden diese 6dof Daten und
alle 3dof Daten innerhalb des gleichen Frames extrahiert und dienen als Input für den zweiten Schritt des Algorithmus, der FingerHandzuordnung und Noiseentfernung.
4.3.2 Schritt 2: Finger-Handzuordnung und Noiseentfernung
Abbildung 8 zeigt den Ablauf des nachfolgend beschriebenen Vorgehens, Verweise beziehen sich auf diese Darstellung.
In dem zweiten Schritt der Handerkennung und -zusammensetzung
wird für das 6dof Target eine neue Hand angelegt. Die Targetdaten
werden als Daten des Handrückens übernommen. Der Position des
Handrückens wird die Position des Targetursprungs zugewiesen, die
Rotationsmatrix beschreibt die Lage des Handrückens. Die Finger
werden als nicht klassifiziert gekennzeichnet (a). In einer Schleife wird
2 Die Software DTrack ABCMan erlaubt ein solches Verschieben des Targetursprungs. Dazu ist die Bodydatei des Targets, welche die Daten zu der Markeranzahl, ihrer geometrischen Anordnung und den Targetursprung enthält, zu
laden und der Ursprung manuell zu versetzen.
3 fps = frames per second, 60 fps entpricht dabei einer Frequenz von 60
Hertz
4 Zum genauen Aufbau des übertragenen UDP Pakets siehe[5]
NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007
Abbildung 9. Translation und Rotation der Positionsdaten mit resultierender Ausgangslage.
Abbildung 7. Struktur des Handerkennungsalgorithmus.
von dem Trackingsystem aussortiert werden. Sehen jedoch nicht alle
Kameras das Target mit einer ausreichenden Qualität, kann es vorkommen, daß Targetmarker nicht als Targetbestandteil erkannt werden,
dadurch nicht herausgefiltert werden und dann fälschlicherweise als
3dof Daten im UDP Paket enthalten sind. Grundlage für die Targeterkennung des Trackingsystems sind Bodyfiles, welche bei der Kalibrierung eines Targets angelegt werden. Sie beinhalten Daten zur Markeranzahl , ihrer geometrischen Anordnung und dem Targetursprung. Die
Positionsdaten sind relativ zur Lage des Targets im Raumkoordinatensystem während der Kalibrierung abgelegt. Diese 3D Positionen der
einzelnen Targetmarker werden in Schritt (f) mit der Position des versetzten und rotierten Fingerkandidaten verglichen. Befindet sich die
Position innerhalb eines bestimmten Abstands von einem Targetmarker, wird dieser Fingerkandidat nicht übernommen, da es sich um die
Position eines Target- und nicht eines Fingermarkers handelt. Die Positionen sollten dabei nicht auf genaue Übereinstimmung geprüft werden, da sich durch Trackingungenauigkeiten Abweichungen ergeben
können. Insbesondere dann, wenn das Trackingsystem selbst die Marker aufgrund der Geometriedaten des Bodyfiles nicht mehr zuordnen
kann.
In Schritt (g) wird der Fingerkandidat nach erfolgreicher Prüfung
in die Fingerliste übernommen, welche nach Bearbeitung aller 3dof
Objekte, zusammen mit der in (a) angelegten Hand, zur Fingerklassifizierung weitergegeben werden (h).
4.3.3
Abbildung 8. Algorithmus zur Finger-Handzuordnung und Noiseentfernung.
nachfolgend jedes 3dof Objekt aus der übergebenen Liste abgearbeitet
(b).
Als erstes wird die Distanz des 3dof Objekts zum Handrücken ermittelt. Überschreitet diese einen zuvor festgelegten handschuhspezifischen Grenzwert wird das 3dof Objekt aussortiert, da es zu weit entfernt ist und somit kein Finger sein kann (c). Als Grenzwert sollte
der Abstand gewählt werden, welcher maximal zwischen einem Fingermarker und dem Handrückentargetursprung möglich ist. Abhängig
von der Trackinggenauigkeit kann auf diesen Wert noch ein Toleranzbereich hinzuaddiert werden. Befindet sich das 3dof Objekt innerhalb
der Fingerreichweite wird dieses als Fingerkandidat übernommen (d).
Nachfolgend wird die 3D Position des Fingerkandidaten, die 3D
Position des Handrückens und die Roationsmatrix des Handtargets in
homogene Koordinaten überführt. Die Position des Fingerkandidaten
wird dann um die Position des Handrückens versetzt (= Translation)
und durch Multiplikation mit der Inversen der Rotationsmatrix des
Handtargets in die Ausgangslage gedreht (= Rotation) (e).[3] Durch
die Translation und anschließende Rotation ist die Position des Fingers immer relativ zur Ausgangslage (= Ausrichtung und Lage der
Hand während der Kalibrierung). Diese eindeutige Lage und Ausrichtung der Hand und ihrer Finger ist eine wichtige Vorraussetzung für die
nachfolgende Fingerklassifizierung. Sie bildet ebenfalls die Grundlage
für die Noiseentfernung.
Anschließend wird der Noise aus den Daten entfernt. Als Noise
werden Daten von 3dof Objekten bezeichnet, die auf Marker des 6dof
Targets zurückzuführen sind. Diese sollten beim Erkennen des Targets
Schritt 3: Fingerklassifikation
Durch die in Abschnitt 4.2 beschriebene Durchführung der Kalibrierung und dem Verschieben und Rotieren der Fingerdaten in Schritt 2
der Handerkennung und -zusammensetzung ist die Lage und Position des Handrückens bekannt. Abbildung 10 zeigt die Hand mit den
Fingermarkern in dieser Haltung.
Abbildung 10. Definierte Lage des Handrückens im Koordinatensystem.
Durch die immer eindeutige Lage des Handrückens können bei der
Fingerzuordnung Gelenkbewegungen oberhalb des Handrückens vernachlässigt werden. Die Position der Finger kann sich nur aus Bewegungen, ausgehend vom Handrücken hin zu den Fingerspitzen, ergeben. Der menschliche Bewegungsapparat erlaubt folgende für die Fingerklassifizierung relevanten Gelenkbewegungen [13]:
• Flexion. Bei der Flexion (flex = beugen) nimmt der Winkel zwischen den an der Bewegung beteiligten Knochen ab.
• Extension. Bei der Extension (extensio = Streckung) vergrößert
sich der Winkel zwischen den beteiligten Knochen.
FÖHRENBACH, STEPHANIE: HANDGESTENERKENNUNG FÜR DIE INTERAKTION AN GROSSEN, HOCHAUFLÖSENDEN DISPLAYS
• Abduktion. Die Abduktion (ab = weg; ductio = Führung) ist im
Allgemeinen die Bewegung eines Knochens von einer Ebene
weg. Bei der Abduktion der Finger bewegen sich diese von einer durch den Mittelfinger gedachten Linie weg.
• Adduktion. Die Adduktion (ad = hin; ductio = Führung) ist die
Gegenbewegung zur Abduktion und entspricht einer Bewegung
der Finger zu der durch den Mittelfinger gedachten Linie hin.
• Opposition. Die Opposition als Gelenkbewegung ist nur mit dem
Daumen möglich. Bei dieser Bewegung wird der Daumen quer
über die Handfläche geführt und kann so die Spitzen der anderen
Finger berühren.
Abbildung 11. Gelenkbewegungen: Flexion und Extension, Abduktion,
Adduktion, Opposition.
Mit dem Wissen um die Lage und Position des Handrückens,
kombiniert mit den relevanten Gelenkbewegungen, lässt sich ein Algorithmus entwickeln, welcher eine Klassifizierung des Fingertyps
durchführt. Abbildung 12 zeigt den Ablauf des Algorithmus. Nachfolgende Verweise beziehen sich auf diese Abbildung.
auf einen Marker zurückführen kann (dies ist der gleiche Effekt, welcher bei dem fälschlichen Übermitteln von 3dof Daten von Targetmarkern auftritt). In diesem Fall ist es nicht möglich eine echte Position für den Fingermarker zu bestimmen. Bei einer Anzahl kleiner vier
werden nicht alle Fingermarker gesehen. Eine korrekte Zuordnung ist
auch hier nicht möglich, da der Algorithmus einen Fingertyp immer
basierend auf den Positionsdaten aller vier Fingermarker bestimmt.
Somit ist das Sehen aller Fingermarker eine Grundvorraussetzung zur
korrekten Fingerklassifizierung.
Als erster Finger kann der kleine Finger klassifiziert werden (b).
Es ist der Finger, welcher den größten x-Wert aufweist. Die Positionierung der Fingermarker im Koordinatensystem und die anatomisch
möglichen Gelenkbewegungen erlauben es keinem anderen Finger
einen größeren x-Wert einzunehmen.
Von den verbleibenden drei Fingern wird der Daumen als nächstes
klassifiziert. Dazu wird der Abstand zwischen den beiden größten zWerten mit einem zuvor definierten Mindestabstand verglichen (c).
Dieser Mindestabstand ist der größere der beiden Abstände auf der zAchse, welcher zwischen dem Zeigefinger- und Daumenmarker bzw.
dem Mittelfinger- und Daumenmarker entsteht, wenn der Zeige- und
Mittelfinger komplett angewinkelt werden und gleichzeitig der Daumen von links an den Zeigefinger anlehnt und geradeaus von dem
Handgelenk weg gestreckt wird. Ist der Abstand größer als dieser Mindestabstand (d) ist der Finger mit dem größten z-Wert der Daumen. Ist
der Abstand kleiner (e), bedeutet dies, dass entweder der Zeige- oder
Mittelfingermarker sich näher am Handgelenk befinden könnten als
der Daumenmarker und somit den größten z-Wert der verbliebenen
Finger aufweisen könnten. In solch einem Fall muss der Daumen jedoch links von dem Zeige- und Mittelfinger liegen, da ansonsten die
oben beschriebene Position nicht eingenommen werden kann. Damit
ist in diesem Fall derjenige der beiden verglichenen Finger der Daumen, welcher den kleineren x-Wert aufweist. In Schritt (e) wird dieser
entsprechend zugewiesen und der Daumen ist klassifiziert.
Zur Klassifizierung des Zeige- und Mittelfingers wird der Abstand
auf der x-Achse zwischen den verbleibenden zwei Fingern mit einem
zuvor ermittelten Mindestabstand (minDistNeighbouringFingers) verglichen (f). Dieser Mindestabstand ist der größte Abstand auf der xAchse zwischen den Zeige- und Mittelfingermarker bei folgenden drei
Fingerhaltungen:
1. Zeigefinger und Mittelfinger liegen genau nebeneinander.
2. Der Zeigefinger wird unter dem Mittelfinger durchgeführt und so
weit rechts wie möglich positioniert, während der Mittelfinger so
weit links wie möglich positioniert wird.
3. Der Mittelfinger wird unter dem Zeigefinger durchgeführt und so
weit links wie möglich positioniert, während der Mittelfinger so
weit rechts wie möglich positioniert wird.
Ist der Abstand der beiden Finger größer als der Mindestabstand,
wird der Finger mit dem kleinsten x-Wert als Zeigefinger klassifiziert
und der Finger mit dem größten x-Wert als Mittelfinger (g). Ist der
Abstand kleiner, wird der Abstand der beiden Finger auf der y-Achse
mit einem weiteren Mindestabstand (minDistFingerUnderneath) verglichen (h). Dieser Mindestabstand auf y-Achse beschreibt den Abstand, welcher notwendig ist, um die beiden Finger untereinander zu
positionieren und ist der größte Abstand auf der y-Achse bei folgenden
zwei Fingerstellungen:
Abbildung 12. Algorithmus zur Fingerklassifikation.
Zu Begin (a) wird sichergestellt, daß genau vier Fingerkandidaten vorhanden sind. Ist dies nicht der Fall, wird keine Klassifizierung
durchgeführt. Eine Anzahl größer vier deutet darauf hin, daß ein Marker von verschiedenen Kameras auf unterschiedlichen Positionen gesehen wurde und das Trackingsystem diese beiden Positionen nicht
1. Der Zeigefinger wird unter dem Mittelfinger durchgeführt und
so weit rechts wie möglich positioniert, während der Mittelfinger
so weit links wie möglich positioniert wird. In dieser Position ist
dann der Höhenabstand zwischen den beiden Fingerkuppen so
weit wie möglich zu reduzieren.
2. Der Mittelfinger wird unter dem Zeigefinger durchgeführt und so
weit links wie möglich positioniert, während der Zeigefinger so
weit rechts wie möglich positioniert wird.In dieser Position ist
dann der Höhenabstand zwischen den beiden Fingerkuppen so
weit wie möglich zu reduzieren.
NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007
Ist der Abstand kleiner als der Mindestabstand bedeutet dies,
daß der Zeigefinger neben dem Mittelfinger liegt, somit wird der Finger mit dem kleinsten x-Wert als Zeigefinger und der Finger mit dem
größten x-Wert als Mittelfinger klassifiziert (i). Ist der Abstand größer,
weißt dies darauf hin, daß die Finger untereinander bzw. übereinander
liegen. Eine eindeutige Klassifizierung ist hier nicht mehr möglich, da
die beiden Marker die jeweils gleichen 3D Positionen im Raum einnehmen können. Somit kann mit Sicherheit nur zwischen dem oberen
und unteren Finger unterschieden, jedoch nicht bestimmt werden, ob
der Zeige- oder Mittelfinger der obere oder untere Finger ist. In diesem
Fall wird die Annahme getroffen, daß der Zeigefinger als oben liegender Finger wahrscheinlicher ist. Diese Haltung ist natürlicher und tritt
z. B. auf, wenn mit dem ausgestreckten Zeigefinger, bei angewinkelten anderen Fingern, auf ein rechts liegendes Objekt gezeigt wird. Die
andere mögliche Haltung, in welcher der Mittelfinger oben liegt, wird
durch das Durchführen des Zeigefingers unter dem Mittelfinger eingenommen, entspricht keiner natürlichen Handhaltung und ist nur unter
Anstrengung einzunehmen. Diese Haltung ist daher bei einer Interaktion sehr viel unwahrscheinlicher. Aufgrund dieser heuristischen Annahme wird der Finger mit dem größten y-Wert als Zeigefinger klassifiziert und der Finger mit dem kleinsten y-Wert als Mittelfinger (j).
Ein großer Vorteil dieses Handerkennungsalgorithmus ist das zeitgleiche Tracken aller Marker und Targets mit einer, durch das
Trackingsystem beschränkten, maximalen Frequenz von 60 Hertz. Im
Vergleich dazu erlaubt das kommerzielle Fingertrackingsystem von
A.R.T. lediglich eine maximale Frequenz von 20 Hertz pro Finger.
Die Klassifizierung der einzelnen Finger erfolgt über die Taktfrequenz,
welche den Fingern zugewiesen wird.[4] Aufgrund dieses Vorgehens
ist das Tracken einzelner Finger immer beschränkt auf maximal ’Anzahl Finger’ / ’maximale Trackingfrequenz’, wohingegen bei dem hier
vorgestellten Algorithmus die maximal mögliche Frequenz voll ausgenutzt werden kann. Dies ermöglicht eine höhere Genauigkeit bei der
Gestenklassifizierung und eine schnellere Interaktion.
5
das Zielobjekt im Rücken oder an der Seite des Zeigenden befindet
und die genaue Lokalierung des Zielobjektes nicht wichtig ist. 6
Abbildung 13. Zeigegesten: mit dem ausgestreckten Zeigefinger, mit der
offenen Hand und mit dem Daumen.
Die Gesten des präzisen Griffs werden in mehrere Familie unterteilt. Die jeweils einer Familie zugehörigen Gesten zeichnen sich
durch übereinstimmende kinästhetische Eigenschaften und eines ebenso gemeinsamen semantischen Themas aus. Die R-Familie beschreibt
Gesten, in welchen die Daumen- und Zeigefingerspitze in Ringform
zusammengeführt werden, was als Ring bezeichnet wird. Semantisch
wird mit diesen Gesten ausgedrückt, mit etwas Bestimmtem sehr
präzise, sehr genau zu sein und aus diesem Grund besondere Aufmerksamkeit angebracht ist.
G ESTENERKENNUNG
5.1
Gestenauswahl
Adam Kendon beschreibt ein breites Spektrum von Gesten. Beginnend
mit den hochstrukturierten und künstlichen Zeichensprachen, über die
immer noch künstlichen, aber auf kultureller Ebene geteilten Symbole
wie das ’Thumbs Up’ Zeichen, bis hin zur Gestikulation, die unbewußt
und parallel zur Sprache stattfindet.[2] Für die Mensch-ComputerInteraktion ist besonders die kulturell erworbene und intuitive Gestik
interessant, um damit eine ähnlich intuitive und natürliche Interaktion mit dem Computer zu ermöglichen. Die Verwendung von Zeichen
aus dem Vorrat von Zeichensprachen würde vom Benutzer verlangen,
zusätzlich zu den Interaktionsmöglichkeiten und der Technik, auch die
Interaktionszeichen zu erlernen und stellt damit einen höheren Lernaufwand dar. Bei denen für die HCI interessanten Gesten beschreibt
Kendon, neben weiteren, in [9] die zwei Gruppen der Zeigegesten und
des Präzisen Griffs.
Zeigegesten weisen auf ein Objekt, einen Ort oder eine Richtung,
welche durch die Projektion einer geraden Linie, als Verlängerung des
am weitesten aussen liegenden Körperteils des Sprechers identifiziert
werden5 . Die insgesamt sieben verschiedenen Zeigegesten werden in
drei Gruppen eingeteilt: dem Zeigen mit dem ausgestreckten Zeigefinger, dem Zeigen mit der offenen Hand und dem Zeigen mit dem
Daumen.
Beim Zeigen mit dem ausgestreckten Zeigefinger, ist immer genau
das spezifische, individuelle Objekt auf welches gezeigt wird von Bedeutung, während beim Zeigen mit der offenen Hand das Zielobjekt
etwas ist, das mit dem behandelten Thema zu tun hat, jedoch nicht explizit behandelt wird. So ist z. B. folgender Satz in Kombination mit
dem ausgestreckten Zeigefinger als Zeigegeste denkbar: ’Das große
schwarze Poster dort hinten links’, wohingegen der Satz ’Die Poster
da hinten an der Wand’ eher mit einer offenen Hand als Zeigegeste
kombiniert wird. Der Daumen wird zum Zeigen verwendet, wenn sich
5 Nachfolgend
wird stellvertretend für Objekt, Ort und Richtung als mögliches Ziel einer Zeigegeste der Begriff Objekt verwendet
Abbildung 14. Präziser Griff Geste: Ring Geste der R-Familie.
Die beschriebenen Gesten sollen, mit Ausnahme der Daumen Zeigegeste, erkannt werden, um diese bei der Interaktion mit der Powerwall einzusetzen. Das Zeigen mit dem Daumen wird aufgrund der dazugehörigen semantischen Bedeutung, also dem Zeigen ausserhalb des
Sichtfeldes des Zeigenden und der nicht notwendigen genauen Lokalisierung des Zielobjektes nicht verwendet.
Zur Positionierung des Cursors auf der Powerwall wird das Zeigen mit der offenen Hand verwendet. Diese Gruppe der Zeigegesten
zeichnet sich dadurch aus, daß die genaue Haltung der Finger nicht
entscheidend ist, sondern lediglich die Ausrichtung des Handrückens
den Ausschlag zur Positionierung gibt. Die Verwendung dieser Geste
gibt dem Benutzer die Freiheit, seine Hand bei der Positionierung des
Cursors genau gleich zu verwenden, wie er dies beim Zeigen auf reale
Zielobjekte unbewußt bereits anwendet.
Das Zeigen mit dem Zeigefinger und die Ring Geste sollen als statische Geste erkannt werden. Das heißt, daß die Positionierung der Finger entscheidend zur Gestenerkennung ist. Die Bezeichnung als statische Geste geschieht hierbei in Anlehnung an Harling und Edwards
[8], die Gesten, unabhängig von ihrer semantischen Bedeutung, nach
der Art ihrer Durchführung und Handhaltung, in vier Klassen unterteilen. Die Klassifizierung erfolgt dabei nach zwei Aspekten : statische
vs. dynamische Fingerposition bzw. Handhaltung und statische vs. dynamische Lage der gesamten Hand. Sowohl die Zeigefinger-, als auch
die Ringgeste fallen in die Kategorie statische Handhaltung und statische Lage, da sie sich dadurch auszeichnen, daß die Haltung der
6 Zeigegesten werden auch als deiktisch bezeichnet. Dieser in der Linguistik
verwendete Begriff bezeichnet die Eigenschaft bestimmter sprachlicher Einheiten, auf Personen, Sachen, Zeit oder Raum in einem Kontext hinzuweisen.[12]
FÖHRENBACH, STEPHANIE: HANDGESTENERKENNUNG FÜR DIE INTERAKTION AN GROSSEN, HOCHAUFLÖSENDEN DISPLAYS
Finger entscheidend ist. Zeitliche Verläufe der Fingerbewegungen und
die Lage der Hand im Raum sind nicht ausschlaggebend.
5.2 Positionierung des Cursors
Zur Berechnung der Cursorposition auf der Powerwalloberfläche wird
die Position des Handrückens und die Ausrichtung der Hand im Raum,
relativ zum Raumkoordinatensystem, benötigt. Beide Informationen
werden von dem Trackingsystem in Form einer 3D Position und einer Rotationsmatrix für das 6dof Handrückentarget geliefert. Die Ausrichtung der z-Achse des Handrückens wird durch den 3D Punkt
verlängert und mit der 2D Oberfläche der Powerwall geschnitten. Der
so berechnete Schnittpunkt ergibt die Position des Cursors.
Abbildung 15. Berechnung der Cursorposition.
Die Verlängerung der Ausrichtung der z-Achse erfordert eine darauf abgestimmte Kalibrierung des Targets. Dieses sollte in einer Handstellung kalibriert werden, welche dem Zeigen geradeaus auf die Powerwall entspricht (siehe Abschnitt 4.2). Damit wird der Cursor immer
in der Verlängerung der Zeigerichtung angezeigt.
Die 3D Position eines 6dof Targets ist die Position des Targetursprungs. Dieser Ursprung wird bei der Kalibrierung erstmalig bestimmt und kann nachfolgend manuell verändert werden (siehe Abschnitt 4.2). Untersuchungen zur Cursorpositionierung vor der Powerwall mit verschiedenen Targetursprungspositionen ergaben, daß die
Definition des Targetursprungs oberhalb des Zeigefinger-Handrückengelenks eine Art der Cursorpositionierung ergibt, welche intuitiv beim
Zeigen mit der offenen Hand erwartet wird.
5.3 Methodik zur Erkennung statischer Gesten
Statische Gesten zeichnen sich dadurch aus, daß alleinig die Position der Finger zueinander entscheidend für deren Erkennung ist. Am
Beispiel der ausgestreckten Zeigefingergeste soll eine Methodik zur
Erkennung vorgestellt werden.
Zu Beginn ist zu definieren, was die Geste auszeichnet und sie
von anderen Gesten und Fingerhaltungen abgrenzt. In diesem Fall ist
die Handhaltung gekennzeichnet durch einen ausgestreckten Zeigefinger, wobei gleichzeitig alle anderen Finger angewinkelt und in einer
entspannteren Lage sind. Die Position der einzelnen Finger wird wie
in Abschnitt 4.3 beschrieben aus den Daten des Trackingsystems ermittelt. Unter Berücksichtigung des Koordinatensystems, in welchem
sich diese Positionen befinden, ergeben sich für diese Geste zwei Maße, welche zur Erkennung der Geste verwendet werden können: der
Abstand der Zeigefingerposition zur x-z-Ebene und der Abstand zwischen der Zeigefinger- und Mittelfingerposition auf der y-Achse. Abbildung 16 verdeutlicht diese beiden kennzeichnenden Maße.
Nach der Identifizierung der ausschlaggebenden Maße sind die zugehörigen Schwellenwerte festzulegen. In diesem Fall wäre das ein
Mindestabstand des Zeigefingers zur x-z-Ebene, und ein Mindestabstand auf der y-Achse zwischen dem Zeige- und Mittelfinger. Sobald
beide Mindestabstände erreicht sind wird die Geste erkannt.
Zusätzlich zu den beiden Schwellwerten zur Erkennung der Geste,
ist es erforderlich einen weiteren Schwellwert zur erneuten Wiedererkennung einer Geste zu definieren. Der Wiedererkennungsschwell-
Abbildung 16. Kennzeichnende Abstände der Zeigefingergeste.
wert ist dabei in Bezug auf den aktiven Finger bzw. das Maß zu definieren, welches am stärksten von der Geste abhängt und aus diesem
Grund den stärksten Indikator für die Gestenerkennung darstellt. Bei
der Zeigefingergeste wird hierfür ein weiterer Mindestabstand des Zeigefingers zur x-z-Ebene definiert, welcher nach dem Verlassen einer
Geste erst unterschritten werden muss, bevor ein erneutes Erkennen
möglich ist. Obwohl beide Maße, also sowohl der ’Abstand zwischen
dem Zeige- und Mittelfinger auf der y-Achse’ als auch der ’Abstand
des Zeigefingers von der x-z-Ebene’, von dem aktiven Zeigefinger
abhängen, ist das zweite Maß der stärkere Indikator zur Gestenerkennung. Es hängt alleinig vom Zeigefinger ab und wird nicht zusätzlich
noch von den Bewegungen des Mittelfingers beeinflußt. Diese Mittelfingerbewegung ist zwar wichtig für die Geste, ein ausgestreckter
Zeigefinger ist jedoch viel entscheidender als ein angewinkelter Mittelfinger.
Durch einen solchen Wiedererkennungsschwellwert wird erreicht,
daß beim Verlassen der Geste, z. B. bedingt durch das Zittern der
Hand oder Trackingungenauigkeiten, die Geste fälschlicherweise sofort wieder erkannt wird, da sich die Werte der Maße kurzzeitig wieder
oberhalb der Schwellwerte befinden.
Abbildung 17. Erkennung der Zeigefingergeste in Abhängigkeit der
Schwellwerte.
Abbildung 17 zeigt die Aufzeichnung des wiederholten
Durchführen der Zeigefingergeste. Deutlich ist die Abhängigkeit der
identifizierten Maße von der Geste ersichtlich. Die Schwellwerte
sind so festzulegen, daß die Geste in allen hier ersichtlichen Fällen
zuverlässig erkannt wird. Bei der Festlegung ist zu beachten, daß es
zu Trackingungenauigkeiten und unterschiedlich ausgeprägten Gesten
durch den Benutzer kommen kann. Aus diesen Gründen sollte
bei der Bestimmung der Schwellwerte eine gewisse Toleranz mit
berücksichtigt werden. Die am schwächsten ausgeprägte Geste,
welche gerade noch erkannt werden soll, dient als Vorgabe für die
Festlegung des Schwellwerts. Die Werte dieser Geste werden um
die Toleranzbereiche ergänzt und ergeben somit die Vorgaben für
die Schwellwerte. Wichtig ist ebenso sicherzustellen, daß Fingerbewegungen, welche nicht als Geste erkannt werden sollen, durch
die festgesetzten Schwellwerte nicht fälschlicherweise als Geste
erkannt werden. Abbildung 17 zeigt neben den Maßen der Geste auch
NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007
die zugehörigen Schwellwerte. Das Resultat der Schwellwerte ist
anhand der roten Linie ’Geste erkannt’ ersichtlich und entspricht dem
gewünschten Verhalten.
6
B EWERTUNG
UND
AUSBLICK
In weiterführenden Arbeiten wurde die in dieser Ausarbeitung beschriebene Vorgehensweise zur Gestenerkennung eingesetzt um eine Handgesteninteraktion für große, hochauflösende Displays umzusetzten. Dabei zeigte sich, daß sich für den Anwender keine wahrnehmbare Verzögerung vom Zeitpunkt der Gestenausführung bis zur
entsprechenden Reaktion der Anwendung ergab. Zudem ergibt sich
durch das eingesetzte Verfahren zur Cursorpositionierung, basierend
auf der Palm-Pointinggeste, eine intuitive Steuerung des Cursors, welche zugleich eine sehr schnelle Positionierung über die gesamte Displayfläche ermöglicht.
Ein Nachteil des vorgestellten Verfahrens ist dessen Abhängigkeit
von der Qualität des Tracking Systems und der Sichtbarkeit der Marker. So kann es vorkommen, daß Marker von Fingern verdeckt werden und dadurch eine Klassifizierung der Finger und die darauf basierende Gestenerkennung nicht möglich ist. Als Alternative zu einem
optischen System könnte ein mit Sensoren ausgerüsteter Handschuh
dienen. Das optische Trackingsystem bietet jedoch den Vorteil der Rotationsinformation der Hand. Diese Daten und das damit verbundene
Zurückführen der 3D Fingermarker Positionen in eine definierte Ausgangslage bildet die Grundlage für den vorgestellten Algorithums zur
Handidentifikation und Fingerklassifikation.
Trotz diesem Nachteil scheint nach einer ersten Beurteilung die
Hand als Eingabegerät und Handgesten zur Interaktion an großen,
hochauflösenden Displays gut geeignet zu sein. Dem Benutzer wird
eine hohe Bewegungsfreiheit eingeräumt, welche bei dieser Displayart
von ausschlaggebender Bedeutung ist. Die Gestenerkennung und Umsetzung in eine Interaktion ist schnell und erfüllt dadurch eine wichtige Vorraussetzung für Interaktionstechniken der Mensch-ComputerInteraktion. Ein weiterer Vorteil der vorgestellten Lösung ist die kurze
Rüstzeit, welche zum Anlegen des Handschuhs benötigt wird. Nachdem der Handschuh einmalig kalibriert wurde, ist dieser sofort nach
dem Anziehen verwendbar. Es ist keine Nachkalibration notwendig,
wie es z. B. bei dem kommerziellen Fingertrackingsystem von ART
notwendig sein kann [4]. Der verwendete Kosmetikhandschuh ist angenehm zu tragen und weißt komplett montiert ein Gewicht von 51
Gramm auf. Dadurch ist er selbst bei längerer Verwendung nicht zu
schwer.7 Ein weiterer Vorteil ist die intuitive und schnelle Positionierung des Cursors. Als berührungslose Interaktion eignet sich die Handgesteninteraktion zudem insbesondere für die Konstanzer Powerwall,
deren Darstellungsfläche berührungsempfindlich ist und eine direkte
Interaktion auf der Oberfläche nicht erlaubt.
L ITERATUR
[1] T. Baudel and M. Beaudouin-Lafon. Charade: remote control of objects
using free-hand gestures. Commun. ACM, 36(7):28–35, 1993.
[2] J. Eisenstein and R. Davis. Visual and linguistic information in gesture
classification. In SIGGRAPH ’07: ACM SIGGRAPH 2007 courses, page 15, New York, NY, USA, 2007. ACM Press.
[3] J. Foley and A. V. Dam. Fundamentals of Interactive Computer Graphics.
Addison-Wesley, 1982.
[4] A. R. T. GmbH. A.R.T. Fingertracking. User’s Manual, v1.0.1 edition,
2006.
[5] A. R. T. GmbH. DTrack Technical Appendix, v1.24 edition, 2006.
[6] A. R. T. GmbH. Markers, targets. http://www.ar-tracking.de, October
2007.
[7] E. B. Goldstein. Wahrnehmungspsychologie. Spektrum Akademischer
Verlag, 2002.
[8] P. A. Harling and A. D. N. Edwards. Hand tension as a gesture segmentation cue. In Gesture Workshop, pages 75–88, 1996.
[9] A. Kendon. Gesture. Visible Action as Utterance. Cambridge, 2004.
7 Im Vergleich dazu wiegt die GO 2.4GHz Optical Air Mouse von Gyration,
welche auch im freien Raum ohne statische Unterlage verwendet werden kann,
129 Gramm und damit mehr als doppelt so viel.
[10] W. A. König. Referenzmodell und Machbarkeitsstudie für ein neues
Zoomable User Interface Paradigma. mastersthesis, University of Konstanz, Jun 2006. Demo-Video ZOIL Prototype (37 MB).
[11] W. A. König, H.-J. Bieg, and H. Reiterer. Laserpointer-interaktion fr
groe, hochauflsende displays. In Mensch Computer 2007: Interaktion im
Plural, 7. Konferenz fr interaktive und kooperative Medien, pages 69 –
78. Oldenbourg Verlag, Sep 2007.
[12] Meyers.
Meyers
lexikon
online
2.0.
http://lexikon.meyers.de/meyers/deiktisch, October 2007.
[13] G. Tortora and B. Derrickson. Anatomie und Physiologie. WILEY-VCH
Verlag, 2006.
[14] D. Vogel and R. Balakrishnan. Distant freehand pointing and clicking
on very large, high resolution displays. In UIST ’05: Proceedings of the
18th annual ACM symposium on User interface software and technology,
pages 33–42, New York, NY, USA, 2005. ACM Press.
NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007
State-of-the-Art: Eye-Tracker als Analyse- und Eingabemedium
Andrea Söter
Abstract—Vor mehr als 100 Jahren fingen Forscher an, Augenbewegungen zu untersuchen. Etwa 50 Jahre später wurden die Ergebnisse dieser Untersuchungen bereits für erste Tests verwendet, bei denen die Gebrauchstauglichkeit von Objekten überprüft werden
sollte. Weitere 30 Jahre später kam zum ersten Mal die Idee auf, Blickbewegungen für die Interaktion mit dem Computer zu nutzen
und seitdem wurde auf diesem Gebiet viel Forschung betrieben. Mittlerweile sind erste kommerzielle Systeme erhältlich und werden
vor Allem Anwendern mit beschränkten motorischen Fähigkeiten bei funktionierenden kognitiven Fähigkeiten empfohlen.
Diese Arbeit gibt zunächst eine kurze Einführung in die Geschichte und die Grundlagen des Eye-Tracking. Anschließend wird diese
Methode in Hinblick auf Usability-Untersuchungen betrachtet, bevor der Fokus auf das aktuelle Thema des Eye-Tracking als Eingabenmedium gerichtet wird. Hier werden bisherige Ideen und Interaktionsvorschläge sowie Anbieter genauer untersucht und danach
eine Nutzeneinschätzung basierend auf vorangegangenen Untersuchungen vorgenommen.
Index Terms—Eingabemedien, Eye-Tracker, Mensch-Computer-Interaktion, HCI.
1
E INLEITUNG
Eye-Tracking nennt man die Registrierung der Blickbewegungen einer
Person. Blickbewegungen sind die Gesamtheit der relativen Bewegungen des Auges in Bezug auf den Kopf und der Fixationen, bei denen
das Auge für längere Zeit einen Punkt fixiert [24].
In 90% seiner Zeit unternimmt der Mensch Fixationen, die etwa
100 bis 2000ms andauern können. Eine Konzentration liegt bei 200600ms. Bei kürzeren Fixationen werden keine Informationen wahrgenommen, da jeweils kurze Zeit vor und nach einer Sakkade das visuelle Wahrnehmungsvermögen eingeschränkt ist. Während einer Fixation
befindet sich das gewünschte Objekt in der Fovea, den Ort des schärfsten Sehens auf der Netzhaut. Diese Region umfasst etwa einen Grad
des Blickwinkels, was in etwa so groß ist wie die Breite des Daumens
bei ausgestreckter Hand [18].
Die durchschnittliche Fixationsdauer beim Lesen liegt bei etwa
225ms, bei visuellen Suchaufgaben bei ungefähr 275ms und bei der
Betrachtung von Bildern bei etwa 330ms. Allerdings gibt es hier einen
Zusammenhang zwischen Fixationsdauer und Aufgabenschwere: liest
eine Person kompliziertere Satzkonstruktionen, ist die Dauer seiner
Fixationen höher. Kürzere Fixationen werden gemacht, wenn man
bereits Erfahrung mit einer Aufgabe hat. Auch bei Reaktionsaufgaben, wie beispielsweise dem Autofahren, sind Fixationen eher kürzer [12, 4].
Die Bewegungen des Auges lassen sich in „jitter“, Sakkaden und langsame Folgebewegungen unterteilen [24, 4].
„Jitter“ sind während Fixationen auftretende, kaum merkbare Zitterbewegungen mit einer Größe von weniger als einem Grad des Blickwinkels [18].
Sakkaden erfolgen zwischen zwei Fixationen, dauern etwa 10 bis
80ms und können Höchstgeschwindigkeiten von bis zu 1000◦ pro Sekunde annehmen [4]. Diese Daten sind jeweils vom Wachheitszustand
und von der Sprungweite abhängig, die etwa 2 bis 50◦ beträgt. Während der Sakkaden werden keine Informationen aufgenommen. Sie
dienen lediglich dazu, Zielobjekte in die Fovea zu bewegen, den Ort
im Auge, an dem das schärfste Sehen möglich ist [4].
Es existieren so genannte Express-Sakkaden, die jedoch nichts mit
schnelleren Augenbewegungen sondern mit kürzerer Bearbeitungszeit
im Gehirn zu tun haben. Sie treten auf, wenn die Aufmerksamkeit einer Person bereits behoben ist, bevor ein visueller Stimulus an einer
anderen Stelle erscheint. Dann ist die Zeit zwischen dem Auftreten
dieses Stimulus und seiner Fixation sehr gering [4].
Folgebewegungen werden auch „dynamische Fixationen“ genannt, da
• Andrea Söter.
• [email protected]
• Matrikelnr: 01/556143
währenddessen Informationen wahrgenommen und verarbeitet werden. Um das zu gewährleisten sind sie mit Geschwindigkeiten von
weniger als 80◦ in der Sekunde deutlich langsamer als Sakkaden. Folgebewegungen treten meist im Straßenverkehr bei der Beobachtung
sich bewegender Objekte auf [12, 4, 24].
1.1
Geschichte
Das erste Mal in der Geschichte wurden Blickbewegungen im Jahre
1879 untersucht, als Javal entdeckt, dass das Lesen aus Fixationen und
Sakkaden besteht. Von da an wurden Methoden gesucht, um Blickbewegungen aufzeichnen und sie auf ihre Eigenschaften untersuchen zu
können. Der erste Eye-Tracker wurde dann 1898 von Huey gebaut. Er
bestand aus einer Gips-Kontaktlinse mit einem Loch für die Pupille.
An der Linse war ein Pointer aus Aluminium befestigt, der auf einer
Tafel die Bewegungen des Auges aufzeichnete. Dieses mechanische
und physisch unangenehme Verfahren wird auf nachfolgender Abbildung 1 veranschaulicht [24, 15].
Abbildung 1. Huey’s Eye-Tracker 1898, Quelle: [15]
Bereits im Jahre 1901 bauten Dodge und Cline den ersten berührungslosen Eye-Tracker, der fotografisch funktionierte: im Auge
reflektierte Lichter wurden auf einer Fotoplatte aufgenommen. Diese
Methode funktionierte zwar nur in horizontaler Richtung, doch der
erste Schritt in Richtung Cornea-Reflex-Methode war getan [15].
Judd, McAllister und Steel bauten darauf 1905 eine Vorrichtung, die
Augenbewegungen auch in vertikaler Richtung aufzeichnen konnte.
Hierbei wurde weißes Material in das Auge der Versuchspersonen
eingeführt, die Bewegungen aufgezeichnet und der Blick aus der Lage
der weißen Stellen errechnet.
Zum ersten Mal wurden Eye-Tracking-Methoden im Jahre 1947
für die Usability-Forschung eingesetzt. Fitts, Jones und Milton
untersuchten dabei die Gebrauchstauglichkeit von Cockpits indem sie
NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007
die Augenbewegungen von Piloten bei der Landung eines Flugzeuges
auf Film aufnahmen.
Nur ein Jahr später wurde der erste am Kopf befestigte Eye-Tracker
von Hartridge und Thomson entwickelt.
Weitere zwei Jahre später entwickelte Mackworth einen am Kopf
befestigten Eye-Tracker, der Augenbewegungen mit Hilfe der
Cornea-Reflex-Methode aufzeichnete - mehrere Lichter werden dabei
ins Auge gestrahlt und aus ihren Reflexionen kann der Blick in
horizontaler und vertikaler Richtung bestimmt werden.
In den 70er Jahren fingen Forscher an, Augenbewegungen mit
kognitiven Prozessen zu verbinden, doch der Forschungsschwerpunkt
in dieser Zeit waren dennoch technische Verbesserungen. Man wollte
Eye-Tracker bauen, die ihren Benutzer weder stören noch beeinflussen. Hierfür wurden mehrere Infrarot-Lichtquellen ins Auge gestrahlt
und reflektiert werden um anschließend Kopf- und Augenbewegungen
unterscheiden zu können. Auch war es das Ziel höhere Genauigkeiten
und kleinere Fehlerraten bei der Benutzung von Eye-Trackern zu
erzielen.
Mittlerweile existiert eine Vielzahl unterschiedlicher Eye-Tracker teilweise am Kopf befestigte, teilweise entfernte Geräte - die den
Blick mittels Reflexion mehrerer Lichter berechnen können und
die die Blickbewegungsdaten sofort aufzeichnen und verarbeiten
können [24, 15].
Blickbewegungsregistrierung wird in verschiedenen Gebieten
bei verschiedenen Anwendungsszenarien verwendet. In der Medizin
beispielsweise wird Eye-Tracking genutzt, um Fehlsichtigkeiten
aufzudecken. Im Bereich der Neurowissenschaften kommen EyeTracker bei der Untersuchung von Patienten mit Schizophrenie
zum Einsatz. Psychologen setzen Eye-Tracker in den Bereichen der
Wahrnehmungs- und Entscheidungspsychologie ein, die auch für
die Themen Marktforschung und Platzierung der Produkte in einem
Supermarkt eine wichtige Rolle spielen [24].
Eye-Tracker können aber auch auf dem Gebiet der MenschComputer-Interaktion genutzt werden, um Benutzerschnittstellen auf
ihre Gebrauchstauglichkeit zu untersuchen [14] oder als Eingabewerkzeug unter Anderem für Menschen, die aufgrund motorischer
Behinderungen nicht in der Lage sind, konventionelle Eingebegeräte
zu bedienen [21]. Diese beiden Anwendungsgebiete werden in den
nachfolgenden Kapiteln näher betrachtet.
2
S TATE - OF - THE -A RT: E YE -T RACKER
2.1
ALS
nommen wird.
• Betrachtungsdauer: Hierbei wird untersucht, wie lange ein Objekt insgesamt wahrgenommen wird.
• Fixationsorte: Für diesem Punkt ist von Interesse, welche Stellen eines Objektes oder einer ganzen Webseite überhaupt fixiert
werden.
• Fixationshäufigkeit: Dieser Punkt betrifft die Häufigkeit, mit der
die jeweiligen Stellen eines Objektes oder einer Webseite fixiert
werden.
• Fixationsreihenfolge: Das bedeutet, dass auch untersucht wird,
in welcher Reihenfolge verschiedene Informationseinheiten fixiert werden.
• Gazegröße: Die Gazegröße schließlich besagt, wie viele aufeinander folgende Fixationen vom Benutzer innerhalb einzelner Bereiche oder Informationseinheiten platziert wurden.
Zudem gibt es einen Zusammenhang zwischen Fixationsdauer und
Informationsverarbeitung, der in Abbildung 2 verdeutlicht wird.
Bei einer Fixationsdauer von etwa 50 bis 80ms gelingt lediglich eine
Lokalisation: Der Mensch bemerkt, dass sich an einer bestimmten
Stelle in seiner Umwelt ein Objekt befindet. Bei Fixationsdauern von
etwa 100 bis 250ms dekodiert ein Mensch zusätzlich Oberflächenmerkmale wie Farbe, Form, Größe, Beschaffenheit des Gesehenen
und verarbeitet somit figurativ. Bei einer Dauer von circa 200 bis
480ms erfolgt bereits die semantische Verarbeitung, bei der das
Gesehene in eine Kategorie eingeordnet wird. Hier erkennt der
Sehende, ob es sich bei dem Objekt beispielsweise um einen Mann
oder eine Frau handelt. Zur gleichen Zeit erfolgt die selbstreferentielle
Verarbeitungsphase, die auch kreative oder metakognitive Phase
genannt wird. In dieser Phase verbindet die Person Gefühle mit
den gesehenen Objekten und entscheidet zum Beispiel ob er sie als
sympathisch oder unsympathisch empfindet. Längere Fixationsdauern
von etwa 500 bis beliebig vielen Millisekunden erfolgen meist nur
dann, wenn während der Lösung eines Problems über das betreffende
Objekt kommuniziert und es dabei fixiert wird [22, 4, 14].
A NALYSEMEDIUM
Grundlagen
Auf der Netzhaut des Auges befindet sich eine Stelle, an der nur
Zapfen, Rezeptoren für farbiges Licht, zu finden sind. Nur an dieser
Stelle, der sogenannten Fovea centralis sieht der Mensch scharf. Je
weiter man sich von hier in die äußeren Netzhautbereiche bewegt,
umso unschärfer werden Objekte wahrgenommen. In den Randbereichen sieht der Mensch nicht einmal mehr Farben [4, 12].
Die Aufmerksamkeit des Menschen wird daher durch seine Blicke
indiziert [5]: es wird immer dorthin geschaut, wo im nächsten Schritt
gehandelt wird. Aufgrund dieser Tatsache, können Eye-Tracker zur
Gebrauchstauglichkeitsuntersuchung von Benutzerschnittstellen genutzt werden. Der erste Versuch hierfür wurde, wie oben beschrieben,
im Jahre 1947 unternommen.
Zu Beachten ist hier jedoch, dass Menschen oft in der Peripherie
liegende Objekte aus den Augenwinkeln beobachten können, um
sich anschließend zu entscheiden, ob sie dorthin schauen wollen oder
nicht. Dies kann jedoch nicht mit einem Eye-Tracker aufgezeichnet
werden.
Es gibt verschieden Variablen, die den Blickverlauf charakterisieren und mit Hilfe derer eine Usability-Untersuchung durchgeführt
werden kann [14]. Diese werden in nachfolgender Liste genauer
erläutert.
• Auffälligkeit: Diese gibt Aufschluss darüber, ob ein Objekt auffällig genug ist, als dass es von Benutzern als solches wahrge-
Abbildung 2. Fixationsdauer und Informationsverarbeitung, Quelle: [14]
2.2 Arten
Es gibt unterschiedliche Arten von Eye-Trackern, die in verschiedenen
Anwendunssituationen Verwendung finden.
Remote Eye-Tracker sind Kameras, die nicht am Kopf befestigt
werden und die Blickbewegungen aus der Ferne aufzeichnen. Bei
remote Eye-Trackern gibt es keine Kopfgestelle, Übertragungskabel oder Kinnstützen, sodass eine gewisse Mobilität möglich ist.
Kopfbewegungen werden hier zwar kompensiert, aber ein definierter
SÖTER et al.: STATE-OF-THE-ART: EYE-TRACKER ALS ANALYSE- UND EINGABEMEDIUM
Aufbau von Eye-Tracker, Versuchsperson und Untersuchungsobjekt
ist dennoch von Nöten. Diese Art der Eye-Tracker (siehe Abbildung
3) werden oft für Usability-Untersuchungen von Websites verwendet.
Anbieter hierfür sind neben Anderen auch Interactive Minds [9] und
Eye Square [7], die neben der Hardware auch Software für Usability
Untersuchungen liefern. Während sich der erste Anbieter bezüglich
der Funktion seiner Software bedeckt hält, wirbt Eye Square mit
einer Software, die bei der Gebrauchstauglichkeitsuntersuchung einer
Webseite den Blickverlauf, Mausbewegungen und den Pfad durch
verschiedene Unterseiten aufzeichnet.
Abbildung 5. Head-Supported Eye-Tracker, Quelle: [17]
2.3
Abbildung 3. Remote Eye-Tracker, Quelle: [13]
Eine weitere Art von Eye-Trackern nennt man head-mounted
Eye-Tracker (Abbildung 4). Diese werden am Kopf der Versuchsperson fixiert, sodass sich diese frei bewegen kann. Nur die Kabel,
die vom Gerät zu einem aufzeichnenden Rechner führen bzw. der
Bereich, in dem der Blicke korrekt errechnet werden, beschränken
die Bewegungsfreiheit. Die Augenbewegungen werden von kleinen
Kameras aufgezeichnet, die sich meist seitlich oder unter dem Auge
befinden. Diese Art des Eye-Tracking wird unter Anderem bei Untersuchungen im Bereich der Entscheidungspsychologie beispielsweise
in Supermärkten verwendet, da sich Versuchspersonen hier frei durch
den Raum bewegen müssen. Auf dem Kopf zu tragende Eye-Tracker
werden unter Anderem von den Unternehmen Eyetracking Inc. [6]
und Eye Suare [7] zusammen mit Software für Usability-Testing und
Marktforschungszwecke angeboten.
Abbildung 4. Head-Mounted Eye-Tracker, Quelle: [19]
Eine Zwischenstufe zwischen remote und head-mounted EyeTrackern existiert in Form der head-supported Eye-Tracker. Die
Aufzeichnung der Blickbewegungen erfolgt remote, doch der Kopf
bleibt fixiert (vgl. Abbildung 5). Da Kopfbewegungen hier nicht
kompensiert werden müssen, können Hochleistungssysteme dieser
Art Abtastraten von über 1000Hz bei einer Genauigkeit von 0,5◦
des Blickwinkels erreichen. Solche Geräte werden unter Anderem
in der Neuropsychologie und der Forschung verwendet und sind
beispielsweise bei SMI (SensoMotoric Instruments) [17] erhältlich.
Nutzeneinschätzung
Ob ein Eye-Tracker bei Usability-Untersuchungen verwendet werden
sollte, hängt neben dem Budget von vielen weiteren Faktoren ab.
Als großen Vorteil sehen Oertel und Schultz die Tatsache, dass
das Auftreten von Problemstellen mit Hilfe eines Eye-Trackers
genauer lokalisiert werden kann. Während bei Befragungen der
Testpersonen eher allgemeine und schwer überprüfbare Angaben
aufgenommen werden, gibt die Untersuchung der Blickbewegungen
mehr Aufschluss über das Auftreten eines Problems [14]: an jenen
Stellen, an denen Testpersonen Probleme hatten, gibt es deutlich
weniger Fixationen mit geringerer Verweildauer. Weiter können auch
Gründe für Nutzungsprobleme identifiziert werden, wenn man den
Blick der Testperson mit der Stelle vergleicht, an der er eigentlich sein
sollte: Befinden sich Objekte an unkonventioneller Stelle, werden sie
oft nicht gefunden, da Testpersonen dorthin blicken und dort suchen,
wo sie diese Objekte erwarten [14]. Es können auch Strategien im
Umgang mit Benutzerschnittstellen erkannt werden, um anschließend
die weitere Gestaltung daran anzulehnen. Bewegen sich Benutzer
beispielsweise nicht in konventioneller Leserichtung sondern vertikal
durch ein Interface, könnte man als Information für das Redesign
daraus ziehen, dass man die Objekte umordnen sollte [14].
Neben diesen Vorteilen gibt es eine Reihe von Nachteilen, die gegen
das Verwenden von Eye-Trackern bei Usability-Untersuchungen
sprechen. Zunächst sind diese Geräte sehr kostspielig und haben
selbst eine geringe Gebrauchstauglichkeit: Remote Eye-Tracker
erlauben nur geringe Kopfbewegungen und die head-mounted Version
ist schwer und deshalb nicht lange tragbar. Die Genauigkeit war bisher
meist auch gering. Bewegt die Testperson den Kopf, erfolgt eine
gewisse Verzögerung bis der remote Eye-Tracker das Auge wieder
erkennt. Bewegt die Testperson ihren Kopf in Richtung Eye-Tracker
oder von ihm weg, geht die Kalibrierung verloren. Die Kalibrierung
ist somit nicht nur für jeden weiteren Benutzer erforderlich, sondern
manchmal auch während eines Usability-Tests mehrfach zu tätigen.
Eine Untersuchung von Schnipke und Todd aus dem Jahre 2000
ergab zudem, dass die Erfolgsrate bei Eye-Tracking-Experimenten
sehr gering ist. Nur 37,5% der Versuchspersonen lieferten hier
akzeptable Eye-Tracking-Daten, wobei akzeptable Daten durch
einen Vergleich von Augenpositionscursor, Mauszeiger und der
Lage von Objekten bestimmt wurden. Während bei akzeptablen
Daten eine Übereinstimmung der drei Indikatoren vorzufinden war,
stimmte die Blickposition bei inakzeptablen Daten nicht mit den
Handlungen des Benutzers überein [16]. Bei diesen befand sich der
Augenpositions-Cursor entweder an Stellen, an denen keine Objekte
vorhanden waren, obwohl die jeweiligen Personen offensichtlich an
anderer Stelle interagierten oder aber er sprang auf dem Bildschirm
umher. Bei manchen Versuchspersonen war der Cursor nicht einmal
auf dem Bildschirm zu sehen. Aufgrund dieser geringen Erfolgsrate
steigt wiederum der Preis solcher Untersuchungen, da diese mit
weiteren Personen erneut durchgeführt werden müssten, um eine
akzeptable Menge an Eye-Tracking-Daten zu erhalten [16].
Schnipke und Todd ließen bei ihrem Experiment bewusst nur Personen teilnehmen, die keine Brille trugen und den Eye-Tracker somit
nicht „verwirren“ sollten. Brillenträger könnten falsche Ergebnisse
liefern, da ihre Brillen Spiegelungen hervorrufen könnten, die der
NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007
Eye-Tracker fälschlicherweise als Blickdaten interpretieren würde
oder sie könnten nicht-spiegelndes Glas verwenden, das auch die
Spiegelung von Infrarotlicht ausblenden würde. Solche Einschränkungen in der Auswahl der Versuchspersonen würde in anderen
Untersuchungen die Repräsentativität dieser beschränken, was einen
weiteren Nachteil dieser Art des Usability-Testing darstellt. Doch
trotz dieser Einschränkung waren die Ergebnisse von Schnipke und
Todd wenig erfreulich. Sie erkannten, dass eine Person verschiedene
Merkmale aufweisen muss, um für Eye-Tracking-Experimente geeignet zu sein: ihre Pupille muss zunächst genügend Licht reflektieren,
darf jedoch weder zu groß, noch von Wimpern oder Lidern verdeckt
sein. Weiter darf die Iris nicht zu hell sein und auch das Gesicht
darf nicht transpirieren, da es sonst Licht reflektieren würde, das der
Eye-Tracker falsch interpretieren könnte. Ein weiteres Problem stellen
Augen dar, die nach einer gewissen Zeit zu trocken sind, sodass die
Versuchsperson sie zum Schutz schließt oder verdeckt [16].
Sibert und Jacob untermauern dieses Experiment mit Erfahrungen aus
ihrer Evaluation aus dem selben Jahr. Sie fanden ebenfalls heraus,
dass nicht alle Personen für Eye-Tracking-Experimente geeignet sind,
da die damals erwerblichen Eye-Tracker zumeist Schwierigkeiten mit
Kontaktlinsen, trockenen Augen, schwach reflektierenden Hornhäuten
sowie Brillen, die sich bei Helligkeit dunkel verfärben, aufwiesen.
Die Erfolgsquote war hier jedoch mit 61% deutlich höher als bei
Schnipke’s und Todd’s Versuch. Zudem stellten Sibert und Jacob fest,
dass Eye-Tracker stets besser wurden und prognostizierten für die
Zukunft Geräte, die diese Probleme eines Tages lösen könnten [18].
Angesichts dieser Vielzahl kostspieliger Nachteile, wirkt bei
Usability-Untersuchungen die Verhältnismäßigkeit von Nutzen und
dem gegebenen Aufwand und Preis eher gering. Konventionelle
Methoden des Usability Engineering, genauer: Einhaltung von
Normen, Benutzerbefragungen, Benutzertests verbunden mit Videound Sprachaufzeichnungen,... liefern ebenfalls gute Hinweise ohne die hohen Kosten des Eye-Trackings, die durch die benötigte
Hardware sowie gegebenenfalls der mehrmaligen Durchführung der
Untersuchung entstehen [16]. Zudem muss dabei nicht der große
Aufwand eventueller mehrfacher Kalibrierung unternommen werden.
3 S TATE - OF - THE -A RT: E YE -T RACKER ALS E INGABEMEDIUM
3.1 Grundlagen
Der Blick eines Menschen zeigt implizit den Punkt seiner Aufmerksamkeit an. Auch bei der Interaktion mit der Welt sind seine
Augen auf die Stellen gerichtet, an denen er auch andere Operationen
ausführt. [5, 18, 25]. Zudem sind Augenbewegungen aufgrund der
Anatomie des Augapfels leicht, schnell und in jegliche Richtung
durchführbar. Hände hingegen sind aufgrund der Struktur des Armes
eingeschränkt und zudem nicht so schnell wie Sakkaden. Auch können Augen eine beliebige Strecke in nahezu konstanter Zeit hinlegen,
während Hände für weitere Strecken mehr Zeit benötigen [18]. Da
Augenbewegungen darüber hinaus natürlich sind und unter geringer
kognitiver Last erfolgen, sind sie in Kombination mit Eye-Trackern
für Eingabetätigkeiten sehr gut geeignet [18]. Erfolgt Eingabe mit
den Augen, könnten die Hände frei bleiben. Gerade Menschen mit
motorischen Behinderungen können auf andere Weise keinen Computer bedienen [10, 11, 21, 25]. Andere könnten mit ihren Händen
weitere Aufgaben erledigen [20] oder sie könnten die Eingabe mittels
Augenbewegungen lediglich aus Bequemlichkeit nutzen.
Aufgrund dieser Überlegungen gab es bereits in den 80er Jahren die
erste Ideen und Interaktionskonzepte für die Interaktion mit Hilfe
der Augen [2]. Im nachfolgenden Kapitel werden diese genauer
beleuchtet.
3.2 Untersuchungen
Zum ersten Mal hatte Richard A. Bolt im Jahre 1981 die Idee, bei
der Interaktion mit einem Computer Augenbewegungen, Sprache und
Gesten zu kombinieren. Für die Verwirklichung sollte die interagierende Person ein Miniatur-Eye-Tracking-System mit Ortsensor an der
Brille tragen, damit freies Bewegen im Raum ermöglicht wird. Der
Blick sollte aus Infrarot-Reflexionen des Auges errechnet werden.
Seine Idee war, beispielsweise ein Objekt auf dem Bildschirm so zu
bewegen, dass man es eine gewisse Zeit lang fixierte während man
sagte: „Bewege das“, anschließend den Blick an den Zielort wandte
und sagte: „Dorthin“. Alternativ könnte der Zielort mittels Fingerzeig
angedeutet werden [2]. Er erprobte diese Technik damals zwar noch
nicht an verschiedenen Versuchspersonen, doch er kam zu dem
Ergebnis, dass die Kombination verschiedener Eingabemedien nützlicher, schneller und intuitiver sein müsste als die isolierte Komponente.
Wenige Jahre später testeten Ware und Mikaelian zum ersten
Mal Interaktionen mit Unterstützung durch Blickbewegungen. Sie
untersuchten, ob Augenbewegungen alleine oder verbunden mit
einem Auswahlknopf für die Objektwahl schneller ist. Außerdem
wollten sie wissen, ab welcher Objektgröße eine Interaktion mittels
Eye-Gaze überhaupt sinnvoll ist [23].
Für ihre Untersuchungen verwendeten sie einen remote Eye-Tracker
mit einer Genauigkeit von 0,5◦ des Blickwinkels, der das Auge der
jeweiligen Versuchsperson inklusive Infrarotreflexionen der Hornhaut
aufzeichnete. Um die Geschwindigkeit der Eye-Gaze-Interaktion
zu überprüfen, wurden in einem Test verschiedene, untereinander
angeordnete Objekte angezeigt, von denen eines markiert wurde, das
der Benutzer anschließend ansehen und auswählen musste. Unter
Anderem wurden die Schwellwertmethode und das Drücken eines
Hardwarebuttons zur Auswahl genutzt. Beim zweiten Teil des Tests,
der die ideale Objektgröße bestimmen sollte, wurden 16 Elemente
quadratisch angeordnet und die Versuchspersonen sollten diese in
der Reihenfolge ansehen und auswählen, in der sie markiert werden.
Für die Auswahl wurden wieder sowohl die Schwellwertmethode
mit einem Schwellwert von 0,4 Sekunden, als auch die HardwareButton-Methode genutzt. Nach jedem Durchlauf wurde die Größe der
16 Objekte verändert. Die Versuchspersonen hatten bei diesen Tests
die Anweisung, so schnell wie möglich zu interagieren, dabei aber
dennoch auf eine möglichst hohe Genauigkeit zu achten.
Ware und Mikaelian kamen zu dem Ergebnis, dass Eye-GazeInteraktion zwar schnell, verbunden mit einem Auswahlknopf aber
schneller ist, da ein Objekt nicht einen gewissen Schwellwert lang
fixiert werden muss, bevor es ausgewählt wird. Motorisch behinderte
Personen könnten jedoch auch nur die Schwellwert-Methode gut
nutzen. Interaktionen mittels Augenbewegungen ist laut dieser Untersuchung nur ab einer bestimmten Objektgröße sinnvoll: die Fehlerrate
liegt erst bei Objekten, die größer sind als 1◦ des Blickwinkels unter
10% (siehe Abbildung 6).
Weiter wurde herausgefunden, dass die Fehlerrate bei der Interaktion
mittels Eye-Gaze allein geringer ist (vgl. Abbildung 6), was darauf
zurückzuführen ist, dass Versuchspersonen ihre Blickbewegung und
das Drücken des Auswahlknopfes zu synchronisieren versuchten,
was zu einer verfrühten Auslösung des Knopfes führte. Bei der
Interaktion mit Eye-Gaze alleine waren die Personen gezwungen, ihre
Interaktionen nacheinander auszuführen, was auch die längere Dauer
dieser Interaktionsform verursacht.
Im Jahre 1990 stellte Jacob seine Sammlung verschiedener Interaktionsmodi für verschiedene Aufgaben vor [10]. Die Auswahl eines
Objektes aus einer Menge an Objekten, könnte mittels Auswahlbutton
oder einer Verweilzeit erfolgen. Die Schwellwertmethode empfand er
zwar als angenehmer, doch er fand, dass zu lange Dauern unnatürlich
waren und Benutzer denken könnten, das System sei abgestürzt, wenn
nach zu langer Fixation nichts passierte. Eine zu kurze Verweildauer
könnte zur Folge haben, dass Objekte versehentlich gewählt würden.
Deshalb wäre es wichtig, Ergebnisse leicht rückgängig zu machen.
Eine Verweilzeit von etwa 150ms empfand er als richtigen Mittelweg
zwischen diesen beiden Problemen. Diese Zeit war zwar etwas länger,
als der später von ihm und Sibert errechnete durchschnittliche Klick,
dessen Ausführung nur 116ms dauerte, doch die Auswahl mittels
Blick war dennoch schneller [18].
Attribute eines Objektes würden in einem gesonderten Bildschirmbereich zu betrachten sein, nachdem das gewünschte Objekt lange genug
fixiert wurde. Objekte bewegen konnten Jacob’s Versuchspersonen
SÖTER et al.: STATE-OF-THE-ART: EYE-TRACKER ALS ANALYSE- UND EINGABEMEDIUM
Abbildung 6. Fehlerrate der Schwellwertmethode im Vergleich zur
Auswahlknopf-Methode, Quelle: [23]
indem sie nach dem Blick darauf einen Mausklick tätigten, anschließend an den Zielort blickten und den Mausknopf losließen. Auf diese
Weise konnten Benutzer schneller mit dem System interagieren,
als wenn sie nach Blick auf ein gewünschtes Objekt die Maus für
die komplette Bewegung nutzten. Diese konventionellere Art der
Interaktion erschien neben der schnellen Eye-Gaze-Interaktion als
langsam und unangenehm.
Scrollen ermöglichte Jacob indem er Pfeile ober- und unterhalb
eines Textes anbrachte, die fixiert werden mussten um den Text in
die jeweilige Richtung zu bewegen. Menükommandos konnten in
seinem Szenario gewählt werden, indem sich ein Pull-Down-Menü
nach gewisser Fixationsdauer öffnete und seine Befehle preisgab.
Die Auswahl des jeweiligen Befehles sollte jedoch mittels Mausklick
erfolgen, da gerade unbekannte Befehle länger fixiert würden und
eine längere Verweildauer somit nicht unbedingt dem Wunsch nach
Auswahl gleich käme. Wollten die Versuchspersonen Texte eingeben,
so geschah dies mit Hilfe der Tastatur, nachdem das gewünschte
Textfeld mittels Fixation ausgewählt wurde [10].
Bei Jacob’s Untersuchung saßen die Versuchspersonen an einem
konventionellen Rechner, während der remote Eye-Tracker auf dem
Tisch nebenan angebracht wurde. Zwei Lichter wurden in die Augen
gestrahlt und reflektiert, damit Kopf- und Augenbewegungen besser
unterschieden werden konnten. Mit der Apparatur konnte unter den
gegebenen Bedingungen eine Genauigkeit von etwa einem bis zwei
Grad des Augenwinkels erreicht werden.
Jacob kam zu dem Ergebnis, dass die Verwendung natürlicher Augenbewegungen besser für Interaktionen geeignet ist, als antrainierte
Bewegungen, da erstere intuitiver und natürlicher sind. Er bemerkte
auch, dass der Eye-Tracker trotz seiner Unaufdringlichkeit schwer zu
ignorieren war, da der Raum etwas abgedunkelt werden musste und
sein leises Summen nicht überhörbar war. Eine höhere Genauigkeit
meinte Jacob mit einer festen Kopfposition erreichen zu können, doch
diese hätte den Eye-Tracker noch aufdringlicher gemacht. Jacob fand
weiter heraus, dass die Interaktion mittels Maus und Tastatur noch
genauer waren [10].
Im Jahr 2000 wurden diese Interaktionstechniken zum Teil formal auf
ihre Schnelligkeit und Eignung überprüft. Das Ergebnis war, dass die
Interaktion mittels Eye-Gaze bei einer einfachen Auswahl-Aufgabe
durchschnittlich fast doppelt so schnell war, wie die mit der Maus.
Während bei der Maus von Durchgang zu Durchgang ein Lerneffekt
aufzutreten schien, war die Eye-Gaze-Interaktion stetig gleich
bleibend schnell [18].
Etwa 2002 hatten Farid, Murtaugh und Starck die Idee, eine visuelle Maus zu schaffen, die die physische Maus ersetzt, da der
Mauszeiger auch auf konventionellen Monitoren mit dem Blick
verfolgt und kontrolliert wird [8]. Das Anwendungsszenario war hier
die Betrachtung riesiger Bilddaten aus der Astronomie (Bilder können
hier Auflösungen von bis zu 16.000 x 16.000 Pixel haben) oder
der Medizin (Bilddaten mit Auflösungen von typischerweise 4.500
x 4.500 Pixel) sowie die Kontrolle multipler Video-Streams. Eine
einfache Zoom-in- und zurück-Funktion sollte dafür implementiert
werden [8].
Abgeleitet vom visuellen Verhalten, das durch die jeweilige Verweildauer auf einem Objekt definiert wird, wird ein visueller Mausklick
vorgenommen: betrachtet die Versuchsperson eine Stelle in einem
Bild einen gewissen Schwellwert lang, so wird dort hineingezoomt
und ein höher aufgelöster Ausschnitt des Bildes wird auf eine
natürliche Weise detailliert angezeigt. Bei der Kontrolle verschiedener
Video-Streams sollte jeweils der Videoclip aus einer Sammlung von
Videos abgespielt werden, den der Benutzer fixiert. Alle anderen sollten im „Pause“-Modus bleiben. Wandert das Interesse des Benutzers,
repräsentiert durch seinen abschweifenden Blick, zu einem anderen
Video und bleibt dort für eine gewisse Verweilzeit stehen, so wird der
aktuell abgespielte Film pausiert und der neue Film wird gestartet.
Der Versuchsaufbau bestand bei Farid, Murtaugh und Starck aus
einem remote Eye-Tracker mit einer Genauigkeit von 0,5◦ des
Blickwinkels, sowie einer Infrarotkamera unter dem Monitor für die
Aufzeichnung der Gaze-Aktivität. Verarbeitet wurden die Gaze-Daten
am Nebentisch. Bei diesem Aufbau waren Kopfbewegungen innerhalb
einem Fuß3 möglich [8].
Zhai hatte im darauf folgenden Jahr zwei Ideen, deren Durchführbarkeit er mit Hilfe eines remote Eye-Trackers mit einer
Geschwindigkeit von 30Hz überprüfte, der den Blick mit Hilfe der
Cornea-Reflex-Methode - der aufgenommenen Reflexion zweier Infrarot Lichtquellen - errechnete. Das erste Projekt nannte er „MAGIC“
Pointing (Manual Aquisition with Gaze Inititated Cursor) [25]. Dabei
sollten Augenbewegungen mit manuellem Mausinput der Interaktion
dienen: die Augen lenken den Mauszeiger in die unmittelbare Nähe
des gewünschten Objektes. Das Überwinden der letzten Distanz und
Auswahl mittels Klick werden anschließend mit der Maus ausgeführt.
Der Vorteil dieser Methode liegt darin, dass Objekte beliebiger Größe
trotz eventueller Ungenauigkeit des Eye-Trackers ausgewählt werden
können. Außerdem muss der Benutzer den Cursor nie suchen, da
er nach Aktivierung in unmittelbarer Nähe seines Fixationspunktes
erscheint.
Zhai’s zweites Projekt trägt den Namen „EASE“ (Eye Assisted
Selection and Entry) [25] und soll die Eingabe chinesischer Zeichen
effizienter gestalten. Im Chinesischen existieren verschiedene Worte
mit der selben Aussprache. Bisher werden deshalb die ersten Buchstaben in Pinyin, dem offiziellen chinesischen phonetischen Alphabet,
basierend auf römischen Lettern getippt, woraufhin sich eine Liste
mit Symbolvorschlägen öffnet. Der Benutzer muss anschließend die
ID des gewünschten Symbols eintippen, damit das Zeichen auf dem
Bildschirm erscheint. Zhais Lösungsvorschlag für diese umständliche
Art der Eingabe ist ein mit den Augen gesteuertes System, bei dem
man nach Aufklappen der Symbol-Liste das gewünschte Zeichen
fixiert und durch Drücken der Leertaste einfügt [25].
Er stellte fest, dass Blinzeln nicht für eine Auswahl geeignet ist, da es
ungesteuert sehr oft und unbewusst vorgenommen wird. Gesteuertes
Blinzeln hingegen wäre sehr unnatürlich. Er bemerkte auch, dass
ein Schwellwert zwar sinnvoll, jedoch sehr langwierig ist. Deshalb
sollte sein Vorschlag der Eye-Gaze-Interaktion mit der Benutzung
von Maus bzw. Tastatur unterstützt werden. Zhai fand zudem heraus,
dass die von ihm vorgeschlagene Art der Interaktion sehr schnell ist
und zudem unter geringer kognitiver Last erfolgt, da der Blick der
Versuchspersonen stets auf dem Bildschirm bleiben kann und nicht
zwischen Monitor und Tastatur umherwandern muss. Seine Versuchspersonen bekundeten zudem eine hohe subjektive Zufriedenheit [25].
Wieder ein Jahr später hatte Surakka die Idee, Augenbewegungen mit der Bewegung von Gesichtsmuskeln zu kombinieren und
diese als Interaktionsmöglichkeit für den Computer zu nutzen. Für
seine Versuche sollte das gewünschte Objekt mittels Blick angedeutet
werden. Ein Klick wurde nach Kontraktion des Corrugator Supercilii,
dem Muskel der Stirnrunzeln auslöst, vorgenommen [20]. Die
NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007
Integration anderer Muskeln hält Surakka ebenfalls für möglich, doch
er entschied sich hier für den Corrugator Supercilii aufgrund der
Nähe zu den Augen. Zudem runzeln Personen in der realen Welt dann
die Stirn, wenn sie erhöhte kognitive Aktivitäten leisten müssen. Auf
diese Art kann Stirnrunzeln mit Aufgaben verbunden werden, die eine
Änderung der Ausmerksamkeit erfordern.
Aufgezeichnet wurden bei Surakka die Augenbewegungen mit einem
remote Eye-Tracker, die Muskelaktivität des Corrugator Supercilii
wurde mit Hilfe einer Verstärkers aufgenommen. Als Aufgabenstellung wurden jeweils zwei Objekte auf dem Bildschirm angezeigt,
von denen eines das Zielobjekt und das andere das „Home“-Objekt
war. Nachdem der Benutzer das Zielobjekt erfolgreich fixiert hatte,
was durch ein Aufblinken des selben angedeutet wurde, musste
er zum „Home“-Objekt zurückkehren. Surakka fand heraus, dass
es einen Trade-Off zwischen Geschwindigkeit und Genauigkeit
gibt: Aufgaben können sehr schnell erfüllt werden, wenn sie nicht
genau sein müssen. Im Gegenzug können sie besonders genau erfüllt
werden, wenn beliebig viel Zeit dafür vorhanden ist [20]. Aufgrund
dessen, sollten die Versuchspersonen versuchen, bei einer möglichst
hohen Geschwindigkeit eine möglichst hohe Genauigkeit zu erzielen.
Seine Untersuchung ergab, dass Interaktion mit der Maus bei
kleineren Distanzen signifikant schneller ist, als Surakka’s Gazingand-Frowning-Technik. Bei größeren Distanzen ist letzteres schneller,
jedoch ist der Unterschied statistisch nicht signifikant. Der Grund
hierfür liegt laut Surakka darin, dass Versuchspersonen bei seiner
Technik warten mussten bis der Eye-Tracker den Blickpunkt genau
errechnet hatte, bevor sie die Stirn runzeln konnten. [20]. Des
Weiteren ist die Interaktion mit der Maus genauer, was laut Surakka
auch an der Ungenauigkeit der bisherigen Eye-Tracker-Technologie
vor Allem bei der Kompensation von Kopfbewegungen liegt. Bei der
Mausinteraktion ist die Objektgröße irrelevant: die unterschiedlichen
Fehlerraten sind statistisch nicht signifikant. Bei der Interaktion
mit dem Eye-Tracker jedoch verbesserte sich die Fehlerrate bei
steigender Objektgröße. Ähnlich wie bei der Untersuchung von Ware
und Mikaelian [23] wird eine Objektgröße von etwa 40mm als ideal
empfunden [20]. Surakka fand allerdings heraus, dass seine Methode
schneller ist als die normale Gaze-Interaktion, weil Objekte nicht
einen gewissen Schwellwert lang fixiert werden müssen, bevor mit
ihnen interagiert werden kann. Zusätzlich bleiben, im Gegensatz zu
Zhai’s Interaktionsvorschlägen [25], die Hände frei. Die Befragung
der Benutzer nach ihrem subjektiven Empfinden ergab, dass die
Interaktion mittels Gazing-and-Frowning als schneller aber auch als
schwieriger und weniger genau wahrgenommen wird [20].
3.3
eignet oder R6 Remote [1], ein remote Eye-Tracker der an einem
Tisch befestigt werden kann und von dort aus agiert.
Chronos Vision bietet einen head-mounted 3D Eye-Tracker mit
einer Aufnahmegeschwindigkeit von 400Hz bei einer Genauigkeit
von weniger als 0,1◦ des Blickwinkels an. Kopf- und Augenbewegungen werden hier ebenfalls unterschieden, wobei die Besonderheit
dieses Eye-Trackers darin liegt, dass der Kopf auch zum betrachteten Objekt hin- oder von ihm zurück bewegt werden kann. Die
Bearbeitung der Tracking-Daten erfolgt in Real-Time. Eine Software zeichnet die Augenbewegungen auf und speichert relevante
Bilddaten, sodass eine spätere offline Bearbeitung ermöglicht wird [3].
SR-Research liefert mit ihrer EyeLink-Serie weitere Eye-Tracking
Geräte, die teilweise vom Max-Planck-Institut für Forschungsarbeiten
genutzt werden.
Die Serie EyeLink 1000 bzw. 2K ist sowohl als head-supported
Tower-Ausführung als auch als remote Desktop-Ausführung erhältlich. Die Geräte haben Aufzeichnungsgeschwindigkeiten von 1000
bzw. 2000Hz und arbeiten mit einer Genauigkeit von durchschnittlich
0,315◦ . Sowohl der Desktop-Version, die sich etwa 40 bis 70cm vor
dem Benutzer befinden sollte, als auch der Tower-Version, die sich
genau 38cm vor den Augen des Benutzers befindet, wird eine gute bis
exzellente Kompatibilität mit Brillen nachgesagt und beide Ausführungen errechnen den Blick mit Hilfe der Cornea-Reflex-Methode.
Während bei dem Tower ein Infrarot-Spiegel angebracht ist, der nur
Infrarot-Reflexionen der Augen der Versuchsperson zurückstrahlt
(vgl. Abbildung 7), funktioniert die Desktop-Variante ohne Spiegel.
Bei letzterer sind Kopfbewegungen innerhalb einem Bereich von
25mm möglich [19].
Anbieter
Einige Hersteller bieten Eye-Tracker an, die für Interaktionstätigkeiten ideal sind. Teilweise wird aber nur die Hardware bereitgestellt.
Wie die große Anzahl der Untersuchungen im vorigen Kapitel auch
zeigt, ist das Thema „Eye-Tracking als Eingabewerkzeug“ bisher eher
in der Forschung relevant. Am Ende dieses Kapitels wird jedoch ein
Anbieter für Komplettlösungen genannt.
Die ASL (Applied Science Laboratories) bieten eine Vielzahl unterschiedlicher remote und head-mounted Eye-Tracker an [1]. Viele
Untersuchungen aus dem vorangegangenen Kapitel wurden mit
Eye-Trackern dieses Hersteller gemacht, sodass er hier Erwähnung
finden sollte. Eye-Tracker von ASL bieten eine EyeHead Integration
(kurz: „EHI“), mit deren Hilfe sowohl Augen, als auch Kopfbewegungen getrackt werden können. Dabei wird ein Infrarot-Licht ins
Auge gestrahlt, das die Pupille erhellt und zugleich eine Reflexion
auf der Hornhaut verursacht. Bewegen sich diese Lichtpunkte in die
selbe Richtung, kann von einer Kopfbewegung ausgegangen werden,
bewegen sie sich in verschiedene Richtungen, unternimmt der
Proband eine Augenbewegung. Aus diesen beiden Lichtreflexionen
können zudem die x- und y-Koordinaten des Blickes errechnet [18].
Die Hardware von ASL wird mit einer Analysesoftware geliefert,
die Augenbewegungen aufzeichnet. Beispiele von Eye-Trackern der
Firma ASL sind Mobile Eye [1], ein Eye-Tracker, der an einer leichten
Brille befestigt ist und sich deshalb auch für längere Untersuchungen
Abbildung 7. Tower-Mounted EyeLink, Quelle: [19]
Der head-mounted Teil der EyeLink-Serie nennt sich EyeLink
bzw. EyeLink II und ist in Abbildung 4 zu sehen. Die Aufzeichnungsgeschwindigkeiten dieser Geräte liegen bei 250 bzw. 500Hz,
während die Genauigkeit mit durchschnittlich 0,5◦ ebenfalls etwas
geringer ist, als die der remote und head-supported Variante. Beide
Eye-Tracker sind mit drei Kameras bestückt, von denen zwei die
Augen- und eine die Kopfposition erfassen soll. Während EyeLink
den Blick noch mittels Pupil-Only-Tracking erfasste, bei der aus
der Ausrichtung der Pupille der Blick errechnet wurde, ist es beim
EyeLink II möglich auf die Cornea-Reflex-Methode zu wechseln.
Die Kompatibilität mit Brillen- und Kontaktlinsenträgern ist mit
dem Pupil-Only-Tracking jedoch besser. Der Bereich, in dem
sich die Versuchsperson vom Untersuchungsobjekt befinden sollte
beträgt 40 bis 140cm. Die Software die mit EyeLink-Geräten mitgeliefert wird, kann Fixationen, Sakkaden und Blinzeln unterscheiden [19].
Tobii ist ein Hersteller, der sich besonders Menschen mit verschiedenen motorischen Behinderungen wie beispielsweise Multipler
Sklerose oder Schäden am Rückgrat, aber funktionierenden kognitiven Funktionen widmet. Er stellt Geräte her, mit Hilfe derer
diese Personen mit ihrer Umwelt kommunizieren können. MyTobii
SÖTER et al.: STATE-OF-THE-ART: EYE-TRACKER ALS ANALYSE- UND EINGABEMEDIUM
P10 [21] ist ein portables, durch Augenbewegungen kontrolliertes
Kommunikationsgerät mit einem 15” Touchscreen. Computer und
Blickbewegungsregistrierungseinheit sind in diesem Gerät vereint.
MyTobii D10 [21] hingegen ist ein stationärer 17” Bildschirm mit
eingebauter Blickbewegungsregistrierungseinheit, der an einem beliebigen externen Computer angeschlossen werden kann. Beide Geräte
können auf verschiedene Fähigkeitsstufen ihrer Benutzer konfiguriert
werden und können laut Anbieter innerhalb von 30 Sekunden selbstständig kalibriert werden. Die Arbeitsdistanz zu diesen Geräten sollte
etwa 50 bis 70cm betragen. Bei einer Aufzeichnungsgeschwindigkeit
von 40Hz erreichen beide Geräte eine Genauigkeit von 0,5◦ , was
bei der angegebenen Distanz einer Objektgröße von etwa 0,5cm
entspricht. Tobii verspricht eine hohe Genauigkeit und eine gute
Kompensation von Kopfbewegungen (auch der von Behinderungen
verursachten) mit einem maximalen Kompensationsfehler von weniger als einem Grad des Blickwinkels. Die Kompatibilität mit Brillenund Kontaktlinsenträgern ist sehr gut [21]. Tobii bietet als einziger
Hersteller von Eye-Tracking-Hardware auch Softwarelösungen an.
Je nach Fähigkeit des Benutzers kann dabei eine Auswahl mittels
Schwellwertmethode oder Drücken eines Mausknopfes getroffen
werden. Es existiert von Textverarbeitungen über Verwaltung von
E-Mails zu Spielen eine gewisse Anzahl spezielle Software von Tobii
selbst, doch auch mit Software von Drittanbietern, die Tobii unterstützen können diese Geräten betrieben werden. MyTobii-Anwendungen
versprechen automatisches Panning und Zooming, schnelle Wechsel
zwischen Ansichten und eine Priorisierung der Informationen basierend auf der Aufmerksamkeit des Benutzers. Windows-Anwendungen
können weiter genutzt werden, indem der Mauszeiger mit den Augen
bewegt wird, was jedoch laut Tobii umständlicher ist, als die MyTobii
Direct Control. Auch können von Tobii Hardwarekomponenten zu
Integration von Eye-Control in eigene Geräte erworben werden, sowie
Frameworks zur Entwicklung von Eye-Gaze-Control Interfaces [21].
3.4
Nutzeneinschätzung
Augenbewegungen sind viel schneller als Bewegungen der Hände
und im Gegensatz dazu nicht von der Entfernung abhängig. Des
Weiteren wird Aufmerksamkeit mittels Blick gelenkt: Die Stelle,
an der gehandelt wird, wird in der realen wie in der virtuellen Welt
immer fixiert, bevor an ihr Interaktionen vorgenommen werden.
Die dadurch auftretende geringe kognitive Last, Natürlichkeit und
Schnelligkeit von Blickbewegungen führt dazu, dass sie sich sehr
gut für eine Nutzung bei der Eingabe eignen [18, 25]. So kann
Eye-Gaze-Interaktion mit wenig zusätzlicher Anstrengung mit
anderen Eingabegeräten kombiniert werden [18]. Funktioniert das
Eye-Gaze-Interaktionssystem gut, kann der Benutzer sich so fühlen,
als würde es seine Gedanken lesen und seine Befehle erahnen [18].
Für die Benutzergruppe der motorisch Behinderten ist die Interaktion
mit Hilfe des Blickes die einzige Möglichkeit der Interaktion und
sie verbessert die Kommunikation dieser Gruppe mit ihrer Umwelt [21, 10, 25].
In anderen Bereichen, wie beispielsweise der Chirurgie, könnte
blickgesteuerte Interaktion eingesetzt werden, damit die Hände frei
bleiben, die in diesem Fall für das Operieren benötigt werden [20].
Ansonsten sollte die Kombination mit der Maus in Betracht gezogen
werden um eine höhere Effizienz zu erreichen. Werden für die
Interaktion natürliche Augenbewegungen eingesetzt, so ist diese
Art der Interaktion auch einfach und intuitiv [18]. Zudem ist sie
direkt und absolut und bietet beispielsweise bei Videospielen oder
Multiple-Video-Streaming eine höhere Bequemlichkeit und einen
höheren Spaßfaktor.
Als Nachteile gelten für das Eye-Tracking als Eingabewerkzeug die
selben Punkte, wie bereits in Kapitel 2.3 genannt: unter Anderem sein
hoher Preis, seine geringe Gebrauchstauglichkeit und seine geringe
Genauigkeit. Diese Faktoren werden sich jedoch dank fortschreitender
technologischer Entwicklung stets verbessern [18].
Zusätzlich ist an dieser Stelle aber auch das Problem zu nennen, dass
gerade motorisch behinderte Benutzer, die ihre Hände nicht nutzen
können, einen Assistenten bräuchten, da die Interaktionswerkzeuge
nicht selbstständig anlegen (vgl. Surakka [20]) bzw. kalibrieren können. Tobii ist hier eine Ausnahme, da eine selbstständige Kalibrierung
möglich ist [21].
Zusammenfassend lässt sich sagen, dass bisher einige gute Ideen zur Interaktion vorgeschlagen wurden, deren Umsetzung motorisch
Behinderten die Kommunikation mit ihrer Umwelt ermöglichen
könnte [21, 10, 25]. Auch könnten Eye-Tracker als Eingabemedien
in Situationen genutzt werden, in denen die Hände für schwierige
Operationen genutzt werden müssen [20]. Hierfür sollten die Systeme
jedoch genauer und preisgünstiger werden, sowie die Kompatibilität
mit Brillen- und Kontaktlinsenträgern müsste verbessert werden,
denn obwohl Anbieter damit werben, zeigen Untersuchungen, dass
diese noch ausbaufähig ist [16]. Dank technoligischer Weiterentwicklung auf diesem Gebiet dürften diese Nachteile jedoch bald der
Vergangenheit angehören [18].
L ITERATUR
[1] ASL. Applied science laboratories, anbieter von eye-tracking-hardware.
http://www.a-s-l.com/, 2007.
[2] R. A. Bolt. Eyes at the interface. ACM Human Factors in Computer
Systems Conference, pages 360–362, April 1981.
[3] Chronos-Vision. Chronos 3d eye-tracker. www.chronos-vision.de, 2007.
[4] S. M. Dornhöfer, S. Pannasch, and P. J. Unema. Augenbewegungen und
deren registrierungsmethoden. TU Dresden.
[5] Z. G. Edward Cutrell. What are you looking for? an eye-tracking study
of information usage in web search. CHI 2007 Proceedings - Gaze &
Eye-Tracking, pages 407–416, April 2007.
[6] ETI.
Eyetracking inc., consumer marketing, interface usability.
http://www.eyetracking.com/, 2007.
[7] EyeSquare. Eye square - the usability company. http://www.eyesquare.com/deutsch/, 2007.
[8] M. Farid, F. Murtagh, and J. Starck. Computer display control and interaction using eye-gaze.
[9] InteractiveMinds.
Interactive minds, remote eye tracker.
http://www.interactive-minds.de/, 2007.
[10] R. J. Jacob. What you look at is what you get: Eye movement-based
interaction techniques. CHI 1990 Proceedings, pages 11–18, April 1990.
[11] R. J. Jacob and K. S. Karn. Eye tracking in human-computer interaction
and usability research: Ready to deliver the promises.
[12] M. Joos, M. Rötting, and B. M. Velichkovsky. Bewegungen des menschlichen auges: Fakten, methoden und innovative anwendungen, 2002.
[13] J. Nielsen.
F-shaped pattern for reading web content.
http://www.useit.com/alertbox/reading_pattern.html, 2006.
[14] K. Oertel and R. Schultz.
Im auge des betrachters - softwarequalitätssicherung durch blickbewegungsregistrierung. Fraunhofer Institut für Graphische Datenverarbeitung, 2003.
[15] K.-J. Räihä. New interaction techniques. TAUCHI, 2006.
[16] S. K. Schnipke and M. W. Todd. Trials and tribunals of using an eyetracking system. CHI 2000 Short Talks, pages 273–274, April 2000.
[17] SensoMotoric-Instruments.
Head-supported eye-tracker iview
x hi-speed.
http://www.smivision.com/en/eye-gaze-trackingsystems/products/iview-x-hi-speed.html, 2007.
[18] L. E. Sibert and R. J. Jacob. Evaluation of eye gaze interaction. CHI
2000, April 2000.
[19] SR-Research. Eyelink. www.eyelinkinfo.com, 2007.
[20] V. Surakka, M. Illi, and P. Isokoski. Gazing and frowning as a new
human-computer-interaction technique. ACM Transactions on Applied
Perceptions, 1(1):40–56, July 2004.
[21] Tobii. Broschüren, produktbeschreibungen, etc. www.tobii.com, 2007.
[22] B. Velichkovsky, A. Sprenger, and M. Pomplun. Auf dem Weg zur Blickmaus: Die Beeinflussung der Fixationsdauer durch kognitive und kommunikative Aufgaben. Teubner Stuttgart, 1997.
[23] C. Ware and H. Mikaelian. An evaluation of an eye tracker as a device
for computer input. CHI + GI 1987, pages 183–188, 1987.
[24] Wikipedia.
Blickbewegungsregistrierung.
http://de.wikipedia.org/wiki/Eyetracking, 2007.
[25] S. Zhai. What’s in the eyes for attentive input. Communications of the
ACM, pages 34–39, March 2003.
NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007
Eigenbau Eye-Tracker
Toni Schmidt
Abstract—Im Rahmen dieser Seminararbeit wurde zum einen ein mobiler Eye-Tracker entworfen. Dieses Gerät ist für den Einsatz
als Interaktionsmedium für große, hochauflösende Displays gedacht. Der Tracker wurde auf einer Arbeitsschutzbrille aufgebaut, an
der die verwendete Industriekamera, sowie ein Spiegel und eine Infrarot-LED angebracht wurden. Die Befestigung erfolgte über
Holzgestelle, die über Metallstangen an der Brille befestigt wurden.
Die entwickelte Software verwendet den Starburst-Algorithmus von Li, D., Parkhurst, D. J. (2005) [16]. Damit ist die Software in der
Lage, die Pupillenmitte zu bestimmen. Zusätlich wird das Kamerabild des Auges mit eingezeichneter Pupillenellipse in einem Fenster
ausgegeben, so dass die Möglichkeit zur Kontrolle durch den Nutzer besteht.
Weiterhin wird ein Überblick über die wichtigsten Eye-Tracking Methoden gegeben. Bei der Electro-Oculography werden die Augenbewegungen über Spannungsunterschiede auf der Haut gemessen. Die Scleral Contact Lens-Methode verwendet eine Kontaktlinse,
in der eine Spule eingarbeitet ist, um deren Position in einem Elektromagnetfeld zu bestimmen. Videobasierte Techniken verwenden
Kameras, um die Position der Pupille und der Cornea-Reflektion optisch zu bestimmen.
Darüber hinaus werden die verbreitesten Eye-Tracker vorgestellt. Diese sind grob in zwei Kategorien unterteilbar: Remote Eye-Tracker
sind relativ zum Display montiert, während Head-Mounted-Systeme am Kopf der Testperson befestigt werden.
Ein kurzer geschichtlicher Überblick zeigt die Anfänge des Eye-Trackings auf.
1
E INLEITUNG
Eye-Tracking ist ein viel genutztes Instrument in Forschung und Industrie. Zu den bekanntesten und verbreitetsten Nutzungsfeldern gehören
Usability-, Marketing- und Lesestudien. Zudem ist es für psychologische Wahrnehmungsexperimente unerlässlich. Auch die Nutzung als
Eingabemedium ist sinnvoll, um beispielsweise gelähmten Menschen
die Interaktion mit einem Computer zu ermöglichen.
Ein neues Nutzungsfeld stellt die Verwendung eines Eye-Trackers
als Eingabemedium für Anwendungen, die auf großen, hochauflösenden Displays laufen, dar. Der Anwender hätte dadurch die Möglichkeit, unabhängig von beschränkenden Eingabegeräten, wie beispielsweise der Maus, und frei vor dem Display beweglich, mit der Anwendung zu interagieren. Auch die Kombination mit anderen mobilen Eingabegeräten, wie z.B. einem Laserpointer, eröffnet vielfältige
Möglichkeiten. Bevor aber Interaktionstechniken für ein solches Szenario entwickelt werden können, ist es nötig, die erforderlichen Voraussetzungen zu schaffen. Dies beinhaltet die Bereitstellung der Hardund Software, sowie die Aneignung theoretischer Kenntnisse auf dem
Gebiet des Eye-Trackings.
Zu diesem Zweck wurde im Rahmen dieser Arbeit ein Eigenbau
Eye-Tracker entworfen und gebaut, sowie die entsprechende TrackingSoftware entwickelt. Zudem werden in dieser Arbeit Überblicke über
die verschiedenen Tracking-Methoden, sowie über die verbreitetsten
Eye-Tracker gegeben. Damit werden Voraussetzungen geschaffen,
die die Entwicklung von Interaktions- oder anderen, mit dem EyeTracking verwandten, Techniken, ermöglichen.
2
G ESCHICHTLICHER Ü BERBLICK
Die ersten Beobachtungen zum Verhalten der Augenbewegungen
stammen aus dem Jahr 1879 von Louis Emile Javal. Dieser stellte
fest, dass sich das Auge beim Lesen nicht kontinuierlich bewegt. Vielmehr stellt das Bewegungsmuster eine Abfolge von kleinen, schnelle
Sprüngen dar. Diese sind heute als Sakaden bekannt.
Das erste Gerät, das als ,,Eye-Tracker” bezeichnet werden kann,
stammt von Huey aus dem Jahre 1908. Huey entwickelte eine Art Kontaktlinse aus Keramik, die auf die Pupille aufgesetzt wurde. An dieser
Linse war ein Zeigestift montiert, der die Augenbewegungen auf ein
Blatt Papier abzeichnete.
• Toni Schmidt ist Student an der Universitt Konstanz, E-mail:
[email protected].
Das erste System, das weniger invasiv war, stammt von Buswell
1922. Er nutzte einen Lichtstrahl, der über einen Spiegel auf die Cornea reflektiert wurde und anschließend auf Zelluloid aufgezeichnet
wurde. [2]
Die ersten Ansätze zu der heute viel genutzten ,,Video-Based Combined Pupil/ Corneal Reflection”-Methode stammen von Kenneth Mason aus den späten 1960er Jahren. Er schlug ein automatisiertes System vor, das die Pupille und die Cornea-Reflektion filmte und daraus
die Blickrichtung berechnete.
In den frühen 1970er Jahren wurde diese Idee dann von John Merchant und Richard Morrisette in einem von der U.S. Air Force gesponsertem Projekt umgesetzt. Sie entwickelten das Öculometer“. Diese
System bestand sowohl aus Algorithmen zur Erfassung der Pupille
und deren geometrischen Zentrums, sowie der Erfassung der CorneaReflektion relativ zur Pupille. [18]
Das erste System, das eine Infrarot-Leuchtdiode nutzt, um das Auge
zu beleuchten stammt von Hutchnson (1989). [15]
3
E YE -T RACKING T ECHNIKEN
Es existieren eine Reihe von Eye-Tracking-Techniken, die alle ihre
Vor- und Nachteile haben. Videobasierte Techniken sind heute am weitesten verbreitet, da sie, im Vergleich zu anderen Methoden, leichter Umzusetzen und weniger störend für die Testperson sind. Die
wichtigsten Anforderungen an eine Tracking-Technik sind Genauigkeit, Schnelligkeit und Robustheit. Zusätzlich sollte die Testperson
möglichst wenig eingeengt werden. Auch sollte die Technik an verschiedenen Menschen gleich funktionieren.
3.1
Electro-Oculography (EOG)
Bei dieser Technik werden Elektroden um das Auge herum befestigt.
Mit diesen wird dann die elektrische Spannung der Haut gemessen.
Die Differenzen zwischen diesen Spannungen werden anschließend
genutzt, um die Augenposition zu bestimmen. Die Bandbreite der
Spannungen reicht von 15-200 µV . Eine Bewegung des Auges um ein
Grad entspricht dabei einem Spannungsunterschied von 20 µV [14].
3.2
Scleral Contact Lens
Eine sehr präzise Methode zur Messung von Augenbewegungwn ist
die Scleral Contact Lens-Methode. Hierbei wird eine große Kontaktlinse in das Auge gesetzt. Diese Linse bedeckt nicht nur die Pupille,
sondern auch die Sclera, also die weiße Augenhaut. Dies verhindert
ein Verrutschen, wie es bei einer Linse, die nur die Pupille bedeckt,
geschehen würde. In die Kontaktlinse ist eine kleine Spule eingearbeitet. Wird diese Spule nun durch ein elektromagnetisches Feld bewegt,
NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007
Abbildung 1. Electro-Oculography [11]
Abbildung 3. Pupille und Cornea-Reflektion [9]
kann ihre Position durch Messung von Unterschieden des elektromagnetischen Feldes bestimmt werden.
Diese Methode ist genau bis auf etwa 5-10 Bogensekunden über
einen Bereich von ca. fünf Grad [14].
Allerdings erfordert das Einsetzen der Linsen viel Übung und das
Tragen ist sehr unkomfortabel.
Der Abstand zwischen Pupillenmitte und einer Cornea-Reflektion
bleibt bei Kopfbewegungen relativ konstant, ändert sich aber bei einer
Rotation des Auges.
Neuere, so genannte Generation-V-Eye-Tracker, verwenden zusätzlich auch die vierte Purkinje-Reflektion, um zwischen Translation und
Rotation des Auges zu unterscheiden. Bei Translationen des Auges
wandern beide Purkinje-Reflektionen den exakt gleichen Weg. Bei Rotationen hingegen bewegen sie sich unterschiedlich weit. Diese Art des
Trackings wird als Dual-Purkinje Image Technik bezeichnet [19]. Allerdings ist die vierte Purkinje-Reflektion relativ undeutlich, was eine
sehr kontrollierte Lichtumgebung bedingt.
Abbildung 2. Scleral Contact Lens [7]
3.3
Video-basierte Techniken
Unter dieser Kategorie ist eine Menge von Erfassungsmethoden zu
verstehen, die optische Aufnahmen des Auges zur Bestimmung dessen Position verwenden. Der Fachausdruck hierfür lautet VideoOculography [14].
Zur Erkennung der Augenposition werden die klar unterscheidbaren optischen Merkmale des Auges verwendet. Zu diesen gehören der
Umriss der Pupille, Reflektionen auf der Cornea oder der Limbus (die
Grenze zwischen Iris und Scalera). Das Erfassen des Limbus ist allerdings nur bedingt geeignet, da die Augenlider den Limbus teilweise
überdecken. Daher ist diese Methode praktisch nur zum horizontalen
Erfassen der Augenbewegungen geeignet [14].
Die Auswertung der Bilddaten geschieht heutzutage normalerweise
automatisch. Vor dem Aufkommen von leistungsfähigen Rechnern ist
die Auswertung aber durchaus auch manuell erfolgt, indem jedes Bild
einzeln analysiert wurde.
Die bisher betrachteten Methoden haben alle gemeinsam, dass sie
nur die Augenposition relativ zum Kopf bestimmen können. Es ist daher nötig, den Kopf zu fixieren oder seine Position durch ein zusätzliches Tracking-System zu bestimmen.
Bei der Video-Based Combined Pupil/Corneal Reflection werden
mindestens zwei Referenzpunkte auf dem Auge genutzt, um Augenbewegungen von Kopfbewegungen zu trennen. Diese sind normalerweise das Zentrum der Pupille und eine Reflektion auf der Cornea. Die
Reflektionspunkte auf der Cornea werden auch Purkinje-Reflektionen
oder Purkinje-Bilder genannt. Durch den anatomischen Aufbau des
Auges gibt es vier solcher Reflektionspunkte. Eye-Tracker verwenden
üblicherweise den ersten und in manchen Fällen zusätzlich den vierten
[14].
Abbildung 4. Die vier Purkinje-Reflektionen [6]
Die Erzeugung der Reflektionspunkte geschieht üblicherweise
durch eine Infrarotlichtquelle in Form von einer oder mehrerer Leuchtdioden. Diese IR-Quelle dient zusätzlich zur Beleuchtung des Auges
mit IR-Licht, was den Vorteil bringt, vom Umgebungslicht unabhängig
zu sein. Außerdem flexibilisiert eine IR-Beleuchtung die Befestigung
der Kameras, da durch spezielle Spiegel nur das IR-Licht umgeleitet, sichtbares Licht aber durchgelassen wird. So können Kameras beispielsweise an der Seite des Kopfes angebracht werden.
Eye-Tracker, die nach diesem Prinzip fuktionieren, können sowohl
Head-Mounted, als auch Table-Mounted sein. Hierbei kompensieren
die Table-Mounted-Systeme die tatsächliche Kopfbewegung, während
die Head-Mounted-Systeme ein Verrutschen des Eye-Trackers auf
dem Kopf kompensieren.
4 E YE -T RACKING -S YSTEME
Es existiert eine Vielzahl von Eye-Tracking-Systemen. Im Rahmen
dieser Arbeit wird nur auf videobasierte Systeme eingegangen. Diese
können grob in Remote- und Head-Mounted-Systeme unterteilt werden.
Bei Remote-Systemen befinden sind die Kameras fest montiert und
unabhängig von der Testperson angebracht. Hierbei kann noch die Untergruppe der Head-Fixed Systeme herausgehoben werden, bei denen
der Kopf fixiert wird, um ein genaueres Tracking zu ermöglichen.
Bei Head-Mounted-Systemen sind Kameras und IR-Lichtquellen
relativ zum Kopf angebracht. Dies geschieht durch ein Gestell oder
eine spezielle Brille. Nachfolgend wird ein Überblick über die verbreitetsten Systeme und deren technische Merkmale und Aufbau gegeben.
4.1 Remote-Systeme
Hierbei sind die Kameras, die die Augenbewegungen aufzeichnen und
die Infrarotlichtquellen fest, auf beispielsweise einem Tisch, vor dem
Monitor positioniert. Diese Systeme haben den Vorteil, dass die Testperson kein beengendes Gestell auf dem Kopf tragen muss. Zudem
wird das Blickfeld nicht beeinträchtigt.
Allerdings ist die Genauigkeit schlechter als bei Head-MountedSystemen, da nur einen kleiner Bildausschnitt für das eigentliche
Auswerten der Augenbewegung genutzt werden kann. Zudem beeinträchtigen Kopfbewegungen sie Genauigkeit, da diese schwer zu kompensieren sind.
4.1.1 Das Tobii-System
Tobii bietet kommerzielle Remote-Lösungen an. Die Tracking Systeme sind direkt in einen Monitor integriert. Das Unternehmen bietet
Lösungen für Analyse bzw. Studien (T60/T120) und für Menschen
mit Behinderungen (P10/D10) an. Die P10/D10 Systeme können dabei auch an Rollstühlen befestigt werden.
Zusätzlich wird ein Standalone-System (X120)angeboten, das ohne
einen Monitor ausgeliefert wird.
Tobii gibt die Genauigkeit seiner Tracker mit 0,5◦ an bzw. 0,5
cm an. Die Datenrate beträgt 60 bzw. 120 Hz, anhängig von der
Ausführung. Die Arbeitsdistanz wird mit 50-70 cm angegeben. Der
Kopf kann, je nach System, in einem Bereich von 30x15x20cm bis
44x22x30cm bewegt werden.
Zusätzlich bietet Tobii Software für die Evaluation von Augenbewegungen (Tobii Studio Analysis Software), sowie für die Interaktion
mit den Augen (MyTobii Software) an [13].
LC gibt die durchschnittliche Genauigkeit mit 0,45◦ bzw. 0,38 cm
bei einem Abstand von Kopf zu Monitor von 51 cm an. Der Kopf
darf sich dabei um ca. 3 cm in jede Richtung bewegen. Die Datenrate
beträgt 60 Hz. [8]
Abbildung 6. The Eyegaze Analysis System [8]
4.2
4.2.1
Abbildung 5. Tobii T60/T120 [13]
4.1.2 LC Technologies EYEGAZE
LC Technologies bietet Systeme für Analyse und Interaktion an. Die
Systeme sind so aufgebaut, dass eine Kamera unterhalb eines handelsüblichen Monitors angebracht wird. Das System, das für Interaktion entworfen wurde (The Eyegaze Communication System) kann an
einem Rollstuhl befestigt werden.
LC Technologies hat zudem eine Point-and-Click Lösung entwickelt, die die Kontrolle von militärischen Fahrzeugen erleichtern
soll.
Die Systeme haben die Besonderheit, dass sie eine Kamera mit
Zoomfunktion nutzen. Dadurch wird die Genauigkeit erhöht, allerdings sinkt auch die Toleranz gegenüber Kopfbewegungen.
Head-Mounted Systeme
Head-Mounted-Systeme haben die Kameras und IR-Lichtquellen relativ zum Kopf befestigt. Dies geschieht üblicherweise über ein Headband oder eine Brillenkonstruktion. Man kann grob zwischen zwei Kategorien unterscheiden: Eye-Tracker, die für Tests an einem Arbeitsplatz entworfen wurden und solche, die für den mobilen Einsatz bestimmt sind.
Die ersteren werden eingesetzt, um den Blickpunkt auf einem Display zu bestimmen. Bei ihnen sind Schnelligkeit und Genauigkeit von
großer Bedeutung, um beispielsweise einzelne Sakaden zu identifizieren. Solche Systeme sind relativ schwer und unkomfortabel, da sie sehr
fest fixiert werden müssen. Sie verwenden Hochgeschwindigkeitskameras, die mit bis zu 1000Hz arbeiten. Diese Systeme arbeiten üblicherweise binokular.
Systeme, die für den mobilen Einsatz bestimmt sind, haben den
Zweck, den Fokuspunkt der Testperson in der Umgebung festzustellen. Hierzu wird eine Szenekamera verwendet, die in Kopfrichtung
filmt und auf deren Bild der Fokuspunkt der Testperson eingezeichnet wird. Dabei soll sich die Testperson auch möglichst frei bewegen
können. Die Ausführung ist meist sehr minimal und leicht gehalten,
um die Testperson wenig einzuschränken.
Es folgt eine kurze Übersicht über die verbreitetsten Systeme.
SR Research Ltd. EyeLink II
Dieses System wird über ein Headband auf dem Kopf befestigt. Die
Kameras und IR-LEDs sind über ein Gestell unterhalb der Augen angebracht. Zusätzlich ist eine Frontkamera in das Gestell eingebaut.
Diese hat den Sinn, an den Rändern des Monitors befestigte aktive
IR-Lichtquellen zu erkennen und daraus die Kopfposition im Raum
zu bestimmen. [10]
Das Erfassen der Augen geschieht, laut Hersteller, mit 500Hz
und einem durchschnittlichen Blickpositionsfehler von 0,5◦ . Die
Auflösung beträgt 0,025◦ - 0,01◦ , je nach verwendetem Modus.
Es kann sowohl nur die Pupille, als auch die Pupille mit der ersten
und der vierten Purkinje-Reflektion erfasst werden, was die Einsatzflexibilität steigert.
4.2.2
SMI Research
SMI bietet verschiedene mobile Lösungen an. Zum einen eine hochmobile, portable Ausführung (iView X HED). Diese dient dazu, den
Fokuspunkt im Blickfeld zu erfassen, was anschließend durch das Abtragen auf das Bild einer Szenenkamera visualisiert wird. Die Datenrate beträgt 50-200Hz, die Auflösung 0,1◦ und die Genauigkeit 0,5◦ 1◦ (Herstellerangaben).
Darüber hinaus bietet SMI einen Tracker an, der für klinische Studien bestimmt ist (3D VOG Video-Oculography System). Bei diesem
NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007
Abbildung 9. 3D VOG Video-Oculography System [5]
Abbildung 7. SR Research Ltd. EyeLink II [10]
den Autoren verwendete Starburst-Algorithmus kommt auch in dem
in dieser Arbeit vorgestellten Eye-Tracker zum Einsatz. [16]
ist hervorzuheben, dass er die Augenbewegung in 3 Dimensionen erfasst, also auch die Torsion erkannt wird. Zusätzlich wird die Kopfposition durch einen linearen 3D-Beschleunigungssensor und einen 3D
Rotationssensor erkannt. Die Auflösung beträgt 0,05◦ bis 0,1◦ (Herstellerangaben). Es werden beide Augen gefilmt. Die Kameras sind an
der Seite des Kopfes angebracht und erkennen das Auge über Spiegel.
[12]
Abbildung 10. openEyes: a low-cost head-mounted eye-tracking solution [16]
5
D ER E IGENBAU E YE -T RACKER
Der C-ETD Eye-Tracker der Firma Chronos Vision ist ein sehr schnelles System, das vor allem durch seine Datenrate von über 1000Hz hervorsticht. Wie bei den Systemen von SR Research und SMI wird auch
hier binokular garbeitet. Der Tracker wird durch ein Headband am
Kopf befestigt. Die Auflösung beträgt weniger als 0,1◦ bei einer Latenzzeit von 2 ms (Herstellerangaben). Optional können Bewegungssensoren angebracht werden, um die Kopfbewegungen zu erfassen.
[5]
Im Rahmen dieser Arbeit wurde ein Prototyp eines Head-Mounted
Eye-Trackers entwickelt. Dieser ist soll eine Lücke in der bestehenden
Produktlandschaft schließen. Bestehende Systeme, die eine hohe Genauigkeit und Datenrate bereitstellen, sind sehr teuer, durchaus in fünfstelligen Beträgen. Lösungen, die günstiger sind, nutzen durchgängig
einfache Kameras, die weder eine hohe Auflösung, noch eine schnelle
Aufnahmerate bieten.
Der Ansatz, der in dieser Arbeit präsentiert wird, bietet hohe Flexibilität und Leistung bei geringen Anschaffungskosten und unkompliziertem Aufbau.
Das Einsatzszenario für diesen Eye-Tracker ist eine Anwendung
vor einem großen, hochauflösenden Display. Dabei steht die Nutzung als Eingabemedium im Vordergrund, weniger die Verwendung
als Analysewerkzeug. Der Eye-Tracker und die zugehörige Software
sind in der Lage, die Pupillenmitte eines Auges zu bestimmen. Da vor
dem relevanten Display ein Body-Tracking System installiert ist, ist
die Erfassung der Pupillenmitte mit entsprechender Kalibration ausreichend zur Bestimmung des Fokuspunkts auf dem Display.
4.2.4
5.1
Abbildung 8. 3D VOG Video-Oculography System [12]
4.2.3
Chronos Vision C-ETD
openEyes: A low-cost head-mounted eye-tracking solution
Dieser nicht-kommerzielle Eye-Tracker von Li, D., Babcock, J., Parkhurst, D. J. (2006) verwendet eine leichte Hardware, die an einer Brille
angebracht ist. Im Fokus stehen die geringen Kosten, die die Autoren
mit ca. 350 US Dollar bezeichnen. Das System besteht aus einer Brille,
an der eine IR-LED, eine Augenkamera und eine Szenekamera befestigt sind. Die Augenbewegungen werden mit 30 Hz erfasst. Der von
Aufbau des Eye-Trackers
Der Eye-Tracker funktioniert nach dem Prinzip der VideoOculography. Das heißt, dass das Auge von einer Kamera gefilmt wird
und Software nahezu in Echtzeit die Pupille erkennt.
Als für Kamera und sonstige Anbauten wurde eine handelsübliche Arbeitsschutzbrille gewählt. Die Scheibe dieser Brille geht, ähnlich einer Skibrille, über eine große Fläche. Dadurch bietet die Brille
auch ein robustes Plastikgehäuse für Befestigungen bei gleichzeitigem
Tabelle 1. Technische Details der Kamera [1]
Modellbezeichnung
Sensortechnologie
Anschluss
Auflösung (v x h)
Optisches Sensorformat
Shuttersystem
Max. Fps im Freerun-Modus bei voller Auflösung
AOI Modi
AOI mit 320 x 240 Pixeln (CIF)
Subsampling Modi
Subsampling Faktoren
Pixeltaktbereich
UI-1540-C
CMOS
USB 2.0
1280 x 1024
“
Rolling
25 fps
H+V
232 fps
H+V
x2, x4
5 - 43 MHz
Abbildung 11. Eigenbau Eye-Tracker
hohem Tragekomfort durch elastisches Polstermaterial an den Brillenrändern. Da die Brille durchgängig auf dem Gesicht aufliegt, ist ein
stabiler Sitz gegeben. Ein elastisches, verstellbares Band gewährleistet
eine individuell einstellbare Passform.
Die Kamera ist seitlich an der Brille befestigt. Da eine handelsübliche Industriekamera verwendet wurde, kam aufgrund des Gewichts
und der Länge der Kamera keine andere Befestigungsposition in Frage. Die Kamera wird von einem Holzrahmen gehalten. Dieser Rahmen
ist mit einer Metallstange im Rahmen der Brille gelagert. Dadurch sind
Rahmen und Kamera drehbar, was eine individuelle Einstellung der
Kameraposition auf eine Testperson ermöglicht.
Da die Kamera an der Seite der Brille angebracht ist, ist ein Spiegel nötig, um das Auge zu filmen. Für den hier vorgestellten Prototyp
wurde ein normaler Spiegel verwendet, der sowohl sichtbares, als auch
Infrarotlicht spiegelt, was zum Testen des Prototypen ausreichend ist.
Der Spiegel ist, wie auch die Kamera, über einen Holzrahmen drehbar
im Brillenrahmen gelagert. Dadurch entsteht weitere Flexibilität bei
der Anpassung auf eine Testperson.
Unterhalb des Spiegels ist eine Leuchtdiode angebracht, die Licht
im Infrarotbereich ausstrahlt. Diese dient zur Beleuchtung des Auges
mit IR-Licht, um von äußeren Lichteinflüssen unabhängig zu sein. Die
Diode ist für diesen Prototyp nur locker fixiert, da der Lichteinfluss
auf das Auge schnell angepasst werden können muss. Die Diode wird
über eine Batterie mit Spannung versorgt. Ein Ein/Aus-Schalter hilft,
die Batterie zu schonen.
Als Kamera wird das Modell uEye UI-1540-C der Firma iDS
verwendet. Diese Kamera hat den Vorteil, dass sie ein StandardIndustriegehäuse besitzt. Das bedeutet, dass Objektive schnell gewechselt werden können, um unterschiedliche Konfigurationen zu testen. Außerdem passt so auch der Rahmen für unterschiedliche Kameramodelle gleichermaßen. Vor der Kamera wurde ein Infrarotfilter angebracht, um störendes Licht auszufiltern. Zusätzlich ist die SoftwareAPI, die iDS für seine Kameras bereitstellt, hilfreich.
Als Objektiv wurde eine Weitwinkel-Objektiv von Pentax verwendet. Die Brennweite beträgt 4,8 mm, der Blendenbereich 1,8-C.
5.2
Der Tracking-Algorithmus
Für diese Arbeit wurde der Starburst-Algorithmus von übernommen
[17]. Dieser vereint merkmal- und modellbasierte Ansätze zur Erkennung der Pupille, der Cornea-Reflektion und deren Vektordifferenz.
Merkmalbasierte Ansätze erkennen bestimmte Regionen und Punkte auf dem Auge mit Hilfe derer optischen Eigenschaften. Beispielsweise werden Schwellwerte eingesetzt, um besonders helle (z.B. die
Cornea-Reflektion) oder dunkle (z.B. die Pupille) Regionen des Auges zu bestimmen.
Modellbasierte Ansätze verwenden geometrische Modelle, die dann
auf das Auge abgebildet werden. So wird zur Erkennung der Pupille beispielsweise versucht, eine Ellipse in das Bild hineinzupassen.
Die beste Passform bestimmt dann die Position der Pupille. Solche
Ansätze verwenden meist iterative Techniken.
Abbildung 12. Eigenbau Eye-Tracker
Der für diese Arbeit verwendete Algorithmus nutzt eine Kombination beider Ansätze. Hierbei wird zuerst die Cornea-Reflektion mit Hilfe
eines Schwellwerts, der auf einen bestimmten Bereich des Bildes angewendet wird, erkannt. Nach dem Speichern ihrer Position wird sie
dann mittels einer auf eine bivariante Gaußverteilung angewendete radiale Interpolation aus dem Bild entfernt. Dies ist nötig, um in den
folgenden Schritten die Pupille verlässlicher erkennen zu können.
Im nächsten Schritt sollen möglichst viele Punkte, die auf dem
Rand der Pupille liegen, erkannt werden. Hierzu werden von einem
beliebigen Startpunkt im Bild Strahlen in alle Richtungen ausgesandt.
Sobald ein solcher Strahl einen Übergang von dunkel nach hell passiert, der einen bestimmten Grenzwert überschreitet, wird der Strahl
gestoppt und der resultierende Punkt gespeichert. Dies ist motiviert
durch die dunkle Pupille, die rundherum nur in hellere Regionen übergeht. Dieser Vorgang wird nun für alle Punkte des ersten Durchgangs
wiederholt. Allerdings werden die Strahlen nun nur in einem Bereich
von 50◦ in Richtung des initiellen Startpunkts verschossen. Hierdurch
erzeugt ein Punkt, der auf dem Pupillenrand liegt, nur neue Punkte, die
auch auf dem Pupillenrand liegen.
Nach diesen zwei Stufen erhält man typischerweise ein Ergebnis,
das viele Ausreißer, aber auch eine große Zahl von Punkten enthält,
die auf dem Pupillenrand liegen. Um die Pupille nun genauer erkennen zu können, wird der Durchschnitt der schon erkannten Punkte als
Ausgangsposition für einen neuen Durchgang genommen. Dieser neue
Durchgang besteht wieder aus den oben beschriebenen zwei Phasen.
Es werden nun mehrere Iterationen durchgeführt, was dazu führt,
dass die neu generierten Startpunkte zur Pupillenmitte konvergieren.
Es sind typischerweise ca. 5 Iterationen nötig, um ein gutes Ergebnis
zu erhalten. Die erkannten Punkte aus der letzten Iteration werden als
NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007
Abbildung 13. Bild der Kamera bei voller Auflösung
Abbildung 14. Bild der Kamera nach gesetztem Aspect-Of-Interest
Eingabe für den nächsten Schritt im Algorithmus verwendet.
Die Pupille hat die Form einer Ellipse. Ziel des nächsten Schrittes
ist, den Mittelpunkt dieser Ellipse möglichst genau zu bestimmen. Der
übliche Ansatz hierzu ist die Verwendung der least-squares Analyse.
Diese wird genutzt, um die Werte von unbekannten Mengen in einem
statistischen Modell zu bestimmen. Dies geschieht durch die Minimierung der Quadrate der Residuen. Ein Residuum ist die Differenz
zwischen geschätztem Wert und empirischem Wert.
Diese Methode hat allerdings den Nachteil, dass sogenannte Outliner nicht berücksichtigt werden. Als Outliner sind in unserem Fall
Punkte zu verstehen, die nicht auf dem Pupillenrand liegen, also beispielsweise auf der Grenze von Limbus und Lid. Um nun auch mit
solchen Outlinern umzugehen wurde die Random Sample Consensus
(RANSAC) Methode angewendet. Diese betrachtet nicht die Datenmenge als Ganzes, sondern viele kleine Teilmengen. Diese Teilmengen werden dann auf ein Modell aufgelegt. Danach wird das Modell
gesucht, das der gesamten Datenmenge am besten entspricht.
Anschließend wird noch die Vektordifferenz zwischen Pupille und
Cornea-Reflektion ermittelt, was aber für diese Arbeit nicht relevant
war.
5.3
Die Software-Umsetzung
Der oben beschriebene Algorithmus ist als Open Source Projekt
erhältlich (cvEyeTracker) [4]. Dieses Projekt nutzt OpenCV [3], eine
Computer-Vision Bibliothek von Intel, zur Verarbeitung der Bilddaten.
Beide Projekte sind in C++ geschrieben.
Für das für diese Arbeit entwickelte Testprogramm wurde ein C++Programm verfasst, das die Kameradaten ausliest und an den Algorithmus übergibt. Das Auslesen des Kamerabilds erfolgt durch die API des
Kameraherstellers.
Das Kamerabild wird in einem Fenster in Echtzeit ausgegeben.
Außerdem wird die vom Algorithmus berechnete Ellipse in das Bild
eingezeichnet. So ist eine Überprüfung durch den Bediener möglich.
Auch kann so die für die Beleuchtung zuständige IR-Leuchtdiode flexibel auf die optimale Position eingestellt werden.
Abbildung 15. Mermalserkennung: Schritt (a) zeigt das Ergebnis des ersten Durchlaufs. (b) und (c) Zeigen zwei Ergebnisse des zweiten Durchlaufs. In (d) und (e) sind die Startpunkte der neuen Iterationen durch
einen roten Punkt gekennzeichnet. (f) zeigt, dass die Startpunkte zur
Pupillenmitte hin konvergieren [16]
Abbildung 16. Herausfiltern der Outliner (rot) durch RANSAC [16]
Um die Kameraleistung zu verbessern, hat der Nutzer die Möglichkeit, den Aspect-Of-Interest (AOI) manuell zu wählen. Dies geschieht
durch aufziehen eines Rechtecks mit der Maus in dem Fenster, das das
Kamerabild darstellt. Der AOI der Kamera ist initiell auf das Maximum, also 1280x1024, eingestellt. Durch die Verwendung eines Objektivs mit geringer Brennweite ist sichergestellt, dass das Auge immer
im Kamerabild sichtbar ist. Das Beschränken der AOI auf die unmittelbare Umgebung des Auges erhöht die Verlässlichkeit des Algorithmus, sowie die Schnelligkeit der Kamera. Ein üblicher Bildausschnitt
beträgt ca. 350x250 Pixel, was Kamerageschwindigkeiten von bis zu
200 fps zulässt.
6
S CHLUSS
Das in dieser Arbeit präsentierte System ist in der Lage, in, für Interaktionszwecke, ausreichender Geschwindigkeit und Genauigkeit zu
arbeiten. Zudem ist es flexibel genug, um auf verschiedene Testpersonen oder Kamerakonfigurationen schnell angepasst zu werden. Noch
nicht realisiert ist die Anbindung des Head-Tracking Systems. Dies ist
nötig, um den endgültigen Fokuspunkt des Nutzers auf dem Display
Abbildung 17. Endergebnis mit auf die Pupille aufgepasster Ellipse [16]
zu berechnen. Zudem sind weitere Feinabstimmungen am Algorithmus nötig, um die erforderte Robustheit für sich verändernde Lichtverhältnisse zu schaffen.
L ITERATUR
[1] ueye prospekt. quelle: http://www.mvplus.co.in/dawnloads/productbased/camera/ids/ueyeueyereprospektnd.pdf.
[2] Webquelle: http://en.wikipedia.org/wiki/eyetracking.
[3] Webquelle: http://sourceforge.net/projects/opencvlibrary/.
[4] Webquelle:
http://thirtysixthspan.com/openeyes/cveyetracker1.2.5.tar.gz.
[5] Webquelle: http://www.chronos-vision.de/.
[6] Webquelle: http://www.diku.dk/ panic/eyegaze/node9.html.
[7] Webquelle: http://www.dizziness-and-balance.com/practice/images/eyecoil.jpg.
[8] Webquelle: http://www.eyegaze.com/.
[9] Webquelle: http://www.eyegaze.com/2products/development/devimages/devbroch2.jpg.
[10] Webquelle: http://www.eyelinkinfo.com/index.php.
[11] Webquelle: http://www.metrovision.fr/mv-po-notice-im18.jpg.
[12] Webquelle: http://www.smivision.com.
[13] Webquelle: http://www.tobii.com/.
[14] A. T. Duchowski. Eye-Tracking Methodology: Theory and Practice.
Springer Verlag London, 2003.
[15] T. Hutchnson. Eye Movement Detector. U.S. Patent 4,836,670, 1989.
[16] J. Li, D. Babcock and D. J. Parkhurst. openeyes: A low-cost headmounted eye-tracking solution. In Proceedings of the ACM Eye Tracking
Research and Applications Symposium, 2006.
[17] W. D. P. D. J. Li, D. Starburst: A hybrid algorithm for video-based eye
tracking combining feature-based and model-based approaches. In Proceedings of the IEEE Vision for Human-Computer Interaction Workshop
at CVPR, 1-8, 2005.
[18] J. e. a. Merchant. A Remote Oculometer Permitting Head Movement. Aerospace Medical Research Laboratory,WrightPatterson Air Force Base,
AMRL-TR-73-69, 1973.
[19] C. D. d. G. . G. R. Mller, P. U. A comparison of a new limbus tracker, corneal reflection technique, purkinje eye tracking and electro-oculography,
in G. d’Ydewalle J. V. Rensbergen, eds, Perception and Cognition. Elsevier Science Publishers, B.V., 1993.
NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007
Bau eines Multitouch Displays
Dominik Schmucki und Jochen Oekonomopulos
Abstract—Multitouch Displays erlauben es dem Benutzer Eingaben mit mehreren Fingern auf einmal durchzuführen. Somit erhält
man völlig neue Steuermöglichkeiten, da man mit mehreren Fingern von verschiedenen Händen relativ komplexe, eindeutige Befehle
auf einer Ebene anzeigen kann.
Index Terms—Multitouch, Display, Eingabegerät.
1
E INLEITUNG
Ein normales berührungssensitives Display hat den Vorteil, dass
es Ein- und Ausgabegerät miteinander kombiniert. Es wird dem
Benutzer ermöglicht, mit seinen Händen direkt auf dem ausgegebenen
Bild Befehle in den angeschlossenen Computer einzugeben. Die
Benutzung eines weiteren Eingabegeräts (und die damit verbundene
eventuelle Eingewöhnungsphase) ist somit nicht erforderlich.
Allerdings kann es lediglich eine Berührung zur Zeit feststellen.
Somit sind die Interaktionsmöglichkeiten auf sequentielle Eingaben
begrenzt, ähnlich der Interaktion über eine Eintastenmaus. Diese
Einschränkung verbietet in vielen Anwendungen einfache und
intuitivere Möglichkeiten der Kommunikation mit einem Programm.
Ein Multitouch Display hingegen nutzt die Vorteile des herkömmlichen berührungssensitives Displays und fügt die Funktionalität
hinzu es mit mehreren Fingern gleichzeitig zu bedienen. So kann
man eigene Gesten, die man mit mehreren Fingern auf dem Display
eingibt, entwickeln und diese dann in eine komplexe Befehlsfolge
für diverse spezifische Programme umwandeln. Diese Entwicklung
erlaubt eine sehr intuitive Eingabe von Befehlen, sowie eine direkte
Manipulation von Objekten auf dem Display.
Wollte man zum Beispiel ein Objekt wie ein Foto auf dem Display
drehen, wäre eine denkbare Geste mit zwei Fingern zu bewerkstelligen: Ein Finger wird fest auf das zu drehende Objekt gelegt und
fungiert als die Achse, um die sich das Objekt drehen wird. Den
zweiten Finger legen wir ebenfalls auf das Objekt und ziehen ihn auf
dem Display in die gewünschte Drehrichtung.
Zu beachten ist, dass die Ansätze für eine spezifische Fingererkennung noch am Anfang ihrer Entwicklung stehen. Es wird keine Unterscheidung der Finger vorgenommen, mit denen man die Eingabe
macht. Wenn diese Hürde einmal genommen ist, werden zwar weniger intuitive, aber dafür komplexere und dennoch kompaktere Befehle
möglich sein, indem man verschiedenen Fingern verschiedene Funktionalität zuweist.
Darüber hinaus ist die Bedienung am Multitouch Display nicht nur
auf eine Person beschränkt. Microsoft zeigt mit seinem Surface Projekt eine schöne Arbeitsumgebung, um mit meheren Menschen an einem Computer, wie an einem Tisch zu arbeiten.
Als einführendes Beispiel für eine Anwendung, bei der die Multitouchfähigkeit eines Displays große Vorteile bietet, seien an dieser Stelle Landkartenprogramme wie NASA Worldwind oder Google Earth genannt. Das gerade Geoinformations-Anwendungen einfach via Multitouch zu bedienen sind, liegt daran, dass Operationen
wie Zoomen und Rotieren sehr intuitiv mit mehreren Fingern bewerkstelligt werden können.
Die Multitouch Forschungen haben bereits Anfang der 1980er Jahre
begonnen [1]:
1.1 DigitalDesk
1991 stellte Pierre Wellner den DigitalDesk [5] der Öffentlichkeit
vor. Dabei wird über einer glatten Oberfläche ein Projektor sowie eine Kamera installiert. Das Bild des Projektors wird auf die Oberfläche
projeziert und die Kamera kann über eine Bildbearbeitungssoftware
Berührungen mit dem Display erkennen. Bei dieser Technik gab es
Abbildung 1. DigitalDesk
das Problem, dass der Benutzer aufpassen musste, um nicht seinen eigenen Finger mit dem Rest seiner Hand vor der Kamera zu verdecken.
1.2 Digital Tape Drawing
Eine weiter Technik stellte das Digital Tape Drawing Projekt [2] dar,
dass 1999 vorgestellt wirde. Tape Drawing, also das Malen mit Klebeband, ist ein wichtiger Bestandteil des Automobildesigns. Dabei werden Formen von Karosserien in grossen Massstäben an eine Wand geklebt und mit ihnen gearbeitet. Doch das so entstehende Modell kann
nicht erhalten werden, da es zerfaellt, sobald man es wieder von der
Wand ablöst.
Hier setzt das Digital Tape Drawing an, dass es dem Ingenieur
ermöglicht vor einem Display zu stehen, und via Multitouch ein digitales Klebeband so verformen kann, wie er es von dem richtigen Band
gewohnt ist. Die Technik wurde eigens für dieses Einsatzgebiet angepasst und kann somit schwer auf andere Gebiete erweitert werden. Das
Display ist riesig, um auch 1:1 Modelle abbilden zu können und somit stationär. Desweiteren wurde die Multitouch Technik lediglich auf
zwei Punkte reduziert und ist in Wirklichkeit auch kein echtes Multitouch, im Sinne des Wortes. Der Benutzer bekommt ein Eintastengerät
in jede Hand, von dem die Position vor dem Display in Echtzeit ermittelt wird. Möchte der Benutzer eine Interaktion ausführen, so muss er
nur die Taste drücken. Das funktioniert auf diesem Anwendungsgebiet sehr gut, da die Aktionen, die ein Ingenieur beim Tape Drawing
vornimmt auf einige wenige beschränkt sind.
1.3 SmartSkin
Im Jahr 2002 stellte Jun Rekimoto von Sony den SmartSkin [4] vor.
Dabei handelt es sich um einen Tisch als Projektionsfläche, an dem
NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007
Abbildung 2. Digital Tape Drawing
mehrere Benutzer sitzen und Objekte auf der Projektionsfläche manipulieren können. Rekimoto benutzte hierfür nicht wie Wellner eine
Kamera, sondern überzog den Tisch mit einem Sensornetz, dass die
verschiedenen Berührungen registrierte. So brauchte er sich nicht um
die Lichtanfälligkeit der Sensorkameras zu kümmern.
Abbildung 4. Multitouch Demonstration auf Jeff Han’s Display
Abbildung 5. Microsoft Surface Computer: Zugriff auf die Informationen
von zwei auf das Surface gelegten Telefonen
Abbildung 3. SmartSkin
1.6
1.4
Jeff Han’s Display
Einen Durchbruch in der Öffentlichkeit erzielte Jefferson Han von der
New York University im Jahre 2006, als er einen sehr kostengünstigen
Prototypen bei der TED vorstellte [3]. Ein weiterer Vorteil neben den
gerignen Kosten, ist der Aufbau des Displays. Han plazierte Beamer
und Kamera hinter dem eigentlichen Display, so dass die Hand des
Benutzers nicht mit den Eingabefingern interferriert.
1.5
Microsoft Surface
Der Surface Computer von Microsoft aus dem Jahr 2007 geht noch
einen Schritt weiter als normale Multitouch Displays. Naben der Bearbeitung der Oberfläche mit unterschiedlichen Gegenständen wie zum
Beispiel verschiedenen Malpinseln, wird dem Benutzer die Interaktion mit dem Computer über normale Gegenstände ermöglicht, die
allerdings speziell elektronisch markiert sein müssen. So kann man
zum Beispiel sein Handy auf das Display legen und erhält (dann über
Bluetooth oder WLAN) Zugriff auf die Speicherkarte und verschiedene Einstellungen des Telefons. Oder Man stellt ein Glas auf dem
Display ab, dessen Markierung Informationen über das enthaltene Getränk enthält.
Nachbau
Wir haben uns entschieden, bei unserem Nachbau die von Han vorgestellte Technik zu verwenden. Dies hat verschiedene Gründe: zum
einen gibt es schon einige Projekte, die sich mit einem Nachbau des
Han Displays beschäftigen und Zugriff auf ihre Erfahrungen und Ergebnisse gegeben haben, und zum anderen ermöglicht Han den Bau
einer vergleichsweise günstigen Variante eines Displays.
2
T ECHNIK
In eine Plexiglasscheibe wird Infrarotlicht über die Seitenkanten
eingestrahlt. Aufgrund von totaler innerer Reflexion tritt dieses Licht
nur aus, wenn ein Gegenstand mit einer höheren optischen Dichte
als das Plexiglas auf die Scheibe gelegt wird (wie zum Beispiel
ein Finger). Dieses austretende Licht wird mit einer Infrarotkamera
aufgenommen, und an einen Computer gesendet, der die Berührungspunkte in Koordinaten umrechnet.
Das Prinzip der Totalen inneren Reflexion: Jedes Medium i hat
eine eigene Dichte ni . Trifft Licht auf die Grenze zweier Medien, so
gibt es drei Möglichkeiten, was mit dem Licht passiert:
• Das Licht trifft genau im Lot auf die Mediengrenze:
Abbildung 6. Prinzip des Multitouch Displays
In diesem Fall passiert gar nichts, sofern die Medien Lichtdurchlässig sind. Das Licht wird in seiner Richtung nicht
geändert und tritt in das andere Medium über
• Das Licht trifft in einem zum Lot kleineren Winkel als θ auf die
Mediengrenze, wobei θ abhängig von der Dichte n1 und n2 der
zwei Medien ist (rote Markierung in Abbildung 2):
Ein Teil des Lichts wird im inneren des ersten Mediums
reflektiert (dieser Teil wird größer, je näher sich der Einfallswinkel an θ annähert). Der Rest des Lichts wird gebrochen, also
in seiner Richtung geändert und geht in das zweite Medium über.
• Das Licht trifft in einem Winkel zum Lot auf die Mediengrenze,
der größer oder gleich θ ist (grüne Markierung in Abbildung 2):
Das Licht wird an der Mediengrenze total reflektiert und bleibt
im Inneren des Mediums.
3 V ERWENDETE M ATERIALIEN
3.1 Diffusor
Um auf der Oberfläche, auf der man arbeitet, auch ein Bild zu sehen,
wird ein Beamerbild auf die Scheibe projiziert. Damit dieses auf der
Scheibe sichtbar wird, muss ein so genannter Diffusor installiert werden.
Das beste Bild haben wir mit einem Angerauten Plexiglas erhalten. Es
war gestochen scharf und gab bei der Berührung ein gutes sensitives
Feedback. Darb̈er hinaus war es leicht den Finger auf dem Display
zu bewegen, was bei einem glatten Plexiglas nicht immer der Fall ist,
da die Fingeroberfläche bei viel Bewegung Feuchtigkeit verliert und
es zu Reibung kommt. Einsetzen konnten wir es allerdings weder als
Kombination aus Diffusor und Plexiglas, da eine totale innere Reflexion des Infrarotlichts eben durch die Rauhe Oberflächenstruktur nicht
möglich war. Noch als reinen Diffusor, da das vom Finger reflektierte
Infrarotlicht zu sehr gestreut wurde.
Auch der Test mit einem diffusen Plexiglas (Milchglas) brachte keine
zufriedenstellenden Ergebnisse (siehe Abbildung 8), da das vom Finger reflektierte Infrarotlicht, genau wie bei dem angerauhten Plexiglas
zu sehr gestreut wurde.
Unsere Tests haben ergeben, dass der beste Kompromiss in Sachen
Kosten und Abbildungsleistung ein Bogen herkömmliches Pauspapier
ist. Unser Wunsch es, aufgrund von Berührungseigenschaften, vor das
Plexiglas anzubringen, war nicht möglich. Sobald man mit dem Finger das Papier auf das Plexiglas drückte, bekam man keine punktgenaue Fingerrepräsentation, sondern einen grossen Klecks, sehr ähnlich
zu Abbildung 8, der daher kam, dass immer ein bischen mehr Diffusor das Plexiglas berührte, als der Teil den man durch den Finger auf
das Glas drückte. Diesen Overhead kann man auch nicht einfach herausrechnen, da er je nach Position des Fingers (nah am Rand oder in
der Mitte) und vor allem dem ausgeübten Druck, variierte. Und selbst
wenn dies möglich wäre, so bekommt man spätestens dann Probleme,
wenn man zwei Finger erkennen möchte, die so nah beieinander sind,
dass sich ihr Overhead überlagert.
Also brachten wir den Diffusor hinter der Plexiglasscheibe an und
konnten damit gute Ergebnisse erziehlen.
Beim Multitouch Display machen wir uns diese Eigenschaft der
Medien zunutze, indem wir das Infrarotlicht so in die Scheibe schicken, dass es an der Scheibengrenze immer wieder reflektiert wird.
Damit es nicht an den Rändern aus der Scheibe austritt, haben wir diese, an den Stellen an denen sich keine IR-Dioden befinden, mit spiegelndem Klebeband verklebt. Wird nun ein Finger auf die Plexiglasscheibe gelegt, so ändert man an dieser Stelle die Dichte des Mediums
über der Scheibe, so dass diese höher ist, als die Dichte des Plexiglases. Das Licht, dass auf diese Stelle trifft, wird zum großen Teil zum
Lot hin gebrochen und reflektiert und kann so, da es nun orthogonal
zur Mediengrenze auf die andere Scheibenseite trifft, aus der Scheibe
heraustreten und von einer IR-Kamera registriert werden.
Abbildung 8. Diffusortest mit Rückprojektionsplexiglas. Umrisse sehr
unscharf, schwer zu erkennen.
Abbildung 7. Das Prinzip der Totalen inneren Reflexion
3.2 Beamer
Es kann grundsätzlich jeder beliebige Beamer verwendet werden, der
das vertikale Spiegeln des Ausgabebildes beherrscht. Die Spiegelung
ist notwendig, damit das Bild für den Betrachter, der in die Richtung
des Beamers schaut und nicht wie üblich vom Beamer weg, korrekt
NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007
die Auflösung auf 640x480 Pixel beschränkt, was eine flüssige Erkennung bei 30 fps ermöglicht. Als Rechner für die Bilderkennung und
-darstellung haben wir einen Intel Core 2 Duo mit 2 GHz und 2GB
RAM verwendet.
Abbildung 9. Diffursortest mit Pauspapier. Die Berührungspunkte sind
viel klarer zu erkennen.
Abbildung 11. Die Kamera mit aufgeklebtem Infrarotfilter. Auf dieser Abbildung noch nicht endgültig montiert.
auf den Diffusor projiziert wird.
Damit der Aufbau des Displays nicht zu viel Platz einnimmt, wird mit
Vorteil ein Beamer mit Weitwinkelobjektiv verwendet. Ein Weitwinkelobjektiv erzeugt auf die gleiche Distanz ein wesentlich größeres
Bild als ein herkömmliches Objektiv. Daraus ergibt sich ein geringerer Abstand zwischen Diffusor und Beamer.
Die Auflösung sollte 1024x786 Pixel betragen. Wird ein Beamer mit
höherer Auflösung gewählt, kann es sein, dass die Steuerung sehr ungenau wird: die verwendete Kamera hat eine maximale Auflösung von
1280x1024 Pixel. Für die Berührungserkennung kann aber nur ein
Ausschnitt des aufgenommenen Bildes verwendet werden.
Die Kamera ist am Holzrahmen hinter dem Display montiert. Damit auf das projizierte Bild keine Schatten geworfen werden, ist ein
steiler Winkel der Kamera notwendig. Die Kamera liefert deshalb ein
in der oberen Hälfte ungenaueres Bild der Displayrückseite. Durch die
Kalibrierung der Kamera auf die aufzunehmende Fläche lässt sich dieser Umstand aber soweit korrigieren, dass der Benutzer nichts merkt,
wenn er eine einigermassen grosse Eingabe, wie einen Finger benutzt.
Bei genaueren Eingabegeräten, wie zum Beispiel einem Stift, wäre
dieser Umstand sicher bemerkbar. Doch wäere auch das von dem Stift
reflektierte Infrarotlicht zu schwach um bemerkt zu werden, da eine
gewisse Filterung des Bildes stattfinden muss, um Artefakte wie Staub
auf dem Display nicht als Eingabe zu verwerten.
Abbildung 10. Weitwinkelbeamer können direkt hinter der Halterung für
das Plexiglas platziert werden. Die Tafel auf der linken Seite schützt den
Prototypen vor Sonnenlicht.
3.3
Kamera
Die meisten veröffentlichten Konstruktionspläne von MultitouchDisplays sehen, meist aus Kostengründen, eine Webcam vor. Der
Nachteil ist aber meist eine schlechte Auflösung, schlechte Bildqualität und geringe Framerate.
Die von uns verwendete Kamera ist eine iDS uEye UI-2230-C mit einem aufgeklebten Hama Infrarotfilter.
Die Bilderkennung benötigt viel Rechenleistung. Wir haben deshalb
Abbildung 12. Plexiglas mit abgeklebter Kante. Die Oberfläche ist noch
mit einer Schutzfolie abgeklebt.
3.4 Plexiglas
Das verwendete Plexiglas hat eine Grösse von 700x900x10
mm. Es handelt sich dabei um ein GS Plexiglas (GS: gegossen, XT: extrudiert). Gegossenes Plexiglas ist hochwertiger als extrudiertes Plexiglas. Anmerkung: Plexiglas sollte nicht
mit Alkohol oder Lösungsmittel gereinigt werden (Referenz:
http://de.wikipedia.org/wiki/Polymethylmethacrylat). Da es verschiedene Typen von Plexiglas gibt, kann es sein, dass es für den hier
beschriebenen Einsatzzweck (FTIR von IR-Licht) besser geeignetes
Glas gibt als wir verwendet haben. Ein Physiker oder Kunststoffexperte könnte hier vielleicht weiter helfen.
Durch den Bezug der verwendeten Plexiglasplatte in einer auf die Bearbeitung von Plexiglas spezialisierten Firma konnte viel Arbeit eingespart werden: um möglichst viel Licht von den im Rahmen angebrachten LEDs in das Plexiglas zu bringen, muss die Kante des Plexiglasplatte möglichst glatt sein. Versuche die Kante von Hand zu polieren
scheiterten und erwiesen sich als zu aufwändig. Wir empfehlen deshalb die Kante direkt beim Lieferanten schwabbeln“ zu lassen. Der
”
geringe Aufpreis steht in keinem Verhältnis zum Aufwand das ohne
entsprechende Ausrüstung von Hand durchzuführen.
Die Stellen an denen keine LEDs auf den Kanten aufliegen sind mit
einem Aluminiumband (Autozubehör) abgeklebt um möglichst viel
Licht zurück in die Platte zu reflektieren.
Osram (SFH 4230). Jede einzelne dieser so genannten Power-LEDs
besitzt eine Leistung von fast 2 W. Die flache Bauform ist ideal um
sicherzustellen, dass so viel Licht wie möglich in das Plexiglas abgestrahlt wird.
Gespiesen werden die LEDs von zwei Netzteilen der Firma Tridonic.Atco mit jeweils 10 W (eine Kette mit 5 LEDs in Serie, die andere
mit 4).
LEDs mit soviel Leistung müssen während des Betriebs zumindest
passiv gekühlt werden. Der verwendete Rahmen aus Aluminiumprofilen eignet sich gut dafür. Die LEDs sind zuerst auf ein zugeschnittenes
Stück Entwicklungsplatine und diese dann direkt in das Rahmenprofil
eingeklebt worden.
Abbildung 15. LED in Profil. Das Klebeband dient zum Schutz vor dem
Klebstoff-Aktivator mit dem der Trocknungsprozess beschleunigt wird.
Abbildung 13. Prototyp mit angeklebten LEDs. Die Kanten sind noch
nicht verklebt.
3.6
Materialliste
• Beamer, Kamera, IR-Filter: Lehrstuhl
• Plexiglas: Mecacryl (Pfäffikon ZH, Schweiz), Deutschland: Firma Röhm
• LEDs: Reichelt Elektronik
• Netzteile: Tridonic.Atco (Ennenda, Schweiz)
• Aluprofil: Industrieprofile, werden an vielen Stellen eingesetzt
(Prototypenbau etc.)
• Diffusor: Schreibwarenhandlung
3.7
Abbildung 14. Die LED wird auf einen Träger geklebt, ein kurzes Stück
Draht angelötet und erst an dieses das Kabel. Auf diese Weise können
Beschädigungen der LED durch zu grosse Hitze vermieden werden.
3.5
Infrarotlicht
Der in den im Internet kusierenden Nachbauten gängige Ansatz bisher war die Verwendung einer hohen Zahl (zwischen 20 und 100)
von Infrarot-LEDs mit einer Leistung von ca. 20 mW. Bedingt durch
die Bauform (runde Kuppe), erweist es sich als schwierig, sämtliches emittiertes Infrarotlicht in das Plexiglas zu bringen. Möglichkeiten wäre das Begradigen des LED-Gehäuses oder das Anbohren des
Plexiglases. Beides führt aber zu rauen Oberflächen die nachträglich
mühsam poliert werden müssen.
Wir verwenden insgesamt 9 LEDs des Typs Golden Dragon“ von
”
Zusammenfassung und Aussicht
Wir haben im Rahmen dieses Projekts das Display von Jeff Han nachgebaut. Da allerdings keine konkrete Anleitung von ihm verfügbar
war, mussten wir uns teilweise auf vorhandene Nachbauten stützen
und in diesem Zug eigene Materialtests durchführen, da entweder nicht immer sämtliche verwendete Materialien der Nachbauten
verfügbar waren oder uns Möglichkeiten eingefallen sind vorhandene
Probleme zu umgehen. Letzteres trifft vor allem auf die Entscheidung
zu Power LEDs zu verwenden.
Ein grosser Nachteil unseres Displays ist unserer Meinung nach das
Gefühl der Bedienung. Durch trockene Finger kommt es zu Reibung
auf dem Plexiglas und erfordert somit mehr Kraft des Benutzers bei
Bewegungen.
Vielleicht wäre es möglich ein leicht angerautes Plexiglas zu finden,
dass den Ansprüchen der totalen inneren Reflexion genügt.
ACKNOWLEDGEMENTS
Die Autoren möchten sich ganz besonders bei dem Einsatz von David
Schmucki bedanken, der uns mit seiner Zeit und seiner Fachkenntnis
unterstützt hat, wo er nur konnte.
NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007
L ITERATUR
[1] B.
Buxton.
Overview
of
multitouch
displays.
http://www.billbuxton.com/multitouchOverview.html, 2007.
[2] W. Buxton. Digital tape drawing. Proceedings of the ACM Symposium on
User Interface Software and Technology (UIST’99), 161-169, 1999.
[3] J. Han. Unveiling the genius of multi-touch interface design. TED 2006,
February 2006.
[4] J. Rekimoto. Smartskin: An infrastructure for freehand manipulation on
interactive surfaces. CHI2002, 2002.
[5] P. Wellner. The digitaldesk calculator: Tactile manipulation on a desktop
display. Proceedings of the Fourth Annual Symposium on User Interface
Software and Technology (UIST ’91), 27-33, 1991.