Seminar Reader - Mensch-Computer Interaktion

Transcription

SEMINAR READER – STUDENT WORK
Novel Input Devices for the Human-Computer
Interaction
Neue Eingabegeräte für die Mensch-Computer
Interaktion
2007
Prof. Dr. Harald Reiterer
Werner A. König
Human-Computer Interaction Group, University of Konstanz
Seminar Description:
Traditional input devices like mouse and keyboard are widely used for more than 40 years. Since the user
interfaces and their application domain and environment has changed over the years the question we
should ask is: "Do such input devices really fit our current/future requirements?" In the seminar we will
discuss this question particularly with regard to use cases, which need per se very flexible and mobile
interaction mechanisms, e.g. for presentations, collaborative work or for the general interaction with very
large displays. Conventional input devices are either not applicable or reveal several drawbacks for these
application domains. Therefore the students in this seminar will invent novel input devices and interaction
techniques e.g. for large displays like the Powerwall. In practice they may build up on existing tracking
frameworks for optical body-, hand- or laser-tracking or evolve radically new devices from scratch. The
students are encouraged to physically implement their ideas and use them in real scenarios. The seminar is
organized as a regular "workshop" with theoretical and practical topics.
http://hci.uni-konstanz.de
NOVEL INPUT DEVICES FOR THE HCI, HUMAN-COMPUTER INTERACTION GROUP, UNIVERSITY OF KONSTANZ, 2007
Fuchteln statt klicken - Feasibilitystudie und technische Umsetzung
zur Handgestenerkennung für die Interaktion an großen,
hochauflösenden Displays
Stephanie Föhrenbach
Abstract— Bei einer Interaktion mit großen, hochauflösenden Displays stossen herkömmliche Eingabegeräte wie die Maus und
die Tastatur schnell an Ihre Grenzen. Aufgrund der physikalischen Ausmaße und der hohen Informationsdichte der Darstellungsfläche, der limitierten Sehfähigkeit des Menschen und den wechselnden Interaktionsabständen und Positionen sind andere Geräte
zur Mensch-Computer-Interaktion gefragt. In dieser Ausarbeitung wird die Hand als Eingabegerät betrachtet und eine Methodik
zur Umsetzung einer Handgestenerkennung an großen, hochauflösenden Displays vorgestellt. Ein Handschuh in Kombination mit
einem optischen Trackingsystem dient zur Bestimmung der Fingerpositionen und der Lage der Hand. Zur Handidentifikation und
Fingerklassifizierung wird ein Algorithmus verwendet, welcher die Anatomie der Hand berücksichtigt und so eine sehr hohe Klassifikationsgenauigkeit erreicht. Die verwendeten Gesten werden aus alltäglichen Gesten abgeleitet und tragen damit zu einer als
natürlich empfundenen Interaktion bei. Das entwickelte System erreicht eine zeitnahe Verarbeitung mit einer vom Anwender nicht
wahrnehmbaren Verzögerung und ist somit zum Einsatz für die Mensch-Computer-Interaktion geeignet.
Index Terms—Freehand Gestures, Pointing, Very Large Displays, Whole Hand Interaction.
1 E INLEITUNG UND M OTIVATION
Große, hochauflösende Displays (LHRD) zeichnen sich durch eine
sehr große Darstellungsfläche mit einer hohen Auflösung aus. Die
Konstanzer Powerwall, welche in diese Kategorie von Displays fällt,
weißt eine Darstellungsfläche von 5,20 x 2,15 m mit 4640 x 1920 Pixel auf. Das limitierte menschliche Sehvermögen [10, 7] führt dazu,
daß sich Benutzer vor LHRD bewegen müssen, um die dargestellten
Informationen zu betrachten. Benutzer entfernen sich von der Darstellungsfläche um sich einen Überblick zu verschaffen und treten näher
heran um Details zu betrachten.
Diese notwendige Bewegungsfreiheit zu ermöglichen ist somit von
entscheidender Bedeutung bei der Auswahl eines geeigneten Eingabegerätes und beim Gestalten von Interaktionstechniken für LHRD. Balaktishan und Vogel [14] formulieren mehrere Charakteristikas, durch
welche sich eine Interaktion vor LHRD auszeichnen sollte: ’Accuracy’, ’Acquisition Speed’, ’Pointing and Selection Speed’, ’Comfortable Use’ und ’Smooth Transition between Interaction Distances’.
Es stellt sich die Frage in wie weit die Hand als Interaktionsgerät
mit Gesten zum Auslösen von Interaktionen diese Charakteristikas
erfüllen kann. In [1] wurden drei Eigenschaften von Handgesten als
Vorteil hervorgehoben:
1. Natural Interaction: Gesten sind einen natürliche Form des Kommunizieren und einfach zu erlernen.
erfüllen. Die natürliche Interaktion könnte sich direkt auf den Punkt
’Comfortable Use’ auswirken. Eine direkte Interaktion, kombiniert
mit der Möglichkeit mehrere Parameter gleichzeitig zu spezifizieren,
kann sich positiv auf die Punkte ’Acquisition Speed’ und ’Pointing
and Selection Speed’ auswirken. Zusätzlich dazu räumen Handgesten
die erforderliche Bewegungsfreiheit ein, und erzwingen nicht den Einsatz verschiedener Interaktionstechniken in Abhängigkeit der Entfernung vom Display, wie dies etwa bei Touchscreens der Fall ist. Zur
Auslösung einer Interaktion kann direkt vor dem Display die gleiche
Handgeste verwendet werden als auch in drei Metern Entfernung. Die
Bewegung des Benutzers könnte sogar als weiterer Parameter bei der
Interaktion ausgewertet werden und somit einen echten Mehrwert und
nicht nur ein notwendiges Übel darstellen.
2
T ECHNISCHER AUFBAU
UND
A NSATZ
Die Gestenerkennung soll zur Interaktion vor großen, hochauflösenden Displays (LHRD) verwendet werden. In dem konkreten Anwendungsfall wird eine Powerwall der Firma Barco verwendet, welche
an der Universität Konstanz installiert ist. Die Konstanzer Powerwall
weißt eine Darstellungsfläche von 5,20 x 2,15 m und eine Auflösung
von 4640 x 1920 Pixel auf.[11]
2. Terse and Powerfull Interaction: Eine Geste kann mehrere Parameter spezifizieren. So kann sie zusätzlich zu einem Kommando
auch dessen Parameter spezifiziern. Neben der Auswertung Geste ja/nein, kann auch die Art ihrer Durchführung in Betracht
gezogen werden, wie in etwa die Geschwindigkeit mit welcher
die Hand bewegt wird oder an welcher Position im Raum sich
der Gestikulierende befindet.
3. Direct Interaction: Die Interaktion geschieht unmittelbar basierend auf den Bewegungen der Hand. Die Bedeutung der Gesten
muss nicht vom Benutzer über ein weiteres Gerät dem System
bekannt gemacht werden.
Diese Eigenschaften lassen vermuten, dass Handgesten das Potential haben, zumindest einige der geforderten Charakteristiken zu
• Stephanie Föhrenbach, E-mail: [email protected].
Abbildung 1. Technischer Aufbau.
Vor der Powerwall interagiert der Benutzer über Handgesten mit der
Anwendung. Zum Tracken der Position und Lage der Hand mit ihren
Fingern im Raum vor der Powerwall wird das optische Trackingsystem DTrack der Firma A.R.T. advanced realtime tracking GmbH eingesetzt. Infrarot Kameras tracken sowohl passive als auch aktive Mar-
• Wird ein 6dof Target nicht eindeutig von allen Kameras erkannt,
befinden sich in den Outputdaten möglicherweise sowohl die Daten zum 6dof Target, als auch 3D Positionen einzelner Targetmarker als 3dof Objekte.
ker und Targets und senden die erfassten Daten mit einer Frequenz von
bis zu 60 Hertz via UDP an eine beliebige Zieladresse. Dort werden
diese dann analysiert und bilden die Rohdaten zur Gestenerkennung.
3
T RACKING S YSTEM DT RACK
• Ein einzelner 3dof Marker kann als zwei verschiedene Marker
mit abweichenden Positionen erkannt werden.
DTrack ist ein optisches Tracking System. Es basiert auf Infrarot Kameras, welche einen kalibierten drei dimensionalen Raum beobachten.
In diesem können, auf die Kameras abgestimmte, passive und aktive
Marker getrackt werden. Die getrackten Daten werden dann mit einer
Frequenz von wahlweise 60 oder 30 Hertz über UPD Pakete an eine vom Anwender beliebig konfigurierbare IP Adresse und Portnummer gesendet.[5] Abbildung 2 zeigt das im Raum vor der Powerwall
definierte Koordinatensystem. Es ist als Rechtssystem angelegt, d.h.
größere z-Werte gehen in den Raum hinein.
• Selbst wenn Marker oder Targets absolut ruhig gehalten werden, sind die dazu ermittelten Positions- und Rotationswerte über
mehrere UDP Pakete nicht konstant, sondern schwanken. Die
Abweichungen können dabei bis zu 1 mm betragen.
• Infrarotstrahlen, reflektierende Oberflächen, wie z. B. Reflektionsmarker auf Fahrradtaschen, und Sonnenlicht können sich
störend auf das Tracking auswirken.
• Ein ganz entscheidender Faktor für die Qualität der Trackingdaten ist eine exakte Raumkalibrierung, diese sollte sehr sorgfältig
durchgeführt werden.
4
H ANDERKENNUNG
4.1
Abbildung 2. Tracking Koordinatensystem vor der Konstanzer Powerwall
(=Raumkoordinatensystem).
Die Kameras senden Infrarotstrahlen aus, welche von passiven Markern reflektiert und dadurch von den Kameras erkannt werden. Aktive
Marker senden Infrarostrahlen aus, welche dann von den Kameras erkannt werden. Für einen einzelnen Marker kann das Trackingsystem
seine Position im Raum berechnen. Diese Art von Markern wird als
3dof (three degrees of freedom) Marker bezeichnet, was die drei Freiheitsgrade x, y und z einer 3D Position beschreibt.
Mehrere 3dof Marker können durch eine fixe Anordnung zu einem 6dof (six degrees of freedom) Targets zusammengestellt werden. Bei diesen Targets wird, zusätzlich zur Position im Raum, die
Rotation bezüglich der drei Achsen des Raumkoordinatensystems bestimmt und als Rotationsmatrix in den Outputdaten angegeben. Damit
ein solches Target erkannt wird, muss dieses einmalig kalibriert werden. Während jedes Target über eine eindeutige ID verfügt und damit
die zugehörigen Daten in dem UDP Paket referenziert werden können,
werden Marker fortlaufend durchnummeriert und behalten die gleiche
ID immer nur solange sie fortlaufend getrackt werden. Verliert das
Trackingsystem zwischenzeitlich den Marker, bekommt dieser beim
erneuten Erkennen nicht mehr die vorherige, sondern eine neue ID.
Damit ist das eindeutige Zuordnen von 3D Positionen innerhalb des
UPD Pakets zu Markern nicht möglich.[5]
Handschuhdesign
Um ein Tracken der Hand zu ermöglichen, wird die Hand durch Marker und Targets abgebildet. Die Grundlage bildet ein herkömmlicher
Kosmetikhandschuh. Dieser erlaubt ein schnelles Anlegen und verhindert gleichzeitig ein versehentliches Berühren der Marker mit der
Haut, was eine Beeinträchtigung ihrer Reflektionseigenschaft zur Folge hätte. Auf den Handschuh wird jeweils oberhalb des zweitäußersten
Phalanx1 des Daumen, Zeige-, Mittel- und kleinen Finger ein passiver
3dof Marker angebracht. Der Ringfinger wird ausgelassen, da dieser
von allen Fingern am wenigsten selbstständig und unabhängig von
den jeweils benachbarten Fingern bewegt werden kann. Zur Befestigung der Marker werden Senkschrauben mit einem M3 Gewinde vom
Handschuhinneren durch ein Loch geführt und mit Heißkleber fixiert.
Abbildung 4. Hand- und Fingerknochen.[13]
Eine solche Anbringung bringt folgende Vorteile mit sich:
• Die Anbringung oberhalb des Fingers erlaubt es dem Benutzer seine Hand weiterhin unbehindert zu verwenden. So können
z. B. auch mit angezogenem Hanschuh eine Tastatur bedient
oder handschriftliche Notizen gemacht werden. Dies wäre nicht
möglich, wenn die Marker vor der Fingerkuppe als direkte
Verlängerung der Finger oder unterhalb der Finger angebracht
werden.
• Eine Anbringung über dem zweitäußersten Phalanx schränkt die
Bewegungsfreiheit der Finger in Richtung der Handinnenfläche
nicht ein, wie es z. B. beim Bilden einer Faust der Fall ist. Die
Marker stoßen hierbei nicht mit der Handinnenfläche zusammen.
Zusätzlich dazu erlaubt es diese Positionierung, den Handschuh
wie gewohnt durch festhalten an den Fingerspitzen auszuziehen.
Abbildung 3. Tracking Objekte: Passive 3dof Marker und 6dof Targets.[6]
Bei einer Auswertung der Daten sind einige Eigenwilligkeiten des
Tracking Systems zu berücksichtigen:
• Marker, welche oben auf der Hand angebracht sind, können mit
der derzeit an der Powerwall angebrachten Kameras besonders
gut erkannt werden.
1 Als
Phalanx werden die einzelnen Fingerknochen bezeichnet[13]
FÖHRENBACH, STEPHANIE: HANDGESTENERKENNUNG FÜR DIE INTERAKTION AN GROSSEN, HOCHAUFLÖSENDEN DISPLAYS
Um neben den Positionen der einzelnen Fingern auch die Lage bzw.
die Orientierung der Hand im Raum bestimmen zu können, wird auf
den Handrücken ein 6dof Target angebracht. Dabei wird es so positioniert, daß sich ein Marker oberhalb des Zeigefinger-Handrückengelenks befindet. Dies ist später zur Berechnung der Cursorposition von
Bedeutung und wird in Abschnitt 5.2 näher erläutert. Bei dem Design
des Targets sollten folgende Punkte beachtet werden:
• Obwohl nur vier Marker zur Definition eines Targets notwendig sind, sollte eine höhere Anzahl verwendet werden. Dies
erhöht die Wahrscheinlichkeit der Targetidentifikation, selbst
wenn nicht alle Marker für die Kameras sichtbar sind.
• Bei der Markeranordnung des Targets ist darauf zu achten,
daß bei den am häufigsten vorkommenden Handhaltungen, die
Kameras möglichst viele Marker gleichzeitig sehen und diese
sich nicht gegenseitig verdecken.
• Die zum Körper hin angeordneten Marker sollten erhöht angebracht werden, damit diese bei einem Anwinkeln der Hand in
Richtung Körper länger sichtbar sind.
eindeutige Nummer für das Target vergeben. Der Targetursprung entspricht der Position für welche das Tracking System die 3D Koordinaten als Targetposition zurückliefert. Dieser Targetursprung ist nach
der Kalibrierung in den Marker oberhalb des Zeigefinger-Handrückengelenks zu verschieben. 2 . Die so festgelegte Position des Targetursprungs trägt bei der Gestenverwendung zu einer intuitiven Positionierung des Cursors bei.
4.3
Algorithmische Handerkennung und Fingerklassifizierung
Bewegt sich die Hand vor der Powerwall werden die 3dof Marker und
das 6dof Handrückentarget von dem Trackingsystem DTrack getrackt
und die Positions- und Rotationswerte mit bis zu 60 fps3 an eine beliebige IP Adresse mit zugehörigem Port versendet. Alle zu einem Zeitpunkt getrackten Objekte (3dof Marker und 6dof Targets) werden innerhalb eines Datenpakets versendet. Aus den übermittelten Werten ist
die Hand mit ihren Fingern zusammenzusetzten, folgende Informationen über die Inhalte der Datenpakete sind dabei relevant:
• 3dof Daten beinhalten eine 3D Position, welche die Position des
Markers innerhalb des Raumkoordinatensystems beschreibt.
• 6dof Daten beinhalten ebenfalls eine 3D Position, welche die
Position des Targets innerhalb des Raumkoordinatensystems beschreibt. Zusätzlich dazu wird eine Rotationsmatrix übermittelt,
welche die Rotation des Targets relativ zum Raumkoordinatensystems beschreibt. Ausgangslage zur Ermittlung der Rotationsmatrix ist die Lage des Handtargets während der Kalibrierung.
• Zu jedem Objekt wird eine BodyID übermittelt. 6dof Targets
können darüber eindeutig identifiziert werden, bei 3dof Marker
ist dies lediglich eine willkürlich Nummer, die bei jedem Neuerkennen eines Markers fortlaufend vergeben wird.4
Abbildung 5. Handschuh mit 3dof Markern und 6dof Target.
4.2
Kalibrierung des Handschuhs
Nach der Definition und Anbringung des 6dof Targets ist dieses zu
kalibrieren. Erst eine Kalibrierung schafft die Vorraussetzung um die
Lage der Hand im Raum zu bestimmen und die ermittelten Daten dem
Handschuh zuzuordnen.
Vorbereitend werden die 3dof Fingermarker von dem Handschuh
entfernt. Anschließend wird der Handschuh in eine Position gebracht,
die einem geraden Zeigen auf die Powerwall entspricht. Diese Ausrichtung ist bei der Cursorpositionierung von entscheidender Bedeutung (siehe Abschnitt 5.2).
Die Kalibrierung ist ’due to room’ durchzuführen, dadurch wird
die Rotation beim Tracken relativ zum Raumkoordinatensystem bestimmt. Die Lage, in welcher sich das Target während der Kalibirierung befindet entspricht dadurch einer Ausrichtung, in welcher das
Target keinerlei Drehung bezüglich einer der drei Achsen des Raumkoordinatensystems aufweist.[5] In nachfolgenden Abschnitten wird
diese Lage auch als ’Ausgangslage’ bezeichnet.
Abbildung 6. Kalibrierungsposition vor der Powerwall und die entsprechenden Einstellungen.
Durch die Kalibrierung wird die Markeranzahl und ihre geometrische Anordnung bestimmt, der Targetursprung definiert und eine
Der zur Erkennung und Zusammensetzung der Hand entwickelte
Algorithmus (siehe Abbildung 7) gliedert sich in drei Schritte:
1. Handidentifikation und Extraktion von potentiellen Fingern aus
dem jeweiligen Frame.
2. Finger-Handzuordnung und Noiseentfernung.
3. Klassifikation der Finger in Daumen, Zeige-, Mittel- und kleinen
Finger.
4.3.1
Schritt 1: Handidentifikation und Extraktion von potentiellen Fingern
Bei den Daten jedes 6dof Targets wird geprüft ob die BodyId der Id
eines Handtargets entspricht. Wenn ja, werden diese 6dof Daten und
alle 3dof Daten innerhalb des gleichen Frames extrahiert und dienen als Input für den zweiten Schritt des Algorithmus, der FingerHandzuordnung und Noiseentfernung.
4.3.2 Schritt 2: Finger-Handzuordnung und Noiseentfernung
Abbildung 8 zeigt den Ablauf des nachfolgend beschriebenen Vorgehens, Verweise beziehen sich auf diese Darstellung.
In dem zweiten Schritt der Handerkennung und -zusammensetzung
wird für das 6dof Target eine neue Hand angelegt. Die Targetdaten
werden als Daten des Handrückens übernommen. Der Position des
Handrückens wird die Position des Targetursprungs zugewiesen, die
Rotationsmatrix beschreibt die Lage des Handrückens. Die Finger
werden als nicht klassifiziert gekennzeichnet (a). In einer Schleife wird
2 Die Software DTrack ABCMan erlaubt ein solches Verschieben des Targetursprungs. Dazu ist die Bodydatei des Targets, welche die Daten zu der Markeranzahl, ihrer geometrischen Anordnung und den Targetursprung enthält, zu
laden und der Ursprung manuell zu versetzen.
3 fps = frames per second, 60 fps entpricht dabei einer Frequenz von 60
Hertz
4 Zum genauen Aufbau des übertragenen UDP Pakets siehe[5]
Abbildung 9. Translation und Rotation der Positionsdaten mit resultierender Ausgangslage.
Abbildung 7. Struktur des Handerkennungsalgorithmus.
von dem Trackingsystem aussortiert werden. Sehen jedoch nicht alle
Kameras das Target mit einer ausreichenden Qualität, kann es vorkommen, daß Targetmarker nicht als Targetbestandteil erkannt werden,
dadurch nicht herausgefiltert werden und dann fälschlicherweise als
3dof Daten im UDP Paket enthalten sind. Grundlage für die Targeterkennung des Trackingsystems sind Bodyfiles, welche bei der Kalibrierung eines Targets angelegt werden. Sie beinhalten Daten zur Markeranzahl , ihrer geometrischen Anordnung und dem Targetursprung. Die
Positionsdaten sind relativ zur Lage des Targets im Raumkoordinatensystem während der Kalibrierung abgelegt. Diese 3D Positionen der
einzelnen Targetmarker werden in Schritt (f) mit der Position des versetzten und rotierten Fingerkandidaten verglichen. Befindet sich die
Position innerhalb eines bestimmten Abstands von einem Targetmarker, wird dieser Fingerkandidat nicht übernommen, da es sich um die
Position eines Target- und nicht eines Fingermarkers handelt. Die Positionen sollten dabei nicht auf genaue Übereinstimmung geprüft werden, da sich durch Trackingungenauigkeiten Abweichungen ergeben
können. Insbesondere dann, wenn das Trackingsystem selbst die Marker aufgrund der Geometriedaten des Bodyfiles nicht mehr zuordnen
kann.
In Schritt (g) wird der Fingerkandidat nach erfolgreicher Prüfung
in die Fingerliste übernommen, welche nach Bearbeitung aller 3dof
Objekte, zusammen mit der in (a) angelegten Hand, zur Fingerklassifizierung weitergegeben werden (h).
4.3.3
Abbildung 8. Algorithmus zur Finger-Handzuordnung und Noiseentfernung.
nachfolgend jedes 3dof Objekt aus der übergebenen Liste abgearbeitet
(b).
Als erstes wird die Distanz des 3dof Objekts zum Handrücken ermittelt. Überschreitet diese einen zuvor festgelegten handschuhspezifischen Grenzwert wird das 3dof Objekt aussortiert, da es zu weit entfernt ist und somit kein Finger sein kann (c). Als Grenzwert sollte
der Abstand gewählt werden, welcher maximal zwischen einem Fingermarker und dem Handrückentargetursprung möglich ist. Abhängig
von der Trackinggenauigkeit kann auf diesen Wert noch ein Toleranzbereich hinzuaddiert werden. Befindet sich das 3dof Objekt innerhalb
der Fingerreichweite wird dieses als Fingerkandidat übernommen (d).
Nachfolgend wird die 3D Position des Fingerkandidaten, die 3D
Position des Handrückens und die Roationsmatrix des Handtargets in
homogene Koordinaten überführt. Die Position des Fingerkandidaten
wird dann um die Position des Handrückens versetzt (= Translation)
und durch Multiplikation mit der Inversen der Rotationsmatrix des
Handtargets in die Ausgangslage gedreht (= Rotation) (e).[3] Durch
die Translation und anschließende Rotation ist die Position des Fingers immer relativ zur Ausgangslage (= Ausrichtung und Lage der
Hand während der Kalibrierung). Diese eindeutige Lage und Ausrichtung der Hand und ihrer Finger ist eine wichtige Vorraussetzung für die
nachfolgende Fingerklassifizierung. Sie bildet ebenfalls die Grundlage
für die Noiseentfernung.
Anschließend wird der Noise aus den Daten entfernt. Als Noise
werden Daten von 3dof Objekten bezeichnet, die auf Marker des 6dof
Targets zurückzuführen sind. Diese sollten beim Erkennen des Targets
Schritt 3: Fingerklassifikation
Durch die in Abschnitt 4.2 beschriebene Durchführung der Kalibrierung und dem Verschieben und Rotieren der Fingerdaten in Schritt 2
der Handerkennung und -zusammensetzung ist die Lage und Position des Handrückens bekannt. Abbildung 10 zeigt die Hand mit den
Fingermarkern in dieser Haltung.
Abbildung 10. Definierte Lage des Handrückens im Koordinatensystem.
Durch die immer eindeutige Lage des Handrückens können bei der
Fingerzuordnung Gelenkbewegungen oberhalb des Handrückens vernachlässigt werden. Die Position der Finger kann sich nur aus Bewegungen, ausgehend vom Handrücken hin zu den Fingerspitzen, ergeben. Der menschliche Bewegungsapparat erlaubt folgende für die Fingerklassifizierung relevanten Gelenkbewegungen [13]:
• Flexion. Bei der Flexion (flex = beugen) nimmt der Winkel zwischen den an der Bewegung beteiligten Knochen ab.
• Extension. Bei der Extension (extensio = Streckung) vergrößert
sich der Winkel zwischen den beteiligten Knochen.
• Abduktion. Die Abduktion (ab = weg; ductio = Führung) ist im
Allgemeinen die Bewegung eines Knochens von einer Ebene
weg. Bei der Abduktion der Finger bewegen sich diese von einer durch den Mittelfinger gedachten Linie weg.
• Adduktion. Die Adduktion (ad = hin; ductio = Führung) ist die
Gegenbewegung zur Abduktion und entspricht einer Bewegung
der Finger zu der durch den Mittelfinger gedachten Linie hin.
• Opposition. Die Opposition als Gelenkbewegung ist nur mit dem
Daumen möglich. Bei dieser Bewegung wird der Daumen quer
über die Handfläche geführt und kann so die Spitzen der anderen
Finger berühren.
Abbildung 11. Gelenkbewegungen: Flexion und Extension, Abduktion,
Adduktion, Opposition.
Mit dem Wissen um die Lage und Position des Handrückens,
kombiniert mit den relevanten Gelenkbewegungen, lässt sich ein Algorithmus entwickeln, welcher eine Klassifizierung des Fingertyps
durchführt. Abbildung 12 zeigt den Ablauf des Algorithmus. Nachfolgende Verweise beziehen sich auf diese Abbildung.
auf einen Marker zurückführen kann (dies ist der gleiche Effekt, welcher bei dem fälschlichen Übermitteln von 3dof Daten von Targetmarkern auftritt). In diesem Fall ist es nicht möglich eine echte Position für den Fingermarker zu bestimmen. Bei einer Anzahl kleiner vier
werden nicht alle Fingermarker gesehen. Eine korrekte Zuordnung ist
auch hier nicht möglich, da der Algorithmus einen Fingertyp immer
basierend auf den Positionsdaten aller vier Fingermarker bestimmt.
Somit ist das Sehen aller Fingermarker eine Grundvorraussetzung zur
korrekten Fingerklassifizierung.
Als erster Finger kann der kleine Finger klassifiziert werden (b).
Es ist der Finger, welcher den größten x-Wert aufweist. Die Positionierung der Fingermarker im Koordinatensystem und die anatomisch
möglichen Gelenkbewegungen erlauben es keinem anderen Finger
einen größeren x-Wert einzunehmen.
Von den verbleibenden drei Fingern wird der Daumen als nächstes
klassifiziert. Dazu wird der Abstand zwischen den beiden größten zWerten mit einem zuvor definierten Mindestabstand verglichen (c).
Dieser Mindestabstand ist der größere der beiden Abstände auf der zAchse, welcher zwischen dem Zeigefinger- und Daumenmarker bzw.
dem Mittelfinger- und Daumenmarker entsteht, wenn der Zeige- und
Mittelfinger komplett angewinkelt werden und gleichzeitig der Daumen von links an den Zeigefinger anlehnt und geradeaus von dem
Handgelenk weg gestreckt wird. Ist der Abstand größer als dieser Mindestabstand (d) ist der Finger mit dem größten z-Wert der Daumen. Ist
der Abstand kleiner (e), bedeutet dies, dass entweder der Zeige- oder
Mittelfingermarker sich näher am Handgelenk befinden könnten als
der Daumenmarker und somit den größten z-Wert der verbliebenen
Finger aufweisen könnten. In solch einem Fall muss der Daumen jedoch links von dem Zeige- und Mittelfinger liegen, da ansonsten die
oben beschriebene Position nicht eingenommen werden kann. Damit
ist in diesem Fall derjenige der beiden verglichenen Finger der Daumen, welcher den kleineren x-Wert aufweist. In Schritt (e) wird dieser
entsprechend zugewiesen und der Daumen ist klassifiziert.
Zur Klassifizierung des Zeige- und Mittelfingers wird der Abstand
auf der x-Achse zwischen den verbleibenden zwei Fingern mit einem
zuvor ermittelten Mindestabstand (minDistNeighbouringFingers) verglichen (f). Dieser Mindestabstand ist der größte Abstand auf der xAchse zwischen den Zeige- und Mittelfingermarker bei folgenden drei
Fingerhaltungen:
1. Zeigefinger und Mittelfinger liegen genau nebeneinander.
2. Der Zeigefinger wird unter dem Mittelfinger durchgeführt und so
weit rechts wie möglich positioniert, während der Mittelfinger so
weit links wie möglich positioniert wird.
3. Der Mittelfinger wird unter dem Zeigefinger durchgeführt und so
weit links wie möglich positioniert, während der Mittelfinger so
weit rechts wie möglich positioniert wird.
Ist der Abstand der beiden Finger größer als der Mindestabstand,
wird der Finger mit dem kleinsten x-Wert als Zeigefinger klassifiziert
und der Finger mit dem größten x-Wert als Mittelfinger (g). Ist der
Abstand kleiner, wird der Abstand der beiden Finger auf der y-Achse
mit einem weiteren Mindestabstand (minDistFingerUnderneath) verglichen (h). Dieser Mindestabstand auf y-Achse beschreibt den Abstand, welcher notwendig ist, um die beiden Finger untereinander zu
positionieren und ist der größte Abstand auf der y-Achse bei folgenden
zwei Fingerstellungen:
Abbildung 12. Algorithmus zur Fingerklassifikation.
Zu Begin (a) wird sichergestellt, daß genau vier Fingerkandidaten vorhanden sind. Ist dies nicht der Fall, wird keine Klassifizierung
durchgeführt. Eine Anzahl größer vier deutet darauf hin, daß ein Marker von verschiedenen Kameras auf unterschiedlichen Positionen gesehen wurde und das Trackingsystem diese beiden Positionen nicht
1. Der Zeigefinger wird unter dem Mittelfinger durchgeführt und
so weit rechts wie möglich positioniert, während der Mittelfinger
so weit links wie möglich positioniert wird. In dieser Position ist
dann der Höhenabstand zwischen den beiden Fingerkuppen so
weit wie möglich zu reduzieren.
2. Der Mittelfinger wird unter dem Zeigefinger durchgeführt und so
weit links wie möglich positioniert, während der Zeigefinger so
weit rechts wie möglich positioniert wird.In dieser Position ist
dann der Höhenabstand zwischen den beiden Fingerkuppen so
weit wie möglich zu reduzieren.
Ist der Abstand kleiner als der Mindestabstand bedeutet dies,
daß der Zeigefinger neben dem Mittelfinger liegt, somit wird der Finger mit dem kleinsten x-Wert als Zeigefinger und der Finger mit dem
größten x-Wert als Mittelfinger klassifiziert (i). Ist der Abstand größer,
weißt dies darauf hin, daß die Finger untereinander bzw. übereinander
liegen. Eine eindeutige Klassifizierung ist hier nicht mehr möglich, da
die beiden Marker die jeweils gleichen 3D Positionen im Raum einnehmen können. Somit kann mit Sicherheit nur zwischen dem oberen
und unteren Finger unterschieden, jedoch nicht bestimmt werden, ob
der Zeige- oder Mittelfinger der obere oder untere Finger ist. In diesem
Fall wird die Annahme getroffen, daß der Zeigefinger als oben liegender Finger wahrscheinlicher ist. Diese Haltung ist natürlicher und tritt
z. B. auf, wenn mit dem ausgestreckten Zeigefinger, bei angewinkelten anderen Fingern, auf ein rechts liegendes Objekt gezeigt wird. Die
andere mögliche Haltung, in welcher der Mittelfinger oben liegt, wird
durch das Durchführen des Zeigefingers unter dem Mittelfinger eingenommen, entspricht keiner natürlichen Handhaltung und ist nur unter
Anstrengung einzunehmen. Diese Haltung ist daher bei einer Interaktion sehr viel unwahrscheinlicher. Aufgrund dieser heuristischen Annahme wird der Finger mit dem größten y-Wert als Zeigefinger klassifiziert und der Finger mit dem kleinsten y-Wert als Mittelfinger (j).
Ein großer Vorteil dieses Handerkennungsalgorithmus ist das zeitgleiche Tracken aller Marker und Targets mit einer, durch das
Trackingsystem beschränkten, maximalen Frequenz von 60 Hertz. Im
Vergleich dazu erlaubt das kommerzielle Fingertrackingsystem von
A.R.T. lediglich eine maximale Frequenz von 20 Hertz pro Finger.
Die Klassifizierung der einzelnen Finger erfolgt über die Taktfrequenz,
welche den Fingern zugewiesen wird.[4] Aufgrund dieses Vorgehens
ist das Tracken einzelner Finger immer beschränkt auf maximal ’Anzahl Finger’ / ’maximale Trackingfrequenz’, wohingegen bei dem hier
vorgestellten Algorithmus die maximal mögliche Frequenz voll ausgenutzt werden kann. Dies ermöglicht eine höhere Genauigkeit bei der
Gestenklassifizierung und eine schnellere Interaktion.
5
das Zielobjekt im Rücken oder an der Seite des Zeigenden befindet
und die genaue Lokalierung des Zielobjektes nicht wichtig ist. 6
Abbildung 13. Zeigegesten: mit dem ausgestreckten Zeigefinger, mit der
offenen Hand und mit dem Daumen.
Die Gesten des präzisen Griffs werden in mehrere Familie unterteilt. Die jeweils einer Familie zugehörigen Gesten zeichnen sich
durch übereinstimmende kinästhetische Eigenschaften und eines ebenso gemeinsamen semantischen Themas aus. Die R-Familie beschreibt
Gesten, in welchen die Daumen- und Zeigefingerspitze in Ringform
zusammengeführt werden, was als Ring bezeichnet wird. Semantisch
wird mit diesen Gesten ausgedrückt, mit etwas Bestimmtem sehr
präzise, sehr genau zu sein und aus diesem Grund besondere Aufmerksamkeit angebracht ist.
G ESTENERKENNUNG
5.1
Gestenauswahl
Adam Kendon beschreibt ein breites Spektrum von Gesten. Beginnend
mit den hochstrukturierten und künstlichen Zeichensprachen, über die
immer noch künstlichen, aber auf kultureller Ebene geteilten Symbole
wie das ’Thumbs Up’ Zeichen, bis hin zur Gestikulation, die unbewußt
und parallel zur Sprache stattfindet.[2] Für die Mensch-ComputerInteraktion ist besonders die kulturell erworbene und intuitive Gestik
interessant, um damit eine ähnlich intuitive und natürliche Interaktion mit dem Computer zu ermöglichen. Die Verwendung von Zeichen
aus dem Vorrat von Zeichensprachen würde vom Benutzer verlangen,
zusätzlich zu den Interaktionsmöglichkeiten und der Technik, auch die
Interaktionszeichen zu erlernen und stellt damit einen höheren Lernaufwand dar. Bei denen für die HCI interessanten Gesten beschreibt
Kendon, neben weiteren, in [9] die zwei Gruppen der Zeigegesten und
des Präzisen Griffs.
Zeigegesten weisen auf ein Objekt, einen Ort oder eine Richtung,
welche durch die Projektion einer geraden Linie, als Verlängerung des
am weitesten aussen liegenden Körperteils des Sprechers identifiziert
werden5 . Die insgesamt sieben verschiedenen Zeigegesten werden in
drei Gruppen eingeteilt: dem Zeigen mit dem ausgestreckten Zeigefinger, dem Zeigen mit der offenen Hand und dem Zeigen mit dem
Daumen.
Beim Zeigen mit dem ausgestreckten Zeigefinger, ist immer genau
das spezifische, individuelle Objekt auf welches gezeigt wird von Bedeutung, während beim Zeigen mit der offenen Hand das Zielobjekt
etwas ist, das mit dem behandelten Thema zu tun hat, jedoch nicht explizit behandelt wird. So ist z. B. folgender Satz in Kombination mit
dem ausgestreckten Zeigefinger als Zeigegeste denkbar: ’Das große
schwarze Poster dort hinten links’, wohingegen der Satz ’Die Poster
da hinten an der Wand’ eher mit einer offenen Hand als Zeigegeste
kombiniert wird. Der Daumen wird zum Zeigen verwendet, wenn sich
5 Nachfolgend
wird stellvertretend für Objekt, Ort und Richtung als mögliches Ziel einer Zeigegeste der Begriff Objekt verwendet
Abbildung 14. Präziser Griff Geste: Ring Geste der R-Familie.
Die beschriebenen Gesten sollen, mit Ausnahme der Daumen Zeigegeste, erkannt werden, um diese bei der Interaktion mit der Powerwall einzusetzen. Das Zeigen mit dem Daumen wird aufgrund der dazugehörigen semantischen Bedeutung, also dem Zeigen ausserhalb des
Sichtfeldes des Zeigenden und der nicht notwendigen genauen Lokalisierung des Zielobjektes nicht verwendet.
Zur Positionierung des Cursors auf der Powerwall wird das Zeigen mit der offenen Hand verwendet. Diese Gruppe der Zeigegesten
zeichnet sich dadurch aus, daß die genaue Haltung der Finger nicht
entscheidend ist, sondern lediglich die Ausrichtung des Handrückens
den Ausschlag zur Positionierung gibt. Die Verwendung dieser Geste
gibt dem Benutzer die Freiheit, seine Hand bei der Positionierung des
Cursors genau gleich zu verwenden, wie er dies beim Zeigen auf reale
Zielobjekte unbewußt bereits anwendet.
Das Zeigen mit dem Zeigefinger und die Ring Geste sollen als statische Geste erkannt werden. Das heißt, daß die Positionierung der Finger entscheidend zur Gestenerkennung ist. Die Bezeichnung als statische Geste geschieht hierbei in Anlehnung an Harling und Edwards
[8], die Gesten, unabhängig von ihrer semantischen Bedeutung, nach
der Art ihrer Durchführung und Handhaltung, in vier Klassen unterteilen. Die Klassifizierung erfolgt dabei nach zwei Aspekten : statische
vs. dynamische Fingerposition bzw. Handhaltung und statische vs. dynamische Lage der gesamten Hand. Sowohl die Zeigefinger-, als auch
die Ringgeste fallen in die Kategorie statische Handhaltung und statische Lage, da sie sich dadurch auszeichnen, daß die Haltung der
6 Zeigegesten werden auch als deiktisch bezeichnet. Dieser in der Linguistik
verwendete Begriff bezeichnet die Eigenschaft bestimmter sprachlicher Einheiten, auf Personen, Sachen, Zeit oder Raum in einem Kontext hinzuweisen.[12]
Finger entscheidend ist. Zeitliche Verläufe der Fingerbewegungen und
die Lage der Hand im Raum sind nicht ausschlaggebend.
5.2 Positionierung des Cursors
Zur Berechnung der Cursorposition auf der Powerwalloberfläche wird
die Position des Handrückens und die Ausrichtung der Hand im Raum,
relativ zum Raumkoordinatensystem, benötigt. Beide Informationen
werden von dem Trackingsystem in Form einer 3D Position und einer Rotationsmatrix für das 6dof Handrückentarget geliefert. Die Ausrichtung der z-Achse des Handrückens wird durch den 3D Punkt
verlängert und mit der 2D Oberfläche der Powerwall geschnitten. Der
so berechnete Schnittpunkt ergibt die Position des Cursors.
Abbildung 15. Berechnung der Cursorposition.
Die Verlängerung der Ausrichtung der z-Achse erfordert eine darauf abgestimmte Kalibrierung des Targets. Dieses sollte in einer Handstellung kalibriert werden, welche dem Zeigen geradeaus auf die Powerwall entspricht (siehe Abschnitt 4.2). Damit wird der Cursor immer
in der Verlängerung der Zeigerichtung angezeigt.
Die 3D Position eines 6dof Targets ist die Position des Targetursprungs. Dieser Ursprung wird bei der Kalibrierung erstmalig bestimmt und kann nachfolgend manuell verändert werden (siehe Abschnitt 4.2). Untersuchungen zur Cursorpositionierung vor der Powerwall mit verschiedenen Targetursprungspositionen ergaben, daß die
Definition des Targetursprungs oberhalb des Zeigefinger-Handrückengelenks eine Art der Cursorpositionierung ergibt, welche intuitiv beim
Zeigen mit der offenen Hand erwartet wird.
5.3 Methodik zur Erkennung statischer Gesten
Statische Gesten zeichnen sich dadurch aus, daß alleinig die Position der Finger zueinander entscheidend für deren Erkennung ist. Am
Beispiel der ausgestreckten Zeigefingergeste soll eine Methodik zur
Erkennung vorgestellt werden.
Zu Beginn ist zu definieren, was die Geste auszeichnet und sie
von anderen Gesten und Fingerhaltungen abgrenzt. In diesem Fall ist
die Handhaltung gekennzeichnet durch einen ausgestreckten Zeigefinger, wobei gleichzeitig alle anderen Finger angewinkelt und in einer
entspannteren Lage sind. Die Position der einzelnen Finger wird wie
in Abschnitt 4.3 beschrieben aus den Daten des Trackingsystems ermittelt. Unter Berücksichtigung des Koordinatensystems, in welchem
sich diese Positionen befinden, ergeben sich für diese Geste zwei Maße, welche zur Erkennung der Geste verwendet werden können: der
Abstand der Zeigefingerposition zur x-z-Ebene und der Abstand zwischen der Zeigefinger- und Mittelfingerposition auf der y-Achse. Abbildung 16 verdeutlicht diese beiden kennzeichnenden Maße.
Nach der Identifizierung der ausschlaggebenden Maße sind die zugehörigen Schwellenwerte festzulegen. In diesem Fall wäre das ein
Mindestabstand des Zeigefingers zur x-z-Ebene, und ein Mindestabstand auf der y-Achse zwischen dem Zeige- und Mittelfinger. Sobald
beide Mindestabstände erreicht sind wird die Geste erkannt.
Zusätzlich zu den beiden Schwellwerten zur Erkennung der Geste,
ist es erforderlich einen weiteren Schwellwert zur erneuten Wiedererkennung einer Geste zu definieren. Der Wiedererkennungsschwell-
Abbildung 16. Kennzeichnende Abstände der Zeigefingergeste.
wert ist dabei in Bezug auf den aktiven Finger bzw. das Maß zu definieren, welches am stärksten von der Geste abhängt und aus diesem
Grund den stärksten Indikator für die Gestenerkennung darstellt. Bei
der Zeigefingergeste wird hierfür ein weiterer Mindestabstand des Zeigefingers zur x-z-Ebene definiert, welcher nach dem Verlassen einer
Geste erst unterschritten werden muss, bevor ein erneutes Erkennen
möglich ist. Obwohl beide Maße, also sowohl der ’Abstand zwischen
dem Zeige- und Mittelfinger auf der y-Achse’ als auch der ’Abstand
des Zeigefingers von der x-z-Ebene’, von dem aktiven Zeigefinger
abhängen, ist das zweite Maß der stärkere Indikator zur Gestenerkennung. Es hängt alleinig vom Zeigefinger ab und wird nicht zusätzlich
noch von den Bewegungen des Mittelfingers beeinflußt. Diese Mittelfingerbewegung ist zwar wichtig für die Geste, ein ausgestreckter
Zeigefinger ist jedoch viel entscheidender als ein angewinkelter Mittelfinger.
Durch einen solchen Wiedererkennungsschwellwert wird erreicht,
daß beim Verlassen der Geste, z. B. bedingt durch das Zittern der
Hand oder Trackingungenauigkeiten, die Geste fälschlicherweise sofort wieder erkannt wird, da sich die Werte der Maße kurzzeitig wieder
oberhalb der Schwellwerte befinden.
Abbildung 17. Erkennung der Zeigefingergeste in Abhängigkeit der
Schwellwerte.
Abbildung 17 zeigt die Aufzeichnung des wiederholten
Durchführen der Zeigefingergeste. Deutlich ist die Abhängigkeit der
identifizierten Maße von der Geste ersichtlich. Die Schwellwerte
sind so festzulegen, daß die Geste in allen hier ersichtlichen Fällen
zuverlässig erkannt wird. Bei der Festlegung ist zu beachten, daß es
zu Trackingungenauigkeiten und unterschiedlich ausgeprägten Gesten
durch den Benutzer kommen kann. Aus diesen Gründen sollte
bei der Bestimmung der Schwellwerte eine gewisse Toleranz mit
berücksichtigt werden. Die am schwächsten ausgeprägte Geste,
welche gerade noch erkannt werden soll, dient als Vorgabe für die
Festlegung des Schwellwerts. Die Werte dieser Geste werden um
die Toleranzbereiche ergänzt und ergeben somit die Vorgaben für
die Schwellwerte. Wichtig ist ebenso sicherzustellen, daß Fingerbewegungen, welche nicht als Geste erkannt werden sollen, durch
die festgesetzten Schwellwerte nicht fälschlicherweise als Geste
erkannt werden. Abbildung 17 zeigt neben den Maßen der Geste auch
die zugehörigen Schwellwerte. Das Resultat der Schwellwerte ist
anhand der roten Linie ’Geste erkannt’ ersichtlich und entspricht dem
gewünschten Verhalten.
6
B EWERTUNG
UND
AUSBLICK
In weiterführenden Arbeiten wurde die in dieser Ausarbeitung beschriebene Vorgehensweise zur Gestenerkennung eingesetzt um eine Handgesteninteraktion für große, hochauflösende Displays umzusetzten. Dabei zeigte sich, daß sich für den Anwender keine wahrnehmbare Verzögerung vom Zeitpunkt der Gestenausführung bis zur
entsprechenden Reaktion der Anwendung ergab. Zudem ergibt sich
durch das eingesetzte Verfahren zur Cursorpositionierung, basierend
auf der Palm-Pointinggeste, eine intuitive Steuerung des Cursors, welche zugleich eine sehr schnelle Positionierung über die gesamte Displayfläche ermöglicht.
Ein Nachteil des vorgestellten Verfahrens ist dessen Abhängigkeit
von der Qualität des Tracking Systems und der Sichtbarkeit der Marker. So kann es vorkommen, daß Marker von Fingern verdeckt werden und dadurch eine Klassifizierung der Finger und die darauf basierende Gestenerkennung nicht möglich ist. Als Alternative zu einem
optischen System könnte ein mit Sensoren ausgerüsteter Handschuh
dienen. Das optische Trackingsystem bietet jedoch den Vorteil der Rotationsinformation der Hand. Diese Daten und das damit verbundene
Zurückführen der 3D Fingermarker Positionen in eine definierte Ausgangslage bildet die Grundlage für den vorgestellten Algorithums zur
Handidentifikation und Fingerklassifikation.
Trotz diesem Nachteil scheint nach einer ersten Beurteilung die
Hand als Eingabegerät und Handgesten zur Interaktion an großen,
hochauflösenden Displays gut geeignet zu sein. Dem Benutzer wird
eine hohe Bewegungsfreiheit eingeräumt, welche bei dieser Displayart
von ausschlaggebender Bedeutung ist. Die Gestenerkennung und Umsetzung in eine Interaktion ist schnell und erfüllt dadurch eine wichtige Vorraussetzung für Interaktionstechniken der Mensch-ComputerInteraktion. Ein weiterer Vorteil der vorgestellten Lösung ist die kurze
Rüstzeit, welche zum Anlegen des Handschuhs benötigt wird. Nachdem der Handschuh einmalig kalibriert wurde, ist dieser sofort nach
dem Anziehen verwendbar. Es ist keine Nachkalibration notwendig,
wie es z. B. bei dem kommerziellen Fingertrackingsystem von ART
notwendig sein kann [4]. Der verwendete Kosmetikhandschuh ist angenehm zu tragen und weißt komplett montiert ein Gewicht von 51
Gramm auf. Dadurch ist er selbst bei längerer Verwendung nicht zu
schwer.7 Ein weiterer Vorteil ist die intuitive und schnelle Positionierung des Cursors. Als berührungslose Interaktion eignet sich die Handgesteninteraktion zudem insbesondere für die Konstanzer Powerwall,
deren Darstellungsfläche berührungsempfindlich ist und eine direkte
Interaktion auf der Oberfläche nicht erlaubt.
L ITERATUR
[1] T. Baudel and M. Beaudouin-Lafon. Charade: remote control of objects
using free-hand gestures. Commun. ACM, 36(7):28–35, 1993.
[2] J. Eisenstein and R. Davis. Visual and linguistic information in gesture
classification. In SIGGRAPH ’07: ACM SIGGRAPH 2007 courses, page 15, New York, NY, USA, 2007. ACM Press.
[3] J. Foley and A. V. Dam. Fundamentals of Interactive Computer Graphics.
Addison-Wesley, 1982.
[4] A. R. T. GmbH. A.R.T. Fingertracking. User’s Manual, v1.0.1 edition,
2006.
[5] A. R. T. GmbH. DTrack Technical Appendix, v1.24 edition, 2006.
[6] A. R. T. GmbH. Markers, targets. http://www.ar-tracking.de, October
2007.
[7] E. B. Goldstein. Wahrnehmungspsychologie. Spektrum Akademischer
Verlag, 2002.
[8] P. A. Harling and A. D. N. Edwards. Hand tension as a gesture segmentation cue. In Gesture Workshop, pages 75–88, 1996.
[9] A. Kendon. Gesture. Visible Action as Utterance. Cambridge, 2004.
7 Im Vergleich dazu wiegt die GO 2.4GHz Optical Air Mouse von Gyration,
welche auch im freien Raum ohne statische Unterlage verwendet werden kann,
129 Gramm und damit mehr als doppelt so viel.
[10] W. A. König. Referenzmodell und Machbarkeitsstudie für ein neues
Zoomable User Interface Paradigma. mastersthesis, University of Konstanz, Jun 2006. Demo-Video ZOIL Prototype (37 MB).
[11] W. A. König, H.-J. Bieg, and H. Reiterer. Laserpointer-interaktion fr
groe, hochauflsende displays. In Mensch Computer 2007: Interaktion im
Plural, 7. Konferenz fr interaktive und kooperative Medien, pages 69 –
78. Oldenbourg Verlag, Sep 2007.
[12] Meyers.
Meyers
lexikon
online
2.0.
http://lexikon.meyers.de/meyers/deiktisch, October 2007.
[13] G. Tortora and B. Derrickson. Anatomie und Physiologie. WILEY-VCH
Verlag, 2006.
[14] D. Vogel and R. Balakrishnan. Distant freehand pointing and clicking
on very large, high resolution displays. In UIST ’05: Proceedings of the
18th annual ACM symposium on User interface software and technology,
pages 33–42, New York, NY, USA, 2005. ACM Press.
State-of-the-Art: Eye-Tracker als Analyse- und Eingabemedium
Andrea Söter
Abstract—Vor mehr als 100 Jahren fingen Forscher an, Augenbewegungen zu untersuchen. Etwa 50 Jahre später wurden die Ergebnisse dieser Untersuchungen bereits für erste Tests verwendet, bei denen die Gebrauchstauglichkeit von Objekten überprüft werden
sollte. Weitere 30 Jahre später kam zum ersten Mal die Idee auf, Blickbewegungen für die Interaktion mit dem Computer zu nutzen
und seitdem wurde auf diesem Gebiet viel Forschung betrieben. Mittlerweile sind erste kommerzielle Systeme erhältlich und werden
vor Allem Anwendern mit beschränkten motorischen Fähigkeiten bei funktionierenden kognitiven Fähigkeiten empfohlen.
Diese Arbeit gibt zunächst eine kurze Einführung in die Geschichte und die Grundlagen des Eye-Tracking. Anschließend wird diese
Methode in Hinblick auf Usability-Untersuchungen betrachtet, bevor der Fokus auf das aktuelle Thema des Eye-Tracking als Eingabenmedium gerichtet wird. Hier werden bisherige Ideen und Interaktionsvorschläge sowie Anbieter genauer untersucht und danach
eine Nutzeneinschätzung basierend auf vorangegangenen Untersuchungen vorgenommen.
Index Terms—Eingabemedien, Eye-Tracker, Mensch-Computer-Interaktion, HCI.
1
E INLEITUNG
Eye-Tracking nennt man die Registrierung der Blickbewegungen einer
Person. Blickbewegungen sind die Gesamtheit der relativen Bewegungen des Auges in Bezug auf den Kopf und der Fixationen, bei denen
das Auge für längere Zeit einen Punkt fixiert [24].
In 90% seiner Zeit unternimmt der Mensch Fixationen, die etwa
100 bis 2000ms andauern können. Eine Konzentration liegt bei 200600ms. Bei kürzeren Fixationen werden keine Informationen wahrgenommen, da jeweils kurze Zeit vor und nach einer Sakkade das visuelle Wahrnehmungsvermögen eingeschränkt ist. Während einer Fixation
befindet sich das gewünschte Objekt in der Fovea, den Ort des schärfsten Sehens auf der Netzhaut. Diese Region umfasst etwa einen Grad
des Blickwinkels, was in etwa so groß ist wie die Breite des Daumens
bei ausgestreckter Hand [18].
Die durchschnittliche Fixationsdauer beim Lesen liegt bei etwa
225ms, bei visuellen Suchaufgaben bei ungefähr 275ms und bei der
Betrachtung von Bildern bei etwa 330ms. Allerdings gibt es hier einen
Zusammenhang zwischen Fixationsdauer und Aufgabenschwere: liest
eine Person kompliziertere Satzkonstruktionen, ist die Dauer seiner
Fixationen höher. Kürzere Fixationen werden gemacht, wenn man
bereits Erfahrung mit einer Aufgabe hat. Auch bei Reaktionsaufgaben, wie beispielsweise dem Autofahren, sind Fixationen eher kürzer [12, 4].
Die Bewegungen des Auges lassen sich in „jitter“, Sakkaden und langsame Folgebewegungen unterteilen [24, 4].
„Jitter“ sind während Fixationen auftretende, kaum merkbare Zitterbewegungen mit einer Größe von weniger als einem Grad des Blickwinkels [18].
Sakkaden erfolgen zwischen zwei Fixationen, dauern etwa 10 bis
80ms und können Höchstgeschwindigkeiten von bis zu 1000◦ pro Sekunde annehmen [4]. Diese Daten sind jeweils vom Wachheitszustand
und von der Sprungweite abhängig, die etwa 2 bis 50◦ beträgt. Während der Sakkaden werden keine Informationen aufgenommen. Sie
dienen lediglich dazu, Zielobjekte in die Fovea zu bewegen, den Ort
im Auge, an dem das schärfste Sehen möglich ist [4].
Es existieren so genannte Express-Sakkaden, die jedoch nichts mit
schnelleren Augenbewegungen sondern mit kürzerer Bearbeitungszeit
im Gehirn zu tun haben. Sie treten auf, wenn die Aufmerksamkeit einer Person bereits behoben ist, bevor ein visueller Stimulus an einer
anderen Stelle erscheint. Dann ist die Zeit zwischen dem Auftreten
dieses Stimulus und seiner Fixation sehr gering [4].
Folgebewegungen werden auch „dynamische Fixationen“ genannt, da
• Andrea Söter.
• [email protected]
• Matrikelnr: 01/556143
währenddessen Informationen wahrgenommen und verarbeitet werden. Um das zu gewährleisten sind sie mit Geschwindigkeiten von
weniger als 80◦ in der Sekunde deutlich langsamer als Sakkaden. Folgebewegungen treten meist im Straßenverkehr bei der Beobachtung
sich bewegender Objekte auf [12, 4, 24].
1.1
Geschichte
Das erste Mal in der Geschichte wurden Blickbewegungen im Jahre
1879 untersucht, als Javal entdeckt, dass das Lesen aus Fixationen und
Sakkaden besteht. Von da an wurden Methoden gesucht, um Blickbewegungen aufzeichnen und sie auf ihre Eigenschaften untersuchen zu
können. Der erste Eye-Tracker wurde dann 1898 von Huey gebaut. Er
bestand aus einer Gips-Kontaktlinse mit einem Loch für die Pupille.
An der Linse war ein Pointer aus Aluminium befestigt, der auf einer
Tafel die Bewegungen des Auges aufzeichnete. Dieses mechanische
und physisch unangenehme Verfahren wird auf nachfolgender Abbildung 1 veranschaulicht [24, 15].
Abbildung 1. Huey’s Eye-Tracker 1898, Quelle: [15]
Bereits im Jahre 1901 bauten Dodge und Cline den ersten berührungslosen Eye-Tracker, der fotografisch funktionierte: im Auge
reflektierte Lichter wurden auf einer Fotoplatte aufgenommen. Diese
Methode funktionierte zwar nur in horizontaler Richtung, doch der
erste Schritt in Richtung Cornea-Reflex-Methode war getan [15].
Judd, McAllister und Steel bauten darauf 1905 eine Vorrichtung, die
Augenbewegungen auch in vertikaler Richtung aufzeichnen konnte.
Hierbei wurde weißes Material in das Auge der Versuchspersonen
eingeführt, die Bewegungen aufgezeichnet und der Blick aus der Lage
der weißen Stellen errechnet.
Zum ersten Mal wurden Eye-Tracking-Methoden im Jahre 1947
für die Usability-Forschung eingesetzt. Fitts, Jones und Milton
untersuchten dabei die Gebrauchstauglichkeit von Cockpits indem sie
die Augenbewegungen von Piloten bei der Landung eines Flugzeuges
auf Film aufnahmen.
Nur ein Jahr später wurde der erste am Kopf befestigte Eye-Tracker
von Hartridge und Thomson entwickelt.
Weitere zwei Jahre später entwickelte Mackworth einen am Kopf
befestigten Eye-Tracker, der Augenbewegungen mit Hilfe der
Cornea-Reflex-Methode aufzeichnete - mehrere Lichter werden dabei
ins Auge gestrahlt und aus ihren Reflexionen kann der Blick in
horizontaler und vertikaler Richtung bestimmt werden.
In den 70er Jahren fingen Forscher an, Augenbewegungen mit
kognitiven Prozessen zu verbinden, doch der Forschungsschwerpunkt
in dieser Zeit waren dennoch technische Verbesserungen. Man wollte
Eye-Tracker bauen, die ihren Benutzer weder stören noch beeinflussen. Hierfür wurden mehrere Infrarot-Lichtquellen ins Auge gestrahlt
und reflektiert werden um anschließend Kopf- und Augenbewegungen
unterscheiden zu können. Auch war es das Ziel höhere Genauigkeiten
und kleinere Fehlerraten bei der Benutzung von Eye-Trackern zu
erzielen.
Mittlerweile existiert eine Vielzahl unterschiedlicher Eye-Tracker teilweise am Kopf befestigte, teilweise entfernte Geräte - die den
Blick mittels Reflexion mehrerer Lichter berechnen können und
die die Blickbewegungsdaten sofort aufzeichnen und verarbeiten
können [24, 15].
Blickbewegungsregistrierung wird in verschiedenen Gebieten
bei verschiedenen Anwendungsszenarien verwendet. In der Medizin
beispielsweise wird Eye-Tracking genutzt, um Fehlsichtigkeiten
aufzudecken. Im Bereich der Neurowissenschaften kommen EyeTracker bei der Untersuchung von Patienten mit Schizophrenie
zum Einsatz. Psychologen setzen Eye-Tracker in den Bereichen der
Wahrnehmungs- und Entscheidungspsychologie ein, die auch für
die Themen Marktforschung und Platzierung der Produkte in einem
Supermarkt eine wichtige Rolle spielen [24].
Eye-Tracker können aber auch auf dem Gebiet der MenschComputer-Interaktion genutzt werden, um Benutzerschnittstellen auf
ihre Gebrauchstauglichkeit zu untersuchen [14] oder als Eingabewerkzeug unter Anderem für Menschen, die aufgrund motorischer
Behinderungen nicht in der Lage sind, konventionelle Eingebegeräte
zu bedienen [21]. Diese beiden Anwendungsgebiete werden in den
nachfolgenden Kapiteln näher betrachtet.
2
S TATE - OF - THE -A RT: E YE -T RACKER
2.1
ALS
nommen wird.
• Betrachtungsdauer: Hierbei wird untersucht, wie lange ein Objekt insgesamt wahrgenommen wird.
• Fixationsorte: Für diesem Punkt ist von Interesse, welche Stellen eines Objektes oder einer ganzen Webseite überhaupt fixiert
werden.
• Fixationshäufigkeit: Dieser Punkt betrifft die Häufigkeit, mit der
die jeweiligen Stellen eines Objektes oder einer Webseite fixiert
werden.
• Fixationsreihenfolge: Das bedeutet, dass auch untersucht wird,
in welcher Reihenfolge verschiedene Informationseinheiten fixiert werden.
• Gazegröße: Die Gazegröße schließlich besagt, wie viele aufeinander folgende Fixationen vom Benutzer innerhalb einzelner Bereiche oder Informationseinheiten platziert wurden.
Zudem gibt es einen Zusammenhang zwischen Fixationsdauer und
Informationsverarbeitung, der in Abbildung 2 verdeutlicht wird.
Bei einer Fixationsdauer von etwa 50 bis 80ms gelingt lediglich eine
Lokalisation: Der Mensch bemerkt, dass sich an einer bestimmten
Stelle in seiner Umwelt ein Objekt befindet. Bei Fixationsdauern von
etwa 100 bis 250ms dekodiert ein Mensch zusätzlich Oberflächenmerkmale wie Farbe, Form, Größe, Beschaffenheit des Gesehenen
und verarbeitet somit figurativ. Bei einer Dauer von circa 200 bis
480ms erfolgt bereits die semantische Verarbeitung, bei der das
Gesehene in eine Kategorie eingeordnet wird. Hier erkennt der
Sehende, ob es sich bei dem Objekt beispielsweise um einen Mann
oder eine Frau handelt. Zur gleichen Zeit erfolgt die selbstreferentielle
Verarbeitungsphase, die auch kreative oder metakognitive Phase
genannt wird. In dieser Phase verbindet die Person Gefühle mit
den gesehenen Objekten und entscheidet zum Beispiel ob er sie als
sympathisch oder unsympathisch empfindet. Längere Fixationsdauern
von etwa 500 bis beliebig vielen Millisekunden erfolgen meist nur
dann, wenn während der Lösung eines Problems über das betreffende
Objekt kommuniziert und es dabei fixiert wird [22, 4, 14].
A NALYSEMEDIUM
Grundlagen
Auf der Netzhaut des Auges befindet sich eine Stelle, an der nur
Zapfen, Rezeptoren für farbiges Licht, zu finden sind. Nur an dieser
Stelle, der sogenannten Fovea centralis sieht der Mensch scharf. Je
weiter man sich von hier in die äußeren Netzhautbereiche bewegt,
umso unschärfer werden Objekte wahrgenommen. In den Randbereichen sieht der Mensch nicht einmal mehr Farben [4, 12].
Die Aufmerksamkeit des Menschen wird daher durch seine Blicke
indiziert [5]: es wird immer dorthin geschaut, wo im nächsten Schritt
gehandelt wird. Aufgrund dieser Tatsache, können Eye-Tracker zur
Gebrauchstauglichkeitsuntersuchung von Benutzerschnittstellen genutzt werden. Der erste Versuch hierfür wurde, wie oben beschrieben,
im Jahre 1947 unternommen.
Zu Beachten ist hier jedoch, dass Menschen oft in der Peripherie
liegende Objekte aus den Augenwinkeln beobachten können, um
sich anschließend zu entscheiden, ob sie dorthin schauen wollen oder
nicht. Dies kann jedoch nicht mit einem Eye-Tracker aufgezeichnet
werden.
Es gibt verschieden Variablen, die den Blickverlauf charakterisieren und mit Hilfe derer eine Usability-Untersuchung durchgeführt
werden kann [14]. Diese werden in nachfolgender Liste genauer
erläutert.
• Auffälligkeit: Diese gibt Aufschluss darüber, ob ein Objekt auffällig genug ist, als dass es von Benutzern als solches wahrge-
Abbildung 2. Fixationsdauer und Informationsverarbeitung, Quelle: [14]
2.2 Arten
Es gibt unterschiedliche Arten von Eye-Trackern, die in verschiedenen
Anwendunssituationen Verwendung finden.
Remote Eye-Tracker sind Kameras, die nicht am Kopf befestigt
werden und die Blickbewegungen aus der Ferne aufzeichnen. Bei
remote Eye-Trackern gibt es keine Kopfgestelle, Übertragungskabel oder Kinnstützen, sodass eine gewisse Mobilität möglich ist.
Kopfbewegungen werden hier zwar kompensiert, aber ein definierter
SÖTER et al.: STATE-OF-THE-ART: EYE-TRACKER ALS ANALYSE- UND EINGABEMEDIUM
Aufbau von Eye-Tracker, Versuchsperson und Untersuchungsobjekt
ist dennoch von Nöten. Diese Art der Eye-Tracker (siehe Abbildung
3) werden oft für Usability-Untersuchungen von Websites verwendet.
Anbieter hierfür sind neben Anderen auch Interactive Minds [9] und
Eye Square [7], die neben der Hardware auch Software für Usability
Untersuchungen liefern. Während sich der erste Anbieter bezüglich
der Funktion seiner Software bedeckt hält, wirbt Eye Square mit
einer Software, die bei der Gebrauchstauglichkeitsuntersuchung einer
Webseite den Blickverlauf, Mausbewegungen und den Pfad durch
verschiedene Unterseiten aufzeichnet.
Abbildung 5. Head-Supported Eye-Tracker, Quelle: [17]
2.3
Abbildung 3. Remote Eye-Tracker, Quelle: [13]
Eine weitere Art von Eye-Trackern nennt man head-mounted
Eye-Tracker (Abbildung 4). Diese werden am Kopf der Versuchsperson fixiert, sodass sich diese frei bewegen kann. Nur die Kabel,
die vom Gerät zu einem aufzeichnenden Rechner führen bzw. der
Bereich, in dem der Blicke korrekt errechnet werden, beschränken
die Bewegungsfreiheit. Die Augenbewegungen werden von kleinen
Kameras aufgezeichnet, die sich meist seitlich oder unter dem Auge
befinden. Diese Art des Eye-Tracking wird unter Anderem bei Untersuchungen im Bereich der Entscheidungspsychologie beispielsweise
in Supermärkten verwendet, da sich Versuchspersonen hier frei durch
den Raum bewegen müssen. Auf dem Kopf zu tragende Eye-Tracker
werden unter Anderem von den Unternehmen Eyetracking Inc. [6]
und Eye Suare [7] zusammen mit Software für Usability-Testing und
Marktforschungszwecke angeboten.
Abbildung 4. Head-Mounted Eye-Tracker, Quelle: [19]
Eine Zwischenstufe zwischen remote und head-mounted EyeTrackern existiert in Form der head-supported Eye-Tracker. Die
Aufzeichnung der Blickbewegungen erfolgt remote, doch der Kopf
bleibt fixiert (vgl. Abbildung 5). Da Kopfbewegungen hier nicht
kompensiert werden müssen, können Hochleistungssysteme dieser
Art Abtastraten von über 1000Hz bei einer Genauigkeit von 0,5◦
des Blickwinkels erreichen. Solche Geräte werden unter Anderem
in der Neuropsychologie und der Forschung verwendet und sind
beispielsweise bei SMI (SensoMotoric Instruments) [17] erhältlich.
Nutzeneinschätzung
Ob ein Eye-Tracker bei Usability-Untersuchungen verwendet werden
sollte, hängt neben dem Budget von vielen weiteren Faktoren ab.
Als großen Vorteil sehen Oertel und Schultz die Tatsache, dass
das Auftreten von Problemstellen mit Hilfe eines Eye-Trackers
genauer lokalisiert werden kann. Während bei Befragungen der
Testpersonen eher allgemeine und schwer überprüfbare Angaben
aufgenommen werden, gibt die Untersuchung der Blickbewegungen
mehr Aufschluss über das Auftreten eines Problems [14]: an jenen
Stellen, an denen Testpersonen Probleme hatten, gibt es deutlich
weniger Fixationen mit geringerer Verweildauer. Weiter können auch
Gründe für Nutzungsprobleme identifiziert werden, wenn man den
Blick der Testperson mit der Stelle vergleicht, an der er eigentlich sein
sollte: Befinden sich Objekte an unkonventioneller Stelle, werden sie
oft nicht gefunden, da Testpersonen dorthin blicken und dort suchen,
wo sie diese Objekte erwarten [14]. Es können auch Strategien im
Umgang mit Benutzerschnittstellen erkannt werden, um anschließend
die weitere Gestaltung daran anzulehnen. Bewegen sich Benutzer
beispielsweise nicht in konventioneller Leserichtung sondern vertikal
durch ein Interface, könnte man als Information für das Redesign
daraus ziehen, dass man die Objekte umordnen sollte [14].
Neben diesen Vorteilen gibt es eine Reihe von Nachteilen, die gegen
das Verwenden von Eye-Trackern bei Usability-Untersuchungen
sprechen. Zunächst sind diese Geräte sehr kostspielig und haben
selbst eine geringe Gebrauchstauglichkeit: Remote Eye-Tracker
erlauben nur geringe Kopfbewegungen und die head-mounted Version
ist schwer und deshalb nicht lange tragbar. Die Genauigkeit war bisher
meist auch gering. Bewegt die Testperson den Kopf, erfolgt eine
gewisse Verzögerung bis der remote Eye-Tracker das Auge wieder
erkennt. Bewegt die Testperson ihren Kopf in Richtung Eye-Tracker
oder von ihm weg, geht die Kalibrierung verloren. Die Kalibrierung
ist somit nicht nur für jeden weiteren Benutzer erforderlich, sondern
manchmal auch während eines Usability-Tests mehrfach zu tätigen.
Eine Untersuchung von Schnipke und Todd aus dem Jahre 2000
ergab zudem, dass die Erfolgsrate bei Eye-Tracking-Experimenten
sehr gering ist. Nur 37,5% der Versuchspersonen lieferten hier
akzeptable Eye-Tracking-Daten, wobei akzeptable Daten durch
einen Vergleich von Augenpositionscursor, Mauszeiger und der
Lage von Objekten bestimmt wurden. Während bei akzeptablen
Daten eine Übereinstimmung der drei Indikatoren vorzufinden war,
stimmte die Blickposition bei inakzeptablen Daten nicht mit den
Handlungen des Benutzers überein [16]. Bei diesen befand sich der
Augenpositions-Cursor entweder an Stellen, an denen keine Objekte
vorhanden waren, obwohl die jeweiligen Personen offensichtlich an
anderer Stelle interagierten oder aber er sprang auf dem Bildschirm
umher. Bei manchen Versuchspersonen war der Cursor nicht einmal
auf dem Bildschirm zu sehen. Aufgrund dieser geringen Erfolgsrate
steigt wiederum der Preis solcher Untersuchungen, da diese mit
weiteren Personen erneut durchgeführt werden müssten, um eine
akzeptable Menge an Eye-Tracking-Daten zu erhalten [16].
Schnipke und Todd ließen bei ihrem Experiment bewusst nur Personen teilnehmen, die keine Brille trugen und den Eye-Tracker somit
nicht „verwirren“ sollten. Brillenträger könnten falsche Ergebnisse
liefern, da ihre Brillen Spiegelungen hervorrufen könnten, die der
Eye-Tracker fälschlicherweise als Blickdaten interpretieren würde
oder sie könnten nicht-spiegelndes Glas verwenden, das auch die
Spiegelung von Infrarotlicht ausblenden würde. Solche Einschränkungen in der Auswahl der Versuchspersonen würde in anderen
Untersuchungen die Repräsentativität dieser beschränken, was einen
weiteren Nachteil dieser Art des Usability-Testing darstellt. Doch
trotz dieser Einschränkung waren die Ergebnisse von Schnipke und
Todd wenig erfreulich. Sie erkannten, dass eine Person verschiedene
Merkmale aufweisen muss, um für Eye-Tracking-Experimente geeignet zu sein: ihre Pupille muss zunächst genügend Licht reflektieren,
darf jedoch weder zu groß, noch von Wimpern oder Lidern verdeckt
sein. Weiter darf die Iris nicht zu hell sein und auch das Gesicht
darf nicht transpirieren, da es sonst Licht reflektieren würde, das der
Eye-Tracker falsch interpretieren könnte. Ein weiteres Problem stellen
Augen dar, die nach einer gewissen Zeit zu trocken sind, sodass die
Versuchsperson sie zum Schutz schließt oder verdeckt [16].
Sibert und Jacob untermauern dieses Experiment mit Erfahrungen aus
ihrer Evaluation aus dem selben Jahr. Sie fanden ebenfalls heraus,
dass nicht alle Personen für Eye-Tracking-Experimente geeignet sind,
da die damals erwerblichen Eye-Tracker zumeist Schwierigkeiten mit
Kontaktlinsen, trockenen Augen, schwach reflektierenden Hornhäuten
sowie Brillen, die sich bei Helligkeit dunkel verfärben, aufwiesen.
Die Erfolgsquote war hier jedoch mit 61% deutlich höher als bei
Schnipke’s und Todd’s Versuch. Zudem stellten Sibert und Jacob fest,
dass Eye-Tracker stets besser wurden und prognostizierten für die
Zukunft Geräte, die diese Probleme eines Tages lösen könnten [18].
Angesichts dieser Vielzahl kostspieliger Nachteile, wirkt bei
Usability-Untersuchungen die Verhältnismäßigkeit von Nutzen und
dem gegebenen Aufwand und Preis eher gering. Konventionelle
Methoden des Usability Engineering, genauer: Einhaltung von
Normen, Benutzerbefragungen, Benutzertests verbunden mit Videound Sprachaufzeichnungen,... liefern ebenfalls gute Hinweise ohne die hohen Kosten des Eye-Trackings, die durch die benötigte
Hardware sowie gegebenenfalls der mehrmaligen Durchführung der
Untersuchung entstehen [16]. Zudem muss dabei nicht der große
Aufwand eventueller mehrfacher Kalibrierung unternommen werden.
3 S TATE - OF - THE -A RT: E YE -T RACKER ALS E INGABEMEDIUM
3.1 Grundlagen
Der Blick eines Menschen zeigt implizit den Punkt seiner Aufmerksamkeit an. Auch bei der Interaktion mit der Welt sind seine
Augen auf die Stellen gerichtet, an denen er auch andere Operationen
ausführt. [5, 18, 25]. Zudem sind Augenbewegungen aufgrund der
Anatomie des Augapfels leicht, schnell und in jegliche Richtung
durchführbar. Hände hingegen sind aufgrund der Struktur des Armes
eingeschränkt und zudem nicht so schnell wie Sakkaden. Auch können Augen eine beliebige Strecke in nahezu konstanter Zeit hinlegen,
während Hände für weitere Strecken mehr Zeit benötigen [18]. Da
Augenbewegungen darüber hinaus natürlich sind und unter geringer
kognitiver Last erfolgen, sind sie in Kombination mit Eye-Trackern
für Eingabetätigkeiten sehr gut geeignet [18]. Erfolgt Eingabe mit
den Augen, könnten die Hände frei bleiben. Gerade Menschen mit
motorischen Behinderungen können auf andere Weise keinen Computer bedienen [10, 11, 21, 25]. Andere könnten mit ihren Händen
weitere Aufgaben erledigen [20] oder sie könnten die Eingabe mittels
Augenbewegungen lediglich aus Bequemlichkeit nutzen.
Aufgrund dieser Überlegungen gab es bereits in den 80er Jahren die
erste Ideen und Interaktionskonzepte für die Interaktion mit Hilfe
der Augen [2]. Im nachfolgenden Kapitel werden diese genauer
beleuchtet.
3.2 Untersuchungen
Zum ersten Mal hatte Richard A. Bolt im Jahre 1981 die Idee, bei
der Interaktion mit einem Computer Augenbewegungen, Sprache und
Gesten zu kombinieren. Für die Verwirklichung sollte die interagierende Person ein Miniatur-Eye-Tracking-System mit Ortsensor an der
Brille tragen, damit freies Bewegen im Raum ermöglicht wird. Der
Blick sollte aus Infrarot-Reflexionen des Auges errechnet werden.
Seine Idee war, beispielsweise ein Objekt auf dem Bildschirm so zu
bewegen, dass man es eine gewisse Zeit lang fixierte während man
sagte: „Bewege das“, anschließend den Blick an den Zielort wandte
und sagte: „Dorthin“. Alternativ könnte der Zielort mittels Fingerzeig
angedeutet werden [2]. Er erprobte diese Technik damals zwar noch
nicht an verschiedenen Versuchspersonen, doch er kam zu dem
Ergebnis, dass die Kombination verschiedener Eingabemedien nützlicher, schneller und intuitiver sein müsste als die isolierte Komponente.
Wenige Jahre später testeten Ware und Mikaelian zum ersten
Mal Interaktionen mit Unterstützung durch Blickbewegungen. Sie
untersuchten, ob Augenbewegungen alleine oder verbunden mit
einem Auswahlknopf für die Objektwahl schneller ist. Außerdem
wollten sie wissen, ab welcher Objektgröße eine Interaktion mittels
Eye-Gaze überhaupt sinnvoll ist [23].
Für ihre Untersuchungen verwendeten sie einen remote Eye-Tracker
mit einer Genauigkeit von 0,5◦ des Blickwinkels, der das Auge der
jeweiligen Versuchsperson inklusive Infrarotreflexionen der Hornhaut
aufzeichnete. Um die Geschwindigkeit der Eye-Gaze-Interaktion
zu überprüfen, wurden in einem Test verschiedene, untereinander
angeordnete Objekte angezeigt, von denen eines markiert wurde, das
der Benutzer anschließend ansehen und auswählen musste. Unter
Anderem wurden die Schwellwertmethode und das Drücken eines
Hardwarebuttons zur Auswahl genutzt. Beim zweiten Teil des Tests,
der die ideale Objektgröße bestimmen sollte, wurden 16 Elemente
quadratisch angeordnet und die Versuchspersonen sollten diese in
der Reihenfolge ansehen und auswählen, in der sie markiert werden.
Für die Auswahl wurden wieder sowohl die Schwellwertmethode
mit einem Schwellwert von 0,4 Sekunden, als auch die HardwareButton-Methode genutzt. Nach jedem Durchlauf wurde die Größe der
16 Objekte verändert. Die Versuchspersonen hatten bei diesen Tests
die Anweisung, so schnell wie möglich zu interagieren, dabei aber
dennoch auf eine möglichst hohe Genauigkeit zu achten.
Ware und Mikaelian kamen zu dem Ergebnis, dass Eye-GazeInteraktion zwar schnell, verbunden mit einem Auswahlknopf aber
schneller ist, da ein Objekt nicht einen gewissen Schwellwert lang
fixiert werden muss, bevor es ausgewählt wird. Motorisch behinderte
Personen könnten jedoch auch nur die Schwellwert-Methode gut
nutzen. Interaktionen mittels Augenbewegungen ist laut dieser Untersuchung nur ab einer bestimmten Objektgröße sinnvoll: die Fehlerrate
liegt erst bei Objekten, die größer sind als 1◦ des Blickwinkels unter
10% (siehe Abbildung 6).
Weiter wurde herausgefunden, dass die Fehlerrate bei der Interaktion
mittels Eye-Gaze allein geringer ist (vgl. Abbildung 6), was darauf
zurückzuführen ist, dass Versuchspersonen ihre Blickbewegung und
das Drücken des Auswahlknopfes zu synchronisieren versuchten,
was zu einer verfrühten Auslösung des Knopfes führte. Bei der
Interaktion mit Eye-Gaze alleine waren die Personen gezwungen, ihre
Interaktionen nacheinander auszuführen, was auch die längere Dauer
dieser Interaktionsform verursacht.
Im Jahre 1990 stellte Jacob seine Sammlung verschiedener Interaktionsmodi für verschiedene Aufgaben vor [10]. Die Auswahl eines
Objektes aus einer Menge an Objekten, könnte mittels Auswahlbutton
oder einer Verweilzeit erfolgen. Die Schwellwertmethode empfand er
zwar als angenehmer, doch er fand, dass zu lange Dauern unnatürlich
waren und Benutzer denken könnten, das System sei abgestürzt, wenn
nach zu langer Fixation nichts passierte. Eine zu kurze Verweildauer
könnte zur Folge haben, dass Objekte versehentlich gewählt würden.
Deshalb wäre es wichtig, Ergebnisse leicht rückgängig zu machen.
Eine Verweilzeit von etwa 150ms empfand er als richtigen Mittelweg
zwischen diesen beiden Problemen. Diese Zeit war zwar etwas länger,
als der später von ihm und Sibert errechnete durchschnittliche Klick,
dessen Ausführung nur 116ms dauerte, doch die Auswahl mittels
Blick war dennoch schneller [18].
Attribute eines Objektes würden in einem gesonderten Bildschirmbereich zu betrachten sein, nachdem das gewünschte Objekt lange genug
fixiert wurde. Objekte bewegen konnten Jacob’s Versuchspersonen
Abbildung 6. Fehlerrate der Schwellwertmethode im Vergleich zur
Auswahlknopf-Methode, Quelle: [23]
indem sie nach dem Blick darauf einen Mausklick tätigten, anschließend an den Zielort blickten und den Mausknopf losließen. Auf diese
Weise konnten Benutzer schneller mit dem System interagieren,
als wenn sie nach Blick auf ein gewünschtes Objekt die Maus für
die komplette Bewegung nutzten. Diese konventionellere Art der
Interaktion erschien neben der schnellen Eye-Gaze-Interaktion als
langsam und unangenehm.
Scrollen ermöglichte Jacob indem er Pfeile ober- und unterhalb
eines Textes anbrachte, die fixiert werden mussten um den Text in
die jeweilige Richtung zu bewegen. Menükommandos konnten in
seinem Szenario gewählt werden, indem sich ein Pull-Down-Menü
nach gewisser Fixationsdauer öffnete und seine Befehle preisgab.
Die Auswahl des jeweiligen Befehles sollte jedoch mittels Mausklick
erfolgen, da gerade unbekannte Befehle länger fixiert würden und
eine längere Verweildauer somit nicht unbedingt dem Wunsch nach
Auswahl gleich käme. Wollten die Versuchspersonen Texte eingeben,
so geschah dies mit Hilfe der Tastatur, nachdem das gewünschte
Textfeld mittels Fixation ausgewählt wurde [10].
Bei Jacob’s Untersuchung saßen die Versuchspersonen an einem
konventionellen Rechner, während der remote Eye-Tracker auf dem
Tisch nebenan angebracht wurde. Zwei Lichter wurden in die Augen
gestrahlt und reflektiert, damit Kopf- und Augenbewegungen besser
unterschieden werden konnten. Mit der Apparatur konnte unter den
gegebenen Bedingungen eine Genauigkeit von etwa einem bis zwei
Grad des Augenwinkels erreicht werden.
Jacob kam zu dem Ergebnis, dass die Verwendung natürlicher Augenbewegungen besser für Interaktionen geeignet ist, als antrainierte
Bewegungen, da erstere intuitiver und natürlicher sind. Er bemerkte
auch, dass der Eye-Tracker trotz seiner Unaufdringlichkeit schwer zu
ignorieren war, da der Raum etwas abgedunkelt werden musste und
sein leises Summen nicht überhörbar war. Eine höhere Genauigkeit
meinte Jacob mit einer festen Kopfposition erreichen zu können, doch
diese hätte den Eye-Tracker noch aufdringlicher gemacht. Jacob fand
weiter heraus, dass die Interaktion mittels Maus und Tastatur noch
genauer waren [10].
Im Jahr 2000 wurden diese Interaktionstechniken zum Teil formal auf
ihre Schnelligkeit und Eignung überprüft. Das Ergebnis war, dass die
Interaktion mittels Eye-Gaze bei einer einfachen Auswahl-Aufgabe
durchschnittlich fast doppelt so schnell war, wie die mit der Maus.
Während bei der Maus von Durchgang zu Durchgang ein Lerneffekt
aufzutreten schien, war die Eye-Gaze-Interaktion stetig gleich
bleibend schnell [18].
Etwa 2002 hatten Farid, Murtaugh und Starck die Idee, eine visuelle Maus zu schaffen, die die physische Maus ersetzt, da der
Mauszeiger auch auf konventionellen Monitoren mit dem Blick
verfolgt und kontrolliert wird [8]. Das Anwendungsszenario war hier
die Betrachtung riesiger Bilddaten aus der Astronomie (Bilder können
hier Auflösungen von bis zu 16.000 x 16.000 Pixel haben) oder
der Medizin (Bilddaten mit Auflösungen von typischerweise 4.500
x 4.500 Pixel) sowie die Kontrolle multipler Video-Streams. Eine
einfache Zoom-in- und zurück-Funktion sollte dafür implementiert
werden [8].
Abgeleitet vom visuellen Verhalten, das durch die jeweilige Verweildauer auf einem Objekt definiert wird, wird ein visueller Mausklick
vorgenommen: betrachtet die Versuchsperson eine Stelle in einem
Bild einen gewissen Schwellwert lang, so wird dort hineingezoomt
und ein höher aufgelöster Ausschnitt des Bildes wird auf eine
natürliche Weise detailliert angezeigt. Bei der Kontrolle verschiedener
Video-Streams sollte jeweils der Videoclip aus einer Sammlung von
Videos abgespielt werden, den der Benutzer fixiert. Alle anderen sollten im „Pause“-Modus bleiben. Wandert das Interesse des Benutzers,
repräsentiert durch seinen abschweifenden Blick, zu einem anderen
Video und bleibt dort für eine gewisse Verweilzeit stehen, so wird der
aktuell abgespielte Film pausiert und der neue Film wird gestartet.
Der Versuchsaufbau bestand bei Farid, Murtaugh und Starck aus
einem remote Eye-Tracker mit einer Genauigkeit von 0,5◦ des
Blickwinkels, sowie einer Infrarotkamera unter dem Monitor für die
Aufzeichnung der Gaze-Aktivität. Verarbeitet wurden die Gaze-Daten
am Nebentisch. Bei diesem Aufbau waren Kopfbewegungen innerhalb
einem Fuß3 möglich [8].
Zhai hatte im darauf folgenden Jahr zwei Ideen, deren Durchführbarkeit er mit Hilfe eines remote Eye-Trackers mit einer
Geschwindigkeit von 30Hz überprüfte, der den Blick mit Hilfe der
Cornea-Reflex-Methode - der aufgenommenen Reflexion zweier Infrarot Lichtquellen - errechnete. Das erste Projekt nannte er „MAGIC“
Pointing (Manual Aquisition with Gaze Inititated Cursor) [25]. Dabei
sollten Augenbewegungen mit manuellem Mausinput der Interaktion
dienen: die Augen lenken den Mauszeiger in die unmittelbare Nähe
des gewünschten Objektes. Das Überwinden der letzten Distanz und
Auswahl mittels Klick werden anschließend mit der Maus ausgeführt.
Der Vorteil dieser Methode liegt darin, dass Objekte beliebiger Größe
trotz eventueller Ungenauigkeit des Eye-Trackers ausgewählt werden
können. Außerdem muss der Benutzer den Cursor nie suchen, da
er nach Aktivierung in unmittelbarer Nähe seines Fixationspunktes
erscheint.
Zhai’s zweites Projekt trägt den Namen „EASE“ (Eye Assisted
Selection and Entry) [25] und soll die Eingabe chinesischer Zeichen
effizienter gestalten. Im Chinesischen existieren verschiedene Worte
mit der selben Aussprache. Bisher werden deshalb die ersten Buchstaben in Pinyin, dem offiziellen chinesischen phonetischen Alphabet,
basierend auf römischen Lettern getippt, woraufhin sich eine Liste
mit Symbolvorschlägen öffnet. Der Benutzer muss anschließend die
ID des gewünschten Symbols eintippen, damit das Zeichen auf dem
Bildschirm erscheint. Zhais Lösungsvorschlag für diese umständliche
Art der Eingabe ist ein mit den Augen gesteuertes System, bei dem
man nach Aufklappen der Symbol-Liste das gewünschte Zeichen
fixiert und durch Drücken der Leertaste einfügt [25].
Er stellte fest, dass Blinzeln nicht für eine Auswahl geeignet ist, da es
ungesteuert sehr oft und unbewusst vorgenommen wird. Gesteuertes
Blinzeln hingegen wäre sehr unnatürlich. Er bemerkte auch, dass
ein Schwellwert zwar sinnvoll, jedoch sehr langwierig ist. Deshalb
sollte sein Vorschlag der Eye-Gaze-Interaktion mit der Benutzung
von Maus bzw. Tastatur unterstützt werden. Zhai fand zudem heraus,
dass die von ihm vorgeschlagene Art der Interaktion sehr schnell ist
und zudem unter geringer kognitiver Last erfolgt, da der Blick der
Versuchspersonen stets auf dem Bildschirm bleiben kann und nicht
zwischen Monitor und Tastatur umherwandern muss. Seine Versuchspersonen bekundeten zudem eine hohe subjektive Zufriedenheit [25].
Wieder ein Jahr später hatte Surakka die Idee, Augenbewegungen mit der Bewegung von Gesichtsmuskeln zu kombinieren und
diese als Interaktionsmöglichkeit für den Computer zu nutzen. Für
seine Versuche sollte das gewünschte Objekt mittels Blick angedeutet
werden. Ein Klick wurde nach Kontraktion des Corrugator Supercilii,
dem Muskel der Stirnrunzeln auslöst, vorgenommen [20]. Die
Integration anderer Muskeln hält Surakka ebenfalls für möglich, doch
er entschied sich hier für den Corrugator Supercilii aufgrund der
Nähe zu den Augen. Zudem runzeln Personen in der realen Welt dann
die Stirn, wenn sie erhöhte kognitive Aktivitäten leisten müssen. Auf
diese Art kann Stirnrunzeln mit Aufgaben verbunden werden, die eine
Änderung der Ausmerksamkeit erfordern.
Aufgezeichnet wurden bei Surakka die Augenbewegungen mit einem
remote Eye-Tracker, die Muskelaktivität des Corrugator Supercilii
wurde mit Hilfe einer Verstärkers aufgenommen. Als Aufgabenstellung wurden jeweils zwei Objekte auf dem Bildschirm angezeigt,
von denen eines das Zielobjekt und das andere das „Home“-Objekt
war. Nachdem der Benutzer das Zielobjekt erfolgreich fixiert hatte,
was durch ein Aufblinken des selben angedeutet wurde, musste
er zum „Home“-Objekt zurückkehren. Surakka fand heraus, dass
es einen Trade-Off zwischen Geschwindigkeit und Genauigkeit
gibt: Aufgaben können sehr schnell erfüllt werden, wenn sie nicht
genau sein müssen. Im Gegenzug können sie besonders genau erfüllt
werden, wenn beliebig viel Zeit dafür vorhanden ist [20]. Aufgrund
dessen, sollten die Versuchspersonen versuchen, bei einer möglichst
hohen Geschwindigkeit eine möglichst hohe Genauigkeit zu erzielen.
Seine Untersuchung ergab, dass Interaktion mit der Maus bei
kleineren Distanzen signifikant schneller ist, als Surakka’s Gazingand-Frowning-Technik. Bei größeren Distanzen ist letzteres schneller,
jedoch ist der Unterschied statistisch nicht signifikant. Der Grund
hierfür liegt laut Surakka darin, dass Versuchspersonen bei seiner
Technik warten mussten bis der Eye-Tracker den Blickpunkt genau
errechnet hatte, bevor sie die Stirn runzeln konnten. [20]. Des
Weiteren ist die Interaktion mit der Maus genauer, was laut Surakka
auch an der Ungenauigkeit der bisherigen Eye-Tracker-Technologie
vor Allem bei der Kompensation von Kopfbewegungen liegt. Bei der
Mausinteraktion ist die Objektgröße irrelevant: die unterschiedlichen
Fehlerraten sind statistisch nicht signifikant. Bei der Interaktion
mit dem Eye-Tracker jedoch verbesserte sich die Fehlerrate bei
steigender Objektgröße. Ähnlich wie bei der Untersuchung von Ware
und Mikaelian [23] wird eine Objektgröße von etwa 40mm als ideal
empfunden [20]. Surakka fand allerdings heraus, dass seine Methode
schneller ist als die normale Gaze-Interaktion, weil Objekte nicht
einen gewissen Schwellwert lang fixiert werden müssen, bevor mit
ihnen interagiert werden kann. Zusätzlich bleiben, im Gegensatz zu
Zhai’s Interaktionsvorschlägen [25], die Hände frei. Die Befragung
der Benutzer nach ihrem subjektiven Empfinden ergab, dass die
Interaktion mittels Gazing-and-Frowning als schneller aber auch als
schwieriger und weniger genau wahrgenommen wird [20].
3.3
eignet oder R6 Remote [1], ein remote Eye-Tracker der an einem
Tisch befestigt werden kann und von dort aus agiert.
Chronos Vision bietet einen head-mounted 3D Eye-Tracker mit
einer Aufnahmegeschwindigkeit von 400Hz bei einer Genauigkeit
von weniger als 0,1◦ des Blickwinkels an. Kopf- und Augenbewegungen werden hier ebenfalls unterschieden, wobei die Besonderheit
dieses Eye-Trackers darin liegt, dass der Kopf auch zum betrachteten Objekt hin- oder von ihm zurück bewegt werden kann. Die
Bearbeitung der Tracking-Daten erfolgt in Real-Time. Eine Software zeichnet die Augenbewegungen auf und speichert relevante
Bilddaten, sodass eine spätere offline Bearbeitung ermöglicht wird [3].
SR-Research liefert mit ihrer EyeLink-Serie weitere Eye-Tracking
Geräte, die teilweise vom Max-Planck-Institut für Forschungsarbeiten
genutzt werden.
Die Serie EyeLink 1000 bzw. 2K ist sowohl als head-supported
Tower-Ausführung als auch als remote Desktop-Ausführung erhältlich. Die Geräte haben Aufzeichnungsgeschwindigkeiten von 1000
bzw. 2000Hz und arbeiten mit einer Genauigkeit von durchschnittlich
0,315◦ . Sowohl der Desktop-Version, die sich etwa 40 bis 70cm vor
dem Benutzer befinden sollte, als auch der Tower-Version, die sich
genau 38cm vor den Augen des Benutzers befindet, wird eine gute bis
exzellente Kompatibilität mit Brillen nachgesagt und beide Ausführungen errechnen den Blick mit Hilfe der Cornea-Reflex-Methode.
Während bei dem Tower ein Infrarot-Spiegel angebracht ist, der nur
Infrarot-Reflexionen der Augen der Versuchsperson zurückstrahlt
(vgl. Abbildung 7), funktioniert die Desktop-Variante ohne Spiegel.
Bei letzterer sind Kopfbewegungen innerhalb einem Bereich von
25mm möglich [19].
Anbieter
Einige Hersteller bieten Eye-Tracker an, die für Interaktionstätigkeiten ideal sind. Teilweise wird aber nur die Hardware bereitgestellt.
Wie die große Anzahl der Untersuchungen im vorigen Kapitel auch
zeigt, ist das Thema „Eye-Tracking als Eingabewerkzeug“ bisher eher
in der Forschung relevant. Am Ende dieses Kapitels wird jedoch ein
Anbieter für Komplettlösungen genannt.
Die ASL (Applied Science Laboratories) bieten eine Vielzahl unterschiedlicher remote und head-mounted Eye-Tracker an [1]. Viele
Untersuchungen aus dem vorangegangenen Kapitel wurden mit
Eye-Trackern dieses Hersteller gemacht, sodass er hier Erwähnung
finden sollte. Eye-Tracker von ASL bieten eine EyeHead Integration
(kurz: „EHI“), mit deren Hilfe sowohl Augen, als auch Kopfbewegungen getrackt werden können. Dabei wird ein Infrarot-Licht ins
Auge gestrahlt, das die Pupille erhellt und zugleich eine Reflexion
auf der Hornhaut verursacht. Bewegen sich diese Lichtpunkte in die
selbe Richtung, kann von einer Kopfbewegung ausgegangen werden,
bewegen sie sich in verschiedene Richtungen, unternimmt der
Proband eine Augenbewegung. Aus diesen beiden Lichtreflexionen
können zudem die x- und y-Koordinaten des Blickes errechnet [18].
Die Hardware von ASL wird mit einer Analysesoftware geliefert,
die Augenbewegungen aufzeichnet. Beispiele von Eye-Trackern der
Firma ASL sind Mobile Eye [1], ein Eye-Tracker, der an einer leichten
Brille befestigt ist und sich deshalb auch für längere Untersuchungen
Abbildung 7. Tower-Mounted EyeLink, Quelle: [19]
Der head-mounted Teil der EyeLink-Serie nennt sich EyeLink
bzw. EyeLink II und ist in Abbildung 4 zu sehen. Die Aufzeichnungsgeschwindigkeiten dieser Geräte liegen bei 250 bzw. 500Hz,
während die Genauigkeit mit durchschnittlich 0,5◦ ebenfalls etwas
geringer ist, als die der remote und head-supported Variante. Beide
Eye-Tracker sind mit drei Kameras bestückt, von denen zwei die
Augen- und eine die Kopfposition erfassen soll. Während EyeLink
den Blick noch mittels Pupil-Only-Tracking erfasste, bei der aus
der Ausrichtung der Pupille der Blick errechnet wurde, ist es beim
EyeLink II möglich auf die Cornea-Reflex-Methode zu wechseln.
Die Kompatibilität mit Brillen- und Kontaktlinsenträgern ist mit
dem Pupil-Only-Tracking jedoch besser. Der Bereich, in dem
sich die Versuchsperson vom Untersuchungsobjekt befinden sollte
beträgt 40 bis 140cm. Die Software die mit EyeLink-Geräten mitgeliefert wird, kann Fixationen, Sakkaden und Blinzeln unterscheiden [19].
Tobii ist ein Hersteller, der sich besonders Menschen mit verschiedenen motorischen Behinderungen wie beispielsweise Multipler
Sklerose oder Schäden am Rückgrat, aber funktionierenden kognitiven Funktionen widmet. Er stellt Geräte her, mit Hilfe derer
diese Personen mit ihrer Umwelt kommunizieren können. MyTobii
P10 [21] ist ein portables, durch Augenbewegungen kontrolliertes
Kommunikationsgerät mit einem 15” Touchscreen. Computer und
Blickbewegungsregistrierungseinheit sind in diesem Gerät vereint.
MyTobii D10 [21] hingegen ist ein stationärer 17” Bildschirm mit
eingebauter Blickbewegungsregistrierungseinheit, der an einem beliebigen externen Computer angeschlossen werden kann. Beide Geräte
können auf verschiedene Fähigkeitsstufen ihrer Benutzer konfiguriert
werden und können laut Anbieter innerhalb von 30 Sekunden selbstständig kalibriert werden. Die Arbeitsdistanz zu diesen Geräten sollte
etwa 50 bis 70cm betragen. Bei einer Aufzeichnungsgeschwindigkeit
von 40Hz erreichen beide Geräte eine Genauigkeit von 0,5◦ , was
bei der angegebenen Distanz einer Objektgröße von etwa 0,5cm
entspricht. Tobii verspricht eine hohe Genauigkeit und eine gute
Kompensation von Kopfbewegungen (auch der von Behinderungen
verursachten) mit einem maximalen Kompensationsfehler von weniger als einem Grad des Blickwinkels. Die Kompatibilität mit Brillenund Kontaktlinsenträgern ist sehr gut [21]. Tobii bietet als einziger
Hersteller von Eye-Tracking-Hardware auch Softwarelösungen an.
Je nach Fähigkeit des Benutzers kann dabei eine Auswahl mittels
Schwellwertmethode oder Drücken eines Mausknopfes getroffen
werden. Es existiert von Textverarbeitungen über Verwaltung von
E-Mails zu Spielen eine gewisse Anzahl spezielle Software von Tobii
selbst, doch auch mit Software von Drittanbietern, die Tobii unterstützen können diese Geräten betrieben werden. MyTobii-Anwendungen
versprechen automatisches Panning und Zooming, schnelle Wechsel
zwischen Ansichten und eine Priorisierung der Informationen basierend auf der Aufmerksamkeit des Benutzers. Windows-Anwendungen
können weiter genutzt werden, indem der Mauszeiger mit den Augen
bewegt wird, was jedoch laut Tobii umständlicher ist, als die MyTobii
Direct Control. Auch können von Tobii Hardwarekomponenten zu
Integration von Eye-Control in eigene Geräte erworben werden, sowie
Frameworks zur Entwicklung von Eye-Gaze-Control Interfaces [21].
3.4
Nutzeneinschätzung
Augenbewegungen sind viel schneller als Bewegungen der Hände
und im Gegensatz dazu nicht von der Entfernung abhängig. Des
Weiteren wird Aufmerksamkeit mittels Blick gelenkt: Die Stelle,
an der gehandelt wird, wird in der realen wie in der virtuellen Welt
immer fixiert, bevor an ihr Interaktionen vorgenommen werden.
Die dadurch auftretende geringe kognitive Last, Natürlichkeit und
Schnelligkeit von Blickbewegungen führt dazu, dass sie sich sehr
gut für eine Nutzung bei der Eingabe eignen [18, 25]. So kann
Eye-Gaze-Interaktion mit wenig zusätzlicher Anstrengung mit
anderen Eingabegeräten kombiniert werden [18]. Funktioniert das
Eye-Gaze-Interaktionssystem gut, kann der Benutzer sich so fühlen,
als würde es seine Gedanken lesen und seine Befehle erahnen [18].
Für die Benutzergruppe der motorisch Behinderten ist die Interaktion
mit Hilfe des Blickes die einzige Möglichkeit der Interaktion und
sie verbessert die Kommunikation dieser Gruppe mit ihrer Umwelt [21, 10, 25].
In anderen Bereichen, wie beispielsweise der Chirurgie, könnte
blickgesteuerte Interaktion eingesetzt werden, damit die Hände frei
bleiben, die in diesem Fall für das Operieren benötigt werden [20].
Ansonsten sollte die Kombination mit der Maus in Betracht gezogen
werden um eine höhere Effizienz zu erreichen. Werden für die
Interaktion natürliche Augenbewegungen eingesetzt, so ist diese
Art der Interaktion auch einfach und intuitiv [18]. Zudem ist sie
direkt und absolut und bietet beispielsweise bei Videospielen oder
Multiple-Video-Streaming eine höhere Bequemlichkeit und einen
höheren Spaßfaktor.
Als Nachteile gelten für das Eye-Tracking als Eingabewerkzeug die
selben Punkte, wie bereits in Kapitel 2.3 genannt: unter Anderem sein
hoher Preis, seine geringe Gebrauchstauglichkeit und seine geringe
Genauigkeit. Diese Faktoren werden sich jedoch dank fortschreitender
technologischer Entwicklung stets verbessern [18].
Zusätzlich ist an dieser Stelle aber auch das Problem zu nennen, dass
gerade motorisch behinderte Benutzer, die ihre Hände nicht nutzen
können, einen Assistenten bräuchten, da die Interaktionswerkzeuge
nicht selbstständig anlegen (vgl. Surakka [20]) bzw. kalibrieren können. Tobii ist hier eine Ausnahme, da eine selbstständige Kalibrierung
möglich ist [21].
Zusammenfassend lässt sich sagen, dass bisher einige gute Ideen zur Interaktion vorgeschlagen wurden, deren Umsetzung motorisch
Behinderten die Kommunikation mit ihrer Umwelt ermöglichen
könnte [21, 10, 25]. Auch könnten Eye-Tracker als Eingabemedien
in Situationen genutzt werden, in denen die Hände für schwierige
Operationen genutzt werden müssen [20]. Hierfür sollten die Systeme
jedoch genauer und preisgünstiger werden, sowie die Kompatibilität
mit Brillen- und Kontaktlinsenträgern müsste verbessert werden,
denn obwohl Anbieter damit werben, zeigen Untersuchungen, dass
diese noch ausbaufähig ist [16]. Dank technoligischer Weiterentwicklung auf diesem Gebiet dürften diese Nachteile jedoch bald der
Vergangenheit angehören [18].
L ITERATUR
[1] ASL. Applied science laboratories, anbieter von eye-tracking-hardware.
http://www.a-s-l.com/, 2007.
[2] R. A. Bolt. Eyes at the interface. ACM Human Factors in Computer
Systems Conference, pages 360–362, April 1981.
[3] Chronos-Vision. Chronos 3d eye-tracker. www.chronos-vision.de, 2007.
[4] S. M. Dornhöfer, S. Pannasch, and P. J. Unema. Augenbewegungen und
deren registrierungsmethoden. TU Dresden.
[5] Z. G. Edward Cutrell. What are you looking for? an eye-tracking study
of information usage in web search. CHI 2007 Proceedings - Gaze &
Eye-Tracking, pages 407–416, April 2007.
[6] ETI.
Eyetracking inc., consumer marketing, interface usability.
http://www.eyetracking.com/, 2007.
[7] EyeSquare. Eye square - the usability company. http://www.eyesquare.com/deutsch/, 2007.
[8] M. Farid, F. Murtagh, and J. Starck. Computer display control and interaction using eye-gaze.
[9] InteractiveMinds.
Interactive minds, remote eye tracker.
http://www.interactive-minds.de/, 2007.
[10] R. J. Jacob. What you look at is what you get: Eye movement-based
interaction techniques. CHI 1990 Proceedings, pages 11–18, April 1990.
[11] R. J. Jacob and K. S. Karn. Eye tracking in human-computer interaction
and usability research: Ready to deliver the promises.
[12] M. Joos, M. Rötting, and B. M. Velichkovsky. Bewegungen des menschlichen auges: Fakten, methoden und innovative anwendungen, 2002.
[13] J. Nielsen.
F-shaped pattern for reading web content.
http://www.useit.com/alertbox/reading_pattern.html, 2006.
[14] K. Oertel and R. Schultz.
Im auge des betrachters - softwarequalitätssicherung durch blickbewegungsregistrierung. Fraunhofer Institut für Graphische Datenverarbeitung, 2003.
[15] K.-J. Räihä. New interaction techniques. TAUCHI, 2006.
[16] S. K. Schnipke and M. W. Todd. Trials and tribunals of using an eyetracking system. CHI 2000 Short Talks, pages 273–274, April 2000.
[17] SensoMotoric-Instruments.
Head-supported eye-tracker iview
x hi-speed.
http://www.smivision.com/en/eye-gaze-trackingsystems/products/iview-x-hi-speed.html, 2007.
[18] L. E. Sibert and R. J. Jacob. Evaluation of eye gaze interaction. CHI
2000, April 2000.
[19] SR-Research. Eyelink. www.eyelinkinfo.com, 2007.
[20] V. Surakka, M. Illi, and P. Isokoski. Gazing and frowning as a new
human-computer-interaction technique. ACM Transactions on Applied
Perceptions, 1(1):40–56, July 2004.
[21] Tobii. Broschüren, produktbeschreibungen, etc. www.tobii.com, 2007.
[22] B. Velichkovsky, A. Sprenger, and M. Pomplun. Auf dem Weg zur Blickmaus: Die Beeinflussung der Fixationsdauer durch kognitive und kommunikative Aufgaben. Teubner Stuttgart, 1997.
[23] C. Ware and H. Mikaelian. An evaluation of an eye tracker as a device
for computer input. CHI + GI 1987, pages 183–188, 1987.
[24] Wikipedia.
Blickbewegungsregistrierung.
http://de.wikipedia.org/wiki/Eyetracking, 2007.
[25] S. Zhai. What’s in the eyes for attentive input. Communications of the
ACM, pages 34–39, March 2003.
Eigenbau Eye-Tracker
Toni Schmidt
Abstract—Im Rahmen dieser Seminararbeit wurde zum einen ein mobiler Eye-Tracker entworfen. Dieses Gerät ist für den Einsatz
als Interaktionsmedium für große, hochauflösende Displays gedacht. Der Tracker wurde auf einer Arbeitsschutzbrille aufgebaut, an
der die verwendete Industriekamera, sowie ein Spiegel und eine Infrarot-LED angebracht wurden. Die Befestigung erfolgte über
Holzgestelle, die über Metallstangen an der Brille befestigt wurden.
Die entwickelte Software verwendet den Starburst-Algorithmus von Li, D., Parkhurst, D. J. (2005) [16]. Damit ist die Software in der
Lage, die Pupillenmitte zu bestimmen. Zusätlich wird das Kamerabild des Auges mit eingezeichneter Pupillenellipse in einem Fenster
ausgegeben, so dass die Möglichkeit zur Kontrolle durch den Nutzer besteht.
Weiterhin wird ein Überblick über die wichtigsten Eye-Tracking Methoden gegeben. Bei der Electro-Oculography werden die Augenbewegungen über Spannungsunterschiede auf der Haut gemessen. Die Scleral Contact Lens-Methode verwendet eine Kontaktlinse,
in der eine Spule eingarbeitet ist, um deren Position in einem Elektromagnetfeld zu bestimmen. Videobasierte Techniken verwenden
Kameras, um die Position der Pupille und der Cornea-Reflektion optisch zu bestimmen.
Darüber hinaus werden die verbreitesten Eye-Tracker vorgestellt. Diese sind grob in zwei Kategorien unterteilbar: Remote Eye-Tracker
sind relativ zum Display montiert, während Head-Mounted-Systeme am Kopf der Testperson befestigt werden.
Ein kurzer geschichtlicher Überblick zeigt die Anfänge des Eye-Trackings auf.
1
E INLEITUNG
Eye-Tracking ist ein viel genutztes Instrument in Forschung und Industrie. Zu den bekanntesten und verbreitetsten Nutzungsfeldern gehören
Usability-, Marketing- und Lesestudien. Zudem ist es für psychologische Wahrnehmungsexperimente unerlässlich. Auch die Nutzung als
Eingabemedium ist sinnvoll, um beispielsweise gelähmten Menschen
die Interaktion mit einem Computer zu ermöglichen.
Ein neues Nutzungsfeld stellt die Verwendung eines Eye-Trackers
als Eingabemedium für Anwendungen, die auf großen, hochauflösenden Displays laufen, dar. Der Anwender hätte dadurch die Möglichkeit, unabhängig von beschränkenden Eingabegeräten, wie beispielsweise der Maus, und frei vor dem Display beweglich, mit der Anwendung zu interagieren. Auch die Kombination mit anderen mobilen Eingabegeräten, wie z.B. einem Laserpointer, eröffnet vielfältige
Möglichkeiten. Bevor aber Interaktionstechniken für ein solches Szenario entwickelt werden können, ist es nötig, die erforderlichen Voraussetzungen zu schaffen. Dies beinhaltet die Bereitstellung der Hardund Software, sowie die Aneignung theoretischer Kenntnisse auf dem
Gebiet des Eye-Trackings.
Zu diesem Zweck wurde im Rahmen dieser Arbeit ein Eigenbau
Eye-Tracker entworfen und gebaut, sowie die entsprechende TrackingSoftware entwickelt. Zudem werden in dieser Arbeit Überblicke über
die verschiedenen Tracking-Methoden, sowie über die verbreitetsten
Eye-Tracker gegeben. Damit werden Voraussetzungen geschaffen,
die die Entwicklung von Interaktions- oder anderen, mit dem EyeTracking verwandten, Techniken, ermöglichen.
2
G ESCHICHTLICHER Ü BERBLICK
Die ersten Beobachtungen zum Verhalten der Augenbewegungen
stammen aus dem Jahr 1879 von Louis Emile Javal. Dieser stellte
fest, dass sich das Auge beim Lesen nicht kontinuierlich bewegt. Vielmehr stellt das Bewegungsmuster eine Abfolge von kleinen, schnelle
Sprüngen dar. Diese sind heute als Sakaden bekannt.
Das erste Gerät, das als ,,Eye-Tracker” bezeichnet werden kann,
stammt von Huey aus dem Jahre 1908. Huey entwickelte eine Art Kontaktlinse aus Keramik, die auf die Pupille aufgesetzt wurde. An dieser
Linse war ein Zeigestift montiert, der die Augenbewegungen auf ein
Blatt Papier abzeichnete.
• Toni Schmidt ist Student an der Universitt Konstanz, E-mail:
[email protected].
Das erste System, das weniger invasiv war, stammt von Buswell
1922. Er nutzte einen Lichtstrahl, der über einen Spiegel auf die Cornea reflektiert wurde und anschließend auf Zelluloid aufgezeichnet
wurde. [2]
Die ersten Ansätze zu der heute viel genutzten ,,Video-Based Combined Pupil/ Corneal Reflection”-Methode stammen von Kenneth Mason aus den späten 1960er Jahren. Er schlug ein automatisiertes System vor, das die Pupille und die Cornea-Reflektion filmte und daraus
die Blickrichtung berechnete.
In den frühen 1970er Jahren wurde diese Idee dann von John Merchant und Richard Morrisette in einem von der U.S. Air Force gesponsertem Projekt umgesetzt. Sie entwickelten das Öculometer“. Diese
System bestand sowohl aus Algorithmen zur Erfassung der Pupille
und deren geometrischen Zentrums, sowie der Erfassung der CorneaReflektion relativ zur Pupille. [18]
Das erste System, das eine Infrarot-Leuchtdiode nutzt, um das Auge
zu beleuchten stammt von Hutchnson (1989). [15]
3
E YE -T RACKING T ECHNIKEN
Es existieren eine Reihe von Eye-Tracking-Techniken, die alle ihre
Vor- und Nachteile haben. Videobasierte Techniken sind heute am weitesten verbreitet, da sie, im Vergleich zu anderen Methoden, leichter Umzusetzen und weniger störend für die Testperson sind. Die
wichtigsten Anforderungen an eine Tracking-Technik sind Genauigkeit, Schnelligkeit und Robustheit. Zusätzlich sollte die Testperson
möglichst wenig eingeengt werden. Auch sollte die Technik an verschiedenen Menschen gleich funktionieren.
3.1
Electro-Oculography (EOG)
Bei dieser Technik werden Elektroden um das Auge herum befestigt.
Mit diesen wird dann die elektrische Spannung der Haut gemessen.
Die Differenzen zwischen diesen Spannungen werden anschließend
genutzt, um die Augenposition zu bestimmen. Die Bandbreite der
Spannungen reicht von 15-200 µV . Eine Bewegung des Auges um ein
Grad entspricht dabei einem Spannungsunterschied von 20 µV [14].
3.2
Scleral Contact Lens
Eine sehr präzise Methode zur Messung von Augenbewegungwn ist
die Scleral Contact Lens-Methode. Hierbei wird eine große Kontaktlinse in das Auge gesetzt. Diese Linse bedeckt nicht nur die Pupille,
sondern auch die Sclera, also die weiße Augenhaut. Dies verhindert
ein Verrutschen, wie es bei einer Linse, die nur die Pupille bedeckt,
geschehen würde. In die Kontaktlinse ist eine kleine Spule eingearbeitet. Wird diese Spule nun durch ein elektromagnetisches Feld bewegt,
Abbildung 1. Electro-Oculography [11]
Abbildung 3. Pupille und Cornea-Reflektion [9]
kann ihre Position durch Messung von Unterschieden des elektromagnetischen Feldes bestimmt werden.
Diese Methode ist genau bis auf etwa 5-10 Bogensekunden über
einen Bereich von ca. fünf Grad [14].
Allerdings erfordert das Einsetzen der Linsen viel Übung und das
Tragen ist sehr unkomfortabel.
Der Abstand zwischen Pupillenmitte und einer Cornea-Reflektion
bleibt bei Kopfbewegungen relativ konstant, ändert sich aber bei einer
Rotation des Auges.
Neuere, so genannte Generation-V-Eye-Tracker, verwenden zusätzlich auch die vierte Purkinje-Reflektion, um zwischen Translation und
Rotation des Auges zu unterscheiden. Bei Translationen des Auges
wandern beide Purkinje-Reflektionen den exakt gleichen Weg. Bei Rotationen hingegen bewegen sie sich unterschiedlich weit. Diese Art des
Trackings wird als Dual-Purkinje Image Technik bezeichnet [19]. Allerdings ist die vierte Purkinje-Reflektion relativ undeutlich, was eine
sehr kontrollierte Lichtumgebung bedingt.
Abbildung 2. Scleral Contact Lens [7]
3.3
Video-basierte Techniken
Unter dieser Kategorie ist eine Menge von Erfassungsmethoden zu
verstehen, die optische Aufnahmen des Auges zur Bestimmung dessen Position verwenden. Der Fachausdruck hierfür lautet VideoOculography [14].
Zur Erkennung der Augenposition werden die klar unterscheidbaren optischen Merkmale des Auges verwendet. Zu diesen gehören der
Umriss der Pupille, Reflektionen auf der Cornea oder der Limbus (die
Grenze zwischen Iris und Scalera). Das Erfassen des Limbus ist allerdings nur bedingt geeignet, da die Augenlider den Limbus teilweise
überdecken. Daher ist diese Methode praktisch nur zum horizontalen
Erfassen der Augenbewegungen geeignet [14].
Die Auswertung der Bilddaten geschieht heutzutage normalerweise
automatisch. Vor dem Aufkommen von leistungsfähigen Rechnern ist
die Auswertung aber durchaus auch manuell erfolgt, indem jedes Bild
einzeln analysiert wurde.
Die bisher betrachteten Methoden haben alle gemeinsam, dass sie
nur die Augenposition relativ zum Kopf bestimmen können. Es ist daher nötig, den Kopf zu fixieren oder seine Position durch ein zusätzliches Tracking-System zu bestimmen.
Bei der Video-Based Combined Pupil/Corneal Reflection werden
mindestens zwei Referenzpunkte auf dem Auge genutzt, um Augenbewegungen von Kopfbewegungen zu trennen. Diese sind normalerweise das Zentrum der Pupille und eine Reflektion auf der Cornea. Die
Reflektionspunkte auf der Cornea werden auch Purkinje-Reflektionen
oder Purkinje-Bilder genannt. Durch den anatomischen Aufbau des
Auges gibt es vier solcher Reflektionspunkte. Eye-Tracker verwenden
üblicherweise den ersten und in manchen Fällen zusätzlich den vierten
[14].
Abbildung 4. Die vier Purkinje-Reflektionen [6]
Die Erzeugung der Reflektionspunkte geschieht üblicherweise
durch eine Infrarotlichtquelle in Form von einer oder mehrerer Leuchtdioden. Diese IR-Quelle dient zusätzlich zur Beleuchtung des Auges
mit IR-Licht, was den Vorteil bringt, vom Umgebungslicht unabhängig
zu sein. Außerdem flexibilisiert eine IR-Beleuchtung die Befestigung
der Kameras, da durch spezielle Spiegel nur das IR-Licht umgeleitet, sichtbares Licht aber durchgelassen wird. So können Kameras beispielsweise an der Seite des Kopfes angebracht werden.
Eye-Tracker, die nach diesem Prinzip fuktionieren, können sowohl
Head-Mounted, als auch Table-Mounted sein. Hierbei kompensieren
die Table-Mounted-Systeme die tatsächliche Kopfbewegung, während
die Head-Mounted-Systeme ein Verrutschen des Eye-Trackers auf
dem Kopf kompensieren.
4 E YE -T RACKING -S YSTEME
Es existiert eine Vielzahl von Eye-Tracking-Systemen. Im Rahmen
dieser Arbeit wird nur auf videobasierte Systeme eingegangen. Diese
können grob in Remote- und Head-Mounted-Systeme unterteilt werden.
Bei Remote-Systemen befinden sind die Kameras fest montiert und
unabhängig von der Testperson angebracht. Hierbei kann noch die Untergruppe der Head-Fixed Systeme herausgehoben werden, bei denen
der Kopf fixiert wird, um ein genaueres Tracking zu ermöglichen.
Bei Head-Mounted-Systemen sind Kameras und IR-Lichtquellen
relativ zum Kopf angebracht. Dies geschieht durch ein Gestell oder
eine spezielle Brille. Nachfolgend wird ein Überblick über die verbreitetsten Systeme und deren technische Merkmale und Aufbau gegeben.
4.1 Remote-Systeme
Hierbei sind die Kameras, die die Augenbewegungen aufzeichnen und
die Infrarotlichtquellen fest, auf beispielsweise einem Tisch, vor dem
Monitor positioniert. Diese Systeme haben den Vorteil, dass die Testperson kein beengendes Gestell auf dem Kopf tragen muss. Zudem
wird das Blickfeld nicht beeinträchtigt.
Allerdings ist die Genauigkeit schlechter als bei Head-MountedSystemen, da nur einen kleiner Bildausschnitt für das eigentliche
Auswerten der Augenbewegung genutzt werden kann. Zudem beeinträchtigen Kopfbewegungen sie Genauigkeit, da diese schwer zu kompensieren sind.
4.1.1 Das Tobii-System
Tobii bietet kommerzielle Remote-Lösungen an. Die Tracking Systeme sind direkt in einen Monitor integriert. Das Unternehmen bietet
Lösungen für Analyse bzw. Studien (T60/T120) und für Menschen
mit Behinderungen (P10/D10) an. Die P10/D10 Systeme können dabei auch an Rollstühlen befestigt werden.
Zusätzlich wird ein Standalone-System (X120)angeboten, das ohne
einen Monitor ausgeliefert wird.
Tobii gibt die Genauigkeit seiner Tracker mit 0,5◦ an bzw. 0,5
cm an. Die Datenrate beträgt 60 bzw. 120 Hz, anhängig von der
Ausführung. Die Arbeitsdistanz wird mit 50-70 cm angegeben. Der
Kopf kann, je nach System, in einem Bereich von 30x15x20cm bis
44x22x30cm bewegt werden.
Zusätzlich bietet Tobii Software für die Evaluation von Augenbewegungen (Tobii Studio Analysis Software), sowie für die Interaktion
mit den Augen (MyTobii Software) an [13].
LC gibt die durchschnittliche Genauigkeit mit 0,45◦ bzw. 0,38 cm
bei einem Abstand von Kopf zu Monitor von 51 cm an. Der Kopf
darf sich dabei um ca. 3 cm in jede Richtung bewegen. Die Datenrate
beträgt 60 Hz. [8]
Abbildung 6. The Eyegaze Analysis System [8]
4.2
4.2.1
Abbildung 5. Tobii T60/T120 [13]
4.1.2 LC Technologies EYEGAZE
LC Technologies bietet Systeme für Analyse und Interaktion an. Die
Systeme sind so aufgebaut, dass eine Kamera unterhalb eines handelsüblichen Monitors angebracht wird. Das System, das für Interaktion entworfen wurde (The Eyegaze Communication System) kann an
einem Rollstuhl befestigt werden.
LC Technologies hat zudem eine Point-and-Click Lösung entwickelt, die die Kontrolle von militärischen Fahrzeugen erleichtern
soll.
Die Systeme haben die Besonderheit, dass sie eine Kamera mit
Zoomfunktion nutzen. Dadurch wird die Genauigkeit erhöht, allerdings sinkt auch die Toleranz gegenüber Kopfbewegungen.
Head-Mounted Systeme
Head-Mounted-Systeme haben die Kameras und IR-Lichtquellen relativ zum Kopf befestigt. Dies geschieht üblicherweise über ein Headband oder eine Brillenkonstruktion. Man kann grob zwischen zwei Kategorien unterscheiden: Eye-Tracker, die für Tests an einem Arbeitsplatz entworfen wurden und solche, die für den mobilen Einsatz bestimmt sind.
Die ersteren werden eingesetzt, um den Blickpunkt auf einem Display zu bestimmen. Bei ihnen sind Schnelligkeit und Genauigkeit von
großer Bedeutung, um beispielsweise einzelne Sakaden zu identifizieren. Solche Systeme sind relativ schwer und unkomfortabel, da sie sehr
fest fixiert werden müssen. Sie verwenden Hochgeschwindigkeitskameras, die mit bis zu 1000Hz arbeiten. Diese Systeme arbeiten üblicherweise binokular.
Systeme, die für den mobilen Einsatz bestimmt sind, haben den
Zweck, den Fokuspunkt der Testperson in der Umgebung festzustellen. Hierzu wird eine Szenekamera verwendet, die in Kopfrichtung
filmt und auf deren Bild der Fokuspunkt der Testperson eingezeichnet wird. Dabei soll sich die Testperson auch möglichst frei bewegen
können. Die Ausführung ist meist sehr minimal und leicht gehalten,
um die Testperson wenig einzuschränken.
Es folgt eine kurze Übersicht über die verbreitetsten Systeme.
SR Research Ltd. EyeLink II
Dieses System wird über ein Headband auf dem Kopf befestigt. Die
Kameras und IR-LEDs sind über ein Gestell unterhalb der Augen angebracht. Zusätzlich ist eine Frontkamera in das Gestell eingebaut.
Diese hat den Sinn, an den Rändern des Monitors befestigte aktive
IR-Lichtquellen zu erkennen und daraus die Kopfposition im Raum
zu bestimmen. [10]
Das Erfassen der Augen geschieht, laut Hersteller, mit 500Hz
und einem durchschnittlichen Blickpositionsfehler von 0,5◦ . Die
Auflösung beträgt 0,025◦ - 0,01◦ , je nach verwendetem Modus.
Es kann sowohl nur die Pupille, als auch die Pupille mit der ersten
und der vierten Purkinje-Reflektion erfasst werden, was die Einsatzflexibilität steigert.
4.2.2
SMI Research
SMI bietet verschiedene mobile Lösungen an. Zum einen eine hochmobile, portable Ausführung (iView X HED). Diese dient dazu, den
Fokuspunkt im Blickfeld zu erfassen, was anschließend durch das Abtragen auf das Bild einer Szenenkamera visualisiert wird. Die Datenrate beträgt 50-200Hz, die Auflösung 0,1◦ und die Genauigkeit 0,5◦ 1◦ (Herstellerangaben).
Darüber hinaus bietet SMI einen Tracker an, der für klinische Studien bestimmt ist (3D VOG Video-Oculography System). Bei diesem
Abbildung 9. 3D VOG Video-Oculography System [5]
Abbildung 7. SR Research Ltd. EyeLink II [10]
den Autoren verwendete Starburst-Algorithmus kommt auch in dem
in dieser Arbeit vorgestellten Eye-Tracker zum Einsatz. [16]
ist hervorzuheben, dass er die Augenbewegung in 3 Dimensionen erfasst, also auch die Torsion erkannt wird. Zusätzlich wird die Kopfposition durch einen linearen 3D-Beschleunigungssensor und einen 3D
Rotationssensor erkannt. Die Auflösung beträgt 0,05◦ bis 0,1◦ (Herstellerangaben). Es werden beide Augen gefilmt. Die Kameras sind an
der Seite des Kopfes angebracht und erkennen das Auge über Spiegel.
[12]
Abbildung 10. openEyes: a low-cost head-mounted eye-tracking solution [16]
5
D ER E IGENBAU E YE -T RACKER
Der C-ETD Eye-Tracker der Firma Chronos Vision ist ein sehr schnelles System, das vor allem durch seine Datenrate von über 1000Hz hervorsticht. Wie bei den Systemen von SR Research und SMI wird auch
hier binokular garbeitet. Der Tracker wird durch ein Headband am
Kopf befestigt. Die Auflösung beträgt weniger als 0,1◦ bei einer Latenzzeit von 2 ms (Herstellerangaben). Optional können Bewegungssensoren angebracht werden, um die Kopfbewegungen zu erfassen.
[5]
Im Rahmen dieser Arbeit wurde ein Prototyp eines Head-Mounted
Eye-Trackers entwickelt. Dieser ist soll eine Lücke in der bestehenden
Produktlandschaft schließen. Bestehende Systeme, die eine hohe Genauigkeit und Datenrate bereitstellen, sind sehr teuer, durchaus in fünfstelligen Beträgen. Lösungen, die günstiger sind, nutzen durchgängig
einfache Kameras, die weder eine hohe Auflösung, noch eine schnelle
Aufnahmerate bieten.
Der Ansatz, der in dieser Arbeit präsentiert wird, bietet hohe Flexibilität und Leistung bei geringen Anschaffungskosten und unkompliziertem Aufbau.
Das Einsatzszenario für diesen Eye-Tracker ist eine Anwendung
vor einem großen, hochauflösenden Display. Dabei steht die Nutzung als Eingabemedium im Vordergrund, weniger die Verwendung
als Analysewerkzeug. Der Eye-Tracker und die zugehörige Software
sind in der Lage, die Pupillenmitte eines Auges zu bestimmen. Da vor
dem relevanten Display ein Body-Tracking System installiert ist, ist
die Erfassung der Pupillenmitte mit entsprechender Kalibration ausreichend zur Bestimmung des Fokuspunkts auf dem Display.
4.2.4
5.1
Abbildung 8. 3D VOG Video-Oculography System [12]
4.2.3
Chronos Vision C-ETD
openEyes: A low-cost head-mounted eye-tracking solution
Dieser nicht-kommerzielle Eye-Tracker von Li, D., Babcock, J., Parkhurst, D. J. (2006) verwendet eine leichte Hardware, die an einer Brille
angebracht ist. Im Fokus stehen die geringen Kosten, die die Autoren
mit ca. 350 US Dollar bezeichnen. Das System besteht aus einer Brille,
an der eine IR-LED, eine Augenkamera und eine Szenekamera befestigt sind. Die Augenbewegungen werden mit 30 Hz erfasst. Der von
Aufbau des Eye-Trackers
Der Eye-Tracker funktioniert nach dem Prinzip der VideoOculography. Das heißt, dass das Auge von einer Kamera gefilmt wird
und Software nahezu in Echtzeit die Pupille erkennt.
Als für Kamera und sonstige Anbauten wurde eine handelsübliche Arbeitsschutzbrille gewählt. Die Scheibe dieser Brille geht, ähnlich einer Skibrille, über eine große Fläche. Dadurch bietet die Brille
auch ein robustes Plastikgehäuse für Befestigungen bei gleichzeitigem
Tabelle 1. Technische Details der Kamera [1]
Modellbezeichnung
Sensortechnologie
Anschluss
Auflösung (v x h)
Optisches Sensorformat
Shuttersystem
Max. Fps im Freerun-Modus bei voller Auflösung
AOI Modi
AOI mit 320 x 240 Pixeln (CIF)
Subsampling Modi
Subsampling Faktoren
Pixeltaktbereich
UI-1540-C
CMOS
USB 2.0
1280 x 1024
“
Rolling
25 fps
H+V
232 fps
H+V
x2, x4
5 - 43 MHz
Abbildung 11. Eigenbau Eye-Tracker
hohem Tragekomfort durch elastisches Polstermaterial an den Brillenrändern. Da die Brille durchgängig auf dem Gesicht aufliegt, ist ein
stabiler Sitz gegeben. Ein elastisches, verstellbares Band gewährleistet
eine individuell einstellbare Passform.
Die Kamera ist seitlich an der Brille befestigt. Da eine handelsübliche Industriekamera verwendet wurde, kam aufgrund des Gewichts
und der Länge der Kamera keine andere Befestigungsposition in Frage. Die Kamera wird von einem Holzrahmen gehalten. Dieser Rahmen
ist mit einer Metallstange im Rahmen der Brille gelagert. Dadurch sind
Rahmen und Kamera drehbar, was eine individuelle Einstellung der
Kameraposition auf eine Testperson ermöglicht.
Da die Kamera an der Seite der Brille angebracht ist, ist ein Spiegel nötig, um das Auge zu filmen. Für den hier vorgestellten Prototyp
wurde ein normaler Spiegel verwendet, der sowohl sichtbares, als auch
Infrarotlicht spiegelt, was zum Testen des Prototypen ausreichend ist.
Der Spiegel ist, wie auch die Kamera, über einen Holzrahmen drehbar
im Brillenrahmen gelagert. Dadurch entsteht weitere Flexibilität bei
der Anpassung auf eine Testperson.
Unterhalb des Spiegels ist eine Leuchtdiode angebracht, die Licht
im Infrarotbereich ausstrahlt. Diese dient zur Beleuchtung des Auges
mit IR-Licht, um von äußeren Lichteinflüssen unabhängig zu sein. Die
Diode ist für diesen Prototyp nur locker fixiert, da der Lichteinfluss
auf das Auge schnell angepasst werden können muss. Die Diode wird
über eine Batterie mit Spannung versorgt. Ein Ein/Aus-Schalter hilft,
die Batterie zu schonen.
Als Kamera wird das Modell uEye UI-1540-C der Firma iDS
verwendet. Diese Kamera hat den Vorteil, dass sie ein StandardIndustriegehäuse besitzt. Das bedeutet, dass Objektive schnell gewechselt werden können, um unterschiedliche Konfigurationen zu testen. Außerdem passt so auch der Rahmen für unterschiedliche Kameramodelle gleichermaßen. Vor der Kamera wurde ein Infrarotfilter angebracht, um störendes Licht auszufiltern. Zusätzlich ist die SoftwareAPI, die iDS für seine Kameras bereitstellt, hilfreich.
Als Objektiv wurde eine Weitwinkel-Objektiv von Pentax verwendet. Die Brennweite beträgt 4,8 mm, der Blendenbereich 1,8-C.
5.2
Der Tracking-Algorithmus
Für diese Arbeit wurde der Starburst-Algorithmus von übernommen
[17]. Dieser vereint merkmal- und modellbasierte Ansätze zur Erkennung der Pupille, der Cornea-Reflektion und deren Vektordifferenz.
Merkmalbasierte Ansätze erkennen bestimmte Regionen und Punkte auf dem Auge mit Hilfe derer optischen Eigenschaften. Beispielsweise werden Schwellwerte eingesetzt, um besonders helle (z.B. die
Cornea-Reflektion) oder dunkle (z.B. die Pupille) Regionen des Auges zu bestimmen.
Modellbasierte Ansätze verwenden geometrische Modelle, die dann
auf das Auge abgebildet werden. So wird zur Erkennung der Pupille beispielsweise versucht, eine Ellipse in das Bild hineinzupassen.
Die beste Passform bestimmt dann die Position der Pupille. Solche
Ansätze verwenden meist iterative Techniken.
Abbildung 12. Eigenbau Eye-Tracker
Der für diese Arbeit verwendete Algorithmus nutzt eine Kombination beider Ansätze. Hierbei wird zuerst die Cornea-Reflektion mit Hilfe
eines Schwellwerts, der auf einen bestimmten Bereich des Bildes angewendet wird, erkannt. Nach dem Speichern ihrer Position wird sie
dann mittels einer auf eine bivariante Gaußverteilung angewendete radiale Interpolation aus dem Bild entfernt. Dies ist nötig, um in den
folgenden Schritten die Pupille verlässlicher erkennen zu können.
Im nächsten Schritt sollen möglichst viele Punkte, die auf dem
Rand der Pupille liegen, erkannt werden. Hierzu werden von einem
beliebigen Startpunkt im Bild Strahlen in alle Richtungen ausgesandt.
Sobald ein solcher Strahl einen Übergang von dunkel nach hell passiert, der einen bestimmten Grenzwert überschreitet, wird der Strahl
gestoppt und der resultierende Punkt gespeichert. Dies ist motiviert
durch die dunkle Pupille, die rundherum nur in hellere Regionen übergeht. Dieser Vorgang wird nun für alle Punkte des ersten Durchgangs
wiederholt. Allerdings werden die Strahlen nun nur in einem Bereich
von 50◦ in Richtung des initiellen Startpunkts verschossen. Hierdurch
erzeugt ein Punkt, der auf dem Pupillenrand liegt, nur neue Punkte, die
auch auf dem Pupillenrand liegen.
Nach diesen zwei Stufen erhält man typischerweise ein Ergebnis,
das viele Ausreißer, aber auch eine große Zahl von Punkten enthält,
die auf dem Pupillenrand liegen. Um die Pupille nun genauer erkennen zu können, wird der Durchschnitt der schon erkannten Punkte als
Ausgangsposition für einen neuen Durchgang genommen. Dieser neue
Durchgang besteht wieder aus den oben beschriebenen zwei Phasen.
Es werden nun mehrere Iterationen durchgeführt, was dazu führt,
dass die neu generierten Startpunkte zur Pupillenmitte konvergieren.
Es sind typischerweise ca. 5 Iterationen nötig, um ein gutes Ergebnis
zu erhalten. Die erkannten Punkte aus der letzten Iteration werden als
Abbildung 13. Bild der Kamera bei voller Auflösung
Abbildung 14. Bild der Kamera nach gesetztem Aspect-Of-Interest
Eingabe für den nächsten Schritt im Algorithmus verwendet.
Die Pupille hat die Form einer Ellipse. Ziel des nächsten Schrittes
ist, den Mittelpunkt dieser Ellipse möglichst genau zu bestimmen. Der
übliche Ansatz hierzu ist die Verwendung der least-squares Analyse.
Diese wird genutzt, um die Werte von unbekannten Mengen in einem
statistischen Modell zu bestimmen. Dies geschieht durch die Minimierung der Quadrate der Residuen. Ein Residuum ist die Differenz
zwischen geschätztem Wert und empirischem Wert.
Diese Methode hat allerdings den Nachteil, dass sogenannte Outliner nicht berücksichtigt werden. Als Outliner sind in unserem Fall
Punkte zu verstehen, die nicht auf dem Pupillenrand liegen, also beispielsweise auf der Grenze von Limbus und Lid. Um nun auch mit
solchen Outlinern umzugehen wurde die Random Sample Consensus
(RANSAC) Methode angewendet. Diese betrachtet nicht die Datenmenge als Ganzes, sondern viele kleine Teilmengen. Diese Teilmengen werden dann auf ein Modell aufgelegt. Danach wird das Modell
gesucht, das der gesamten Datenmenge am besten entspricht.
Anschließend wird noch die Vektordifferenz zwischen Pupille und
Cornea-Reflektion ermittelt, was aber für diese Arbeit nicht relevant
war.
5.3
Die Software-Umsetzung
Der oben beschriebene Algorithmus ist als Open Source Projekt
erhältlich (cvEyeTracker) [4]. Dieses Projekt nutzt OpenCV [3], eine
Computer-Vision Bibliothek von Intel, zur Verarbeitung der Bilddaten.
Beide Projekte sind in C++ geschrieben.
Für das für diese Arbeit entwickelte Testprogramm wurde ein C++Programm verfasst, das die Kameradaten ausliest und an den Algorithmus übergibt. Das Auslesen des Kamerabilds erfolgt durch die API des
Kameraherstellers.
Das Kamerabild wird in einem Fenster in Echtzeit ausgegeben.
Außerdem wird die vom Algorithmus berechnete Ellipse in das Bild
eingezeichnet. So ist eine Überprüfung durch den Bediener möglich.
Auch kann so die für die Beleuchtung zuständige IR-Leuchtdiode flexibel auf die optimale Position eingestellt werden.
Abbildung 15. Mermalserkennung: Schritt (a) zeigt das Ergebnis des ersten Durchlaufs. (b) und (c) Zeigen zwei Ergebnisse des zweiten Durchlaufs. In (d) und (e) sind die Startpunkte der neuen Iterationen durch
einen roten Punkt gekennzeichnet. (f) zeigt, dass die Startpunkte zur
Pupillenmitte hin konvergieren [16]
Abbildung 16. Herausfiltern der Outliner (rot) durch RANSAC [16]
Um die Kameraleistung zu verbessern, hat der Nutzer die Möglichkeit, den Aspect-Of-Interest (AOI) manuell zu wählen. Dies geschieht
durch aufziehen eines Rechtecks mit der Maus in dem Fenster, das das
Kamerabild darstellt. Der AOI der Kamera ist initiell auf das Maximum, also 1280x1024, eingestellt. Durch die Verwendung eines Objektivs mit geringer Brennweite ist sichergestellt, dass das Auge immer
im Kamerabild sichtbar ist. Das Beschränken der AOI auf die unmittelbare Umgebung des Auges erhöht die Verlässlichkeit des Algorithmus, sowie die Schnelligkeit der Kamera. Ein üblicher Bildausschnitt
beträgt ca. 350x250 Pixel, was Kamerageschwindigkeiten von bis zu
200 fps zulässt.
6
S CHLUSS
Das in dieser Arbeit präsentierte System ist in der Lage, in, für Interaktionszwecke, ausreichender Geschwindigkeit und Genauigkeit zu
arbeiten. Zudem ist es flexibel genug, um auf verschiedene Testpersonen oder Kamerakonfigurationen schnell angepasst zu werden. Noch
nicht realisiert ist die Anbindung des Head-Tracking Systems. Dies ist
nötig, um den endgültigen Fokuspunkt des Nutzers auf dem Display
Abbildung 17. Endergebnis mit auf die Pupille aufgepasster Ellipse [16]
zu berechnen. Zudem sind weitere Feinabstimmungen am Algorithmus nötig, um die erforderte Robustheit für sich verändernde Lichtverhältnisse zu schaffen.
L ITERATUR
[1] ueye prospekt. quelle: http://www.mvplus.co.in/dawnloads/productbased/camera/ids/ueyeueyereprospektnd.pdf.
[2] Webquelle: http://en.wikipedia.org/wiki/eyetracking.
[3] Webquelle: http://sourceforge.net/projects/opencvlibrary/.
[4] Webquelle:
http://thirtysixthspan.com/openeyes/cveyetracker1.2.5.tar.gz.
[5] Webquelle: http://www.chronos-vision.de/.
[6] Webquelle: http://www.diku.dk/ panic/eyegaze/node9.html.
[7] Webquelle: http://www.dizziness-and-balance.com/practice/images/eyecoil.jpg.
[8] Webquelle: http://www.eyegaze.com/.
[9] Webquelle: http://www.eyegaze.com/2products/development/devimages/devbroch2.jpg.
[10] Webquelle: http://www.eyelinkinfo.com/index.php.
[11] Webquelle: http://www.metrovision.fr/mv-po-notice-im18.jpg.
[12] Webquelle: http://www.smivision.com.
[13] Webquelle: http://www.tobii.com/.
[14] A. T. Duchowski. Eye-Tracking Methodology: Theory and Practice.
Springer Verlag London, 2003.
[15] T. Hutchnson. Eye Movement Detector. U.S. Patent 4,836,670, 1989.
[16] J. Li, D. Babcock and D. J. Parkhurst. openeyes: A low-cost headmounted eye-tracking solution. In Proceedings of the ACM Eye Tracking
Research and Applications Symposium, 2006.
[17] W. D. P. D. J. Li, D. Starburst: A hybrid algorithm for video-based eye
tracking combining feature-based and model-based approaches. In Proceedings of the IEEE Vision for Human-Computer Interaction Workshop
at CVPR, 1-8, 2005.
[18] J. e. a. Merchant. A Remote Oculometer Permitting Head Movement. Aerospace Medical Research Laboratory,WrightPatterson Air Force Base,
AMRL-TR-73-69, 1973.
[19] C. D. d. G. . G. R. Mller, P. U. A comparison of a new limbus tracker, corneal reflection technique, purkinje eye tracking and electro-oculography,
in G. d’Ydewalle J. V. Rensbergen, eds, Perception and Cognition. Elsevier Science Publishers, B.V., 1993.
Bau eines Multitouch Displays
Dominik Schmucki und Jochen Oekonomopulos
Abstract—Multitouch Displays erlauben es dem Benutzer Eingaben mit mehreren Fingern auf einmal durchzuführen. Somit erhält
man völlig neue Steuermöglichkeiten, da man mit mehreren Fingern von verschiedenen Händen relativ komplexe, eindeutige Befehle
auf einer Ebene anzeigen kann.
Index Terms—Multitouch, Display, Eingabegerät.
1
E INLEITUNG
Ein normales berührungssensitives Display hat den Vorteil, dass
es Ein- und Ausgabegerät miteinander kombiniert. Es wird dem
Benutzer ermöglicht, mit seinen Händen direkt auf dem ausgegebenen
Bild Befehle in den angeschlossenen Computer einzugeben. Die
Benutzung eines weiteren Eingabegeräts (und die damit verbundene
eventuelle Eingewöhnungsphase) ist somit nicht erforderlich.
Allerdings kann es lediglich eine Berührung zur Zeit feststellen.
Somit sind die Interaktionsmöglichkeiten auf sequentielle Eingaben
begrenzt, ähnlich der Interaktion über eine Eintastenmaus. Diese
Einschränkung verbietet in vielen Anwendungen einfache und
intuitivere Möglichkeiten der Kommunikation mit einem Programm.
Ein Multitouch Display hingegen nutzt die Vorteile des herkömmlichen berührungssensitives Displays und fügt die Funktionalität
hinzu es mit mehreren Fingern gleichzeitig zu bedienen. So kann
man eigene Gesten, die man mit mehreren Fingern auf dem Display
eingibt, entwickeln und diese dann in eine komplexe Befehlsfolge
für diverse spezifische Programme umwandeln. Diese Entwicklung
erlaubt eine sehr intuitive Eingabe von Befehlen, sowie eine direkte
Manipulation von Objekten auf dem Display.
Wollte man zum Beispiel ein Objekt wie ein Foto auf dem Display
drehen, wäre eine denkbare Geste mit zwei Fingern zu bewerkstelligen: Ein Finger wird fest auf das zu drehende Objekt gelegt und
fungiert als die Achse, um die sich das Objekt drehen wird. Den
zweiten Finger legen wir ebenfalls auf das Objekt und ziehen ihn auf
dem Display in die gewünschte Drehrichtung.
Zu beachten ist, dass die Ansätze für eine spezifische Fingererkennung noch am Anfang ihrer Entwicklung stehen. Es wird keine Unterscheidung der Finger vorgenommen, mit denen man die Eingabe
macht. Wenn diese Hürde einmal genommen ist, werden zwar weniger intuitive, aber dafür komplexere und dennoch kompaktere Befehle
möglich sein, indem man verschiedenen Fingern verschiedene Funktionalität zuweist.
Darüber hinaus ist die Bedienung am Multitouch Display nicht nur
auf eine Person beschränkt. Microsoft zeigt mit seinem Surface Projekt eine schöne Arbeitsumgebung, um mit meheren Menschen an einem Computer, wie an einem Tisch zu arbeiten.
Als einführendes Beispiel für eine Anwendung, bei der die Multitouchfähigkeit eines Displays große Vorteile bietet, seien an dieser Stelle Landkartenprogramme wie NASA Worldwind oder Google Earth genannt. Das gerade Geoinformations-Anwendungen einfach via Multitouch zu bedienen sind, liegt daran, dass Operationen
wie Zoomen und Rotieren sehr intuitiv mit mehreren Fingern bewerkstelligt werden können.
Die Multitouch Forschungen haben bereits Anfang der 1980er Jahre
begonnen [1]:
1.1 DigitalDesk
1991 stellte Pierre Wellner den DigitalDesk [5] der Öffentlichkeit
vor. Dabei wird über einer glatten Oberfläche ein Projektor sowie eine Kamera installiert. Das Bild des Projektors wird auf die Oberfläche
projeziert und die Kamera kann über eine Bildbearbeitungssoftware
Berührungen mit dem Display erkennen. Bei dieser Technik gab es
Abbildung 1. DigitalDesk
das Problem, dass der Benutzer aufpassen musste, um nicht seinen eigenen Finger mit dem Rest seiner Hand vor der Kamera zu verdecken.
1.2 Digital Tape Drawing
Eine weiter Technik stellte das Digital Tape Drawing Projekt [2] dar,
dass 1999 vorgestellt wirde. Tape Drawing, also das Malen mit Klebeband, ist ein wichtiger Bestandteil des Automobildesigns. Dabei werden Formen von Karosserien in grossen Massstäben an eine Wand geklebt und mit ihnen gearbeitet. Doch das so entstehende Modell kann
nicht erhalten werden, da es zerfaellt, sobald man es wieder von der
Wand ablöst.
Hier setzt das Digital Tape Drawing an, dass es dem Ingenieur
ermöglicht vor einem Display zu stehen, und via Multitouch ein digitales Klebeband so verformen kann, wie er es von dem richtigen Band
gewohnt ist. Die Technik wurde eigens für dieses Einsatzgebiet angepasst und kann somit schwer auf andere Gebiete erweitert werden. Das
Display ist riesig, um auch 1:1 Modelle abbilden zu können und somit stationär. Desweiteren wurde die Multitouch Technik lediglich auf
zwei Punkte reduziert und ist in Wirklichkeit auch kein echtes Multitouch, im Sinne des Wortes. Der Benutzer bekommt ein Eintastengerät
in jede Hand, von dem die Position vor dem Display in Echtzeit ermittelt wird. Möchte der Benutzer eine Interaktion ausführen, so muss er
nur die Taste drücken. Das funktioniert auf diesem Anwendungsgebiet sehr gut, da die Aktionen, die ein Ingenieur beim Tape Drawing
vornimmt auf einige wenige beschränkt sind.
1.3 SmartSkin
Im Jahr 2002 stellte Jun Rekimoto von Sony den SmartSkin [4] vor.
Dabei handelt es sich um einen Tisch als Projektionsfläche, an dem
Abbildung 2. Digital Tape Drawing
mehrere Benutzer sitzen und Objekte auf der Projektionsfläche manipulieren können. Rekimoto benutzte hierfür nicht wie Wellner eine
Kamera, sondern überzog den Tisch mit einem Sensornetz, dass die
verschiedenen Berührungen registrierte. So brauchte er sich nicht um
die Lichtanfälligkeit der Sensorkameras zu kümmern.
Abbildung 4. Multitouch Demonstration auf Jeff Han’s Display
Abbildung 5. Microsoft Surface Computer: Zugriff auf die Informationen
von zwei auf das Surface gelegten Telefonen
Abbildung 3. SmartSkin
1.6
1.4
Jeff Han’s Display
Einen Durchbruch in der Öffentlichkeit erzielte Jefferson Han von der
New York University im Jahre 2006, als er einen sehr kostengünstigen
Prototypen bei der TED vorstellte [3]. Ein weiterer Vorteil neben den
gerignen Kosten, ist der Aufbau des Displays. Han plazierte Beamer
und Kamera hinter dem eigentlichen Display, so dass die Hand des
Benutzers nicht mit den Eingabefingern interferriert.
1.5
Microsoft Surface
Der Surface Computer von Microsoft aus dem Jahr 2007 geht noch
einen Schritt weiter als normale Multitouch Displays. Naben der Bearbeitung der Oberfläche mit unterschiedlichen Gegenständen wie zum
Beispiel verschiedenen Malpinseln, wird dem Benutzer die Interaktion mit dem Computer über normale Gegenstände ermöglicht, die
allerdings speziell elektronisch markiert sein müssen. So kann man
zum Beispiel sein Handy auf das Display legen und erhält (dann über
Bluetooth oder WLAN) Zugriff auf die Speicherkarte und verschiedene Einstellungen des Telefons. Oder Man stellt ein Glas auf dem
Display ab, dessen Markierung Informationen über das enthaltene Getränk enthält.
Nachbau
Wir haben uns entschieden, bei unserem Nachbau die von Han vorgestellte Technik zu verwenden. Dies hat verschiedene Gründe: zum
einen gibt es schon einige Projekte, die sich mit einem Nachbau des
Han Displays beschäftigen und Zugriff auf ihre Erfahrungen und Ergebnisse gegeben haben, und zum anderen ermöglicht Han den Bau
einer vergleichsweise günstigen Variante eines Displays.
2
T ECHNIK
In eine Plexiglasscheibe wird Infrarotlicht über die Seitenkanten
eingestrahlt. Aufgrund von totaler innerer Reflexion tritt dieses Licht
nur aus, wenn ein Gegenstand mit einer höheren optischen Dichte
als das Plexiglas auf die Scheibe gelegt wird (wie zum Beispiel
ein Finger). Dieses austretende Licht wird mit einer Infrarotkamera
aufgenommen, und an einen Computer gesendet, der die Berührungspunkte in Koordinaten umrechnet.
Das Prinzip der Totalen inneren Reflexion: Jedes Medium i hat
eine eigene Dichte ni . Trifft Licht auf die Grenze zweier Medien, so
gibt es drei Möglichkeiten, was mit dem Licht passiert:
• Das Licht trifft genau im Lot auf die Mediengrenze:
Abbildung 6. Prinzip des Multitouch Displays
In diesem Fall passiert gar nichts, sofern die Medien Lichtdurchlässig sind. Das Licht wird in seiner Richtung nicht
geändert und tritt in das andere Medium über
• Das Licht trifft in einem zum Lot kleineren Winkel als θ auf die
Mediengrenze, wobei θ abhängig von der Dichte n1 und n2 der
zwei Medien ist (rote Markierung in Abbildung 2):
Ein Teil des Lichts wird im inneren des ersten Mediums
reflektiert (dieser Teil wird größer, je näher sich der Einfallswinkel an θ annähert). Der Rest des Lichts wird gebrochen, also
in seiner Richtung geändert und geht in das zweite Medium über.
• Das Licht trifft in einem Winkel zum Lot auf die Mediengrenze,
der größer oder gleich θ ist (grüne Markierung in Abbildung 2):
Das Licht wird an der Mediengrenze total reflektiert und bleibt
im Inneren des Mediums.
3 V ERWENDETE M ATERIALIEN
3.1 Diffusor
Um auf der Oberfläche, auf der man arbeitet, auch ein Bild zu sehen,
wird ein Beamerbild auf die Scheibe projiziert. Damit dieses auf der
Scheibe sichtbar wird, muss ein so genannter Diffusor installiert werden.
Das beste Bild haben wir mit einem Angerauten Plexiglas erhalten. Es
war gestochen scharf und gab bei der Berührung ein gutes sensitives
Feedback. Darb̈er hinaus war es leicht den Finger auf dem Display
zu bewegen, was bei einem glatten Plexiglas nicht immer der Fall ist,
da die Fingeroberfläche bei viel Bewegung Feuchtigkeit verliert und
es zu Reibung kommt. Einsetzen konnten wir es allerdings weder als
Kombination aus Diffusor und Plexiglas, da eine totale innere Reflexion des Infrarotlichts eben durch die Rauhe Oberflächenstruktur nicht
möglich war. Noch als reinen Diffusor, da das vom Finger reflektierte
Infrarotlicht zu sehr gestreut wurde.
Auch der Test mit einem diffusen Plexiglas (Milchglas) brachte keine
zufriedenstellenden Ergebnisse (siehe Abbildung 8), da das vom Finger reflektierte Infrarotlicht, genau wie bei dem angerauhten Plexiglas
zu sehr gestreut wurde.
Unsere Tests haben ergeben, dass der beste Kompromiss in Sachen
Kosten und Abbildungsleistung ein Bogen herkömmliches Pauspapier
ist. Unser Wunsch es, aufgrund von Berührungseigenschaften, vor das
Plexiglas anzubringen, war nicht möglich. Sobald man mit dem Finger das Papier auf das Plexiglas drückte, bekam man keine punktgenaue Fingerrepräsentation, sondern einen grossen Klecks, sehr ähnlich
zu Abbildung 8, der daher kam, dass immer ein bischen mehr Diffusor das Plexiglas berührte, als der Teil den man durch den Finger auf
das Glas drückte. Diesen Overhead kann man auch nicht einfach herausrechnen, da er je nach Position des Fingers (nah am Rand oder in
der Mitte) und vor allem dem ausgeübten Druck, variierte. Und selbst
wenn dies möglich wäre, so bekommt man spätestens dann Probleme,
wenn man zwei Finger erkennen möchte, die so nah beieinander sind,
dass sich ihr Overhead überlagert.
Also brachten wir den Diffusor hinter der Plexiglasscheibe an und
konnten damit gute Ergebnisse erziehlen.
Beim Multitouch Display machen wir uns diese Eigenschaft der
Medien zunutze, indem wir das Infrarotlicht so in die Scheibe schicken, dass es an der Scheibengrenze immer wieder reflektiert wird.
Damit es nicht an den Rändern aus der Scheibe austritt, haben wir diese, an den Stellen an denen sich keine IR-Dioden befinden, mit spiegelndem Klebeband verklebt. Wird nun ein Finger auf die Plexiglasscheibe gelegt, so ändert man an dieser Stelle die Dichte des Mediums
über der Scheibe, so dass diese höher ist, als die Dichte des Plexiglases. Das Licht, dass auf diese Stelle trifft, wird zum großen Teil zum
Lot hin gebrochen und reflektiert und kann so, da es nun orthogonal
zur Mediengrenze auf die andere Scheibenseite trifft, aus der Scheibe
heraustreten und von einer IR-Kamera registriert werden.
Abbildung 8. Diffusortest mit Rückprojektionsplexiglas. Umrisse sehr
unscharf, schwer zu erkennen.
Abbildung 7. Das Prinzip der Totalen inneren Reflexion
3.2 Beamer
Es kann grundsätzlich jeder beliebige Beamer verwendet werden, der
das vertikale Spiegeln des Ausgabebildes beherrscht. Die Spiegelung
ist notwendig, damit das Bild für den Betrachter, der in die Richtung
des Beamers schaut und nicht wie üblich vom Beamer weg, korrekt
die Auflösung auf 640x480 Pixel beschränkt, was eine flüssige Erkennung bei 30 fps ermöglicht. Als Rechner für die Bilderkennung und
-darstellung haben wir einen Intel Core 2 Duo mit 2 GHz und 2GB
RAM verwendet.
Abbildung 9. Diffursortest mit Pauspapier. Die Berührungspunkte sind
viel klarer zu erkennen.
Abbildung 11. Die Kamera mit aufgeklebtem Infrarotfilter. Auf dieser Abbildung noch nicht endgültig montiert.
auf den Diffusor projiziert wird.
Damit der Aufbau des Displays nicht zu viel Platz einnimmt, wird mit
Vorteil ein Beamer mit Weitwinkelobjektiv verwendet. Ein Weitwinkelobjektiv erzeugt auf die gleiche Distanz ein wesentlich größeres
Bild als ein herkömmliches Objektiv. Daraus ergibt sich ein geringerer Abstand zwischen Diffusor und Beamer.
Die Auflösung sollte 1024x786 Pixel betragen. Wird ein Beamer mit
höherer Auflösung gewählt, kann es sein, dass die Steuerung sehr ungenau wird: die verwendete Kamera hat eine maximale Auflösung von
1280x1024 Pixel. Für die Berührungserkennung kann aber nur ein
Ausschnitt des aufgenommenen Bildes verwendet werden.
Die Kamera ist am Holzrahmen hinter dem Display montiert. Damit auf das projizierte Bild keine Schatten geworfen werden, ist ein
steiler Winkel der Kamera notwendig. Die Kamera liefert deshalb ein
in der oberen Hälfte ungenaueres Bild der Displayrückseite. Durch die
Kalibrierung der Kamera auf die aufzunehmende Fläche lässt sich dieser Umstand aber soweit korrigieren, dass der Benutzer nichts merkt,
wenn er eine einigermassen grosse Eingabe, wie einen Finger benutzt.
Bei genaueren Eingabegeräten, wie zum Beispiel einem Stift, wäre
dieser Umstand sicher bemerkbar. Doch wäere auch das von dem Stift
reflektierte Infrarotlicht zu schwach um bemerkt zu werden, da eine
gewisse Filterung des Bildes stattfinden muss, um Artefakte wie Staub
auf dem Display nicht als Eingabe zu verwerten.
Abbildung 10. Weitwinkelbeamer können direkt hinter der Halterung für
das Plexiglas platziert werden. Die Tafel auf der linken Seite schützt den
Prototypen vor Sonnenlicht.
3.3
Kamera
Die meisten veröffentlichten Konstruktionspläne von MultitouchDisplays sehen, meist aus Kostengründen, eine Webcam vor. Der
Nachteil ist aber meist eine schlechte Auflösung, schlechte Bildqualität und geringe Framerate.
Die von uns verwendete Kamera ist eine iDS uEye UI-2230-C mit einem aufgeklebten Hama Infrarotfilter.
Die Bilderkennung benötigt viel Rechenleistung. Wir haben deshalb
Abbildung 12. Plexiglas mit abgeklebter Kante. Die Oberfläche ist noch
mit einer Schutzfolie abgeklebt.
3.4 Plexiglas
Das verwendete Plexiglas hat eine Grösse von 700x900x10
mm. Es handelt sich dabei um ein GS Plexiglas (GS: gegossen, XT: extrudiert). Gegossenes Plexiglas ist hochwertiger als extrudiertes Plexiglas. Anmerkung: Plexiglas sollte nicht
mit Alkohol oder Lösungsmittel gereinigt werden (Referenz:
http://de.wikipedia.org/wiki/Polymethylmethacrylat). Da es verschiedene Typen von Plexiglas gibt, kann es sein, dass es für den hier
beschriebenen Einsatzzweck (FTIR von IR-Licht) besser geeignetes
Glas gibt als wir verwendet haben. Ein Physiker oder Kunststoffexperte könnte hier vielleicht weiter helfen.
Durch den Bezug der verwendeten Plexiglasplatte in einer auf die Bearbeitung von Plexiglas spezialisierten Firma konnte viel Arbeit eingespart werden: um möglichst viel Licht von den im Rahmen angebrachten LEDs in das Plexiglas zu bringen, muss die Kante des Plexiglasplatte möglichst glatt sein. Versuche die Kante von Hand zu polieren
scheiterten und erwiesen sich als zu aufwändig. Wir empfehlen deshalb die Kante direkt beim Lieferanten schwabbeln“ zu lassen. Der
”
geringe Aufpreis steht in keinem Verhältnis zum Aufwand das ohne
entsprechende Ausrüstung von Hand durchzuführen.
Die Stellen an denen keine LEDs auf den Kanten aufliegen sind mit
einem Aluminiumband (Autozubehör) abgeklebt um möglichst viel
Licht zurück in die Platte zu reflektieren.
Osram (SFH 4230). Jede einzelne dieser so genannten Power-LEDs
besitzt eine Leistung von fast 2 W. Die flache Bauform ist ideal um
sicherzustellen, dass so viel Licht wie möglich in das Plexiglas abgestrahlt wird.
Gespiesen werden die LEDs von zwei Netzteilen der Firma Tridonic.Atco mit jeweils 10 W (eine Kette mit 5 LEDs in Serie, die andere
mit 4).
LEDs mit soviel Leistung müssen während des Betriebs zumindest
passiv gekühlt werden. Der verwendete Rahmen aus Aluminiumprofilen eignet sich gut dafür. Die LEDs sind zuerst auf ein zugeschnittenes
Stück Entwicklungsplatine und diese dann direkt in das Rahmenprofil
eingeklebt worden.
Abbildung 15. LED in Profil. Das Klebeband dient zum Schutz vor dem
Klebstoff-Aktivator mit dem der Trocknungsprozess beschleunigt wird.
Abbildung 13. Prototyp mit angeklebten LEDs. Die Kanten sind noch
nicht verklebt.
3.6
Materialliste
• Beamer, Kamera, IR-Filter: Lehrstuhl
• Plexiglas: Mecacryl (Pfäffikon ZH, Schweiz), Deutschland: Firma Röhm
• LEDs: Reichelt Elektronik
• Netzteile: Tridonic.Atco (Ennenda, Schweiz)
• Aluprofil: Industrieprofile, werden an vielen Stellen eingesetzt
(Prototypenbau etc.)
• Diffusor: Schreibwarenhandlung
3.7
Abbildung 14. Die LED wird auf einen Träger geklebt, ein kurzes Stück
Draht angelötet und erst an dieses das Kabel. Auf diese Weise können
Beschädigungen der LED durch zu grosse Hitze vermieden werden.
3.5
Infrarotlicht
Der in den im Internet kusierenden Nachbauten gängige Ansatz bisher war die Verwendung einer hohen Zahl (zwischen 20 und 100)
von Infrarot-LEDs mit einer Leistung von ca. 20 mW. Bedingt durch
die Bauform (runde Kuppe), erweist es sich als schwierig, sämtliches emittiertes Infrarotlicht in das Plexiglas zu bringen. Möglichkeiten wäre das Begradigen des LED-Gehäuses oder das Anbohren des
Plexiglases. Beides führt aber zu rauen Oberflächen die nachträglich
mühsam poliert werden müssen.
Wir verwenden insgesamt 9 LEDs des Typs Golden Dragon“ von
”
Zusammenfassung und Aussicht
Wir haben im Rahmen dieses Projekts das Display von Jeff Han nachgebaut. Da allerdings keine konkrete Anleitung von ihm verfügbar
war, mussten wir uns teilweise auf vorhandene Nachbauten stützen
und in diesem Zug eigene Materialtests durchführen, da entweder nicht immer sämtliche verwendete Materialien der Nachbauten
verfügbar waren oder uns Möglichkeiten eingefallen sind vorhandene
Probleme zu umgehen. Letzteres trifft vor allem auf die Entscheidung
zu Power LEDs zu verwenden.
Ein grosser Nachteil unseres Displays ist unserer Meinung nach das
Gefühl der Bedienung. Durch trockene Finger kommt es zu Reibung
auf dem Plexiglas und erfordert somit mehr Kraft des Benutzers bei
Bewegungen.
Vielleicht wäre es möglich ein leicht angerautes Plexiglas zu finden,
dass den Ansprüchen der totalen inneren Reflexion genügt.
ACKNOWLEDGEMENTS
Die Autoren möchten sich ganz besonders bei dem Einsatz von David
Schmucki bedanken, der uns mit seiner Zeit und seiner Fachkenntnis
unterstützt hat, wo er nur konnte.
L ITERATUR
[1] B.
Buxton.
Overview
of
multitouch
displays.
http://www.billbuxton.com/multitouchOverview.html, 2007.
[2] W. Buxton. Digital tape drawing. Proceedings of the ACM Symposium on
User Interface Software and Technology (UIST’99), 161-169, 1999.
[3] J. Han. Unveiling the genius of multi-touch interface design. TED 2006,
February 2006.
[4] J. Rekimoto. Smartskin: An infrastructure for freehand manipulation on
interactive surfaces. CHI2002, 2002.
[5] P. Wellner. The digitaldesk calculator: Tactile manipulation on a desktop
display. Proceedings of the Fourth Annual Symposium on User Interface
Software and Technology (UIST ’91), 27-33, 1991.

Seminar Reader - Mensch-Computer Interaktion

Transcription

Similar documents

CATT-ACOUSTIC v6.1 DEMO

Sniper Forensics V2.0 Target Acquisition

Thesis - AIDA - Universität des Saarlandes

Jahresbericht 2006/2007

Studying Online Love and Cyber Romance

Anlageverhalten der kapitalstärksten deutschen Stiftungen