Interaktion

Transcription

Interaktion
Kapitel PS: IV
IV. Interaktion in Multiagentensystemen
❑
Multiagentensysteme
❑
Interaktion
❑
Protokoll
❑
Auktion
❑
Verhandlung
PS: IV-1 Interaction
c LETTMANN 2007-2011
Bemerkungen:
❑ Dieses Kapitel orientiert sich an:
– Michael Wooldridge. An Introduction to MultiAgent Systems
Kap. 6, 7 Lecture Slides
PS: IV-2 Interaction
c LETTMANN 2007-2011
Multiagentensysteme
Adequacy Hypothesis:
Agent-oriented approaches can significantly enhance our ability to
model, design and build complex, distributed software systems.
[Jennings, 2000]
PS: IV-3 Interaction
c LETTMANN 2007-2011
Multiagentensysteme
Adequacy Hypothesis:
Agent-oriented approaches can significantly enhance our ability to
model, design and build complex, distributed software systems.
[Jennings, 2000]
Agentenorientierte Ansätze verwenden Systeme von mehreren (gleichartigen oder
spezialisierten) Agenten, die die Problemstellung gemeinsam lösen.
➜ Multiagentensysteme
Agenten interagieren nicht nur mit der Umgebung, sondern auch untereinander –
vom Informationsaustausch über Aufforderungen zu bestimmten Handlungen für
Kooperation oder Koordination bis zu Verhandlungen über ein Vorgehen.
➜ Interaktionen finden auf dem Knowledge Level statt.
Interaktionen müssen flexibel sein: Entscheidungen zur Laufzeit über
Interaktionen, Fähigkeit zu unvorhergesehenen Interaktionen.
PS: IV-4 Interaction
c LETTMANN 2007-2011
Multiagentensysteme
Charakteristika und Herausforderungen
[Sycara (1998)]
Characteristics
❑
Incomplete information or capabilities (limited viewpoint).
❑
No system global control.
❑
Decentralized data.
❑
Asynchronous computation.
Challenges
1. How to decompose problems and allocate tasks to individual agents?
2. How to coordinate agent control and communications?
3. How to make multiple agents act in a coherent manner?
4. How to make individual agents reason about other agents and the state of
coordination?
5. How to reconcile conflicting goals between coordinating agents?
6. How to engineer practical multiagent systems?
PS: IV-5 Interaction
c LETTMANN 2007-2011
Multiagentensysteme
Organisation (Jennings, 2000)
Agent
Environment
PS: IV-6 Interaction
Sichtbarkeitsbereich /
Einflussbereich
Team
Interaktion
Hierarchie
c LETTMANN 2007-2011
Multiagentensysteme
Zusammenfassung
Multiagentensysteme enthalten eine Menge von Agenten mit folgenden
Eigenschaften:
❑
Die Agenten sind fähig in einer Umgebung zu agieren.
❑
Die Agenten haben unterschiedliche Einflussbereiche.
❑
Die Agenten interagieren durch Kommunikation.
❑
Die Agenten sind durch weitere (organisatorische) Beziehungen verbunden.
Ein formales Modell muss Agenten und Umgebung adäquat beschreiben.
❑
Die Agenten wählen gleichzeitig Aktionen, die sie ausführen wollen.
❑
Die Umgebung liefert ein Ergebnis, das auf der Kombination der Aktionen
beruht.
❑
Annahme:
Die Agenten handeln rational (und wissen, dass auch alle anderen Agenten
rational handeln).
PS: IV-7 Interaction
c LETTMANN 2007-2011
Interaktion
Formales Modell für Präferenzen
❑
Gegeben seien Agenten A1, . . . , An mit n ≥ 2.
❑
Die Umgebung wird beschrieben durch eine Menge S von Zuständen, die
die Ergebnisse der Aktionen der Agenten beschreiben. Der initiale Zustand
sei s0.
S = {s0, s1, . . .}
❑
Jeder Agent Ai verfügt über eine Menge Ai von Aktionsmöglichkeiten, um
mit der Umgebung zu interagieren.
Ai = {ai,1, . . . , ai,mi }
❑
Die Veränderungen der Umgebung aufgrund der Aktionen der Agenten
werden beschrieben durch die Zustandstransformation transition.
PS: IV-8 Interaction
c LETTMANN 2007-2011
Interaktion
Formales Modell für Präferenzen
❑
(Fortsetzung)
Die Agenten haben jeweils eigene Präferenzen und Ziele, wie die
Umgebung aussehen soll.
Die Präferenzen werden durch Nutzenfunktionen dargestellt:
utility i : S → R
❑
Die Nutzenfunktionen induzieren Präferenzordnungen auf der Menge der
Zustände, z.B. für Ai:
s i s gdw. utility i(s) ≥ utility i(s )
s i s gdw. utility i(s) > utility i (s)
s i s bedeutet, dass Ai Zustand s mindestens ebenso präferiert wie
Zustand s .
PS: IV-9 Interaction
c LETTMANN 2007-2011
Interaktion
Formales Modell für Präferenzen
(Fortsetzung)
Problemvereinfachung zur Untersuchung von kooperativem Verhalten:
❑
Nur eine Entscheidung der Agenten für ihre Aktion wird modelliert
ausgehend vom Anfangszustand s0.
❑
Die Veränderungen der Umgebung aufgrund der Aktionen der Agenten
werden beschrieben durch die Zustandstransformation transition.
transition : S × A1 × . . . × An → S
❑
Für jeden Agenten kann eine Nutzenfunktionen über A1 × . . . × An definiert
werden durch
utility i(a1, . . . , an) := utility i (transition(s0, a1, . . . , an)).
❑
Wir betrachten nur zwei Agenten, die beide nur über die Aktionen c für
cooperate und d für defect (= do not cooperate) verfügen, also
A1 = A2 = {c, d}.
PS: IV-10 Interaction
c LETTMANN 2007-2011
Interaktion
Nutzen ist nicht geldlicher Vorteil
Utility
Money
(Trotzdem ist Geld eine brauchbare Analogie.)
PS: IV-11 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel
Die Aktionen beider Agenten Ax und Ay beeinflussen die Umgebung, d.h.
transition(s0 , c, c), transition(s0 , c, d), transition(s0, d, c), transition(s0 , d, d)
sind paarweise verschieden.
Seien weiter die folgenden Nutzen festgelegt:
utility x (transition(s0, c, c)) = 4, utility x (transition(s0, c, d)) = 4,
utility x(transition(s0, d, c)) = 1, utility x (transition(s0, d, d)) = 1,
utility y (transition(s0, c, c)) = 4, utility y (transition(s0 , c, d)) = 1,
utility y (transition(s0 , d, c)) = 4, utility y (transition(s0, d, d)) = 1.
PS: IV-12 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel
Die Aktionen beider Agenten Ax und Ay beeinflussen die Umgebung, d.h.
transition(s0 , c, c), transition(s0 , c, d), transition(s0, d, c), transition(s0 , d, d)
sind paarweise verschieden.
Seien weiter die folgenden Nutzen festgelegt:
utility x (transition(s0, c, c)) = 4, utility x (transition(s0, c, d)) = 4,
utility x(transition(s0, d, c)) = 1, utility x (transition(s0, d, d)) = 1,
utility y (transition(s0, c, c)) = 4, utility y (transition(s0 , c, d)) = 1,
utility y (transition(s0 , d, c)) = 4, utility y (transition(s0, d, d)) = 1.
Damit sind die Präferenzen der Aktionen für die Agenten
utility x (c, c) ≥ utility x(c, d) > utility x(d, c) ≥ utility x(d, d)
utility y (c, c) ≥ utility y (d, c) > utility y (c, d) ≥ utility y (d, d)
PS: IV-13 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel
Die Aktionen beider Agenten Ax und Ay beeinflussen die Umgebung, d.h.
transition(s0 , c, c), transition(s0 , c, d), transition(s0, d, c), transition(s0 , d, d)
sind paarweise verschieden.
Seien weiter die folgenden Nutzen festgelegt:
utility x (transition(s0, c, c)) = 4, utility x (transition(s0, c, d)) = 4,
utility x(transition(s0, d, c)) = 1, utility x (transition(s0, d, d)) = 1,
utility y (transition(s0, c, c)) = 4, utility y (transition(s0 , c, d)) = 1,
utility y (transition(s0 , d, c)) = 4, utility y (transition(s0, d, d)) = 1.
Damit sind die Präferenzen der Aktionen für die Agenten
utility x (c, c) ≥ utility x(c, d) > utility x(d, c) ≥ utility x(d, d)
utility y (c, c) ≥ utility y (d, c) > utility y (c, d) ≥ utility y (d, d)
Zusammenfassung der Situation in einer Payoff Matrix:
y wählt c y wählt d
x wählt c
4|4
4|1
x wählt d
1|4
1|1
➜ Welche Aktion ist für Ax sinnvoll und warum?
PS: IV-14 Interaction
c LETTMANN 2007-2011
Interaktion
Einbettung in die Spieltheorie
W
D
Max-Player
W
L
Min-Player
D
W
W
D
W
L
L
D
L
W
W
L
D
W
Max-Player
D
Min-Player
L
L
W
L
W
L
W
Max-Player
Max-Strategy
Min-Strategy
}
W = win
L = loss
D = draw
Max-Player
Sicht
Eine reine Strategie si von Spieler i ist eine Festlegung der je nach Situation zu
wählenden Aktion.
Spiel in Normalform:
Alle Spieler legen ihre Strategien zeitgleich und ohne Kenntnis der Wahl der
anderen Spieler fest.
(Im Prinzip besteht das Spiel also nur aus einem eigenen Zug und einem des
Gegners, die zeitgleich ausgeführt werden, nämlich der Wahl der Strategie.)
PS: IV-15 Interaction
c LETTMANN 2007-2011
Bemerkungen:
❑ Eine Strategie ist ein mentales Konzept, das den verschiedenen Situationen Aktionen
zuordnet. Eine Aktion hat reale Auswirkungen.
❑ Der Art der Auswahl einer Aktion durch den Agenten entspricht in der Spieltheorie die
Auswertung einer festgelegten Strategie.
PS: IV-16 Interaction
c LETTMANN 2007-2011
Interaktion
Formales Modell in der Spieltheorie
❑
n Spieler (n ≥ 2) spielen ein Spiel.
❑
Jeder Spieler i verfügt über eine endliche Menge von Strategien Sti .
❑
Eine Auswahl st = (st1, . . . , stn) von Strategien durch die Agenten
bezeichnen wir als Strategieprofil.
❑
Ein Strategieprofil st bildet ein Gleichgewicht, wenn es aus den „besten“
Strategien der Spieler besteht.
❑
Vereinfachte Schreibweise:
st(−i) bezeichnet das Tupel, in dem die i-te Komponente fehlt.
(st, st(−i) ) ist das Tupel, das aus st(−i) durch Einfügen von st als i-te
Komponente entsteht.
PS: IV-17 Interaction
c LETTMANN 2007-2011
Interaktion
Dominante Strategien
❑
Für einen Agenten Ai wird eine Strategie sti durch eine Strategie sti
streng dominiert, wenn für alle Strategieprofile st(−i) gilt
utility i(sti, st(−i) ) > utility i(sti, st(−i) ).
❑
Für einen Agenten Ai wird eine Strategie sti streng dominiert, wenn sti
durch eine Strategie sti streng dominiert wird.
❑
Für einen Agenten Ai ist eine Strategie sti streng dominant, wenn sti alle
anderen Strategien von Ai streng dominiert.
❑
Es macht für einen rationalen Agenten keinen Sinn, eine streng dominierte
Strategie zu verfolgen.
c
c
1,1 1,0
d 0,1 0,0
PS: IV-18 Interaction
c
d
c
d
1,1 1,0
d 0,1 0,0
c
c
d
1,1 1,0
d 0,1 0,0
c LETTMANN 2007-2011
Interaktion
Dominante Strategien
(Fortsetzung)
❑ Für einen Agenten Ai wird eine Strategie sti durch eine Strategie sti
schwach dominiert,
wenn für alle Strategieprofile st(−i) gilt
utility i (sti, st(−i) ) ≥ utility i (sti , st(−i) )
und für ein Strategieprofile s(−i) sogar gilt
utility i(sti , st(−i) ) > utility i (sti , st(−i) ).
❑ Für einen Agenten Ai wird eine Strategie sti
Strategie
sti
schwach dominiert, wenn sti durch eine
schwach dominiert wird.
❑ Für einen Agenten Ai ist eine Strategie sti
Strategien von Ai schwach dominiert.
schwach dominant, wenn sti alle anderen
❑ Es macht für einen rationalen Agenten keinen Sinn, eine schwach dominierte Strategie zu
verfolgen.
c
c
1,1 0,0
d 0,0 0,0
PS: IV-19 Interaction
c
d
c
d
1,1 0,0
d 0,0 0,0
c
c
d
1,1 0,0
d 0,0 0,0
c LETTMANN 2007-2011
Interaktion
Dominante Strategien
❑
Für einen Agenten Ai wird eine Strategie sti durch eine Strategie sti
sehr schwach dominiert, wenn für alle Strategieprofile st(−i) gilt
utility i(sti, st(−i)) ≥ utility i(sti, st(−i)).
❑
Für einen Agenten Ai wird eine Strategie sti sehr schwach dominiert, wenn
sti durch eine Strategie sti sehr schwach dominiert wird.
❑
Für einen Agenten Ai ist eine Strategie sti sehr schwach dominant, wenn sti
alle anderen Strategien von Ai sehr schwach dominiert.
❑
Es kann für einen rationalen Agenten Sinn machen, eine sehr schwach
dominierte Strategie zu verfolgen.
c
c
0,1 0,0
d 0,0 0,0
PS: IV-20 Interaction
c
d
c
d
0,1 0,0
d 0,0 0,0
c
c
d
0,1 0,0
d 0,0 0,0
c LETTMANN 2007-2011
Interaktion
Dominanzgleichgewicht
❑
Ein Strategieprofil st bildet ein strenges/schwaches/sehr schwaches
Dominanz-Gleichgewicht, wenn für jeden Agenten Ai die Strategie sti
streng/schwach/sehr schwach dominant ist.
c
c
1,1 1,0
d 0,1 0,0
❑
c
d
c
d
1,1 1,0
d 0,1 0,0
c
c
c
d
1,1 1,0
d 0,1 0,0
c
d
1,1 1,0
d 0,1 0,0
Ein Strategieprofil st bildet ein strenges/schwaches/sehr schwaches
iteriertes Dominanz-Gleichgewicht, wenn es Ergebnis eines schrittweisen
Löschungsprozess ist, bei dem in jedem Schritt eine streng/schwach/sehr
schwach dominierte Strategie eines Agenten gelöscht wird.
c
c
1,1 0,0
d 0,0 0,0
PS: IV-21 Interaction
c
d
c
d
1,1 0,0
d 0,0 0,0
c
c
c
d
1,1 0,0
d 0,0 0,0
c
d
1,1 0,0
d 0,0 0,0
c LETTMANN 2007-2011
Interaktion
Dominanzgleichgewicht
❑
(Fortsetzung)
Dominanz-Gleichgewichte gibt es nur in wenigen Fällen.
c
c
d
1,1 0,0
d 0,0 1,1
❑
Strenge Dominanz-Gleichgewichte sind eindeutig.
❑
Schwache/sehr schwache iterierte Dominanz-Gleichgewichte sind nicht
eindeutig.
c
c
d
1,0 2,0
c
c
d
1,0 2,0
c
c
d
1 , 0 2, 0
d 0,1 1,0
d 0,1 1,0
d 0,1 1,0
e 0,0 1,1
e 0,0 1,1
e 0,0 1,1
PS: IV-22 Interaction
c LETTMANN 2007-2011
Interaktion
Nash-Gleichgewicht
❑
Für ein Strategieprofil st(−i) heißt die Strategie sti von Spieler i
Nash-Strategie, falls für alle seine Strategien sti gilt
utility i(sti, st(−i)) ≥ utility i(sti, st(−i)).
❑
Ein Strategieprofil st bildet ein Nash-Gleichgewicht (Nash Equilibrium),
wenn für jeden Agenten Ai und jede seiner Strategien sti gilt
utility i(sti, st(−i)) ≥ utility i(sti, st(−i)).
c
c
1,0 1,0
d 0,1 0,0
PS: IV-23 Interaction
c
d
c
d
1,0 1,0
d 0,1 0,0
c
c
c
d
1,0 1,0
d 0,1 0,0
c
d
1,0 1,0
d 0,1 0,0
c LETTMANN 2007-2011
Interaktion
Nash-Gleichgewicht
❑
In einem Nash-Gleichgewicht st kann Ai unter der Annahme, dass die
übrigen Agenten weiter das Profil st(−i) verfolgen, nichts Besseres tun, als
die Strategie sti zu verfolgen.
❑
Kein Agent hat einen Anreiz, einseitig von einem Nash Equilibrium
abzuweichen.
❑
Nicht jedes Szenario hat ein Nash Equilibrium, manche haben dagegen
sogar mehr als ein Nash Equilibrium.
c
c
c
d
1,0 0,1
d 0,1 1,0
c
d
1,1 1,0
d 0,1 0,0
c
c
d
1,1 0,0
d 0,0 0,0
Nash-Strategie für Zeilenspieler
Nash-Strategie für Spaltenspieler
PS: IV-24 Interaction
c LETTMANN 2007-2011
Interaktion
Nash-Gleichgewicht
(Fortsetzung)
Bestimmung eines Nash-Equilibrium
❑
Bestimme für jedes st(−i) zu jedem Profil st für jeden Agenten Ai
Li := {(sti, st(−i) ) | utility i(sti, st(−i)) = max utility i(sti , st(−i) )}
st ∈Ai
❑
Nash-Equilibria sind die Elemente von
L1 ∩ . . . ∩ Ln
c
c
c
d
1,1 0,0
d 0,0 0,0
c
d
1,1 0,0
d 0,0 0,0
c
c
c
1,1 0,0
d
1,1 0,0
d 0,0 0,0
d
d 0,0 0,0
PS: IV-25 Interaction
c
c
c
d
1,1 0,0
d 0,0 0,0
c
c
d
1,1 0,0
d 0,0 0,0
c LETTMANN 2007-2011
Bemerkungen:
❑ Die in Spalte 3 markierten Strategien sind die Nash-Strategien der Spieler.
PS: IV-26 Interaction
c LETTMANN 2007-2011
Interaktion
Strenges Nash-Gleichgewicht
❑
Für ein Strategieprofil st(−i) heißt die Strategie sti von Spieler i strenge
Nash-Strategie, falls für alle seine Strategien sti gilt
utility i(sti, st(−i) ) > utility i(sti, st(−i) ).
❑
Ein Strategieprofil st bildet ein strenges Nash-Gleichgewicht, wenn für jeden
Agenten Ai und jede seiner Strategien sti gilt
utility i(sti, st(−i) ) > utility i(sti, st(−i) ).
c
c
1,1 1,0
d 0,1 0,0
PS: IV-27 Interaction
c
d
c
d
1,1 1,0
d 0,1 0,0
c
c
c
d
1,1 1,0
d 0,1 0,0
c
d
1,1 1,0
d 0,1 0,0
c LETTMANN 2007-2011
Interaktion
Weitere Optima
❑
Ein Strategieprofil st ist (globales) Optimum (der Nutzensumme), falls für
alle Strategieprofile st gilt
utility i(st) ≥
utility i(st).
i
❑
i
Ein Strategieprofil st ist (starkes) Pareto-Optimum, falls für alle
Strategieprofile st mit
utility i(st ) > utility i(st)
für ein i auf der anderen Seite immer ein j existiert mit
utility j (st) > utility j (st ).
(Jede Verbesserung eines Spielers bedeutet eine Verschlechterung eines
anderen Spielers.)
PS: IV-28 Interaction
c LETTMANN 2007-2011
Bemerkungen:
❑ Ein Optimum der Nutzensumme macht nur Sinn, wenn der Nutzen für alle Agenten in
vergleichbarer Weise mit addierbaren Werten beschrieben wird.
❑ Allgemein werden die Begriffe Optimum der Nutzensumme, (starkes) Pareto-Optimum,
Nash-Gleichgewichte, Dominanzgleichgewichte und iterierte Dominanzgleichgewichte für
Zustandsmengen verwendet, für die die beteiligten Agenten jeweils eine eigene
Präferenzrelation besitzen.
Hier beurteilen wir also weniger ein Strategieprofil als vielmehr den Zustand, der sich bei
dessen Verwendung einstellt.
PS: IV-29 Interaction
c LETTMANN 2007-2011
Interaktion
Dominanz und Nash-Gleichgewicht
❑
Jede schwach dominante Strategie eines Spielers kommt in einem
Nash-Gleichgewicht vor.
❑
Ein strenge/schwache Dominanz-Gleichgewicht ist immer auch ein
strenges/(schwaches)Nash-Gleichgewicht.
❑
Hat ein Spieler eine streng dominante Strategie, spielt er sie in jedem
Nash-Gleichgewicht.
❑
Haben beide Spieler eine streng dominante Strategie, gibt es genau ein
Nash-Gleichgewicht.
❑
Ein Nash-Gleichgewicht ist nicht unbedingt ein Pareto-Optimum (Prisoner’s
Dilemma).
❑
Ein globales Optimum der Nutzensumme ist immer auch ein
Pareto-Optimum.
PS: IV-30 Interaction
c LETTMANN 2007-2011
Interaktion
Wettbewerb und Nullsummenspiele
❑ Wir sprechen von einem Nullsummenspiel, wenn für die durch die Strategieprofile st
festgelegten Ausgänge eines Spiels und die Nutzen der beteiligten Spieler gilt
utility 1 (st) + . . . + utility n (st) = 0
❑ Ein strenger Wettbewerb zwischen zwei Spielern Ax und Ay besteht, wenn sie alle
möglichen Spielausgänge st1 und st2 genau entgegengesetzt präferieren:
st1 x st2 gdw. st2 y st1
❑ Nullsummenspiele (mit Nutzen ungleich 0 für mindestens einen Spieler) sind Beispiele für
strenge Wettbewerbsituationen, sie bieten also keinen Raum für Kooperation.
❑ In Nullsummenspielen ist jede Situation Pareto-optimal.
❑ Nullsummenspiele sind in der Wirklichkeit sehr selten, aber die Beteiligten tendieren oft
dazu, ein Szenario als Nullsummenspiel zu betrachten.
❑ Das Gefangenendilemma ist ein Beispiel für ein Nicht-Nullsummenspiel.
PS: IV-31 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Gefangenendilemma: Globales Optimum vs. Dominanz-Gleichgewicht
Zwei Männer werden beschuldigt, gemeinsam ein Verbrechen begangen zu
haben. Die Höchststrafe für das Verbrechen beträgt drei Jahre Gefängnis .
Beide Gefangenen wissen, dass sie ein Jahr Straferlass bekommen, wenn Sie
gestehen (defect). Sie wissen aber auch dass aufgrund der mangelhaften
Beweislage nur eine Verurteilung zu einem Jahr wegen eines minderschweren
Vergehens erfolgt, wenn beide schweigen (cooperate).
Beiden Gefangenen wird daher ein Handel angeboten, worüber auch beide
informiert sind. Wenn er gesteht und somit seinen Partner belastet, kommt er ohne
Strafe davon. Der andere muss dann die vollen drei Jahre absitzen.
Nun werden die Gefangenen einzeln nach ihrer Entscheidung gefragt. Weder vor
noch während der Bedenkzeit hatten die beiden die Möglichkeit, sich
untereinander abzusprechen.
PS: IV-32 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Gefangenendilemma
(Fortsetzung)
Zusammenfassung der Situation in einer Payoff Matrix (Nutzen):
y wählt c y wählt d
x wählt c −1 | −1 −3 | 0
x wählt d 0 | −3 −2 | −2
(Höherer Nutzen bei geringerer Strafe!)
Daraus ergeben sich die folgenden Präferenzen:
utility x (d, c) > utility x (c, c) > utility x (d, d) > utility x (c, d)
utility y (c, d) > utility y (c, c) > utility y (d, d) > utility y (d, c)
Problem:
Die für beide Spieler beste Situation (c, c) ist instabil, da jeder der beiden durch
Abweichen von der Strategie seinen Nutzen vergrößern kann.
Welche Aktion ist für einen Gefangenen sinnvoll und warum?
PS: IV-33 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Gefangenendilemma
❑
(Fortsetzung)
Für jeden Gefangenen ist die ratinole Entscheidung die für Strategie d !!!
– Wenn er gesteht (defect),
hat er einen garantierten Nutzen von -2 unabhängig davon, ob der andere schweigt
oder gesteht.
– Wenn er schweigt (cooperate),
hat er einen garantierten Nutzen von nur -3, resultierend aus dem Fall, dass der andere
gesteht.
➜ Vermeidung des Sucker’s Payoff
Die Strategie d ist für jeden Spieler streng dominant in diesem Szenario.
(d, d) ist strenges Dominanz-Gleichgewicht. (d, d) ist damit auch Nash-Gleichgewicht, aber
nicht Pareto-optimal.
Jedes Profil außer (d, d) ist Pareto-optimal.
(c, c) ist globales Optimum der Nutzensumme, aber kein Nash-Gleichgewicht.
❑
Intuition: Natürlich sollten die Agenten beide kooperieren und damit beide
einen höheren Nutzen erreichen. (Idee: Minimiere den Gefängnisaufenthalt
des Mitspielers, statt des eigenen.)
PS: IV-34 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Gefangenendilemma: Allgemeine Form
Payoff Matrix:
y wählt c y wählt d
x wählt c R | R
S| T
x wählt d T | S
P | P
T steht für Temptation to defect, R für Reward for mutual cooperation,
P für Punishment for mutual defection und S für Sucker’s payoff.
Für eine Prisoner’s Dilemma Situation muss folgende Bedingung gelten
T >R>P >S
PS: IV-35 Interaction
c LETTMANN 2007-2011
Interaktion
Problem der Interaktion in MAS
❑
Kooperation scheint in Gesellschaften von eigennützigen Agenten nicht
vorzukommen.
❑
Beispiele aus der realen Welt:
– Abrüstung (Warum sollte ich meine Waffen nicht behalten?)
– Sportwettkämpfe mit Gewichtsklassen
– Radrennen
– Allmende
➜ Das Gefangenendilemma ist allgegenwärtig!
❑
Können wir Kooperation wiederherstellen?
PS: IV-36 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Iteriertes Gefangenendilemma
❑
Das Szenario wird immer wieder gespielt.
❑
Wenn man weiß, dass man immer wieder auf denselben Gegner trifft,
verschwindet der Anreiz nicht zu kooperieren (defect).
❑
Anfangsverluste können durch große Anzahl von Spielen amortisiert
werden. Es lohnt sich also, Kooperationsbereitschaft zu zeigen.
(Bedingung hierfür: 2R > T + S)
❑
Was ist sinnvoll, wenn eine feste Anzahl von Spielen vereinbart ist?
Die vernünftige Entscheidung ist die für die Nicht-Kooperation, wenn man
das Szenario endlich oft durchspielt. (Backwards Induction)
❑
Was ist sinnvoll, wenn KEINE feste Anzahl von Spielen vereinbart ist?
Die vernünftige Entscheidung ist die für die Kooperation, wenn man das
Szenario unendlich oft (oder eine unbekannte Anzahl von Runden) spielt.
PS: IV-37 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Iteriertes Gefangenendilemma
❑
Das Szenario wird immer wieder gespielt.
❑
Wenn man weiß, dass man immer wieder auf denselben Gegner trifft,
verschwindet der Anreiz nicht zu kooperieren (defect).
❑
Anfangsverluste können durch große Anzahl von Spielen amortisiert
werden. Es lohnt sich also, Kooperationsbereitschaft zu zeigen.
(Bedingung hierfür: 2R > T + S)
❑
Was ist sinnvoll, wenn eine feste Anzahl von Spielen vereinbart ist?
Die vernünftige Entscheidung ist die für die Nicht-Kooperation, wenn man
das Szenario endlich oft durchspielt. (Backwards Induction)
❑
Was ist sinnvoll, wenn KEINE feste Anzahl von Spielen vereinbart ist?
Die vernünftige Entscheidung ist die für die Kooperation, wenn man das
Szenario unendlich oft (oder eine unbekannte Anzahl von Runden) spielt.
PS: IV-38 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Iteriertes Gefangenendilemma
(Fortsetzung)
Axelrod’s Wettbewerb (1984)
❑
Das Szenario des iterierten Gefangenendilemma wird gegen jeden Gegner
durchgespielt.
– Jeder Spieler spielt 5 Partien gegen jeden anderen Spieler.
– Jede Partie besteht aus 200 Runden des Szenarios
Gefangenendilemma.
– Der Spieler kennt die Züge des Gegners aus den vorherigen Runden
einer Partie.
❑
Sieger ist der Spieler, der den höchsten Payoff erreicht.
❑
Alle Spieler sind als Computerprogramme realisiert.
PS: IV-39 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Iteriertes Gefangenendilemma
(Fortsetzung)
Axelrod’s Wettbewerb (1984)
❑
Das Szenario des iterierten Gefangenendilemma wird gegen jeden Gegner
durchgespielt.
– Jeder Spieler spielt 5 Partien gegen jeden anderen Spieler.
– Jede Partie besteht aus 200 Runden des Szenarios
Gefangenendilemma.
– Der Spieler kennt die Züge des Gegners aus den vorherigen Runden
einer Partie.
❑
Sieger ist der Spieler, der den höchsten Payoff erreicht.
❑
Alle Spieler sind als Computerprogramme realisiert.
❑
Welche Strategie sollte man wählen?
❑
Ist die Gewinnerstrategie streng/schwach dominant?
PS: IV-40 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Iteriertes Gefangenendilemma
(Fortsetzung)
Beispiele für Strategien
❑ Strategie ALL-D:
Wähle immer die Aktion d, also die Nicht-Kooperation (Hawk-Strategy).
❑ Strategie RANDOM:
Wähle immer die nächste Aktion zufällig aus.
❑ Strategie TIT-FOR-TAT:
Spiele in der ersten Runde kooperativ (c), in den nächsten Runden wähle jeweils den Zug
des Gegners aus der letzten Runde.
❑ Strategie TESTER:
Spiele in der ersten Runde nicht kooperativ (d). Wenn der Gegner ebenfalls nicht kooperativ
spielt (d), dann folge der Strategie TIT-FOR-TAT. Wenn der Gegner kooperativ spielt (c),
dann spiele die nächsten zwei Runden kooperativ (c), danach die nächste Runde nicht
kooperativ (d).
❑ Strategie JOSS:
Ähnlich der Strategie TIT-FOR-TAT, allerdings wird in 10% der Fälle nicht kooperativ (d)
gespielt, anstelle von Kooperation (c).
Welche Strategie erscheint am erfolgversprechensten?
PS: IV-41 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Iteriertes Gefangenendilemma
(Fortsetzung)
Axelrod’s Vorschläge für gute Strategien
❑
Sei nicht neidisch!
Es ist nicht nötig, den Gegner zu besiegen, um selbst gut abzuschneiden.
❑
Sei nett!
Es ist besser kooperativ zu beginnen und sich für Kooperation erkenntlich zu zeigen.
❑
Übe maßvolle Vergeltung!
Bestrafung (d) sollte unmittelbar erfolgen und vergleichbarem Maß wie das Fehlverhalten
(d) des Gegners.
❑
Sei nicht nachtragend!
Kooperation (c) durch den Gegner sollte mit eigener Kooperation belohnt werden, egal, was
vorher war.
❑
Sei nicht zu clever!
Wenn der Gegner das Verhalten nicht deuten kann, ist es so, als würde Strategie RANDOM
gespielt.
PS: IV-42 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Iteriertes Gefangenendilemma
(Fortsetzung)
Axelrod’s Vorschläge für gute Strategien
❑
Sei nicht neidisch!
Es ist nicht nötig, den Gegner zu besiegen, um selbst gut abzuschneiden.
❑
Sei nett!
Es ist besser kooperativ zu beginnen und sich für Kooperation erkenntlich zu zeigen.
❑
Übe maßvolle Vergeltung!
Bestrafung (d) sollte unmittelbar erfolgen und vergleichbarem Maß wie das Fehlverhalten
(d) des Gegners.
❑
Sei nicht nachtragend!
Kooperation (c) durch den Gegner sollte mit eigener Kooperation belohnt werden, egal, was
vorher war.
❑
Sei nicht zu clever!
Wenn der Gegner das Verhalten nicht deuten kann, ist es so, als würde Strategie RANDOM
gespielt.
PS: IV-43 Interaction
c LETTMANN 2007-2011
Bemerkungen:
❑ Eine Strategie in Axelrod’s Wettbewerb realisiert eine Funktion
f : ({c, d} × {c, d})N → {c, d},
die eine Entscheidung (c oder d) auf Basis einer Historie (endliche Folge von Paaren aus
eigener Entscheidung und Entscheidung des Gegners) trifft.
❑ Die Strategie TIT-FOR-TAT hat das Turnier gewonnen. Dies ist kein Nachweis einer
Dominanzeigenschaft, da nur eine kleine Auswahl der möglichen Strategien am
Wettbewerb teilgenommen hat.
PS: IV-44 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Battle of the Bismarck Sea: Iteriertes Dominanz-Gleichgewicht
Im Südpazifik hat im Jahr 1943 der japanische General Imamura den Auftrag
erhalten, japanische Truppen über die Bismarck See nach Neuguinea zu
transportieren, Der amerikanische General Kenney will den Truppentransport
bombardieren. Imamura hat die Wahl zwischen einer kürzeren nördlichen Route
und einer längeren südlichen Route nach Neuguinea. Kenney muss sich
entscheiden, wohin er seine Flugzeuge schickt, um nach den Japanern Ausschau
zu halten. Wenn Kenney seine Flugzeuge zu der falschen Route schickt, kann er
sie zwar zurückrufen, aber die Anzahl der Tage, die für Bombardierungen zur
Verfügung stehen, ist dadurch verringert worden.
Das Szenario ist um ein Nullsummenspiel (Nutzen/Schaden = Anzahl Tage mit
Bombardierung).
PS: IV-45 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Battle of the Bismarck Sea
(Fortsetzung)
Zusammenfassung der Situation in einer Payoff Matrix:
Imamura wählt Nord Imamura wählt Süd
Kenney wählt Nord
2| −2
2| −2
Kenney wählt Süd
1| −1
3| −3
Kein Spieler hat eine dominante Strategie.
Es gibt kein strenges/schwaches Dominanz-Equilibrium.
Durch Eliminieren streng dominierter Strategien kann kein Equilibrium gefunden
werden.
Durch Eliminieren schwach dominierter Strategien kann ein schwaches iteriertes
Dominanz-Gleichgewicht in (Nord, Nord) gefunden werden.
Jedes Strategieprofil is globales Optimum und damit Pareto-Optimum.
(→ Nullsummenspiel)
PS: IV-46 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Stag Hunt: Verschiedene Nash-Gleichgewichte
Zwei Männer gehen auf die Jagd. Jeder der beiden kann sich entscheiden einen
Hirschen zu jagen oder aber einen Hasen. Diese Wahl wird unabhängig
voneinander getroffen, ohne die Wahl des anderen zu kennen. Wer auf Hirschjagd
geht, braucht die Unterstützung des anderen. Einen Hasen kann jeder der Jäger
allein zur Strecke bringen, der Hase ist aber weniger wert als ein Hirsch.
Wenn der eine Spieler glaubt, dass der andere auf Hasenjagd geht (d), dann sollte
er dies auch tun. Wenn der eine Spieler glaubt, dass der andere auf Hrschjagd
geht (c), so sollte er ebenfalls auf Hirschjagd gehen.
Der beste Fall ist also, dass beide Spieler kooperieren.
Stag Hunt ist ein Beispiel für ein Koordinationsspiel (Coordination Game).
PS: IV-47 Interaction
c LETTMANN 2007-2011
Bemerkungen:
❑
y wählt c y wählt d
x wählt c
A|a
C|c
x wählt d
B|b
D|d
Ein Koordinationsspiel liegt vor, wenn die Nash Equilibria in Profilen mit gleicher
Strategieauswahl liegen. Für die angegebene Payoff-Matrix muss also A > B und D > C
für Spieler x sowie a > c und d > b für Spieler y gelten.
❑ Für reine Koordinationsspiele muss zusätzlich gelten B = C = 0 = c = d.
❑ In Anti-Koordinationsspielen für zwei Personen liegen die Nash Equilibria in den Feldern mit
verschiedener Strategiewahl.
PS: IV-48 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Stag Hunt
(Fortsetzung)
Zusammenfassung der Situation in einer Payoff Matrix:
y wählt c y wählt d
x wählt c
3|3
0|2
x wählt d
2|0
2|2
Daraus ergeben sich die folgenden Präferenzen:
utility x (c, c) > utility x (d, c) ≥ utility x (d, d) > utility x(c, d)
utility y (c, c) > utility y (c, d) ≥ utility y (d, d) > utility y (d, c)
Stag Hunt hat zwei Nash-Equilibria in den Feldern mit gleicher Strategiewahl, also
der oberen linken (c, c) und der unteren rechten Zelle (d, d) der Payoff Matrix.
PS: IV-49 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Stag Hunt: Allgemeine Form
Payoff Matrix:
y wählt c y wählt d
x wählt c R | R S | T
x wählt d T | S P | P
Für eine Stag Hunt Situation müssen folgende Bedingung gelten
R>T
R>P
P >S
Da kein Wissen über die Vorlieben des Gegeners vorhanden ist, müssen seine
beiden Strategien als gleichwahrscheinlich angesehen werden. Daher sollte man d
wählen, wenn folgende Bedingung gilt:
T +P >R+S
Man nennt (d, d) risikodominantes Nash Gleichgewicht und (c, c)
payoff-dominantes Nash Gleichgewicht.
PS: IV-50 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Game of Chicken: Verschiedene Nash-Gleichgewichte
Zwei Männer fahren mit dem Auto mit hoher Geschwindigkeit in einem
Kollisionskurs aufeinander zu. Einer der beiden muss ausweichen, sonst sterben
beide bei dem Zusammenstoß. Der Fahrer, der zuerst ausweicht, während der
andere auf Kurs bleibt, wird als Feigling verlacht.
Wenn der eine Spieler glaubt, dass der andere mutiger ist, dann wird er
ausweichen (c). Wenn der eine Spieler glaubt, dass der andere weniger mutig ist,
dann wird er auf Kurs bleiben (d).
Der schlechteste Fall ist also, dass beide Spieler glauben, dass der jeweils andere
weniger mutig ist.
Game of Chicken (auch Hawk-Dove Game) ist ein Beispiel für ein Anti-Koordinationsspiel
(Anti-Coordination Game).
PS: IV-51 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Game of Chicken
(Fortsetzung)
Zusammenfassung der Situation in einer Payoff Matrix:
y wählt c y wählt d
x wählt c
2|2
1|3
x wählt d
3|1
0|0
Daraus ergeben sich die folgenden Präferenzen:
utility x (d, c) > utility x (c, c) > utility x (c, d) > utility x(d, d)
utility y (c, d) > utility y (c, c) > utility y (d, c) > utility y (d, d)
Game of Chicken hat zwei Nash-Equilibria bei ungleicher Strategieauswahl, also
der oberen rechten (c, d) und der unteren linken Zelle (d, c) der Payoff Matrix.
Beiderseitige Nicht-Kooperation ist am meisten gefürchtet, während im
Gefangenendilemma der Sucker’s Payoff vermieden werden soll.
PS: IV-52 Interaction
c LETTMANN 2007-2011
Interaktion
Beispiel Game of Chicken: Allgemeine Form
Payoff Matrix:
y wählt c y wählt d
x wählt c R | R S | T
x wählt d T | S P | P
Für eine Game of Chicken Situation muss folgende Bedingung gelten
T >R>S>P
In der Literatur findet man in der Regel folgende Version:
Payoff Matrix:
y wählt Hawk y wählt Dove
x wählt Hawk
X | X
W | L
x wählt Dove
L | W
T | T
Für eine Hawk-Dove Situation muss folgende Bedingung gelten
W >T >L>X
PS: IV-53 Interaction
c LETTMANN 2007-2011
Interaktion
Symmetrische 2 × 2 Interaktionen
❑
2 Spieler, jeweils 2 mögliche Aktionen, symmetrisches Szenario
(d.h. für Spieler gleich, Payoff-Matrix des einen ist Transponierte der
Payoff-Matrix des anderen Spielers) und totale Ordnung der Payoffs.
❑
Allgemeine Payoff-Matrix
y wählt c y wählt d
x wählt c A | A
C|B
x wählt d B | C
D|D
➜ 4! = 24 mögliche Szenarien durch Anordnung von A, B, C, D.
PS: IV-54 Interaction
c LETTMANN 2007-2011
Interaktion
Symmetrische 2 × 2 Interaktionen
(Fortsetzung)
Besondere Szenarien
Nr.
1
2
4
13
14
23
24
Präferenzen
Koordination Kommentar
A>C>B>D
Kooperation dominiert
A>C>D>B
Kooperation dominiert
A>B>D>C
Stag Hunt
B>A>C>D
Game of Chicken
B>A>D>C
Prisoner’s Dilemma
D>B>A>C
Nicht-Kooperation dominiert
D>B>C>A
Nicht-Kooperation dominiert
PS: IV-55 Interaction
c LETTMANN 2007-2011
Kapitel PS: IV
IV. Interaktion in Multiagentensystemen
❑
Multiagentensysteme
❑
Interaktion
❑
Protokoll
❑
Auktion
❑
Verhandlung
PS: IV-56 Interaction
c LETTMANN 2007-2011
Bemerkungen:
❑ Dieses Kapitel orientiert sich an dem Buch „An Introduction to MultiAgent Systems“ von
Michael Wooldridge.
Lecture Slides
❑ Wooldridge folgt dabei den Ausführungen von J.S. Rosenschein und G. Zlotkin in ihrem
Buch „Rules of Encounter: Designing Conventions for Automated Negotiation among
Computers“ (MIT Press, 1994).
PS: IV-57 Interaction
c LETTMANN 2007-2011
Protokoll
Vereinbarungen zur Kooperation
❑
Voraussetzung:
Agenten handeln eigennützig.
❑
Wie können Agenten unter dieser Annahme Vereinbarungen zur
Kooperation treffen?
❑
Extremfall:
In Nullsummenspielen ist keine Vereinbarung zur Kooperation möglich.
PS: IV-58 Interaction
c LETTMANN 2007-2011
Protokoll
Vereinbarungen zur Kooperation
❑
Voraussetzung:
Agenten handeln eigennützig.
❑
Wie können Agenten unter dieser Annahme Vereinbarungen zur
Kooperation treffen?
❑
Extremfall:
In Nullsummenspielen ist keine Vereinbarung zur Kooperation möglich.
❑
Die meisten Szenarien bieten Möglichkeiten zur Vereinbarung von
Kooperation zu beiderseitigem Vorteil.
➜ Fähigkeiten zur Verhandlung und Argumentation sind wichtige Möglichkeiten
von Agenten für das Erreichen von Vereinbarungen.
PS: IV-59 Interaction
c LETTMANN 2007-2011
Protokoll
Protokolle und Strategien
❑
Verhandlungen folgen einem bestimmten Protokoll (Mechanismus).
❑
Das Protokoll definiert die Regeln einer Begegnung (Rules of Encounter)
zwischen Agenten.
❑
Die Protokolle werden so gestaltet, dass sie bestimmte wünschenswerte
Eigenschaften haben.
➜ Es sei ein bestimmtes Protokoll gegeben.
Wie kann eine passende Strategie gestaltet werden, die der Agent zur
Verhandlung nutzen kann?
PS: IV-60 Interaction
c LETTMANN 2007-2011
Protokoll
Eigenschaften
❑
Konvergenz / garantierter Erfolg
Eine Verhandlung sollte zu einer Einigung führen.
❑
(Individuelle) Rationalität
Es sollte im Interesse der Agenten sein, sich an Verhandlungen zu
beteiligen (kein negativer Payoff).
❑
Maximierung des Gesamtnutzen (Social Welfare)
Das Ergebnis sollte die Nutzensumme der Verhandlungspartner
maximieren.
❑
(Pareto-) Effizienz
Die Ergebnisse sollten (zumindest) Pareto-optimal sein.
❑
Stabilität
Agenten sollten keinen Anreiz haben, von einer bestimmten Strategie
abzuweichen (Nash-Gleichgewicht).
PS: IV-61 Interaction
c LETTMANN 2007-2011
Verhandlung
Eigenschaften
❑
Konvergenz / garantierter Erfolg
Eine Verhandlung sollte zu einer Einigung führen.
❑
(Individuelle) Rationalität
Es sollte im Interesse der Agenten sein, sich an Verhandlungen zu
beteiligen (kein negativer Payoff).
❑
Maximierung des Gesamtnutzen (Social Welfare)
Das Ergebnis sollte die Nutzensumme der Verhandlungspartner
maximieren.
❑
(Pareto-) Effizienz
Die Ergebnisse sollten (zumindest) Pareto-optimal sein.
❑
Stabilität
Agenten sollten keinen Anreiz haben, von einer bestimmten Strategie
abzuweichen (Nash-Gleichgewicht).
PS: IV-62 Interaction
c LETTMANN 2007-2011
Protokoll
Eigenschaften
(Fortsetzung)
❑
Fairness
Die Ergebnisse sollten geeignete Fairness-Bedingungen erfüllen
(Gleichbehandlung, kein Neid).
❑
Symmetrie
Kein Agent sollte von vornherein einen Nachteil haben.
❑
Einfachheit
Eine passende Strategie sollte einfach zu ermitteln sein. Die Belastung
durch Rechenzeit und Kommunikation sollte klein sein.
❑
Verteilung (Robustheit)
Protokolle sollten keinen „Single Point of Failure“ aufweisen, z.B. nur einen
einzelnen Schiedsrichter, also tolerant gegenüber dem Ausfall einzelner
Agenten sein.
❑
Verifizierbarkeit
Es sollte nachprüfbar sein, dass die Agenten die Regeln von Verhandlungen
befolgen.
PS: IV-63 Interaction
c LETTMANN 2007-2011
Verhandlung
Eigenschaften
(Fortsetzung)
❑
Fairness
Die Ergebnisse sollten geeignete Fairness-Bedingungen erfüllen
(Gleichbehandlung, kein Neid).
❑
Symmetrie
Kein Agent sollte von vornherein einen Nachteil haben.
❑
Einfachheit
Eine passende Strategie sollte einfach zu ermitteln sein. Die Belastung
durch Rechenzeit und Kommunikation sollte klein sein.
❑
Verteilung (Robustheit)
Protokolle sollten keinen „Single Point of Failure“ aufweisen, z.B. nur einen
einzelnen Schiedsrichter, also tolerant gegenüber dem Ausfall einzelner
Agenten sein.
❑
Verifizierbarkeit
Es sollte nachprüfbar sein, dass die Agenten die Regeln von Verhandlungen
befolgen.
PS: IV-64 Interaction
c LETTMANN 2007-2011
Auktion
Szenario
❑
Eine Auktion findet statt mit einem Agenten als Auktionator (Verkäufer) und
eine Reihe von Agenten als Bietern (Käufer).
❑
Das Ziel der Auktion ist aus Sicht des Auktionators die Zuordnung einer
Ware zu einem der Bieter.
❑
In den meisten Szenarien versucht der Auktionator den Preis zu
maximieren, während die Bieter den Preis minimieren wollen.
➜ sehr einfache Form der Interaktion
PS: IV-65 Interaction
c LETTMANN 2007-2011
Auktion
Szenario
❑
Eine Auktion findet statt mit einem Agenten als Auktionator (Verkäufer) und
eine Reihe von Agenten als Bietern (Käufer).
❑
Das Ziel der Auktion ist aus Sicht des Auktionators die Zuordnung einer
Ware zu einem der Bieter.
❑
In den meisten Szenarien versucht der Auktionator den Preis zu
maximieren, während die Bieter den Preis minimieren wollen.
➜ sehr einfache Form der Interaktion
Parameter einer Auktion:
❑
Ware: privater Wert, bekannter Wert, korrelierter Wert
❑
Festlegung des Preises: erster Preis (first price), zweiter Preis (second
price), n-ter Preis
❑
Gebotsabgabe: offene Gebote (open cry), geheime Abgabe (sealed bids)
❑
Bieten: Einzelgebote (One-Shot Auction), ansteigend (ascending),
absteigend (descending)
PS: IV-66 Interaction
c LETTMANN 2007-2011
Bemerkungen:
❑ Weitere Charakteristika von Auktionen:
– einseitig/zweiseitig: Auktion, Ausschreibung vs. Börse
–
PS: IV-67 Interaction
c LETTMANN 2007-2011
Auktion
Nachteile
❑
Absprachen der Bieter
Die Bieter einigen sich zuvor auf eine Zusammenarbeit. Sie plazieren im
Vergleich zum Wert der Ware zu niedrige Gebote und teilen den erzielten
Gewinn.
Abhilfe: Bieter bleiben anonym, kennen sich nicht. Aber diese Lösung
widerspricht der Idee des Open Cry.
❑
Lügen des Auktionators
Der Auktionator kann über Vorliegen (Shills) oder Höhe konkurrierender
Gebote die Unwahrheit sagen und so den erzielten Preis in die Höhe treiben.
Abhilfe: Verwendung geeigneter Auktionsformen, (digitale) Signierung von
Geboten zur Verifikation.
PS: IV-68 Interaction
c LETTMANN 2007-2011
Auktion
Englische Auktion: open cry, first price, ascending
❑
Der Auktionator startet mit einem Mindestgebot für die Ware. Wenn niemand
zu diesem Preis bietet, wird die Ware zu diesem Preis dem Auktionator
zugeschlagen. Gebote der Agenten müssen höher sein als das bisher
höchste Gebot. Wenn niemand mehr bietet, erfolgt der Zuschlag an den
Höchstbietenden zu dessen Gebotspreis.
❑
Eine dominante Strategie für einen Agenten ist es, einen kleinen Betrag
über dem bisher höchsten Gebot zu bieten, bis der geschätzte Wert erreicht
ist, und sich dann von der Auktion zurückzuziehen.
❑
Englische Auktionen sind gut für Käufer (Einsparung gegen Wert).
PS: IV-69 Interaction
c LETTMANN 2007-2011
Auktion
Englische Auktion: open cry, first price, ascending
❑
Der Auktionator startet mit einem Mindestgebot für die Ware. Wenn niemand
zu diesem Preis bietet, wird die Ware zu diesem Preis dem Auktionator
zugeschlagen. Gebote der Agenten müssen höher sein als das bisher
höchste Gebot. Wenn niemand mehr bietet, erfolgt der Zuschlag an den
Höchstbietenden zu dessen Gebotspreis.
❑
Eine dominante Strategie für einen Agenten ist es, einen kleinen Betrag
über dem bisher höchsten Gebot zu bieten, bis der geschätzte Wert erreicht
ist, und sich dann von der Auktion zurückzuziehen.
❑
Englische Auktionen sind gut für Käufer (Einsparung gegen Wert).
Nachteile:
❑
Fluch des Gewinners (Winner’s Curse):
Soll der Gewinner sich freuen, weil er die Ware zu einem günstigeren Preis
bekommen hat als die eigene Einschätzung oder sollte er bekümmert sein,
weil kein anderer Agent die Ware so hoch bewertet hat wie er selbst?
❑
Bieter können Absprachen treffen, der Auktionator kann durch Lockvögel
(Shills) den Preis hochtreiben.
PS: IV-70 Interaction
c LETTMANN 2007-2011
Auktion
Holländische Auktion: open cry, first price, descending
❑
Der Auktionator startet mit einem unrealistisch hohen Gebot für die Ware.
Wenn niemand zu diesem Preis bietet, bietet der Auktionator die Ware zu
einem niedrigeren Gebotspreis an, bis ein Agent das Gebot akzeptiert. Der
Zuschlag an den Bieter zu dessen Gebotspreis. Werden keine Gebote
abgegeben, verbleibt die Ware beim Auktionator zum zuletzt genannten
Preis.
❑
Intuitive Strategie: Wenn der (für den Bieter) wirkliche Wert erreicht wird,
warte etwas und biete dann. Im allgemeinen gibt keine dominante Strategie.
❑
Holländische Auktionen sind gut für Verkäufer (höchstes erzielbares Gebot).
PS: IV-71 Interaction
c LETTMANN 2007-2011
Auktion
Holländische Auktion: open cry, first price, descending
❑
Der Auktionator startet mit einem unrealistisch hohen Gebot für die Ware.
Wenn niemand zu diesem Preis bietet, bietet der Auktionator die Ware zu
einem niedrigeren Gebotspreis an, bis ein Agent das Gebot akzeptiert. Der
Zuschlag an den Bieter zu dessen Gebotspreis. Werden keine Gebote
abgegeben, verbleibt die Ware beim Auktionator zum zuletzt genannten
Preis.
❑
Intuitive Strategie: Wenn der (für den Bieter) wirkliche Wert erreicht wird,
warte etwas und biete dann. Im allgemeinen gibt keine dominante Strategie.
❑
Holländische Auktionen sind gut für Verkäufer (höchstes erzielbares Gebot).
Nachteile:
❑
Fluch des Gewinners
❑
Bieter können Absprachen treffen.
PS: IV-72 Interaction
c LETTMANN 2007-2011
Auktion
First-Price Sealed-Bid: sealed bids, first-price, one-shot
❑
Die Bieter geben ihre Angebote so ab, dass der Auktionator sie lesen kann,
aber keiner der Mitbieter. Der Auktionator vergleicht die Gebote und erteilt
den Zuschlag dem Bieter mit dem höchsten Gebot zu dessen Preis.
❑
Beste Strategie ist es, etwas weniger zu bieten als der Wert der Ware ist. Es
gibt keine allgemeine Methode, um festzustellen, wieviel weniger man bieten
sollte.
PS: IV-73 Interaction
c LETTMANN 2007-2011
Auktion
First-Price Sealed-Bid: sealed bids, first-price, one-shot
❑
Die Bieter geben ihre Angebote so ab, dass der Auktionator sie lesen kann,
aber keiner der Mitbieter. Der Auktionator vergleicht die Gebote und erteilt
den Zuschlag dem Bieter mit dem höchsten Gebot zu dessen Preis.
❑
Beste Strategie ist es, etwas weniger zu bieten als der Wert der Ware ist. Es
gibt keine allgemeine Methode, um festzustellen, wieviel weniger man bieten
sollte.
Nachteile:
❑
Bieter versuchen niedriger zu bieten als der tatsächliche Wert der Ware: es
genügt, nur wenig über dem zweithöchsten Gebot zu liegen.
❑
Absprachen auf Seiten der Bieter.
PS: IV-74 Interaction
c LETTMANN 2007-2011
Auktion
Vickrey Auktion: sealed bids, second price, one shot
❑
Die Bieter geben ihre Angebote so ab, dass der Auktionator sie lesen kann,
aber keiner der Mitbieter. Der Auktionator vergleicht die Gebote und erteilt
den Zuschlag dem Bieter mit dem höchsten Gebot, aber er zahlt nur den
Preis des zweithöchsten Gebotes.
❑
Wenn der Wert der Ware nicht bekannt ist, ist die dominante Strategie die,
den Preis der eigenen Bewertung für die Ware zu bieten.
PS: IV-75 Interaction
c LETTMANN 2007-2011
Auktion
Vickrey Auktion: sealed bids, second price, one shot
❑
Die Bieter geben ihre Angebote so ab, dass der Auktionator sie lesen kann,
aber keiner der Mitbieter. Der Auktionator vergleicht die Gebote und erteilt
den Zuschlag dem Bieter mit dem höchsten Gebot, aber er zahlt nur den
Preis des zweithöchsten Gebotes.
❑
Wenn der Wert der Ware nicht bekannt ist, ist die dominante Strategie die,
den Preis der eigenen Bewertung für die Ware zu bieten.
Nachteile:
❑
Unintuitiver Ablauf, nicht einfach verständlich.
❑
Absprachen auf Seiten der Bieter und Lügen auf Seiten des Auktionators.
PS: IV-76 Interaction
c LETTMANN 2007-2011
Auktion
Ergebnisse für Güter mit privaten Werten
Alle vier Typen von Auktionen führen zu Pareto-optimalen Ergebnissen, wenn sich
Bieter rational verhalten und weder Bieter noch Auktionator betrügen.
❑
Bieter x erhält Zuschlag zum Preis p.
❑
Höhere Zahlung als p stellt Auktionator besser, aber Bieter schlechter.
❑
Niedrigere Zahlung als p stellt Bieter besser, aber Auktionator schlechter.
❑
Zuschlag an anderen Bieter y stellt y besser, aber x schlechter.
PS: IV-77 Interaction
c LETTMANN 2007-2011
Auktion
Ergebnisse für Güter mit privaten Werten
(Fortsetzung)
Bieter-Verhalten
❑
Ein Agent verhält sich risikoneutral, wenn er ein Gebot wählt, dass seinen
erwarteten Nutzen maximiert.
❑
Ein Agent verhält sich risikoavers, wenn er bereit ist, ein höheres Gebot zu
machen, um seine Chance auf den Gewinn der Auktion zu erhöhen, und
eine durch die höhere Zahlung bewirkte Reduzierung seines erwarteten
Nutzens in Kauf nimmt.
PS: IV-78 Interaction
c LETTMANN 2007-2011
Auktion
Ergebnisse für Güter mit privaten Werten
(Fortsetzung)
Bieter-Verhalten
❑
Ein Agent verhält sich risikoneutral, wenn er ein Gebot wählt, dass seinen
erwarteten Nutzen maximiert.
❑
Ein Agent verhält sich risikoavers, wenn er bereit ist, ein höheres Gebot zu
machen, um seine Chance auf den Gewinn der Auktion zu erhöhen, und
eine durch die höhere Zahlung bewirkte Reduzierung seines erwarteten
Nutzens in Kauf nimmt.
Erlöse des Auktionators:
❑
Bei risikoneutralen Bietern kann der Auktionator bei allen vier Auktionstypen
den gleichen Erlös erwarten.
❑
Bei risikoaversen Bietern sollte der Auktionator eine Holländische Auktion
oder eine First-Price Sealed-Bid Auktion wählen.
❑
Ein risikoaverser Auktionator sollte eine Vickrey Auktion oder eine Englische
Auktion wählen.
PS: IV-79 Interaction
c LETTMANN 2007-2011
Kapitel PS: IV
IV. Interaktion in Multiagentensystemen
❑
Multiagentensysteme
❑
Interaktion
❑
Protokoll
❑
Auktion
❑
Verhandlung
PS: IV-80 Interaction
c LETTMANN 2007-2011
Verhandlung
Informelle Definition
Unter einer Verhandlung (Negotiation) in einem Multiagentensystem versteht man
den Prozess der Suche von Agenten nach einer gemeinsamen Übereinkunft oder
Abmachung.
PS: IV-81 Interaction
c LETTMANN 2007-2011
Verhandlung
Informelle Definition
Unter einer Verhandlung (Negotiation) in einem Multiagentensystem versteht man
den Prozess der Suche von Agenten nach einer gemeinsamen Übereinkunft oder
Abmachung.
Der Rahmen einer Verhandlung (zwischen Agenten mit Nutzenfunktionen) ist durch folgende
Komponenten festgelegt:
❑ Verhandlungsmenge
Die Verhandlungsmenge ist die Menge aller möglichen Abmachungen, die die Agenten
vorschlagen können.
❑ Verhandlungsprotokoll (Regeln für die Verhandlung)
Das Verhandlungsprotokoll legt fest, welche Vorschläge für einen Agenten als nächstes
möglich sind unter Berücksichtigung des bisherigen Verlaufs der Verhandlung.
❑ Strategiemenge
Jede Strategie legt eine regelkonforme individuelle Vorgehensweise eines einzelnen
Agenten zum Erreichen seines besten Payoff fest. Strategien sind in der Regel privat, also
den jeweiligen Verhandlungspartnern eines Agenten nicht bekannt.
❑ Abschlussregel
Die Abschlussregel legt fest, ob/wann ein Abschluss zustande gekommen ist und wie
dieser Abschluss aussieht.
PS: IV-82 Interaction
c LETTMANN 2007-2011
Verhandlung
Ursachen der Komplexität
❑
Anzahl der Verhandlungsgegenstände:
einzelne: z.B. Rabatt beim Verkauf einer Ware
mehrere: z.B. Preis und Ausstattung beim Neuwagenkauf
➜ Was stellt ein Zugeständnis eines Agenten dar?
❑
Anzahl der Verhandlungspartner:
One-to-one: Zwei Agenten verhandeln miteinander (bilateral).
Many-to-one: Ein Agent verhandelt mit mehreren anderen (z.B. Auktion).
Many-to-many: Viele Agent verhandeln gleichzeitig miteinander (verteilt und
multilateral).
➜ Wie geht man mit einer großen Anzahl gleichzeitiger Verhandlungen um?
➜ Wir betrachten nur den einfachen Fall:
ein Verhandlungsgegenstand, zwei Agenten
PS: IV-83 Interaction
c LETTMANN 2007-2011
Verhandlung
Einsatzbereiche
❑
Aufgabenorientierte Bereiche (Task Oriented Domains)
Agenten erhalten Aufgaben, die sie zu erledigen haben.
➜ Neuverteilung der Aufgaben (Task Redistribution)
❑
Zustandsorientierte Bereiche (State Oriented Domains)
Agenten erhalten Ziele (Teilbeschreibungen von Zuständen), die erreicht
werden müssen.
➜ Erstellen gemeinsamer Pläne und Koordinierung der Abläufe
(Joint Plans and Schedules)
❑
Wertorientierte Bereiche (Worth Oriented Domains)
Eine Funktion bewertet zusätzlich die Akzeptierbarkeit von Zuständen.
➜ Joint Plans, Schedules, Goal Relaxation
PS: IV-84 Interaction
c LETTMANN 2007-2011
Verhandlung
Formalisierung Task Oriented Domain
Ein Task Oriented Domain wird beschrieben durch folgende Komponenten:
❑
eine Menge von Agenten, hier nur Agent x und Agent y ,
❑
eine endliche Menge T von Aufgaben,
❑
eine Funktion cost : P(T ) → R zur Beschreibung der Kosten für Erledigung
einer Menge von Aufgaben durch einen Agenten.
Eine Begegnung (Encounter, Partie, Spiel,...) wird beschrieben durch die den
Agenten zugeordneten Aufgabenmengen (Tx , Ty ) aus T . Ziel der Verhandlungen
ist eine bessere Verteilung der Aufgaben.
Die Verhandlungsmenge enthält Vorschläge für eine Aufgabenteilung, die Deals.
Für einen Deal (Dx, Dy ) ist utility x(Dx, Dy ) = cost (Tx ) − cost (Dx) (analog für y).
PS: IV-85 Interaction
c LETTMANN 2007-2011
Bemerkungen:
utility x (Dx, Dy ) = cost (Tx) − cost (Dx) läßt sich die
Pareto-Optimalität von Deals definieren, ebenso wie Dominierung für einzelne Agenten und
Dominanzgleichgewichte für Deals und natürlich Nash-Gleichgewichte. Anstelle der
individuellen Nutzenfunktionen verwenden wir für Nash-Gleichgewichte hier das
Nutzenprodukt, da dadurch eine ungefähre Gleichverteilung des Nutzens auf die beteiligten
Agenten bewirkt wird.
❑ Mit Hilfe der Nutzenfunktion
❑ Vollständige Information
Falls die Kosten cost (D) für D ⊂ T für beide Agenten gleich sind, verfügen die Agenten
über vollständige Information: Sie können nicht nur den eigenen Nutzen eines Vorschlages
berechnen, sondern auch den Nutzen des Verhandlungspartners. Dazu müssen die
Agenten aber wissen, dass die Kostenfunktionen gleich sind. Mit anderen Worten:
Vollständige Information liegt vor, wenn jeder der Agenten nicht nur die eigene, sondern
auch die Nutzenfunktion des Verhandlungspartners kennt.
❑ Das nachfolgend vorgestellte Monotonic Concession Protocol setzt vollständige Information
beider Agenten voraus.
PS: IV-86 Interaction
c LETTMANN 2007-2011
Verhandlung
Einfaches bilaterales Verhandlungsprotokoll
1. Beide Agenten wählen jeweils einen Deal.
2. Die Agenten schlagen ihrem Verhandlungspartner jeweils den gewählten
Deal vor.
3. Wenn eine Übereinkunft erzielt worden ist, werden die Verhandlungen
beendet, Ergebnis ist dieser Deal.
4. Wenn keine Übereinkunft erzielt worden ist, entscheidet jeder Agent,
entweder ein kleines Zugeständnis zu machen oder bei seinem Vorschlag
zu bleiben. Weiter mit Schritt 2.
5. Wenn keiner der Agenten ein Zugeständnis macht oder eine
Abbruchbedingung eintritt, werden die Verhandlungen beendet.
Es bleibt bei der anfänglichen Aufgabenverteilung.
➜ Grundidee des „Monotonic Concession Protocol“
PS: IV-87 Interaction
c LETTMANN 2007-2011
Verhandlung
Formalisierung Task Oriented Domain
Es sei die Begegnung (Tx , Ty ) gegeben.
❑
Die Agenten schlagen nur Deals vor mit nicht-negativem Payoff für beide
Agenten.
❑
Die ursprüngliche Aufgabenverteilung erhalten wir bei ergebnislosen
Verhandlungen. Man spricht vom Conflict Deal (Tx, Ty ).
Es gilt utility x (Tx , Ty ) = 0 und utility y (Tx , Ty ) = 0.
❑
Ein Deal ist für einen Agenten vernünftig, wenn er den Conflict Deal
schwach dominiert.
❑
Die Verhandlungsmenge enthält nur Deals, die für die Agenten vernünftig
sind und zusätzlich Pareto-optimal.
PS: IV-88 Interaction
c LETTMANN 2007-2011
Verhandlung
Verhandlungsmenge
Nutzen für
Agent x
Nutzen des
Conflict Deal
für Agent x
Pareto-optimale Deals
(Negotiation Set)
B
Individuell
rationale Deals
A
C
Mögliche Deals
Conflict Deal
D
Nutzen des
Conflict Deal
für Agent y
PS: IV-89 Interaction
Nutzen für
Agent y
c LETTMANN 2007-2011
Verhandlung
Monotonic Concession Protocol
❑
Das Protokoll läuft in Runden ab.
❑
In der ersten Runde wählt jeder der Agenten einen beliebigen Vorschlag aus
der Verhandlungsmenge.
❑
In jeder folgenden Runde hat jeder Agent zwei Möglichkeiten.
Beschreibung für Agent x: (Dxx, Dyx) Vorschlag von Agent x aus letzter Runde.
– Agent x macht ein Zugeständnis,
schlägt also (Dxx , Dyx) mit utility y (Dxx , Dyx) > utility y (Dxx, Dyx) und
utility x (Dxx, Dyx ) ≥ 0 vor.
– Agent x macht kein Zugeständnis, schlägt also (Dxx, Dyx ) := (Dxx, Dyx) vor.
❑
Eine Übereinkunft (Agreement) ist erreicht, wenn ein Agent einen Vorschlag
macht, der für den anderen mindestens so gut ist wie der eigene Vorschlag,
also
utility y (Dxx , Dyx) ≥ utility y (Dxy , Dyy ) oder utility x(Dxy , Dyy ) ≥ utility x(Dxx , Dyx)
❑
Ein Konflikt entsteht, wenn kein Agent in einer Runde ein Zugeständnis
macht. Der Conflict Deal ist dann das Ergebnis.
PS: IV-90 Interaction
c LETTMANN 2007-2011
Verhandlung
Monotonic Concession Protocol
❑
Das Protokoll läuft in Runden ab.
❑
In der ersten Runde wählt jeder der Agenten einen beliebigen Vorschlag aus
der Verhandlungsmenge.
❑
In jeder folgenden Runde hat jeder Agent zwei Möglichkeiten.
Beschreibung für Agent x: (Dxx, Dyx) Vorschlag von Agent x aus letzter Runde.
– Agent x macht ein Zugeständnis,
schlägt also (Dxx , Dyx) mit utility y (Dxx , Dyx) > utility y (Dxx, Dyx) und
utility x (Dxx, Dyx ) ≥ 0 vor.
– Agent x macht kein Zugeständnis, schlägt also (Dxx, Dyx ) := (Dxx, Dyx) vor.
❑
Eine Übereinkunft (Agreement) ist erreicht, wenn ein Agent einen Vorschlag
macht, der für den anderen mindestens so gut ist wie der eigene Vorschlag,
also
utility y (Dxx , Dyx) ≥ utility y (Dxy , Dyy ) oder utility x(Dxy , Dyy ) ≥ utility x(Dxx , Dyx)
❑
Ein Konflikt entsteht, wenn kein Agent in einer Runde ein Zugeständnis
macht. Der Conflict Deal ist dann das Ergebnis.
PS: IV-91 Interaction
c LETTMANN 2007-2011
Verhandlung
Monotonic Concession Protocol
❑
Das Protokoll läuft in Runden ab.
❑
In der ersten Runde wählt jeder der Agenten einen beliebigen Vorschlag aus
der Verhandlungsmenge.
❑
In jeder folgenden Runde hat jeder Agent zwei Möglichkeiten.
Beschreibung für Agent x: (Dxx, Dyx) Vorschlag von Agent x aus letzter Runde.
– Agent x macht ein Zugeständnis,
schlägt also (Dxx , Dyx) mit utility y (Dxx , Dyx) > utility y (Dxx, Dyx) und
utility x (Dxx, Dyx ) ≥ 0 vor.
– Agent x macht kein Zugeständnis, schlägt also (Dxx, Dyx ) := (Dxx, Dyx) vor.
❑
Eine Übereinkunft (Agreement) ist erreicht, wenn ein Agent einen Vorschlag
macht, der für den anderen mindestens so gut ist wie der eigene Vorschlag,
also
utility y (Dxx , Dyx) ≥ utility y (Dxy , Dyy ) oder utility x(Dxy , Dyy ) ≥ utility x(Dxx , Dyx)
❑
Ein Konflikt entsteht, wenn kein Agent in einer Runde ein Zugeständnis
macht. Der Conflict Deal ist dann das Ergebnis.
PS: IV-92 Interaction
c LETTMANN 2007-2011
Bemerkungen:
❑ Tie Breaking
Falls beide Agenten Vorschläge machen, die für den jeweils anderen akzeptabel sind, also
utility y (Dxx, Dyx ) ≥ utility y (Dxy , Dyy ) und utility x (Dxy , Dyy ) ≥ utility x (Dxx, Dyx)
dann entscheiden sich die Agenten für den Deal mit dem größeren Nutzenprodukt
utility x (Dx, Dy ) · utility y (Dx , Dy ).
Falls das Nutzenprodukt für beide Vorschläge gleich ist, wird zufällig entschieden.
PS: IV-93 Interaction
c LETTMANN 2007-2011
Verhandlung
Eigenschaften des Monotonic Concession Protocol
❑
Konvergenz
Das Protokoll terminiert, da die Verhandlungsmenge endlich ist.
❑
Rationalität
Wenn die Verhandlungsmenge nur Deals mit nicht-negativem Nutzen
enthält, ist Bedingung der Rationalität sofort erfüllt.
❑
Verifizierbarkeit
Es ist für jeden Agenten einfach zu überprüfen, ob der andere Agent wirklich
ein Zugeständnis gemacht hat.
❑
Problem:
Um ein Zugeständnis machen zu können, muss man die Nutzenfunktion des
anderen Agenten kennen. (Typische Annahme in der Spieltheorie, nicht
unbedingt sinnvolle Annahme in Multiagentensystemen.)
❑
Problem:
Die Anzahl der durchzuführenden Runden kann groß sein, da die
Verhandlungsmenge die Größe O(2|T |) hat.
PS: IV-94 Interaction
c LETTMANN 2007-2011
Verhandlung
Strategie
Was ist eine gute Strategie für einen Agenten in Verhandlungen nach dem
Monotonic Concession Protocol?
❑
Wenn der Agent zu oft oder zu große Zugeständnisse macht, besteht die
Gefahr, dass er für sich selbst nicht das bestmögliche
Verhandlungsergebnis erreicht.
❑
Wenn der Agent zu selten oder zu kleine Zugeständnisse macht, besteht die
Gefahr des Scheiterns der Verhandlungen und Ergebnis ist der Conflict Deal
mit (Zusatz-)Nutzen 0 oder die Verhandlungen ziehen sich in die Länge.
➜ Runde für Runde:
Welcher Agent sollte ein Zugeständnis machen und wie groß sollte dies
sein?
PS: IV-95 Interaction
c LETTMANN 2007-2011
Verhandlung
Zeuthen Strategie
❑
Idee
Bestimme die Bereitschaft des Agenten, einen Konflikt zu riskieren.
Diese Bereitschaft ist hoch, wenn der eigene Nutzen im Vorschlag des
Gegners klein ist, und gering im entgegengesetzten Fall.
❑
Bewertungsfunktion von F. Zeuthen (für Agent x )
utility x (Dxx, Dyx) − utility x (Dxy , Dyy ) utility x (Dxx, Dyx) − utility x (Dxy , Dyy )
=
Zx =
utility x (Dxx, Dyx) − utility x (Tx , Ty )
utility x(Dxx, Dyx)
Sonderfall: Zx = 1 für utility x(Dxx, Dyx) = 0.
❑
Zeuthen Strategie
– Der Agent beginnt mit einem für ihn selbst besten Vorschlag aus der
Verhandlungsmenge.
– Wenn die eigene Bereitschaft zum Konflikt nicht größer ist als die des
Gegners, dann macht der Agent ein Zugeständnis, das gerade so groß
ist, das das Verhältnis sich umkehrt.
– Im umgekehrten Fall bleibt der Agent beim Vorschlag der letzten Runde.
PS: IV-96 Interaction
c LETTMANN 2007-2011
Verhandlung
Zeuthen Strategie
❑
Idee
Bestimme die Bereitschaft des Agenten, einen Konflikt zu riskieren.
Diese Bereitschaft ist hoch, wenn der eigene Nutzen im Vorschlag des
Gegners klein ist, und gering im entgegengesetzten Fall.
❑
Bewertungsfunktion von F. Zeuthen (für Agent x )
utility x (Dxx, Dyx) − utility x (Dxy , Dyy ) utility x (Dxx, Dyx) − utility x (Dxy , Dyy )
=
Zx =
utility x (Dxx, Dyx) − utility x (Tx , Ty )
utility x(Dxx, Dyx)
Sonderfall: Zx = 1 für utility x(Dxx, Dyx) = 0.
❑
Zeuthen Strategie
– Der Agent beginnt mit einem für ihn selbst besten Vorschlag aus der
Verhandlungsmenge.
– Wenn die eigene Bereitschaft zum Konflikt nicht größer ist als die des
Gegners, dann macht der Agent ein Zugeständnis, das gerade so groß
ist, das das Verhältnis sich umkehrt.
– Im umgekehrten Fall bleibt der Agent beim Vorschlag der letzten Runde.
PS: IV-97 Interaction
c LETTMANN 2007-2011
Verhandlung
Zeuthen Strategie
❑
Idee
Bestimme die Bereitschaft des Agenten, einen Konflikt zu riskieren.
Diese Bereitschaft ist hoch, wenn der eigene Nutzen im Vorschlag des
Gegners klein ist, und gering im entgegengesetzten Fall.
❑
Bewertungsfunktion von F. Zeuthen (für Agent x )
utility x (Dxx, Dyx) − utility x (Dxy , Dyy ) utility x (Dxx, Dyx) − utility x (Dxy , Dyy )
=
Zx =
utility x (Dxx, Dyx) − utility x (Tx , Ty )
utility x(Dxx, Dyx)
Sonderfall: Zx = 1 für utility x(Dxx, Dyx) = 0.
❑
Zeuthen Strategie
– Der Agent beginnt mit einem für ihn selbst besten Vorschlag aus der
Verhandlungsmenge.
– Wenn die eigene Bereitschaft zum Konflikt nicht größer ist als die des
Gegners, dann macht der Agent ein Zugeständnis, das gerade so groß
ist, das das Verhältnis sich umkehrt.
– Im umgekehrten Fall bleibt der Agent beim Vorschlag der letzten Runde.
PS: IV-98 Interaction
c LETTMANN 2007-2011
Verhandlung
Warum Zeuthen Strategie?
Zeuthen Strategie kann aus folgenden fundamentalen Axiomen abgeleitet werden (Harsanyi 1956)
❑ Symmetrie
Die beiden Agenten folgen derselben Strategie.
❑ Perfekte Information
Jeder Agent kann die Wahrscheinlichkeit, dass der andere einen Vorschlag zurückweisen
wird, korrekt schätzen.
❑ Monotonie
Die Wahrscheinlichkeit, dass ein Agent kein Zugeständnis macht, kann durch eine monoton
steigende (nicht unbedingt streng monoton steigende) Funktion in Abhängigkeit vom
Nutzenunterschied der Vorschläge beider Parteien für diesen Agenten (z.B. für Agent x
utility x (Dxx, Dyx ) − utility x(Dxy , Dyy )) bestimmt werden.
❑ Maximierung des erwarteten Nutzens
Jeder Agent macht ein Zugeständnis genau dann, wenn der erwartete Nutzen bei einem
Zugeständnis höher ist als bei Beharren auf dem letzten Vorschlag.
Satz 1
(Harsanyi 1956) Wenn beide Agenten die Zeuthen Strategie verwenden, dann maximiert das
Ergebnis (Dx, Dy ) das Nash-Produkt utility x(Dx , Dy ) · utility y (Dx , Dy ).
➜ Das Ergebnis von Verhandlungen nach dem Monotonic Concession Protocol bei
Anwendung der Zeuthen Strategie ist Pareto-optimal.
PS: IV-99 Interaction
c LETTMANN 2007-2011
Verhandlung
Warum Zeuthen Strategie?
(Fortsetzung)
❑
Die Zeuthen Strategie ist ein Nash-Gleichgewicht:
Wenn ein Agent die Zeuthen Strategie verwendet, dann kann der andere
nichts besseres tun, als ebenfalls die Zeuthen Strategie zu benutzen.
❑
Ein Nash-Gleichgewicht ist von besonderem Interesse für das Design von
Multiagentensystemen:
– Es besteht keine Notwendigkeit zur Geheimhaltung bei der
Programmierung.
– Die Strategie kann öffentlich bekannt sein, ohne dass andere Agenten
daraus einen Nutzen ziehen können, indem sie eine andere Strategie
wählen.
– Versehentliche Konflikte werden dadurch vermieden, dass die Strategien
bekannt sind.
PS: IV-100 Interaction
c LETTMANN 2007-2011
Bemerkungen:
❑ In der vorgestellten Form bildet die Auswahl der Zeuthen Strategie durch beide Agenten
noch keinen Gleichgewichtszustand, da ein Agent für den Fall der Risikogleichheit der
Vorschläge der vorletzten Runde entscheiden könnte, kein Zugeständnis zu machen, wenn
der andere die Zeuthen Strategie verfolgt.
Zlotkin und Rosenschein schlagen eine gemischte Strategie vor, bei der die Agenten mit
bestimmten Wahrscheinlichkeiten für diesen letzten Schritt entscheiden, ob sie ein
Zugeständnis machen oder nicht. Mit dieser “Last Step Equilibrium Strategy” für den letzten
Schritt angepasst ist die erweiterte erweiterte Zeuthen Strategie für beide Agenten ein
Gleichgewicht.
PS: IV-101 Interaction
c LETTMANN 2007-2011
Verhandlung
One-Shot-Verhandlungsprotokoll
❑
Protokoll
Beide Agenten schlagen einen Deal vor, der mit dem höheren
Nutzenprodukt wird als Vereinbarung genommen.
❑
Strategie
Aus der Verhandlungsmenge schlage eine Deal mit maximalem
Nutzenprodukt vor, der für den Agenten selbst am besten ist.
❑
Effizienz
Die Ergebnisse haben ein maximales Nash-Produkt und sind
Pareto-optimal.
❑
Stabilität
Kein Agent hat einen Anreiz, von der Strategie abzuweichen.
❑
Einfachheit
Es wird nur eine Runde benötigt.
PS: IV-102 Interaction
c LETTMANN 2007-2011
Verhandlung
Voting
Die Agenten stimmen über Vereinbarungen ab:
Jeder Agent gibt seine Stimme ab, ein Mechanismus bestimmt das Ergebnis, das
Ergebnis wird von den Agenten akzeptiert.
❑
Negotiation Set
Es sei O die Menge der möglichen Ergebnisse (Outcomes).
❑
Präferenz
Jeder Agent i hat eine eigene strenge, asymmetrische und transitive
Präferenzrelation i über O.
Der Mechanismus zur Bestimmung des Abstimmungsergebnisses nutzt eine
Präferenzrelation ∗ auf O, die auf den individuellen Präferenzen (1, . . . , n) der
Agenten basiert.
∗ hießt auch die soziale Präferenz (Social Preference).
PS: IV-103 Interaction
c LETTMANN 2007-2011
Verhandlung
Voting
Wünschenswerte Eigenschaften von ∗:
1. ∗ ist definiert für alle möglichen individuellen Präferenzen (1, . . . , n) der
Agenten.
2. ∗ ist definiert für alle o, o ∈ O,
d.h. o ∗ o oder o ∗ o gilt.
3. ∗ ist asymmetrisch und transitiv auf O.
4. ∗ beachtet das Pareto-Prinzip,
d.h. wenn für alle i gilt o i o, so gilt auch o ∗ o.
5. ∗ ist unabhängig von irrelevanten Alternativen,
d.h. für zwei individuelle Präferenzen (1, . . . , n) und (1, . . . , n) gilt:
wenn für alle i gilt o i o und o i o, so gilt (o ∗ o gdw. o∗ o).
6. Kein Agent ist Diktator,
d.h. es gibt kein i, so dass gilt: wenn o i o, dann o ∗ o.
PS: IV-104 Interaction
c LETTMANN 2007-2011
Verhandlung
Voting
Satz 2 (Arrow’s Impossibility Theorem)
Für mehr als zwei Outcomes gibt es keine soziale Präferenz ∗, die alle sechs
genannten Bedingungen erfüllt.
➜ Man muss bei der Festlegung eines Mechanismus auf Einhaltung mancher
Bedingungen verzichten!
PS: IV-105 Interaction
c LETTMANN 2007-2011
Verhandlung
Voting
❑
Simultane Mehrheitsentscheidung (Plurality Protocol)
Jeder Agent gibt stimmt für seinen Favoriten. Die Alternative o mit den
meisten Stimmen gewinnt.
Problem: Irrelevante Alternativen können das Ergebnis ändern
(Stimmen-Splitting).
❑
Paarweiser Mehrheitsvergleich (Binary Protocol)
Es werden nacheinander Paare von Ergebnissen o, o verglichen, der
Verlierer scheidet aus.
Problem: Irrelevante Alternativen können das Ergebnis ändern. Die
Reihenfolge der Vergleiche beeinflusst das Ergebnis.
❑
Borda-Protokoll
Punkte-Zuteilungen gemäß i, d.h. |O| − k Punkte für Position k in
Anordnung durch i, Reihenfolge gemäß Gesamtpunktzahl.
Problem: Irrelevante Alternativen können das Ergebnis ändern.
PS: IV-106 Interaction
c LETTMANN 2007-2011
Verhandlung
Voting
Beispiel zum Plurality Protocol
❑
Ausgangssituation mit Ergebnissen a und b:
55% der Agenten hat Präferenz a b
45% der Agenten hat Präferenz b a
➜ Plurality Protocol legt a als Ergebnis fest.
❑
Einführung von zusätzlichem (irrelevantem) Ergebnis c:
40% der Agenten hat Präferenz a c b
15% der Agenten hat Präferenz c a b
45% der Agenten hat Präferenz b a
➜ Plurality Protocol legt b als Ergebnis fest, obwohl die Mehrheit a stärker
präferiert als b.
PS: IV-107 Interaction
c LETTMANN 2007-2011
Verhandlung
Voting
Beispiel zum Binary Protocol
Ausgangssituation mit Ergebnissen a, b, c und d:
35% der Agenten hat Präferenz c d b a
33% der Agenten hat Präferenz a c d b
32% der Agenten hat Präferenz b a c d
Mögliche Vergleichsreihenfolgen
b
a
b
d
d
a
c
a
c a b c c d c a
c
b
d
a
a
c d b d b d a b
c
a
b
b
a
c
c
c d a d b d d c
c
b
a
b
c d b d a d b d
➜ Binary Protocol legt manchmal sogar d als Ergebnis fest, obwohl alle c
stärker präferieren als d.
PS: IV-108 Interaction
c LETTMANN 2007-2011
Bemerkungen:
❑ Spielplan-Paradoxon:
Die Reihenfolge der Einzelvergleiche beeinflusst das Gesamtergebnis.
❑ Problem irrelevanter Alternativen:
Ohne Alternativen c und d fällt die Entscheidung für b, mit diesen Alternativen aber nicht
unbedingt.
❑ Pareto-dominierte Gewinner Paradoxon:
Eine für alle weniger favorisierte Alternative kann gewinnen.
PS: IV-109 Interaction
c LETTMANN 2007-2011
Verhandlung
Voting
Beispiel zum Borda Protocol
Agent
Präferenzen
1
abcd
2
bcda
3
cdab
4
abcd
5
bcda
6
cdab
7
abcd
Borda mit d c erhält 13, b erhält 12, a erhält 11, d erhält 6
Borda ohne d
a erhält 8, b erhält 7, c erhält 6
➜ Plurality Protocol legt im zweiten Fall a als Ergebnis fest, obwohl die
Mehrheit c stärkster präferiert als a.
PS: IV-110 Interaction
c LETTMANN 2007-2011
Bemerkungen:
❑ Die Positionen in den individuellen Präferenzen laufen von 1 bis |O|, die Punktzahlen also
von |O| − 1 bis 0.
PS: IV-111 Interaction
c LETTMANN 2007-2011
Verhandlung
Weitere Möglichkeiten
❑
Vertragsnetze (Contract Nets)
Agenten schließen Verträge, um eine anfängliche Verteilung einer
Aufgabenmenge zu verändern (O(ne)-Contract, C(luster)-Contract,
S(wap)-Contract, M(ulti-Agent)-Contract).
Es gibt Situationen, in denen kein globales Optimum durch eine Folge von
jeweils für die Agenten individuell nützlichen Verträgen erreicht werden
kann.
❑
Koalitionen
Agenten schließen sich Koalitionen an (→ disjunkte Aufteilung der
Agentenmenge), um Kosten zu reduzieren.
Bestimmung von Koalitionen, die globalen Nutzen optimieren, ist NP-hart.
Eigennützige Agenten schließen sich Koalitionenen an, wenn es ihnen nützt
(→ Payoff Division). Koalitionen zu bestimmen, in denen die Agenten keine
Möglichkeit mehr für höheren Payoff durch einen Wechsel haben, ist
NP-hart.
PS: IV-112 Interaction
c LETTMANN 2007-2011