Interaktion
Transcription
Interaktion
Kapitel PS: IV IV. Interaktion in Multiagentensystemen ❑ Multiagentensysteme ❑ Interaktion ❑ Protokoll ❑ Auktion ❑ Verhandlung PS: IV-1 Interaction c LETTMANN 2007-2011 Bemerkungen: ❑ Dieses Kapitel orientiert sich an: – Michael Wooldridge. An Introduction to MultiAgent Systems Kap. 6, 7 Lecture Slides PS: IV-2 Interaction c LETTMANN 2007-2011 Multiagentensysteme Adequacy Hypothesis: Agent-oriented approaches can significantly enhance our ability to model, design and build complex, distributed software systems. [Jennings, 2000] PS: IV-3 Interaction c LETTMANN 2007-2011 Multiagentensysteme Adequacy Hypothesis: Agent-oriented approaches can significantly enhance our ability to model, design and build complex, distributed software systems. [Jennings, 2000] Agentenorientierte Ansätze verwenden Systeme von mehreren (gleichartigen oder spezialisierten) Agenten, die die Problemstellung gemeinsam lösen. ➜ Multiagentensysteme Agenten interagieren nicht nur mit der Umgebung, sondern auch untereinander – vom Informationsaustausch über Aufforderungen zu bestimmten Handlungen für Kooperation oder Koordination bis zu Verhandlungen über ein Vorgehen. ➜ Interaktionen finden auf dem Knowledge Level statt. Interaktionen müssen flexibel sein: Entscheidungen zur Laufzeit über Interaktionen, Fähigkeit zu unvorhergesehenen Interaktionen. PS: IV-4 Interaction c LETTMANN 2007-2011 Multiagentensysteme Charakteristika und Herausforderungen [Sycara (1998)] Characteristics ❑ Incomplete information or capabilities (limited viewpoint). ❑ No system global control. ❑ Decentralized data. ❑ Asynchronous computation. Challenges 1. How to decompose problems and allocate tasks to individual agents? 2. How to coordinate agent control and communications? 3. How to make multiple agents act in a coherent manner? 4. How to make individual agents reason about other agents and the state of coordination? 5. How to reconcile conflicting goals between coordinating agents? 6. How to engineer practical multiagent systems? PS: IV-5 Interaction c LETTMANN 2007-2011 Multiagentensysteme Organisation (Jennings, 2000) Agent Environment PS: IV-6 Interaction Sichtbarkeitsbereich / Einflussbereich Team Interaktion Hierarchie c LETTMANN 2007-2011 Multiagentensysteme Zusammenfassung Multiagentensysteme enthalten eine Menge von Agenten mit folgenden Eigenschaften: ❑ Die Agenten sind fähig in einer Umgebung zu agieren. ❑ Die Agenten haben unterschiedliche Einflussbereiche. ❑ Die Agenten interagieren durch Kommunikation. ❑ Die Agenten sind durch weitere (organisatorische) Beziehungen verbunden. Ein formales Modell muss Agenten und Umgebung adäquat beschreiben. ❑ Die Agenten wählen gleichzeitig Aktionen, die sie ausführen wollen. ❑ Die Umgebung liefert ein Ergebnis, das auf der Kombination der Aktionen beruht. ❑ Annahme: Die Agenten handeln rational (und wissen, dass auch alle anderen Agenten rational handeln). PS: IV-7 Interaction c LETTMANN 2007-2011 Interaktion Formales Modell für Präferenzen ❑ Gegeben seien Agenten A1, . . . , An mit n ≥ 2. ❑ Die Umgebung wird beschrieben durch eine Menge S von Zuständen, die die Ergebnisse der Aktionen der Agenten beschreiben. Der initiale Zustand sei s0. S = {s0, s1, . . .} ❑ Jeder Agent Ai verfügt über eine Menge Ai von Aktionsmöglichkeiten, um mit der Umgebung zu interagieren. Ai = {ai,1, . . . , ai,mi } ❑ Die Veränderungen der Umgebung aufgrund der Aktionen der Agenten werden beschrieben durch die Zustandstransformation transition. PS: IV-8 Interaction c LETTMANN 2007-2011 Interaktion Formales Modell für Präferenzen ❑ (Fortsetzung) Die Agenten haben jeweils eigene Präferenzen und Ziele, wie die Umgebung aussehen soll. Die Präferenzen werden durch Nutzenfunktionen dargestellt: utility i : S → R ❑ Die Nutzenfunktionen induzieren Präferenzordnungen auf der Menge der Zustände, z.B. für Ai: s i s gdw. utility i(s) ≥ utility i(s ) s i s gdw. utility i(s) > utility i (s) s i s bedeutet, dass Ai Zustand s mindestens ebenso präferiert wie Zustand s . PS: IV-9 Interaction c LETTMANN 2007-2011 Interaktion Formales Modell für Präferenzen (Fortsetzung) Problemvereinfachung zur Untersuchung von kooperativem Verhalten: ❑ Nur eine Entscheidung der Agenten für ihre Aktion wird modelliert ausgehend vom Anfangszustand s0. ❑ Die Veränderungen der Umgebung aufgrund der Aktionen der Agenten werden beschrieben durch die Zustandstransformation transition. transition : S × A1 × . . . × An → S ❑ Für jeden Agenten kann eine Nutzenfunktionen über A1 × . . . × An definiert werden durch utility i(a1, . . . , an) := utility i (transition(s0, a1, . . . , an)). ❑ Wir betrachten nur zwei Agenten, die beide nur über die Aktionen c für cooperate und d für defect (= do not cooperate) verfügen, also A1 = A2 = {c, d}. PS: IV-10 Interaction c LETTMANN 2007-2011 Interaktion Nutzen ist nicht geldlicher Vorteil Utility Money (Trotzdem ist Geld eine brauchbare Analogie.) PS: IV-11 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Die Aktionen beider Agenten Ax und Ay beeinflussen die Umgebung, d.h. transition(s0 , c, c), transition(s0 , c, d), transition(s0, d, c), transition(s0 , d, d) sind paarweise verschieden. Seien weiter die folgenden Nutzen festgelegt: utility x (transition(s0, c, c)) = 4, utility x (transition(s0, c, d)) = 4, utility x(transition(s0, d, c)) = 1, utility x (transition(s0, d, d)) = 1, utility y (transition(s0, c, c)) = 4, utility y (transition(s0 , c, d)) = 1, utility y (transition(s0 , d, c)) = 4, utility y (transition(s0, d, d)) = 1. PS: IV-12 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Die Aktionen beider Agenten Ax und Ay beeinflussen die Umgebung, d.h. transition(s0 , c, c), transition(s0 , c, d), transition(s0, d, c), transition(s0 , d, d) sind paarweise verschieden. Seien weiter die folgenden Nutzen festgelegt: utility x (transition(s0, c, c)) = 4, utility x (transition(s0, c, d)) = 4, utility x(transition(s0, d, c)) = 1, utility x (transition(s0, d, d)) = 1, utility y (transition(s0, c, c)) = 4, utility y (transition(s0 , c, d)) = 1, utility y (transition(s0 , d, c)) = 4, utility y (transition(s0, d, d)) = 1. Damit sind die Präferenzen der Aktionen für die Agenten utility x (c, c) ≥ utility x(c, d) > utility x(d, c) ≥ utility x(d, d) utility y (c, c) ≥ utility y (d, c) > utility y (c, d) ≥ utility y (d, d) PS: IV-13 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Die Aktionen beider Agenten Ax und Ay beeinflussen die Umgebung, d.h. transition(s0 , c, c), transition(s0 , c, d), transition(s0, d, c), transition(s0 , d, d) sind paarweise verschieden. Seien weiter die folgenden Nutzen festgelegt: utility x (transition(s0, c, c)) = 4, utility x (transition(s0, c, d)) = 4, utility x(transition(s0, d, c)) = 1, utility x (transition(s0, d, d)) = 1, utility y (transition(s0, c, c)) = 4, utility y (transition(s0 , c, d)) = 1, utility y (transition(s0 , d, c)) = 4, utility y (transition(s0, d, d)) = 1. Damit sind die Präferenzen der Aktionen für die Agenten utility x (c, c) ≥ utility x(c, d) > utility x(d, c) ≥ utility x(d, d) utility y (c, c) ≥ utility y (d, c) > utility y (c, d) ≥ utility y (d, d) Zusammenfassung der Situation in einer Payoff Matrix: y wählt c y wählt d x wählt c 4|4 4|1 x wählt d 1|4 1|1 ➜ Welche Aktion ist für Ax sinnvoll und warum? PS: IV-14 Interaction c LETTMANN 2007-2011 Interaktion Einbettung in die Spieltheorie W D Max-Player W L Min-Player D W W D W L L D L W W L D W Max-Player D Min-Player L L W L W L W Max-Player Max-Strategy Min-Strategy } W = win L = loss D = draw Max-Player Sicht Eine reine Strategie si von Spieler i ist eine Festlegung der je nach Situation zu wählenden Aktion. Spiel in Normalform: Alle Spieler legen ihre Strategien zeitgleich und ohne Kenntnis der Wahl der anderen Spieler fest. (Im Prinzip besteht das Spiel also nur aus einem eigenen Zug und einem des Gegners, die zeitgleich ausgeführt werden, nämlich der Wahl der Strategie.) PS: IV-15 Interaction c LETTMANN 2007-2011 Bemerkungen: ❑ Eine Strategie ist ein mentales Konzept, das den verschiedenen Situationen Aktionen zuordnet. Eine Aktion hat reale Auswirkungen. ❑ Der Art der Auswahl einer Aktion durch den Agenten entspricht in der Spieltheorie die Auswertung einer festgelegten Strategie. PS: IV-16 Interaction c LETTMANN 2007-2011 Interaktion Formales Modell in der Spieltheorie ❑ n Spieler (n ≥ 2) spielen ein Spiel. ❑ Jeder Spieler i verfügt über eine endliche Menge von Strategien Sti . ❑ Eine Auswahl st = (st1, . . . , stn) von Strategien durch die Agenten bezeichnen wir als Strategieprofil. ❑ Ein Strategieprofil st bildet ein Gleichgewicht, wenn es aus den „besten“ Strategien der Spieler besteht. ❑ Vereinfachte Schreibweise: st(−i) bezeichnet das Tupel, in dem die i-te Komponente fehlt. (st, st(−i) ) ist das Tupel, das aus st(−i) durch Einfügen von st als i-te Komponente entsteht. PS: IV-17 Interaction c LETTMANN 2007-2011 Interaktion Dominante Strategien ❑ Für einen Agenten Ai wird eine Strategie sti durch eine Strategie sti streng dominiert, wenn für alle Strategieprofile st(−i) gilt utility i(sti, st(−i) ) > utility i(sti, st(−i) ). ❑ Für einen Agenten Ai wird eine Strategie sti streng dominiert, wenn sti durch eine Strategie sti streng dominiert wird. ❑ Für einen Agenten Ai ist eine Strategie sti streng dominant, wenn sti alle anderen Strategien von Ai streng dominiert. ❑ Es macht für einen rationalen Agenten keinen Sinn, eine streng dominierte Strategie zu verfolgen. c c 1,1 1,0 d 0,1 0,0 PS: IV-18 Interaction c d c d 1,1 1,0 d 0,1 0,0 c c d 1,1 1,0 d 0,1 0,0 c LETTMANN 2007-2011 Interaktion Dominante Strategien (Fortsetzung) ❑ Für einen Agenten Ai wird eine Strategie sti durch eine Strategie sti schwach dominiert, wenn für alle Strategieprofile st(−i) gilt utility i (sti, st(−i) ) ≥ utility i (sti , st(−i) ) und für ein Strategieprofile s(−i) sogar gilt utility i(sti , st(−i) ) > utility i (sti , st(−i) ). ❑ Für einen Agenten Ai wird eine Strategie sti Strategie sti schwach dominiert, wenn sti durch eine schwach dominiert wird. ❑ Für einen Agenten Ai ist eine Strategie sti Strategien von Ai schwach dominiert. schwach dominant, wenn sti alle anderen ❑ Es macht für einen rationalen Agenten keinen Sinn, eine schwach dominierte Strategie zu verfolgen. c c 1,1 0,0 d 0,0 0,0 PS: IV-19 Interaction c d c d 1,1 0,0 d 0,0 0,0 c c d 1,1 0,0 d 0,0 0,0 c LETTMANN 2007-2011 Interaktion Dominante Strategien ❑ Für einen Agenten Ai wird eine Strategie sti durch eine Strategie sti sehr schwach dominiert, wenn für alle Strategieprofile st(−i) gilt utility i(sti, st(−i)) ≥ utility i(sti, st(−i)). ❑ Für einen Agenten Ai wird eine Strategie sti sehr schwach dominiert, wenn sti durch eine Strategie sti sehr schwach dominiert wird. ❑ Für einen Agenten Ai ist eine Strategie sti sehr schwach dominant, wenn sti alle anderen Strategien von Ai sehr schwach dominiert. ❑ Es kann für einen rationalen Agenten Sinn machen, eine sehr schwach dominierte Strategie zu verfolgen. c c 0,1 0,0 d 0,0 0,0 PS: IV-20 Interaction c d c d 0,1 0,0 d 0,0 0,0 c c d 0,1 0,0 d 0,0 0,0 c LETTMANN 2007-2011 Interaktion Dominanzgleichgewicht ❑ Ein Strategieprofil st bildet ein strenges/schwaches/sehr schwaches Dominanz-Gleichgewicht, wenn für jeden Agenten Ai die Strategie sti streng/schwach/sehr schwach dominant ist. c c 1,1 1,0 d 0,1 0,0 ❑ c d c d 1,1 1,0 d 0,1 0,0 c c c d 1,1 1,0 d 0,1 0,0 c d 1,1 1,0 d 0,1 0,0 Ein Strategieprofil st bildet ein strenges/schwaches/sehr schwaches iteriertes Dominanz-Gleichgewicht, wenn es Ergebnis eines schrittweisen Löschungsprozess ist, bei dem in jedem Schritt eine streng/schwach/sehr schwach dominierte Strategie eines Agenten gelöscht wird. c c 1,1 0,0 d 0,0 0,0 PS: IV-21 Interaction c d c d 1,1 0,0 d 0,0 0,0 c c c d 1,1 0,0 d 0,0 0,0 c d 1,1 0,0 d 0,0 0,0 c LETTMANN 2007-2011 Interaktion Dominanzgleichgewicht ❑ (Fortsetzung) Dominanz-Gleichgewichte gibt es nur in wenigen Fällen. c c d 1,1 0,0 d 0,0 1,1 ❑ Strenge Dominanz-Gleichgewichte sind eindeutig. ❑ Schwache/sehr schwache iterierte Dominanz-Gleichgewichte sind nicht eindeutig. c c d 1,0 2,0 c c d 1,0 2,0 c c d 1 , 0 2, 0 d 0,1 1,0 d 0,1 1,0 d 0,1 1,0 e 0,0 1,1 e 0,0 1,1 e 0,0 1,1 PS: IV-22 Interaction c LETTMANN 2007-2011 Interaktion Nash-Gleichgewicht ❑ Für ein Strategieprofil st(−i) heißt die Strategie sti von Spieler i Nash-Strategie, falls für alle seine Strategien sti gilt utility i(sti, st(−i)) ≥ utility i(sti, st(−i)). ❑ Ein Strategieprofil st bildet ein Nash-Gleichgewicht (Nash Equilibrium), wenn für jeden Agenten Ai und jede seiner Strategien sti gilt utility i(sti, st(−i)) ≥ utility i(sti, st(−i)). c c 1,0 1,0 d 0,1 0,0 PS: IV-23 Interaction c d c d 1,0 1,0 d 0,1 0,0 c c c d 1,0 1,0 d 0,1 0,0 c d 1,0 1,0 d 0,1 0,0 c LETTMANN 2007-2011 Interaktion Nash-Gleichgewicht ❑ In einem Nash-Gleichgewicht st kann Ai unter der Annahme, dass die übrigen Agenten weiter das Profil st(−i) verfolgen, nichts Besseres tun, als die Strategie sti zu verfolgen. ❑ Kein Agent hat einen Anreiz, einseitig von einem Nash Equilibrium abzuweichen. ❑ Nicht jedes Szenario hat ein Nash Equilibrium, manche haben dagegen sogar mehr als ein Nash Equilibrium. c c c d 1,0 0,1 d 0,1 1,0 c d 1,1 1,0 d 0,1 0,0 c c d 1,1 0,0 d 0,0 0,0 Nash-Strategie für Zeilenspieler Nash-Strategie für Spaltenspieler PS: IV-24 Interaction c LETTMANN 2007-2011 Interaktion Nash-Gleichgewicht (Fortsetzung) Bestimmung eines Nash-Equilibrium ❑ Bestimme für jedes st(−i) zu jedem Profil st für jeden Agenten Ai Li := {(sti, st(−i) ) | utility i(sti, st(−i)) = max utility i(sti , st(−i) )} st ∈Ai ❑ Nash-Equilibria sind die Elemente von L1 ∩ . . . ∩ Ln c c c d 1,1 0,0 d 0,0 0,0 c d 1,1 0,0 d 0,0 0,0 c c c 1,1 0,0 d 1,1 0,0 d 0,0 0,0 d d 0,0 0,0 PS: IV-25 Interaction c c c d 1,1 0,0 d 0,0 0,0 c c d 1,1 0,0 d 0,0 0,0 c LETTMANN 2007-2011 Bemerkungen: ❑ Die in Spalte 3 markierten Strategien sind die Nash-Strategien der Spieler. PS: IV-26 Interaction c LETTMANN 2007-2011 Interaktion Strenges Nash-Gleichgewicht ❑ Für ein Strategieprofil st(−i) heißt die Strategie sti von Spieler i strenge Nash-Strategie, falls für alle seine Strategien sti gilt utility i(sti, st(−i) ) > utility i(sti, st(−i) ). ❑ Ein Strategieprofil st bildet ein strenges Nash-Gleichgewicht, wenn für jeden Agenten Ai und jede seiner Strategien sti gilt utility i(sti, st(−i) ) > utility i(sti, st(−i) ). c c 1,1 1,0 d 0,1 0,0 PS: IV-27 Interaction c d c d 1,1 1,0 d 0,1 0,0 c c c d 1,1 1,0 d 0,1 0,0 c d 1,1 1,0 d 0,1 0,0 c LETTMANN 2007-2011 Interaktion Weitere Optima ❑ Ein Strategieprofil st ist (globales) Optimum (der Nutzensumme), falls für alle Strategieprofile st gilt utility i(st) ≥ utility i(st). i ❑ i Ein Strategieprofil st ist (starkes) Pareto-Optimum, falls für alle Strategieprofile st mit utility i(st ) > utility i(st) für ein i auf der anderen Seite immer ein j existiert mit utility j (st) > utility j (st ). (Jede Verbesserung eines Spielers bedeutet eine Verschlechterung eines anderen Spielers.) PS: IV-28 Interaction c LETTMANN 2007-2011 Bemerkungen: ❑ Ein Optimum der Nutzensumme macht nur Sinn, wenn der Nutzen für alle Agenten in vergleichbarer Weise mit addierbaren Werten beschrieben wird. ❑ Allgemein werden die Begriffe Optimum der Nutzensumme, (starkes) Pareto-Optimum, Nash-Gleichgewichte, Dominanzgleichgewichte und iterierte Dominanzgleichgewichte für Zustandsmengen verwendet, für die die beteiligten Agenten jeweils eine eigene Präferenzrelation besitzen. Hier beurteilen wir also weniger ein Strategieprofil als vielmehr den Zustand, der sich bei dessen Verwendung einstellt. PS: IV-29 Interaction c LETTMANN 2007-2011 Interaktion Dominanz und Nash-Gleichgewicht ❑ Jede schwach dominante Strategie eines Spielers kommt in einem Nash-Gleichgewicht vor. ❑ Ein strenge/schwache Dominanz-Gleichgewicht ist immer auch ein strenges/(schwaches)Nash-Gleichgewicht. ❑ Hat ein Spieler eine streng dominante Strategie, spielt er sie in jedem Nash-Gleichgewicht. ❑ Haben beide Spieler eine streng dominante Strategie, gibt es genau ein Nash-Gleichgewicht. ❑ Ein Nash-Gleichgewicht ist nicht unbedingt ein Pareto-Optimum (Prisoner’s Dilemma). ❑ Ein globales Optimum der Nutzensumme ist immer auch ein Pareto-Optimum. PS: IV-30 Interaction c LETTMANN 2007-2011 Interaktion Wettbewerb und Nullsummenspiele ❑ Wir sprechen von einem Nullsummenspiel, wenn für die durch die Strategieprofile st festgelegten Ausgänge eines Spiels und die Nutzen der beteiligten Spieler gilt utility 1 (st) + . . . + utility n (st) = 0 ❑ Ein strenger Wettbewerb zwischen zwei Spielern Ax und Ay besteht, wenn sie alle möglichen Spielausgänge st1 und st2 genau entgegengesetzt präferieren: st1 x st2 gdw. st2 y st1 ❑ Nullsummenspiele (mit Nutzen ungleich 0 für mindestens einen Spieler) sind Beispiele für strenge Wettbewerbsituationen, sie bieten also keinen Raum für Kooperation. ❑ In Nullsummenspielen ist jede Situation Pareto-optimal. ❑ Nullsummenspiele sind in der Wirklichkeit sehr selten, aber die Beteiligten tendieren oft dazu, ein Szenario als Nullsummenspiel zu betrachten. ❑ Das Gefangenendilemma ist ein Beispiel für ein Nicht-Nullsummenspiel. PS: IV-31 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Gefangenendilemma: Globales Optimum vs. Dominanz-Gleichgewicht Zwei Männer werden beschuldigt, gemeinsam ein Verbrechen begangen zu haben. Die Höchststrafe für das Verbrechen beträgt drei Jahre Gefängnis . Beide Gefangenen wissen, dass sie ein Jahr Straferlass bekommen, wenn Sie gestehen (defect). Sie wissen aber auch dass aufgrund der mangelhaften Beweislage nur eine Verurteilung zu einem Jahr wegen eines minderschweren Vergehens erfolgt, wenn beide schweigen (cooperate). Beiden Gefangenen wird daher ein Handel angeboten, worüber auch beide informiert sind. Wenn er gesteht und somit seinen Partner belastet, kommt er ohne Strafe davon. Der andere muss dann die vollen drei Jahre absitzen. Nun werden die Gefangenen einzeln nach ihrer Entscheidung gefragt. Weder vor noch während der Bedenkzeit hatten die beiden die Möglichkeit, sich untereinander abzusprechen. PS: IV-32 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Gefangenendilemma (Fortsetzung) Zusammenfassung der Situation in einer Payoff Matrix (Nutzen): y wählt c y wählt d x wählt c −1 | −1 −3 | 0 x wählt d 0 | −3 −2 | −2 (Höherer Nutzen bei geringerer Strafe!) Daraus ergeben sich die folgenden Präferenzen: utility x (d, c) > utility x (c, c) > utility x (d, d) > utility x (c, d) utility y (c, d) > utility y (c, c) > utility y (d, d) > utility y (d, c) Problem: Die für beide Spieler beste Situation (c, c) ist instabil, da jeder der beiden durch Abweichen von der Strategie seinen Nutzen vergrößern kann. Welche Aktion ist für einen Gefangenen sinnvoll und warum? PS: IV-33 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Gefangenendilemma ❑ (Fortsetzung) Für jeden Gefangenen ist die ratinole Entscheidung die für Strategie d !!! – Wenn er gesteht (defect), hat er einen garantierten Nutzen von -2 unabhängig davon, ob der andere schweigt oder gesteht. – Wenn er schweigt (cooperate), hat er einen garantierten Nutzen von nur -3, resultierend aus dem Fall, dass der andere gesteht. ➜ Vermeidung des Sucker’s Payoff Die Strategie d ist für jeden Spieler streng dominant in diesem Szenario. (d, d) ist strenges Dominanz-Gleichgewicht. (d, d) ist damit auch Nash-Gleichgewicht, aber nicht Pareto-optimal. Jedes Profil außer (d, d) ist Pareto-optimal. (c, c) ist globales Optimum der Nutzensumme, aber kein Nash-Gleichgewicht. ❑ Intuition: Natürlich sollten die Agenten beide kooperieren und damit beide einen höheren Nutzen erreichen. (Idee: Minimiere den Gefängnisaufenthalt des Mitspielers, statt des eigenen.) PS: IV-34 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Gefangenendilemma: Allgemeine Form Payoff Matrix: y wählt c y wählt d x wählt c R | R S| T x wählt d T | S P | P T steht für Temptation to defect, R für Reward for mutual cooperation, P für Punishment for mutual defection und S für Sucker’s payoff. Für eine Prisoner’s Dilemma Situation muss folgende Bedingung gelten T >R>P >S PS: IV-35 Interaction c LETTMANN 2007-2011 Interaktion Problem der Interaktion in MAS ❑ Kooperation scheint in Gesellschaften von eigennützigen Agenten nicht vorzukommen. ❑ Beispiele aus der realen Welt: – Abrüstung (Warum sollte ich meine Waffen nicht behalten?) – Sportwettkämpfe mit Gewichtsklassen – Radrennen – Allmende ➜ Das Gefangenendilemma ist allgegenwärtig! ❑ Können wir Kooperation wiederherstellen? PS: IV-36 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Iteriertes Gefangenendilemma ❑ Das Szenario wird immer wieder gespielt. ❑ Wenn man weiß, dass man immer wieder auf denselben Gegner trifft, verschwindet der Anreiz nicht zu kooperieren (defect). ❑ Anfangsverluste können durch große Anzahl von Spielen amortisiert werden. Es lohnt sich also, Kooperationsbereitschaft zu zeigen. (Bedingung hierfür: 2R > T + S) ❑ Was ist sinnvoll, wenn eine feste Anzahl von Spielen vereinbart ist? Die vernünftige Entscheidung ist die für die Nicht-Kooperation, wenn man das Szenario endlich oft durchspielt. (Backwards Induction) ❑ Was ist sinnvoll, wenn KEINE feste Anzahl von Spielen vereinbart ist? Die vernünftige Entscheidung ist die für die Kooperation, wenn man das Szenario unendlich oft (oder eine unbekannte Anzahl von Runden) spielt. PS: IV-37 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Iteriertes Gefangenendilemma ❑ Das Szenario wird immer wieder gespielt. ❑ Wenn man weiß, dass man immer wieder auf denselben Gegner trifft, verschwindet der Anreiz nicht zu kooperieren (defect). ❑ Anfangsverluste können durch große Anzahl von Spielen amortisiert werden. Es lohnt sich also, Kooperationsbereitschaft zu zeigen. (Bedingung hierfür: 2R > T + S) ❑ Was ist sinnvoll, wenn eine feste Anzahl von Spielen vereinbart ist? Die vernünftige Entscheidung ist die für die Nicht-Kooperation, wenn man das Szenario endlich oft durchspielt. (Backwards Induction) ❑ Was ist sinnvoll, wenn KEINE feste Anzahl von Spielen vereinbart ist? Die vernünftige Entscheidung ist die für die Kooperation, wenn man das Szenario unendlich oft (oder eine unbekannte Anzahl von Runden) spielt. PS: IV-38 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Iteriertes Gefangenendilemma (Fortsetzung) Axelrod’s Wettbewerb (1984) ❑ Das Szenario des iterierten Gefangenendilemma wird gegen jeden Gegner durchgespielt. – Jeder Spieler spielt 5 Partien gegen jeden anderen Spieler. – Jede Partie besteht aus 200 Runden des Szenarios Gefangenendilemma. – Der Spieler kennt die Züge des Gegners aus den vorherigen Runden einer Partie. ❑ Sieger ist der Spieler, der den höchsten Payoff erreicht. ❑ Alle Spieler sind als Computerprogramme realisiert. PS: IV-39 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Iteriertes Gefangenendilemma (Fortsetzung) Axelrod’s Wettbewerb (1984) ❑ Das Szenario des iterierten Gefangenendilemma wird gegen jeden Gegner durchgespielt. – Jeder Spieler spielt 5 Partien gegen jeden anderen Spieler. – Jede Partie besteht aus 200 Runden des Szenarios Gefangenendilemma. – Der Spieler kennt die Züge des Gegners aus den vorherigen Runden einer Partie. ❑ Sieger ist der Spieler, der den höchsten Payoff erreicht. ❑ Alle Spieler sind als Computerprogramme realisiert. ❑ Welche Strategie sollte man wählen? ❑ Ist die Gewinnerstrategie streng/schwach dominant? PS: IV-40 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Iteriertes Gefangenendilemma (Fortsetzung) Beispiele für Strategien ❑ Strategie ALL-D: Wähle immer die Aktion d, also die Nicht-Kooperation (Hawk-Strategy). ❑ Strategie RANDOM: Wähle immer die nächste Aktion zufällig aus. ❑ Strategie TIT-FOR-TAT: Spiele in der ersten Runde kooperativ (c), in den nächsten Runden wähle jeweils den Zug des Gegners aus der letzten Runde. ❑ Strategie TESTER: Spiele in der ersten Runde nicht kooperativ (d). Wenn der Gegner ebenfalls nicht kooperativ spielt (d), dann folge der Strategie TIT-FOR-TAT. Wenn der Gegner kooperativ spielt (c), dann spiele die nächsten zwei Runden kooperativ (c), danach die nächste Runde nicht kooperativ (d). ❑ Strategie JOSS: Ähnlich der Strategie TIT-FOR-TAT, allerdings wird in 10% der Fälle nicht kooperativ (d) gespielt, anstelle von Kooperation (c). Welche Strategie erscheint am erfolgversprechensten? PS: IV-41 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Iteriertes Gefangenendilemma (Fortsetzung) Axelrod’s Vorschläge für gute Strategien ❑ Sei nicht neidisch! Es ist nicht nötig, den Gegner zu besiegen, um selbst gut abzuschneiden. ❑ Sei nett! Es ist besser kooperativ zu beginnen und sich für Kooperation erkenntlich zu zeigen. ❑ Übe maßvolle Vergeltung! Bestrafung (d) sollte unmittelbar erfolgen und vergleichbarem Maß wie das Fehlverhalten (d) des Gegners. ❑ Sei nicht nachtragend! Kooperation (c) durch den Gegner sollte mit eigener Kooperation belohnt werden, egal, was vorher war. ❑ Sei nicht zu clever! Wenn der Gegner das Verhalten nicht deuten kann, ist es so, als würde Strategie RANDOM gespielt. PS: IV-42 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Iteriertes Gefangenendilemma (Fortsetzung) Axelrod’s Vorschläge für gute Strategien ❑ Sei nicht neidisch! Es ist nicht nötig, den Gegner zu besiegen, um selbst gut abzuschneiden. ❑ Sei nett! Es ist besser kooperativ zu beginnen und sich für Kooperation erkenntlich zu zeigen. ❑ Übe maßvolle Vergeltung! Bestrafung (d) sollte unmittelbar erfolgen und vergleichbarem Maß wie das Fehlverhalten (d) des Gegners. ❑ Sei nicht nachtragend! Kooperation (c) durch den Gegner sollte mit eigener Kooperation belohnt werden, egal, was vorher war. ❑ Sei nicht zu clever! Wenn der Gegner das Verhalten nicht deuten kann, ist es so, als würde Strategie RANDOM gespielt. PS: IV-43 Interaction c LETTMANN 2007-2011 Bemerkungen: ❑ Eine Strategie in Axelrod’s Wettbewerb realisiert eine Funktion f : ({c, d} × {c, d})N → {c, d}, die eine Entscheidung (c oder d) auf Basis einer Historie (endliche Folge von Paaren aus eigener Entscheidung und Entscheidung des Gegners) trifft. ❑ Die Strategie TIT-FOR-TAT hat das Turnier gewonnen. Dies ist kein Nachweis einer Dominanzeigenschaft, da nur eine kleine Auswahl der möglichen Strategien am Wettbewerb teilgenommen hat. PS: IV-44 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Battle of the Bismarck Sea: Iteriertes Dominanz-Gleichgewicht Im Südpazifik hat im Jahr 1943 der japanische General Imamura den Auftrag erhalten, japanische Truppen über die Bismarck See nach Neuguinea zu transportieren, Der amerikanische General Kenney will den Truppentransport bombardieren. Imamura hat die Wahl zwischen einer kürzeren nördlichen Route und einer längeren südlichen Route nach Neuguinea. Kenney muss sich entscheiden, wohin er seine Flugzeuge schickt, um nach den Japanern Ausschau zu halten. Wenn Kenney seine Flugzeuge zu der falschen Route schickt, kann er sie zwar zurückrufen, aber die Anzahl der Tage, die für Bombardierungen zur Verfügung stehen, ist dadurch verringert worden. Das Szenario ist um ein Nullsummenspiel (Nutzen/Schaden = Anzahl Tage mit Bombardierung). PS: IV-45 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Battle of the Bismarck Sea (Fortsetzung) Zusammenfassung der Situation in einer Payoff Matrix: Imamura wählt Nord Imamura wählt Süd Kenney wählt Nord 2| −2 2| −2 Kenney wählt Süd 1| −1 3| −3 Kein Spieler hat eine dominante Strategie. Es gibt kein strenges/schwaches Dominanz-Equilibrium. Durch Eliminieren streng dominierter Strategien kann kein Equilibrium gefunden werden. Durch Eliminieren schwach dominierter Strategien kann ein schwaches iteriertes Dominanz-Gleichgewicht in (Nord, Nord) gefunden werden. Jedes Strategieprofil is globales Optimum und damit Pareto-Optimum. (→ Nullsummenspiel) PS: IV-46 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Stag Hunt: Verschiedene Nash-Gleichgewichte Zwei Männer gehen auf die Jagd. Jeder der beiden kann sich entscheiden einen Hirschen zu jagen oder aber einen Hasen. Diese Wahl wird unabhängig voneinander getroffen, ohne die Wahl des anderen zu kennen. Wer auf Hirschjagd geht, braucht die Unterstützung des anderen. Einen Hasen kann jeder der Jäger allein zur Strecke bringen, der Hase ist aber weniger wert als ein Hirsch. Wenn der eine Spieler glaubt, dass der andere auf Hasenjagd geht (d), dann sollte er dies auch tun. Wenn der eine Spieler glaubt, dass der andere auf Hrschjagd geht (c), so sollte er ebenfalls auf Hirschjagd gehen. Der beste Fall ist also, dass beide Spieler kooperieren. Stag Hunt ist ein Beispiel für ein Koordinationsspiel (Coordination Game). PS: IV-47 Interaction c LETTMANN 2007-2011 Bemerkungen: ❑ y wählt c y wählt d x wählt c A|a C|c x wählt d B|b D|d Ein Koordinationsspiel liegt vor, wenn die Nash Equilibria in Profilen mit gleicher Strategieauswahl liegen. Für die angegebene Payoff-Matrix muss also A > B und D > C für Spieler x sowie a > c und d > b für Spieler y gelten. ❑ Für reine Koordinationsspiele muss zusätzlich gelten B = C = 0 = c = d. ❑ In Anti-Koordinationsspielen für zwei Personen liegen die Nash Equilibria in den Feldern mit verschiedener Strategiewahl. PS: IV-48 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Stag Hunt (Fortsetzung) Zusammenfassung der Situation in einer Payoff Matrix: y wählt c y wählt d x wählt c 3|3 0|2 x wählt d 2|0 2|2 Daraus ergeben sich die folgenden Präferenzen: utility x (c, c) > utility x (d, c) ≥ utility x (d, d) > utility x(c, d) utility y (c, c) > utility y (c, d) ≥ utility y (d, d) > utility y (d, c) Stag Hunt hat zwei Nash-Equilibria in den Feldern mit gleicher Strategiewahl, also der oberen linken (c, c) und der unteren rechten Zelle (d, d) der Payoff Matrix. PS: IV-49 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Stag Hunt: Allgemeine Form Payoff Matrix: y wählt c y wählt d x wählt c R | R S | T x wählt d T | S P | P Für eine Stag Hunt Situation müssen folgende Bedingung gelten R>T R>P P >S Da kein Wissen über die Vorlieben des Gegeners vorhanden ist, müssen seine beiden Strategien als gleichwahrscheinlich angesehen werden. Daher sollte man d wählen, wenn folgende Bedingung gilt: T +P >R+S Man nennt (d, d) risikodominantes Nash Gleichgewicht und (c, c) payoff-dominantes Nash Gleichgewicht. PS: IV-50 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Game of Chicken: Verschiedene Nash-Gleichgewichte Zwei Männer fahren mit dem Auto mit hoher Geschwindigkeit in einem Kollisionskurs aufeinander zu. Einer der beiden muss ausweichen, sonst sterben beide bei dem Zusammenstoß. Der Fahrer, der zuerst ausweicht, während der andere auf Kurs bleibt, wird als Feigling verlacht. Wenn der eine Spieler glaubt, dass der andere mutiger ist, dann wird er ausweichen (c). Wenn der eine Spieler glaubt, dass der andere weniger mutig ist, dann wird er auf Kurs bleiben (d). Der schlechteste Fall ist also, dass beide Spieler glauben, dass der jeweils andere weniger mutig ist. Game of Chicken (auch Hawk-Dove Game) ist ein Beispiel für ein Anti-Koordinationsspiel (Anti-Coordination Game). PS: IV-51 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Game of Chicken (Fortsetzung) Zusammenfassung der Situation in einer Payoff Matrix: y wählt c y wählt d x wählt c 2|2 1|3 x wählt d 3|1 0|0 Daraus ergeben sich die folgenden Präferenzen: utility x (d, c) > utility x (c, c) > utility x (c, d) > utility x(d, d) utility y (c, d) > utility y (c, c) > utility y (d, c) > utility y (d, d) Game of Chicken hat zwei Nash-Equilibria bei ungleicher Strategieauswahl, also der oberen rechten (c, d) und der unteren linken Zelle (d, c) der Payoff Matrix. Beiderseitige Nicht-Kooperation ist am meisten gefürchtet, während im Gefangenendilemma der Sucker’s Payoff vermieden werden soll. PS: IV-52 Interaction c LETTMANN 2007-2011 Interaktion Beispiel Game of Chicken: Allgemeine Form Payoff Matrix: y wählt c y wählt d x wählt c R | R S | T x wählt d T | S P | P Für eine Game of Chicken Situation muss folgende Bedingung gelten T >R>S>P In der Literatur findet man in der Regel folgende Version: Payoff Matrix: y wählt Hawk y wählt Dove x wählt Hawk X | X W | L x wählt Dove L | W T | T Für eine Hawk-Dove Situation muss folgende Bedingung gelten W >T >L>X PS: IV-53 Interaction c LETTMANN 2007-2011 Interaktion Symmetrische 2 × 2 Interaktionen ❑ 2 Spieler, jeweils 2 mögliche Aktionen, symmetrisches Szenario (d.h. für Spieler gleich, Payoff-Matrix des einen ist Transponierte der Payoff-Matrix des anderen Spielers) und totale Ordnung der Payoffs. ❑ Allgemeine Payoff-Matrix y wählt c y wählt d x wählt c A | A C|B x wählt d B | C D|D ➜ 4! = 24 mögliche Szenarien durch Anordnung von A, B, C, D. PS: IV-54 Interaction c LETTMANN 2007-2011 Interaktion Symmetrische 2 × 2 Interaktionen (Fortsetzung) Besondere Szenarien Nr. 1 2 4 13 14 23 24 Präferenzen Koordination Kommentar A>C>B>D Kooperation dominiert A>C>D>B Kooperation dominiert A>B>D>C Stag Hunt B>A>C>D Game of Chicken B>A>D>C Prisoner’s Dilemma D>B>A>C Nicht-Kooperation dominiert D>B>C>A Nicht-Kooperation dominiert PS: IV-55 Interaction c LETTMANN 2007-2011 Kapitel PS: IV IV. Interaktion in Multiagentensystemen ❑ Multiagentensysteme ❑ Interaktion ❑ Protokoll ❑ Auktion ❑ Verhandlung PS: IV-56 Interaction c LETTMANN 2007-2011 Bemerkungen: ❑ Dieses Kapitel orientiert sich an dem Buch „An Introduction to MultiAgent Systems“ von Michael Wooldridge. Lecture Slides ❑ Wooldridge folgt dabei den Ausführungen von J.S. Rosenschein und G. Zlotkin in ihrem Buch „Rules of Encounter: Designing Conventions for Automated Negotiation among Computers“ (MIT Press, 1994). PS: IV-57 Interaction c LETTMANN 2007-2011 Protokoll Vereinbarungen zur Kooperation ❑ Voraussetzung: Agenten handeln eigennützig. ❑ Wie können Agenten unter dieser Annahme Vereinbarungen zur Kooperation treffen? ❑ Extremfall: In Nullsummenspielen ist keine Vereinbarung zur Kooperation möglich. PS: IV-58 Interaction c LETTMANN 2007-2011 Protokoll Vereinbarungen zur Kooperation ❑ Voraussetzung: Agenten handeln eigennützig. ❑ Wie können Agenten unter dieser Annahme Vereinbarungen zur Kooperation treffen? ❑ Extremfall: In Nullsummenspielen ist keine Vereinbarung zur Kooperation möglich. ❑ Die meisten Szenarien bieten Möglichkeiten zur Vereinbarung von Kooperation zu beiderseitigem Vorteil. ➜ Fähigkeiten zur Verhandlung und Argumentation sind wichtige Möglichkeiten von Agenten für das Erreichen von Vereinbarungen. PS: IV-59 Interaction c LETTMANN 2007-2011 Protokoll Protokolle und Strategien ❑ Verhandlungen folgen einem bestimmten Protokoll (Mechanismus). ❑ Das Protokoll definiert die Regeln einer Begegnung (Rules of Encounter) zwischen Agenten. ❑ Die Protokolle werden so gestaltet, dass sie bestimmte wünschenswerte Eigenschaften haben. ➜ Es sei ein bestimmtes Protokoll gegeben. Wie kann eine passende Strategie gestaltet werden, die der Agent zur Verhandlung nutzen kann? PS: IV-60 Interaction c LETTMANN 2007-2011 Protokoll Eigenschaften ❑ Konvergenz / garantierter Erfolg Eine Verhandlung sollte zu einer Einigung führen. ❑ (Individuelle) Rationalität Es sollte im Interesse der Agenten sein, sich an Verhandlungen zu beteiligen (kein negativer Payoff). ❑ Maximierung des Gesamtnutzen (Social Welfare) Das Ergebnis sollte die Nutzensumme der Verhandlungspartner maximieren. ❑ (Pareto-) Effizienz Die Ergebnisse sollten (zumindest) Pareto-optimal sein. ❑ Stabilität Agenten sollten keinen Anreiz haben, von einer bestimmten Strategie abzuweichen (Nash-Gleichgewicht). PS: IV-61 Interaction c LETTMANN 2007-2011 Verhandlung Eigenschaften ❑ Konvergenz / garantierter Erfolg Eine Verhandlung sollte zu einer Einigung führen. ❑ (Individuelle) Rationalität Es sollte im Interesse der Agenten sein, sich an Verhandlungen zu beteiligen (kein negativer Payoff). ❑ Maximierung des Gesamtnutzen (Social Welfare) Das Ergebnis sollte die Nutzensumme der Verhandlungspartner maximieren. ❑ (Pareto-) Effizienz Die Ergebnisse sollten (zumindest) Pareto-optimal sein. ❑ Stabilität Agenten sollten keinen Anreiz haben, von einer bestimmten Strategie abzuweichen (Nash-Gleichgewicht). PS: IV-62 Interaction c LETTMANN 2007-2011 Protokoll Eigenschaften (Fortsetzung) ❑ Fairness Die Ergebnisse sollten geeignete Fairness-Bedingungen erfüllen (Gleichbehandlung, kein Neid). ❑ Symmetrie Kein Agent sollte von vornherein einen Nachteil haben. ❑ Einfachheit Eine passende Strategie sollte einfach zu ermitteln sein. Die Belastung durch Rechenzeit und Kommunikation sollte klein sein. ❑ Verteilung (Robustheit) Protokolle sollten keinen „Single Point of Failure“ aufweisen, z.B. nur einen einzelnen Schiedsrichter, also tolerant gegenüber dem Ausfall einzelner Agenten sein. ❑ Verifizierbarkeit Es sollte nachprüfbar sein, dass die Agenten die Regeln von Verhandlungen befolgen. PS: IV-63 Interaction c LETTMANN 2007-2011 Verhandlung Eigenschaften (Fortsetzung) ❑ Fairness Die Ergebnisse sollten geeignete Fairness-Bedingungen erfüllen (Gleichbehandlung, kein Neid). ❑ Symmetrie Kein Agent sollte von vornherein einen Nachteil haben. ❑ Einfachheit Eine passende Strategie sollte einfach zu ermitteln sein. Die Belastung durch Rechenzeit und Kommunikation sollte klein sein. ❑ Verteilung (Robustheit) Protokolle sollten keinen „Single Point of Failure“ aufweisen, z.B. nur einen einzelnen Schiedsrichter, also tolerant gegenüber dem Ausfall einzelner Agenten sein. ❑ Verifizierbarkeit Es sollte nachprüfbar sein, dass die Agenten die Regeln von Verhandlungen befolgen. PS: IV-64 Interaction c LETTMANN 2007-2011 Auktion Szenario ❑ Eine Auktion findet statt mit einem Agenten als Auktionator (Verkäufer) und eine Reihe von Agenten als Bietern (Käufer). ❑ Das Ziel der Auktion ist aus Sicht des Auktionators die Zuordnung einer Ware zu einem der Bieter. ❑ In den meisten Szenarien versucht der Auktionator den Preis zu maximieren, während die Bieter den Preis minimieren wollen. ➜ sehr einfache Form der Interaktion PS: IV-65 Interaction c LETTMANN 2007-2011 Auktion Szenario ❑ Eine Auktion findet statt mit einem Agenten als Auktionator (Verkäufer) und eine Reihe von Agenten als Bietern (Käufer). ❑ Das Ziel der Auktion ist aus Sicht des Auktionators die Zuordnung einer Ware zu einem der Bieter. ❑ In den meisten Szenarien versucht der Auktionator den Preis zu maximieren, während die Bieter den Preis minimieren wollen. ➜ sehr einfache Form der Interaktion Parameter einer Auktion: ❑ Ware: privater Wert, bekannter Wert, korrelierter Wert ❑ Festlegung des Preises: erster Preis (first price), zweiter Preis (second price), n-ter Preis ❑ Gebotsabgabe: offene Gebote (open cry), geheime Abgabe (sealed bids) ❑ Bieten: Einzelgebote (One-Shot Auction), ansteigend (ascending), absteigend (descending) PS: IV-66 Interaction c LETTMANN 2007-2011 Bemerkungen: ❑ Weitere Charakteristika von Auktionen: – einseitig/zweiseitig: Auktion, Ausschreibung vs. Börse – PS: IV-67 Interaction c LETTMANN 2007-2011 Auktion Nachteile ❑ Absprachen der Bieter Die Bieter einigen sich zuvor auf eine Zusammenarbeit. Sie plazieren im Vergleich zum Wert der Ware zu niedrige Gebote und teilen den erzielten Gewinn. Abhilfe: Bieter bleiben anonym, kennen sich nicht. Aber diese Lösung widerspricht der Idee des Open Cry. ❑ Lügen des Auktionators Der Auktionator kann über Vorliegen (Shills) oder Höhe konkurrierender Gebote die Unwahrheit sagen und so den erzielten Preis in die Höhe treiben. Abhilfe: Verwendung geeigneter Auktionsformen, (digitale) Signierung von Geboten zur Verifikation. PS: IV-68 Interaction c LETTMANN 2007-2011 Auktion Englische Auktion: open cry, first price, ascending ❑ Der Auktionator startet mit einem Mindestgebot für die Ware. Wenn niemand zu diesem Preis bietet, wird die Ware zu diesem Preis dem Auktionator zugeschlagen. Gebote der Agenten müssen höher sein als das bisher höchste Gebot. Wenn niemand mehr bietet, erfolgt der Zuschlag an den Höchstbietenden zu dessen Gebotspreis. ❑ Eine dominante Strategie für einen Agenten ist es, einen kleinen Betrag über dem bisher höchsten Gebot zu bieten, bis der geschätzte Wert erreicht ist, und sich dann von der Auktion zurückzuziehen. ❑ Englische Auktionen sind gut für Käufer (Einsparung gegen Wert). PS: IV-69 Interaction c LETTMANN 2007-2011 Auktion Englische Auktion: open cry, first price, ascending ❑ Der Auktionator startet mit einem Mindestgebot für die Ware. Wenn niemand zu diesem Preis bietet, wird die Ware zu diesem Preis dem Auktionator zugeschlagen. Gebote der Agenten müssen höher sein als das bisher höchste Gebot. Wenn niemand mehr bietet, erfolgt der Zuschlag an den Höchstbietenden zu dessen Gebotspreis. ❑ Eine dominante Strategie für einen Agenten ist es, einen kleinen Betrag über dem bisher höchsten Gebot zu bieten, bis der geschätzte Wert erreicht ist, und sich dann von der Auktion zurückzuziehen. ❑ Englische Auktionen sind gut für Käufer (Einsparung gegen Wert). Nachteile: ❑ Fluch des Gewinners (Winner’s Curse): Soll der Gewinner sich freuen, weil er die Ware zu einem günstigeren Preis bekommen hat als die eigene Einschätzung oder sollte er bekümmert sein, weil kein anderer Agent die Ware so hoch bewertet hat wie er selbst? ❑ Bieter können Absprachen treffen, der Auktionator kann durch Lockvögel (Shills) den Preis hochtreiben. PS: IV-70 Interaction c LETTMANN 2007-2011 Auktion Holländische Auktion: open cry, first price, descending ❑ Der Auktionator startet mit einem unrealistisch hohen Gebot für die Ware. Wenn niemand zu diesem Preis bietet, bietet der Auktionator die Ware zu einem niedrigeren Gebotspreis an, bis ein Agent das Gebot akzeptiert. Der Zuschlag an den Bieter zu dessen Gebotspreis. Werden keine Gebote abgegeben, verbleibt die Ware beim Auktionator zum zuletzt genannten Preis. ❑ Intuitive Strategie: Wenn der (für den Bieter) wirkliche Wert erreicht wird, warte etwas und biete dann. Im allgemeinen gibt keine dominante Strategie. ❑ Holländische Auktionen sind gut für Verkäufer (höchstes erzielbares Gebot). PS: IV-71 Interaction c LETTMANN 2007-2011 Auktion Holländische Auktion: open cry, first price, descending ❑ Der Auktionator startet mit einem unrealistisch hohen Gebot für die Ware. Wenn niemand zu diesem Preis bietet, bietet der Auktionator die Ware zu einem niedrigeren Gebotspreis an, bis ein Agent das Gebot akzeptiert. Der Zuschlag an den Bieter zu dessen Gebotspreis. Werden keine Gebote abgegeben, verbleibt die Ware beim Auktionator zum zuletzt genannten Preis. ❑ Intuitive Strategie: Wenn der (für den Bieter) wirkliche Wert erreicht wird, warte etwas und biete dann. Im allgemeinen gibt keine dominante Strategie. ❑ Holländische Auktionen sind gut für Verkäufer (höchstes erzielbares Gebot). Nachteile: ❑ Fluch des Gewinners ❑ Bieter können Absprachen treffen. PS: IV-72 Interaction c LETTMANN 2007-2011 Auktion First-Price Sealed-Bid: sealed bids, first-price, one-shot ❑ Die Bieter geben ihre Angebote so ab, dass der Auktionator sie lesen kann, aber keiner der Mitbieter. Der Auktionator vergleicht die Gebote und erteilt den Zuschlag dem Bieter mit dem höchsten Gebot zu dessen Preis. ❑ Beste Strategie ist es, etwas weniger zu bieten als der Wert der Ware ist. Es gibt keine allgemeine Methode, um festzustellen, wieviel weniger man bieten sollte. PS: IV-73 Interaction c LETTMANN 2007-2011 Auktion First-Price Sealed-Bid: sealed bids, first-price, one-shot ❑ Die Bieter geben ihre Angebote so ab, dass der Auktionator sie lesen kann, aber keiner der Mitbieter. Der Auktionator vergleicht die Gebote und erteilt den Zuschlag dem Bieter mit dem höchsten Gebot zu dessen Preis. ❑ Beste Strategie ist es, etwas weniger zu bieten als der Wert der Ware ist. Es gibt keine allgemeine Methode, um festzustellen, wieviel weniger man bieten sollte. Nachteile: ❑ Bieter versuchen niedriger zu bieten als der tatsächliche Wert der Ware: es genügt, nur wenig über dem zweithöchsten Gebot zu liegen. ❑ Absprachen auf Seiten der Bieter. PS: IV-74 Interaction c LETTMANN 2007-2011 Auktion Vickrey Auktion: sealed bids, second price, one shot ❑ Die Bieter geben ihre Angebote so ab, dass der Auktionator sie lesen kann, aber keiner der Mitbieter. Der Auktionator vergleicht die Gebote und erteilt den Zuschlag dem Bieter mit dem höchsten Gebot, aber er zahlt nur den Preis des zweithöchsten Gebotes. ❑ Wenn der Wert der Ware nicht bekannt ist, ist die dominante Strategie die, den Preis der eigenen Bewertung für die Ware zu bieten. PS: IV-75 Interaction c LETTMANN 2007-2011 Auktion Vickrey Auktion: sealed bids, second price, one shot ❑ Die Bieter geben ihre Angebote so ab, dass der Auktionator sie lesen kann, aber keiner der Mitbieter. Der Auktionator vergleicht die Gebote und erteilt den Zuschlag dem Bieter mit dem höchsten Gebot, aber er zahlt nur den Preis des zweithöchsten Gebotes. ❑ Wenn der Wert der Ware nicht bekannt ist, ist die dominante Strategie die, den Preis der eigenen Bewertung für die Ware zu bieten. Nachteile: ❑ Unintuitiver Ablauf, nicht einfach verständlich. ❑ Absprachen auf Seiten der Bieter und Lügen auf Seiten des Auktionators. PS: IV-76 Interaction c LETTMANN 2007-2011 Auktion Ergebnisse für Güter mit privaten Werten Alle vier Typen von Auktionen führen zu Pareto-optimalen Ergebnissen, wenn sich Bieter rational verhalten und weder Bieter noch Auktionator betrügen. ❑ Bieter x erhält Zuschlag zum Preis p. ❑ Höhere Zahlung als p stellt Auktionator besser, aber Bieter schlechter. ❑ Niedrigere Zahlung als p stellt Bieter besser, aber Auktionator schlechter. ❑ Zuschlag an anderen Bieter y stellt y besser, aber x schlechter. PS: IV-77 Interaction c LETTMANN 2007-2011 Auktion Ergebnisse für Güter mit privaten Werten (Fortsetzung) Bieter-Verhalten ❑ Ein Agent verhält sich risikoneutral, wenn er ein Gebot wählt, dass seinen erwarteten Nutzen maximiert. ❑ Ein Agent verhält sich risikoavers, wenn er bereit ist, ein höheres Gebot zu machen, um seine Chance auf den Gewinn der Auktion zu erhöhen, und eine durch die höhere Zahlung bewirkte Reduzierung seines erwarteten Nutzens in Kauf nimmt. PS: IV-78 Interaction c LETTMANN 2007-2011 Auktion Ergebnisse für Güter mit privaten Werten (Fortsetzung) Bieter-Verhalten ❑ Ein Agent verhält sich risikoneutral, wenn er ein Gebot wählt, dass seinen erwarteten Nutzen maximiert. ❑ Ein Agent verhält sich risikoavers, wenn er bereit ist, ein höheres Gebot zu machen, um seine Chance auf den Gewinn der Auktion zu erhöhen, und eine durch die höhere Zahlung bewirkte Reduzierung seines erwarteten Nutzens in Kauf nimmt. Erlöse des Auktionators: ❑ Bei risikoneutralen Bietern kann der Auktionator bei allen vier Auktionstypen den gleichen Erlös erwarten. ❑ Bei risikoaversen Bietern sollte der Auktionator eine Holländische Auktion oder eine First-Price Sealed-Bid Auktion wählen. ❑ Ein risikoaverser Auktionator sollte eine Vickrey Auktion oder eine Englische Auktion wählen. PS: IV-79 Interaction c LETTMANN 2007-2011 Kapitel PS: IV IV. Interaktion in Multiagentensystemen ❑ Multiagentensysteme ❑ Interaktion ❑ Protokoll ❑ Auktion ❑ Verhandlung PS: IV-80 Interaction c LETTMANN 2007-2011 Verhandlung Informelle Definition Unter einer Verhandlung (Negotiation) in einem Multiagentensystem versteht man den Prozess der Suche von Agenten nach einer gemeinsamen Übereinkunft oder Abmachung. PS: IV-81 Interaction c LETTMANN 2007-2011 Verhandlung Informelle Definition Unter einer Verhandlung (Negotiation) in einem Multiagentensystem versteht man den Prozess der Suche von Agenten nach einer gemeinsamen Übereinkunft oder Abmachung. Der Rahmen einer Verhandlung (zwischen Agenten mit Nutzenfunktionen) ist durch folgende Komponenten festgelegt: ❑ Verhandlungsmenge Die Verhandlungsmenge ist die Menge aller möglichen Abmachungen, die die Agenten vorschlagen können. ❑ Verhandlungsprotokoll (Regeln für die Verhandlung) Das Verhandlungsprotokoll legt fest, welche Vorschläge für einen Agenten als nächstes möglich sind unter Berücksichtigung des bisherigen Verlaufs der Verhandlung. ❑ Strategiemenge Jede Strategie legt eine regelkonforme individuelle Vorgehensweise eines einzelnen Agenten zum Erreichen seines besten Payoff fest. Strategien sind in der Regel privat, also den jeweiligen Verhandlungspartnern eines Agenten nicht bekannt. ❑ Abschlussregel Die Abschlussregel legt fest, ob/wann ein Abschluss zustande gekommen ist und wie dieser Abschluss aussieht. PS: IV-82 Interaction c LETTMANN 2007-2011 Verhandlung Ursachen der Komplexität ❑ Anzahl der Verhandlungsgegenstände: einzelne: z.B. Rabatt beim Verkauf einer Ware mehrere: z.B. Preis und Ausstattung beim Neuwagenkauf ➜ Was stellt ein Zugeständnis eines Agenten dar? ❑ Anzahl der Verhandlungspartner: One-to-one: Zwei Agenten verhandeln miteinander (bilateral). Many-to-one: Ein Agent verhandelt mit mehreren anderen (z.B. Auktion). Many-to-many: Viele Agent verhandeln gleichzeitig miteinander (verteilt und multilateral). ➜ Wie geht man mit einer großen Anzahl gleichzeitiger Verhandlungen um? ➜ Wir betrachten nur den einfachen Fall: ein Verhandlungsgegenstand, zwei Agenten PS: IV-83 Interaction c LETTMANN 2007-2011 Verhandlung Einsatzbereiche ❑ Aufgabenorientierte Bereiche (Task Oriented Domains) Agenten erhalten Aufgaben, die sie zu erledigen haben. ➜ Neuverteilung der Aufgaben (Task Redistribution) ❑ Zustandsorientierte Bereiche (State Oriented Domains) Agenten erhalten Ziele (Teilbeschreibungen von Zuständen), die erreicht werden müssen. ➜ Erstellen gemeinsamer Pläne und Koordinierung der Abläufe (Joint Plans and Schedules) ❑ Wertorientierte Bereiche (Worth Oriented Domains) Eine Funktion bewertet zusätzlich die Akzeptierbarkeit von Zuständen. ➜ Joint Plans, Schedules, Goal Relaxation PS: IV-84 Interaction c LETTMANN 2007-2011 Verhandlung Formalisierung Task Oriented Domain Ein Task Oriented Domain wird beschrieben durch folgende Komponenten: ❑ eine Menge von Agenten, hier nur Agent x und Agent y , ❑ eine endliche Menge T von Aufgaben, ❑ eine Funktion cost : P(T ) → R zur Beschreibung der Kosten für Erledigung einer Menge von Aufgaben durch einen Agenten. Eine Begegnung (Encounter, Partie, Spiel,...) wird beschrieben durch die den Agenten zugeordneten Aufgabenmengen (Tx , Ty ) aus T . Ziel der Verhandlungen ist eine bessere Verteilung der Aufgaben. Die Verhandlungsmenge enthält Vorschläge für eine Aufgabenteilung, die Deals. Für einen Deal (Dx, Dy ) ist utility x(Dx, Dy ) = cost (Tx ) − cost (Dx) (analog für y). PS: IV-85 Interaction c LETTMANN 2007-2011 Bemerkungen: utility x (Dx, Dy ) = cost (Tx) − cost (Dx) läßt sich die Pareto-Optimalität von Deals definieren, ebenso wie Dominierung für einzelne Agenten und Dominanzgleichgewichte für Deals und natürlich Nash-Gleichgewichte. Anstelle der individuellen Nutzenfunktionen verwenden wir für Nash-Gleichgewichte hier das Nutzenprodukt, da dadurch eine ungefähre Gleichverteilung des Nutzens auf die beteiligten Agenten bewirkt wird. ❑ Mit Hilfe der Nutzenfunktion ❑ Vollständige Information Falls die Kosten cost (D) für D ⊂ T für beide Agenten gleich sind, verfügen die Agenten über vollständige Information: Sie können nicht nur den eigenen Nutzen eines Vorschlages berechnen, sondern auch den Nutzen des Verhandlungspartners. Dazu müssen die Agenten aber wissen, dass die Kostenfunktionen gleich sind. Mit anderen Worten: Vollständige Information liegt vor, wenn jeder der Agenten nicht nur die eigene, sondern auch die Nutzenfunktion des Verhandlungspartners kennt. ❑ Das nachfolgend vorgestellte Monotonic Concession Protocol setzt vollständige Information beider Agenten voraus. PS: IV-86 Interaction c LETTMANN 2007-2011 Verhandlung Einfaches bilaterales Verhandlungsprotokoll 1. Beide Agenten wählen jeweils einen Deal. 2. Die Agenten schlagen ihrem Verhandlungspartner jeweils den gewählten Deal vor. 3. Wenn eine Übereinkunft erzielt worden ist, werden die Verhandlungen beendet, Ergebnis ist dieser Deal. 4. Wenn keine Übereinkunft erzielt worden ist, entscheidet jeder Agent, entweder ein kleines Zugeständnis zu machen oder bei seinem Vorschlag zu bleiben. Weiter mit Schritt 2. 5. Wenn keiner der Agenten ein Zugeständnis macht oder eine Abbruchbedingung eintritt, werden die Verhandlungen beendet. Es bleibt bei der anfänglichen Aufgabenverteilung. ➜ Grundidee des „Monotonic Concession Protocol“ PS: IV-87 Interaction c LETTMANN 2007-2011 Verhandlung Formalisierung Task Oriented Domain Es sei die Begegnung (Tx , Ty ) gegeben. ❑ Die Agenten schlagen nur Deals vor mit nicht-negativem Payoff für beide Agenten. ❑ Die ursprüngliche Aufgabenverteilung erhalten wir bei ergebnislosen Verhandlungen. Man spricht vom Conflict Deal (Tx, Ty ). Es gilt utility x (Tx , Ty ) = 0 und utility y (Tx , Ty ) = 0. ❑ Ein Deal ist für einen Agenten vernünftig, wenn er den Conflict Deal schwach dominiert. ❑ Die Verhandlungsmenge enthält nur Deals, die für die Agenten vernünftig sind und zusätzlich Pareto-optimal. PS: IV-88 Interaction c LETTMANN 2007-2011 Verhandlung Verhandlungsmenge Nutzen für Agent x Nutzen des Conflict Deal für Agent x Pareto-optimale Deals (Negotiation Set) B Individuell rationale Deals A C Mögliche Deals Conflict Deal D Nutzen des Conflict Deal für Agent y PS: IV-89 Interaction Nutzen für Agent y c LETTMANN 2007-2011 Verhandlung Monotonic Concession Protocol ❑ Das Protokoll läuft in Runden ab. ❑ In der ersten Runde wählt jeder der Agenten einen beliebigen Vorschlag aus der Verhandlungsmenge. ❑ In jeder folgenden Runde hat jeder Agent zwei Möglichkeiten. Beschreibung für Agent x: (Dxx, Dyx) Vorschlag von Agent x aus letzter Runde. – Agent x macht ein Zugeständnis, schlägt also (Dxx , Dyx) mit utility y (Dxx , Dyx) > utility y (Dxx, Dyx) und utility x (Dxx, Dyx ) ≥ 0 vor. – Agent x macht kein Zugeständnis, schlägt also (Dxx, Dyx ) := (Dxx, Dyx) vor. ❑ Eine Übereinkunft (Agreement) ist erreicht, wenn ein Agent einen Vorschlag macht, der für den anderen mindestens so gut ist wie der eigene Vorschlag, also utility y (Dxx , Dyx) ≥ utility y (Dxy , Dyy ) oder utility x(Dxy , Dyy ) ≥ utility x(Dxx , Dyx) ❑ Ein Konflikt entsteht, wenn kein Agent in einer Runde ein Zugeständnis macht. Der Conflict Deal ist dann das Ergebnis. PS: IV-90 Interaction c LETTMANN 2007-2011 Verhandlung Monotonic Concession Protocol ❑ Das Protokoll läuft in Runden ab. ❑ In der ersten Runde wählt jeder der Agenten einen beliebigen Vorschlag aus der Verhandlungsmenge. ❑ In jeder folgenden Runde hat jeder Agent zwei Möglichkeiten. Beschreibung für Agent x: (Dxx, Dyx) Vorschlag von Agent x aus letzter Runde. – Agent x macht ein Zugeständnis, schlägt also (Dxx , Dyx) mit utility y (Dxx , Dyx) > utility y (Dxx, Dyx) und utility x (Dxx, Dyx ) ≥ 0 vor. – Agent x macht kein Zugeständnis, schlägt also (Dxx, Dyx ) := (Dxx, Dyx) vor. ❑ Eine Übereinkunft (Agreement) ist erreicht, wenn ein Agent einen Vorschlag macht, der für den anderen mindestens so gut ist wie der eigene Vorschlag, also utility y (Dxx , Dyx) ≥ utility y (Dxy , Dyy ) oder utility x(Dxy , Dyy ) ≥ utility x(Dxx , Dyx) ❑ Ein Konflikt entsteht, wenn kein Agent in einer Runde ein Zugeständnis macht. Der Conflict Deal ist dann das Ergebnis. PS: IV-91 Interaction c LETTMANN 2007-2011 Verhandlung Monotonic Concession Protocol ❑ Das Protokoll läuft in Runden ab. ❑ In der ersten Runde wählt jeder der Agenten einen beliebigen Vorschlag aus der Verhandlungsmenge. ❑ In jeder folgenden Runde hat jeder Agent zwei Möglichkeiten. Beschreibung für Agent x: (Dxx, Dyx) Vorschlag von Agent x aus letzter Runde. – Agent x macht ein Zugeständnis, schlägt also (Dxx , Dyx) mit utility y (Dxx , Dyx) > utility y (Dxx, Dyx) und utility x (Dxx, Dyx ) ≥ 0 vor. – Agent x macht kein Zugeständnis, schlägt also (Dxx, Dyx ) := (Dxx, Dyx) vor. ❑ Eine Übereinkunft (Agreement) ist erreicht, wenn ein Agent einen Vorschlag macht, der für den anderen mindestens so gut ist wie der eigene Vorschlag, also utility y (Dxx , Dyx) ≥ utility y (Dxy , Dyy ) oder utility x(Dxy , Dyy ) ≥ utility x(Dxx , Dyx) ❑ Ein Konflikt entsteht, wenn kein Agent in einer Runde ein Zugeständnis macht. Der Conflict Deal ist dann das Ergebnis. PS: IV-92 Interaction c LETTMANN 2007-2011 Bemerkungen: ❑ Tie Breaking Falls beide Agenten Vorschläge machen, die für den jeweils anderen akzeptabel sind, also utility y (Dxx, Dyx ) ≥ utility y (Dxy , Dyy ) und utility x (Dxy , Dyy ) ≥ utility x (Dxx, Dyx) dann entscheiden sich die Agenten für den Deal mit dem größeren Nutzenprodukt utility x (Dx, Dy ) · utility y (Dx , Dy ). Falls das Nutzenprodukt für beide Vorschläge gleich ist, wird zufällig entschieden. PS: IV-93 Interaction c LETTMANN 2007-2011 Verhandlung Eigenschaften des Monotonic Concession Protocol ❑ Konvergenz Das Protokoll terminiert, da die Verhandlungsmenge endlich ist. ❑ Rationalität Wenn die Verhandlungsmenge nur Deals mit nicht-negativem Nutzen enthält, ist Bedingung der Rationalität sofort erfüllt. ❑ Verifizierbarkeit Es ist für jeden Agenten einfach zu überprüfen, ob der andere Agent wirklich ein Zugeständnis gemacht hat. ❑ Problem: Um ein Zugeständnis machen zu können, muss man die Nutzenfunktion des anderen Agenten kennen. (Typische Annahme in der Spieltheorie, nicht unbedingt sinnvolle Annahme in Multiagentensystemen.) ❑ Problem: Die Anzahl der durchzuführenden Runden kann groß sein, da die Verhandlungsmenge die Größe O(2|T |) hat. PS: IV-94 Interaction c LETTMANN 2007-2011 Verhandlung Strategie Was ist eine gute Strategie für einen Agenten in Verhandlungen nach dem Monotonic Concession Protocol? ❑ Wenn der Agent zu oft oder zu große Zugeständnisse macht, besteht die Gefahr, dass er für sich selbst nicht das bestmögliche Verhandlungsergebnis erreicht. ❑ Wenn der Agent zu selten oder zu kleine Zugeständnisse macht, besteht die Gefahr des Scheiterns der Verhandlungen und Ergebnis ist der Conflict Deal mit (Zusatz-)Nutzen 0 oder die Verhandlungen ziehen sich in die Länge. ➜ Runde für Runde: Welcher Agent sollte ein Zugeständnis machen und wie groß sollte dies sein? PS: IV-95 Interaction c LETTMANN 2007-2011 Verhandlung Zeuthen Strategie ❑ Idee Bestimme die Bereitschaft des Agenten, einen Konflikt zu riskieren. Diese Bereitschaft ist hoch, wenn der eigene Nutzen im Vorschlag des Gegners klein ist, und gering im entgegengesetzten Fall. ❑ Bewertungsfunktion von F. Zeuthen (für Agent x ) utility x (Dxx, Dyx) − utility x (Dxy , Dyy ) utility x (Dxx, Dyx) − utility x (Dxy , Dyy ) = Zx = utility x (Dxx, Dyx) − utility x (Tx , Ty ) utility x(Dxx, Dyx) Sonderfall: Zx = 1 für utility x(Dxx, Dyx) = 0. ❑ Zeuthen Strategie – Der Agent beginnt mit einem für ihn selbst besten Vorschlag aus der Verhandlungsmenge. – Wenn die eigene Bereitschaft zum Konflikt nicht größer ist als die des Gegners, dann macht der Agent ein Zugeständnis, das gerade so groß ist, das das Verhältnis sich umkehrt. – Im umgekehrten Fall bleibt der Agent beim Vorschlag der letzten Runde. PS: IV-96 Interaction c LETTMANN 2007-2011 Verhandlung Zeuthen Strategie ❑ Idee Bestimme die Bereitschaft des Agenten, einen Konflikt zu riskieren. Diese Bereitschaft ist hoch, wenn der eigene Nutzen im Vorschlag des Gegners klein ist, und gering im entgegengesetzten Fall. ❑ Bewertungsfunktion von F. Zeuthen (für Agent x ) utility x (Dxx, Dyx) − utility x (Dxy , Dyy ) utility x (Dxx, Dyx) − utility x (Dxy , Dyy ) = Zx = utility x (Dxx, Dyx) − utility x (Tx , Ty ) utility x(Dxx, Dyx) Sonderfall: Zx = 1 für utility x(Dxx, Dyx) = 0. ❑ Zeuthen Strategie – Der Agent beginnt mit einem für ihn selbst besten Vorschlag aus der Verhandlungsmenge. – Wenn die eigene Bereitschaft zum Konflikt nicht größer ist als die des Gegners, dann macht der Agent ein Zugeständnis, das gerade so groß ist, das das Verhältnis sich umkehrt. – Im umgekehrten Fall bleibt der Agent beim Vorschlag der letzten Runde. PS: IV-97 Interaction c LETTMANN 2007-2011 Verhandlung Zeuthen Strategie ❑ Idee Bestimme die Bereitschaft des Agenten, einen Konflikt zu riskieren. Diese Bereitschaft ist hoch, wenn der eigene Nutzen im Vorschlag des Gegners klein ist, und gering im entgegengesetzten Fall. ❑ Bewertungsfunktion von F. Zeuthen (für Agent x ) utility x (Dxx, Dyx) − utility x (Dxy , Dyy ) utility x (Dxx, Dyx) − utility x (Dxy , Dyy ) = Zx = utility x (Dxx, Dyx) − utility x (Tx , Ty ) utility x(Dxx, Dyx) Sonderfall: Zx = 1 für utility x(Dxx, Dyx) = 0. ❑ Zeuthen Strategie – Der Agent beginnt mit einem für ihn selbst besten Vorschlag aus der Verhandlungsmenge. – Wenn die eigene Bereitschaft zum Konflikt nicht größer ist als die des Gegners, dann macht der Agent ein Zugeständnis, das gerade so groß ist, das das Verhältnis sich umkehrt. – Im umgekehrten Fall bleibt der Agent beim Vorschlag der letzten Runde. PS: IV-98 Interaction c LETTMANN 2007-2011 Verhandlung Warum Zeuthen Strategie? Zeuthen Strategie kann aus folgenden fundamentalen Axiomen abgeleitet werden (Harsanyi 1956) ❑ Symmetrie Die beiden Agenten folgen derselben Strategie. ❑ Perfekte Information Jeder Agent kann die Wahrscheinlichkeit, dass der andere einen Vorschlag zurückweisen wird, korrekt schätzen. ❑ Monotonie Die Wahrscheinlichkeit, dass ein Agent kein Zugeständnis macht, kann durch eine monoton steigende (nicht unbedingt streng monoton steigende) Funktion in Abhängigkeit vom Nutzenunterschied der Vorschläge beider Parteien für diesen Agenten (z.B. für Agent x utility x (Dxx, Dyx ) − utility x(Dxy , Dyy )) bestimmt werden. ❑ Maximierung des erwarteten Nutzens Jeder Agent macht ein Zugeständnis genau dann, wenn der erwartete Nutzen bei einem Zugeständnis höher ist als bei Beharren auf dem letzten Vorschlag. Satz 1 (Harsanyi 1956) Wenn beide Agenten die Zeuthen Strategie verwenden, dann maximiert das Ergebnis (Dx, Dy ) das Nash-Produkt utility x(Dx , Dy ) · utility y (Dx , Dy ). ➜ Das Ergebnis von Verhandlungen nach dem Monotonic Concession Protocol bei Anwendung der Zeuthen Strategie ist Pareto-optimal. PS: IV-99 Interaction c LETTMANN 2007-2011 Verhandlung Warum Zeuthen Strategie? (Fortsetzung) ❑ Die Zeuthen Strategie ist ein Nash-Gleichgewicht: Wenn ein Agent die Zeuthen Strategie verwendet, dann kann der andere nichts besseres tun, als ebenfalls die Zeuthen Strategie zu benutzen. ❑ Ein Nash-Gleichgewicht ist von besonderem Interesse für das Design von Multiagentensystemen: – Es besteht keine Notwendigkeit zur Geheimhaltung bei der Programmierung. – Die Strategie kann öffentlich bekannt sein, ohne dass andere Agenten daraus einen Nutzen ziehen können, indem sie eine andere Strategie wählen. – Versehentliche Konflikte werden dadurch vermieden, dass die Strategien bekannt sind. PS: IV-100 Interaction c LETTMANN 2007-2011 Bemerkungen: ❑ In der vorgestellten Form bildet die Auswahl der Zeuthen Strategie durch beide Agenten noch keinen Gleichgewichtszustand, da ein Agent für den Fall der Risikogleichheit der Vorschläge der vorletzten Runde entscheiden könnte, kein Zugeständnis zu machen, wenn der andere die Zeuthen Strategie verfolgt. Zlotkin und Rosenschein schlagen eine gemischte Strategie vor, bei der die Agenten mit bestimmten Wahrscheinlichkeiten für diesen letzten Schritt entscheiden, ob sie ein Zugeständnis machen oder nicht. Mit dieser “Last Step Equilibrium Strategy” für den letzten Schritt angepasst ist die erweiterte erweiterte Zeuthen Strategie für beide Agenten ein Gleichgewicht. PS: IV-101 Interaction c LETTMANN 2007-2011 Verhandlung One-Shot-Verhandlungsprotokoll ❑ Protokoll Beide Agenten schlagen einen Deal vor, der mit dem höheren Nutzenprodukt wird als Vereinbarung genommen. ❑ Strategie Aus der Verhandlungsmenge schlage eine Deal mit maximalem Nutzenprodukt vor, der für den Agenten selbst am besten ist. ❑ Effizienz Die Ergebnisse haben ein maximales Nash-Produkt und sind Pareto-optimal. ❑ Stabilität Kein Agent hat einen Anreiz, von der Strategie abzuweichen. ❑ Einfachheit Es wird nur eine Runde benötigt. PS: IV-102 Interaction c LETTMANN 2007-2011 Verhandlung Voting Die Agenten stimmen über Vereinbarungen ab: Jeder Agent gibt seine Stimme ab, ein Mechanismus bestimmt das Ergebnis, das Ergebnis wird von den Agenten akzeptiert. ❑ Negotiation Set Es sei O die Menge der möglichen Ergebnisse (Outcomes). ❑ Präferenz Jeder Agent i hat eine eigene strenge, asymmetrische und transitive Präferenzrelation i über O. Der Mechanismus zur Bestimmung des Abstimmungsergebnisses nutzt eine Präferenzrelation ∗ auf O, die auf den individuellen Präferenzen (1, . . . , n) der Agenten basiert. ∗ hießt auch die soziale Präferenz (Social Preference). PS: IV-103 Interaction c LETTMANN 2007-2011 Verhandlung Voting Wünschenswerte Eigenschaften von ∗: 1. ∗ ist definiert für alle möglichen individuellen Präferenzen (1, . . . , n) der Agenten. 2. ∗ ist definiert für alle o, o ∈ O, d.h. o ∗ o oder o ∗ o gilt. 3. ∗ ist asymmetrisch und transitiv auf O. 4. ∗ beachtet das Pareto-Prinzip, d.h. wenn für alle i gilt o i o, so gilt auch o ∗ o. 5. ∗ ist unabhängig von irrelevanten Alternativen, d.h. für zwei individuelle Präferenzen (1, . . . , n) und (1, . . . , n) gilt: wenn für alle i gilt o i o und o i o, so gilt (o ∗ o gdw. o∗ o). 6. Kein Agent ist Diktator, d.h. es gibt kein i, so dass gilt: wenn o i o, dann o ∗ o. PS: IV-104 Interaction c LETTMANN 2007-2011 Verhandlung Voting Satz 2 (Arrow’s Impossibility Theorem) Für mehr als zwei Outcomes gibt es keine soziale Präferenz ∗, die alle sechs genannten Bedingungen erfüllt. ➜ Man muss bei der Festlegung eines Mechanismus auf Einhaltung mancher Bedingungen verzichten! PS: IV-105 Interaction c LETTMANN 2007-2011 Verhandlung Voting ❑ Simultane Mehrheitsentscheidung (Plurality Protocol) Jeder Agent gibt stimmt für seinen Favoriten. Die Alternative o mit den meisten Stimmen gewinnt. Problem: Irrelevante Alternativen können das Ergebnis ändern (Stimmen-Splitting). ❑ Paarweiser Mehrheitsvergleich (Binary Protocol) Es werden nacheinander Paare von Ergebnissen o, o verglichen, der Verlierer scheidet aus. Problem: Irrelevante Alternativen können das Ergebnis ändern. Die Reihenfolge der Vergleiche beeinflusst das Ergebnis. ❑ Borda-Protokoll Punkte-Zuteilungen gemäß i, d.h. |O| − k Punkte für Position k in Anordnung durch i, Reihenfolge gemäß Gesamtpunktzahl. Problem: Irrelevante Alternativen können das Ergebnis ändern. PS: IV-106 Interaction c LETTMANN 2007-2011 Verhandlung Voting Beispiel zum Plurality Protocol ❑ Ausgangssituation mit Ergebnissen a und b: 55% der Agenten hat Präferenz a b 45% der Agenten hat Präferenz b a ➜ Plurality Protocol legt a als Ergebnis fest. ❑ Einführung von zusätzlichem (irrelevantem) Ergebnis c: 40% der Agenten hat Präferenz a c b 15% der Agenten hat Präferenz c a b 45% der Agenten hat Präferenz b a ➜ Plurality Protocol legt b als Ergebnis fest, obwohl die Mehrheit a stärker präferiert als b. PS: IV-107 Interaction c LETTMANN 2007-2011 Verhandlung Voting Beispiel zum Binary Protocol Ausgangssituation mit Ergebnissen a, b, c und d: 35% der Agenten hat Präferenz c d b a 33% der Agenten hat Präferenz a c d b 32% der Agenten hat Präferenz b a c d Mögliche Vergleichsreihenfolgen b a b d d a c a c a b c c d c a c b d a a c d b d b d a b c a b b a c c c d a d b d d c c b a b c d b d a d b d ➜ Binary Protocol legt manchmal sogar d als Ergebnis fest, obwohl alle c stärker präferieren als d. PS: IV-108 Interaction c LETTMANN 2007-2011 Bemerkungen: ❑ Spielplan-Paradoxon: Die Reihenfolge der Einzelvergleiche beeinflusst das Gesamtergebnis. ❑ Problem irrelevanter Alternativen: Ohne Alternativen c und d fällt die Entscheidung für b, mit diesen Alternativen aber nicht unbedingt. ❑ Pareto-dominierte Gewinner Paradoxon: Eine für alle weniger favorisierte Alternative kann gewinnen. PS: IV-109 Interaction c LETTMANN 2007-2011 Verhandlung Voting Beispiel zum Borda Protocol Agent Präferenzen 1 abcd 2 bcda 3 cdab 4 abcd 5 bcda 6 cdab 7 abcd Borda mit d c erhält 13, b erhält 12, a erhält 11, d erhält 6 Borda ohne d a erhält 8, b erhält 7, c erhält 6 ➜ Plurality Protocol legt im zweiten Fall a als Ergebnis fest, obwohl die Mehrheit c stärkster präferiert als a. PS: IV-110 Interaction c LETTMANN 2007-2011 Bemerkungen: ❑ Die Positionen in den individuellen Präferenzen laufen von 1 bis |O|, die Punktzahlen also von |O| − 1 bis 0. PS: IV-111 Interaction c LETTMANN 2007-2011 Verhandlung Weitere Möglichkeiten ❑ Vertragsnetze (Contract Nets) Agenten schließen Verträge, um eine anfängliche Verteilung einer Aufgabenmenge zu verändern (O(ne)-Contract, C(luster)-Contract, S(wap)-Contract, M(ulti-Agent)-Contract). Es gibt Situationen, in denen kein globales Optimum durch eine Folge von jeweils für die Agenten individuell nützlichen Verträgen erreicht werden kann. ❑ Koalitionen Agenten schließen sich Koalitionen an (→ disjunkte Aufteilung der Agentenmenge), um Kosten zu reduzieren. Bestimmung von Koalitionen, die globalen Nutzen optimieren, ist NP-hart. Eigennützige Agenten schließen sich Koalitionenen an, wenn es ihnen nützt (→ Payoff Division). Koalitionen zu bestimmen, in denen die Agenten keine Möglichkeit mehr für höheren Payoff durch einen Wechsel haben, ist NP-hart. PS: IV-112 Interaction c LETTMANN 2007-2011