Perfekt Bayesiansk ligevægt Christian Schultz TheAuthor Forår 1998 Abstract Replace this text with your own abstract. Formålet med disse par sider er at give en husmandsindføring i sekventiel rationalitet og perfekt bayesiansk ligevægt. Dem, der virkelig ønsker at lære, hvadtingene drejer sig omher, henvises til faget i spilteori. Vi husker, at i spil på ekstensivformmed perfekt information var underspilsperfekt Nash ligevægt smukt designet til at udrydde utroværdige trusler. Standardeksemplet varsomi gur1. fv;vg og fh;hg er begge Nash ligevægt. Men fv;vg bygger på den utroværdige trussel, at 2 vil spille v; hvis han kommer til at trække. Underspilsperfekthedskravet, som krævede at ligevægtsstrategierne skulle være Nashligevægt i ethvert underspil rydder fv;vg ud. I underspillet, derstarter ved 2 s node giver Nash ligevægtskravet, at 2 skal vælge h: Så fh;hg er den eneste underspilsperfekte Nash ligevægt. Imidlertiderverdenlangt fra så simpel, nårderer imperfekt information. Lad os se på en situation, hvor 2 ikke ved hvad 1 har trukket. Se på gur 2. Dette angiver vi ved at der er (ikke-trivel) informationsmængde, der indeholder begge de to punkter, hvor det er 2 der skal trække. Det symboliserer, at 2 ikke ved, hvilket punkt han er på. Når 2 ikke ved, hvor han er, kan han selvsagt ikke betinge sin strategi på, hvor han er. Han kan altså igen kun vælge mellemv ogh: Spillet har to NL, ft;hg og fv;vg; og da der ikke er nogle ægte underspil erbegge disse ligevægte også uderspilsperfekte. Men ft;hg kan vi ikke lide. Ligegyldigt hvilket punkt 2 er på i sin informationsmængde er det bedst for ham at trækkev-hvis HAN KOMMER TIL AT TRÆKKE-så truslen om at trække h er utroværdig. Men da 2 har en ikke triviel informationsmængde, 1
starter der ikke noget underspil, der hvor to skal trække, og følgelig rydder underspilsperfekt Nashligevægt ikke denutroværdige trussel ud. Vi har altså brug for et begreb, der er strærkere end underspilsperfekt nashligevægt, menhar samme ånd. Somen lille byggesten vil viførst se på 1 Sekventiel rationalitet. Ideeni sekventielrationalitet er, at enspillersstrategialtidskal foreskrive et rationelt valg på hvilket som helst tidspunktm, hvadenten valget tages under perfekt ellerimperfekt informationomhvorispillet, spillerenbe ndersig. I tilfældet i gur2 betyder det, at 2 s strategi skal foreskrive en handling som er optimal for to i det tilfælde, hvor han faktisk kommer til at trække. Dette betyder, at en plan om at trækkehikke duer. Det er jo ikke optimalt for 2 at trække h; hvishanfaktisk kommer til at trække. Vi vil altså kræve, at en spillersstrategi skal foreskrive handlingerveden informationsmængde som eroptimal for spilleren, givet at han har nået informationsmængden. Hvad der er optimalt kan imidlertid ikke altid afgøres før spilleren har en ide om hvor i informationsmængden han be nder sig. I eksemplet i gur 2 spiller dette ingen rolle, men sådan er det ikke altid. Spilleren må gøre sig nogle tankeromhvor han er, disse tanker formaliseres ved en sandsynlighedsfordeling over de punkter, der er i informationsmængden. I eksempelt gur 2 bliver dette til at spilleren med sandsynlighed p regner med at være på venstre punkt og med sandsynlighed1 p regner med at være på højre punkt. Spilleren kan så regne sin forventede payo ud ved at trækkev-nemligp 1+(1 p) 1=1 - og hans forventede payo ved at trækkeh-nemligp ( 1)+(1 p) 0= p: Vi ser at den rationelle spiller trækker v: (Det er en dominerende strategi). Sekventiel rationalitet tilsiger altså, at to skal trække v; så den eneste ligevægt der overlever sekventiel rationalitet er fv;vg: Nu vil vi være en anelse mere præcise. Lad ~ h være en informationsmængde for spiller i; som indeholder punkternex 1 ;:::;x k: : Se gur 3. Spillerens opfattelse af hvilket punkt han er på er givet ved hans belief¹ h (x):¹ h (x j ) giver den sandsynlighed spilleren tillægger x j givet han har nåeth: I gur 4 er¹ h (x 1 )=1=4: En belief er en sandsynlighedsfordeling, så der gælder¹ h (x) 0 for allex 2 ~ h og P x2h¹ h (x)=1: Sekventiel rationalitet siger nu at spillerens valg i informationsmængden ~h skal være optimalt for ham givet hans belief¹ h : Med optimalt mener vi, 2
at det skal maksimere hans forventede payo givet beliefs. Sekventiel rationalitet løser alle vores problemer i eksempel 2, men ofte har vi brug for at have lidt mere styr på disse her beliefs. F.eks. virker det som noget rod, hvis en spillers beliefs er direkte i modstrid med, hvad han burde kunne udlede fra sin opfattelse af modpartens strategi. Se på gur 5. Antag, at 1 spiller den blandede strategi {V med ssh 2/3 ogh med ssh 1/3}. Som altid i Nash ligevægt vil en del af vort ligevægtskrav være, at en spiller spiller optimalt givet den andens strategi. Hvis 2 går ud fra at 1 s strategi er {V med ssh 2/3 ogh med ssh 1/3} er det klart, at den korrekte belief er¹(x 1 )=2=3 og¹(x 2 )=1=3: Alt andet vil være i modstrid med, at2tror at 1 spiller strategien {V med ssh 2/3 ogh med ssh 1/3}. Vi vil altså kræve, at en spillers belief - i det omfang det er muligt - skal være konsistent med andres strategier (og egen strategi). I eksemplet ovenfor var det klart hvad dette indebar. I lidt mere indviklede eksempler, med ere spillere og ere træk, tyr man til Bayes regel. Betragt et to-personers spil. Lad¼ i betegnei 0 s strategi. Ladp(h j¼ 1 ;¼ 2 ) være sandsynligheden for at informationsmængdenh nås givet strategierne¼ 1 og¼ 2 : Tilsvarende erp(x h n j¼ 1;¼ 2 ) sandsynligheden for, med disse strategier, at nå punktet x h n i informationsmængden h. Den sandsynlighed, hvormed spilleren regner med at være påx h n; givether nået, er spillerens belief:¹ h (x h n): Vi vil kræve, at¹ h (x h n) er den betingede sandsynlighed forx h n; givether nået, og strategierne er¼ 1 ;¼ 2. Bayes regel giver så, at ¹ h (x h n )= p(xh n j¼ 1 ;¼ 2 ) p(h j¼ 1 ;¼ 2 ) : Det er klart, at Bayes regel kun giver brød i skabet, når nævneren er forskellig fra nul, dvs kun hvis h nås med positiv sandsynlighed. For informationsmængder, der ikke nås med positiv sandsynlighed, vil vi ikke (i første omgang) begrænse mulige belifs, de skal blot være ikke negative og summe til en, dvsvære sandsynlighedsfordelinger. Forsyn de forskellige punkter med de beliefs der er tilladelige fra Bayes regel i gur 6. Lader vi nuh i være mængden afi 0 s informationsmængder,h mængden af alle spilleres informationsmængder og¹ f¹ h g h2h en vektor, der består af alle beliefs (enfor hver informationsmængde) (dette kaldes en belief-pro l på nt), og ¼ = ¼ 1 ;¼ 2 vektoren af alle strategier (en for hver spiller, en strategipro l) kan vi de nere 3
De nition 1 En perfektbayesiansk ligevægt, PBL, er (¼;¹) så 1. For alle spillere i og alle informationsmængder h 2 H i er ¼ i optimal forigivet¹ h og de andre spilleres strategier. 2. For allehog allex2h gælder, at hvisp(h j¼ 1 ;¼ 2 )>0 så er ¹ h (x h n )= p(xh n j¼ 1 ;¼ 2 ) p(h j¼ 1 ;¼ 2 ) : I enperfekt Bayesiansk ligevægt skalspillernesstrategierforeskrive handlinger, der er rationeller givet de faktisk skal udføres, og givet spillerens belief om, hvor i informationsmængden han er. Disse beliefs må ikke være taget udaf den blå luft, menskalvære forenelige medde spillede strategier, dvsgivet ved Bayes regel. Dererenrække ting manskallægge mærke til: 1. En perfekt Bayesiansk ligevægt består både af strategier og beliefs. 2. I en perfekt Bayesiansk ligevægt er der intet krav til beliefs for informationsmængder, der ikke nås med positiv sandsynlighed (ud over det trivielle at beliefs skal være givet ved en sandsynlighedsfordeling). Det gør i praksis, at der ofte er mange forskellige PBL. Populært sagt er der stadig rum for utroværdige trusler i informationsmængder, som man ikke når med positiv sandsynlighed. Så PBL er glimrende til at holde styr på beliefs for informationsmængder, der nås, men ikke for informationsmængder, derikke nås. 3. En prominent for ning af PBL, sekventiel ligevægt, indeholderkrav til beliefs for informationsmængder, somnås med nul ssh. I spil med kun to spillere og få handlinger betyder dette dog ikke det store. 4. Som vi vil se senere er problemet med abitrære beliefs i informationsmængder, der nås med nul sandsynlighed stort. Ligevægtsmængden blivertit stor. Derforindføresforskellige for ninger - re nements- hvor man med forskellige argumenter søger at begrænse tilladelige beliefs. Find PBL i nedenstående eksempel. 4