tisdag 17 augusti 2010

Är spelteoretiker rationella?

Det korta svaret är att det finns olika definitioner av rationalitet och att de är fast i sin. Rationalitet kan beskrivas som att försöka uppnå sina mål så gott som möjligt. Uttryckt i ekonomiska termer så är en rationell person en nyttomaximerare, en som korrekt identifierar hur denne skall uppnå sina mål och agerar därefter. Den här definitionen tror jag inte spelteoretikerna säger emot, men de skulle nog lägga till att de vet den korrekta metoden en rationell person kommer använda för att ta reda på hur denne skall agera. Det vill säga, de menar att för att vara rationell så måste man tänka på varje tänkbart vägval man står inför på ett rationellt sätt. Det är här som deras definition av rationalitet har gått från att beskriva den generella processen att uppnå ens mål till en specifik metod att fundera på hur man uppnår dessa mål. Och det är här som jag menar att de gjort ett misstag, att deras metod inte är bra för en rationell egoistisk individ. (De analyserar oftast hur egoister, personer som bara bryr sig om sin egen välfärd, agerar och det är med dessa som problemen uppstår.)

Denna metod spelteoretikerna menar att man skall använda sig av kallas, om jag får lov att översätta från engelskan, baklänges induktion. Denna går ut på att man, i ett spel, resonerar från slutet av spelet, ser vad den optimala strategin är för den sista spelaren, sedan för den näst sista spelaren givet att denne vet hur det sista draget ser ut. Sedan fortsätter man i samma stil till det första draget som står framför en. Nu finns det inte längre något att fundera på, givet att de motspelare man spelar med också är rationella, därför att de också har använt den här tekniken och "vet" hur spelet kommer sluta. Bryan Caplan belyser detta sätt att tänka genom att visa hur den gode kanslern/kejsaren Palpatine skulle ha kunnat använt metoden:

1. To become and remain Emperor, Palpatine needs a powerful but obedient apprentice, a rubber-stamp Senate, no external enemies, and no Jedi.

2. Since the external enemies are his main rationalization for amassing power, he kills them last using his powerful but obedient apprentice.

3. To push the Senate to vote him absolute power, he needs to survive an attempted Jedi coup.

4. To survive the coup, he has to trick the Jedi into attacking him when they are weak, then retaliate with a massive sneak attack. This also solves his Jedi problem.

5. To recruit his new apprentice, Anakin Skywalker, he has to trick him into preventing the Jedi coup.

6. To trick Anakin into preventing the Jedi coup, he has to do many things: offer to help him save his pregnant wife, build up friendship and trust with flattery over the years, manipulate the Jedi into bruising his ego by denying him the rank of Master, pretend to be a helpless victim of the Jedi, etc.

...

13. Palpatine gets himself voted Chancellor by promising to protect Naboo against the Trade Federation.

14. To make this happen, Palpatine covertly orders the Trade Federation to blockade and invade Naboo.

I just det här exemplet utgår dock Caplan från att endast Palpatine agerar rationellt (vilket troligtvis skulle gjort honom till en bättre regissör och manusförfattare än och George Lucas som utgick från att ingen i filmerna gjorde det). Men det visar förhoppningsvis ganska väl hur tänket fungerar. Vad är det då som är problematiskt med att använda det här sättet att analysera ens valmöjligheter?

Problemet belyses bäst genom att visa hur detta sätt att tänka leder till klart negativa resultat för en egoist. Ett exempel där bakvänd induktion går dåligt är i Centipede game, eller i en variant av det. I detta scenario så turas du och en motspelare att ta mynt från en hög med mynt. Ni kan välja att antingen ta ett mynt, varpå turen går vidare till motspelaren, eller två, varpå spelet tar slut. En "rationell" person som tänker bakvänt här kommer att ta två mynt, oavsett hur stor högen är. För att se detta, följ den bakvända logiken och se hur den "rationella egoisten" skulle agera i den sista omgången.
Ponera att det är ett mynt kvar i högen. Här är det självklart att man tar myntet, och det finns inget problem här.

Ponera att det är två mynt kvar i högen. Här har spelaren antingen valet att dela med sig eller ta allt själv. Eftersom vi antar att spelaren inte sätter något värde på moraliska värden som att dela lika eller vänlighet och bara vill maximera antalet mynt, så tar denne två mynt.

Säg att det är tre mynt. Spelaren vet nu om att ifall denne tar ett mynt är det allt han får, för han vet att det optimala draget för den andre spelaren i nästa drag är att ta två mynt, så att spelet avslutas. Därför tar han två mynt.

Fyra mynt. Återigen vet spelaren vad han kan förvänta sig att få om han tar ett mynt, då kommer motspelaren att ha tre mynt och alla "rationella" personer tar ju två mynt då. Bäst att ta två mynt.

Fem mynt. Jag hoppas att mönstret blivit tydligt vid det här laget; spelaren vet om hur en rationell spelare skulle spela i alla tidigare spel, så det är bäst att inte samarbeta och ta två mynt, eftersom motspelaren bara kommer att låta bli att samarbeta och ta två mynt nästa omgång. Alltså tar spelaren två mynt. Men, skulle man inte kunna samarbeta vid det här laget? Ta ett mynt och hoppas att motspelaren inte tar två? Kanske, men det skulle inte vara rationellt enligt en spelteoretiker.

Sex mynt. Spelaren vet nu om att ifall denne tar ett mynt är det allt han får, för han vet att det optimala draget för den andre spelaren i nästa drag är att ta två mynt, så att spelet avslutas. Därför tar han två mynt.

Femtio miljoner mynt. Spelaren tar två mynt.
Nu kommer frågan, uppnår man sina mål (maximera antalet mynt) genom att använda bakvänd induktion inför det här problemet? Det verkar inte så. När man testar hur människor agerar i sådana här och liknande spel, som återkommande fångarnas dilemma, finner man att människor tänker på ett helt annat sätt än det "rationella" sättet, och det går bättre för dem. Här försöker spelteoretikerna rädda sin hypotes genom att säga att människor är altruistiska, inte förstår bakvänd induktion eller helt gjorde misstaget att samarbeta eftersom de inte tänkt igenom problemet tillräckligt länge. Det krävs en spelteoretiker av hög rang att inse att det enda rationella att göra i en situation med en kolossal hög med mynt är att ta två stycken.

Det är här som man inte bör hålla sig fast vid en metod att vara rationell och istället titta på grundfrågan: hur tjänar jag så mycket som möjligt i den här situationen. Filosofen Eliezer Yudkowsky formulerade det väl i en kritik av en liknande del av spelteoretikernas bild av rationalitet:
First, foremost, fundamentally, above all else:

Rational agents should WIN.

Don't mistake me, and think that I'm talking about the Hollywood Rationality stereotype that rationalists should be selfish or shortsighted. If your utility function has a term in it for others, then win their happiness. If your utility function has a term in it for a million years hence, then win the eon.

But at any rate, WIN. Don't lose reasonably, WIN.

Det var Yudkowskys beskrivning av en mer realistisk version av fångarnas dilemma och ett återkommande fångarnas dilemma som fick mig att se att den bakvända induktionen inte är rätt metod för att agera rationellt, i vissa situationer (den kan ju fungera i andra). Båda artiklar är väl värda att läsa.

Jag vet inte riktigt om det är logiken bakom bakvänd induktion som gör det fel, eller att den bara används felaktigt. Det skulle kunna vara så att en rationell individ som använder bakvänd induktion resonerar så här: "Okej, mitt mål att få hälften av alla pengar i högen och de två sista, misslyckas, eftersom min motpart inte kommer att tillåta mig att göra det. Men, min motpart, som vill ha samma sak, vet också om att han inte kommer att lyckas ta de två sista mynten. Och när vi båda tänker på detta sätt leder det till att jag bara får en pytteliten del av hela högen. Men detsamma gäller för min motpart. Så, det kanske är bättre att satsa på ett mer realistiskt mål, som att få hälften av alla mynt i högen. Jag tar ett mynt i början, och då kommer min motpart också göra det." Man kan förstås tänka sig att ens motspelare är en klassisk spelteoretiker som inte ändrar sin uppfattning om vad rationellt spelande är, men eftersom denne inte vet om vad man har för uppfattning kommer denne att utgå från att man samarbetar och därför samarbeta tills det bara är två mynt kvar.

Jag vet inte riktigt vilket som är det mest optimala sättet att fundera på dessa situationer. Det kan mycket väl vara så att det inte finns något optimalt sätt att tänka på det, att varje sätt att se på det kan attackeras på något sätt. Men det verkar klart att det inte är rationellt att tänka som spelteoretikerna här.

2 kommentarer:

  1. samarbeta tills det bara är två mynt kvar

    Snarare tills inte något mynt är kvar. Om din motspelare tror att du kommer ta de två sista mynten så kommer den vilja ta två av de tre sista. Och så vidare.

    Hur skulle du spela om fem eller sex mynt mot en gem-maximerare där varje mynt representerar en miljon räddade liv för dig och ett gem för gem-maximeraren?

    SvaraRadera
  2. Jag kanske uttryckte mig lite dåligt. Jag menar att spelteoretikern kommer att samarbeta tills det bara finns två mynt kvar, sedan tar han dessa. Om du också menade detta, varför skulle spelteoretikern samarbeta hela vägen?

    Om jag fick möjlighet att bryta mot eventuella regler du vill sätta upp kring det här scenariot, så skulle jag gjort det. Annars, det beror på hur väl jag förstår gem-maximeraren. Jag tycker det är ett problem med att inte ta två när det bara finns två - och jag ser problemet det orsakar om motståndaren tänker likadant - men jag har ingen lösning på det. Samma sak med sista omgången i fångarnas dilemma. Det enda som kan få mig att samarbeta (i slutet) är att det troligtvis kommer fungera.

    SvaraRadera