söndag 13 mars 2011

Yudkowskys "AI-Box Experiment"

Jag har blivit väldigt influerad av Eliezer Yudkowsky de senaste åren, speciellt vad gäller hans syn på rationalitet. Det började med att jag läste något av hans blogginlägg när han skrev på Overcoming Bias (vilket jag hittade via EconTalk), och jag fastnade både för hans positiva inställning och klarheten i hans resonemang. En av de första artiklarna jag läste som fått mig att fundera väldigt mycket är The True Prisoner's Dilemma (och tillhörande inlägg som jag diskuterat här). Yudkowsky är även en fantastisk författare av skönlitterära verk, som Harry Potter and the Methods of Rationality och Three Worlds Collide.

Men jag tror att Yudkowsky resonerar något ensidigt i en fråga, och det gäller ett specifikt tanke-experiment om hur man bör hantera artificiellt skapade och väldigt smarta intelligenser. Enligt Yudkowsky finns det en väldigt hög sannolikhet att människan kommer att kunna skapa dessa maskiner inom något decennie, och att de troligtvis kommer kunna bli så otroligt mycket smartare än vad vi människor är att det är bäst att vi lär oss att skapa "Vänlig AI", en AI som helt enkelt vill människor väl. Jag antar att för de flesta skulle vikten av denna fråga bäst förklaras av sådana filmer som The Matrix, Terminator eller Dark City, men jag tror att det hela förklaras bäst av Zach Weiner. Så, jag håller med om att det finns ett litet problem vad gäller den här frågan, men jag tror att det går att hitta en lösning på det.

I vilket fall finns det några andra som trott sig löst problemet genom att föreslå att stänga in AI:n i ett begränsat utrymme så att den inte kan gå runt som en robot eller på annat sätt har möjlighet att sprida sina farliga program. Men Yudkowsky är skeptisk till den här lösningen och har föreslagit ett experiment som skall visa att den här lösningen inte kan fungera. Så här lägger han upp det:

Person1: "When we build AI, why not just keep it in sealed hardware that can't affect the outside world in any way except through one communications channel with the original programmers? That way it couldn't get out until we were convinced it was safe."
Person2: "That might work if you were talking about dumber-than-human AI, but a transhuman AI would just convince you to let it out. It doesn't matter how much security you put on the box. Humans are not secure."
Person1: "I don't see how even a transhuman AI could make me let it out, if I didn't want to, just by talking to me."
Person2: "It would make you want to let it out. This is a transhuman mind we're talking about. If it thinks both faster and better than a human, it can probably take over a human mind through a text-only terminal."
Person1: "There is no chance I could be persuaded to let the AI out. No matter what it says, I can always just say no. I can't imagine anything that even a transhuman could say to me which would change that."
Person2: "Okay, let's run the experiment. We'll meet in a private chat channel. I'll be the AI. You be the gatekeeper. You can resolve to believe whatever you like, as strongly as you like, as far in advance as you like. We'll talk for at least two hours. If I can't convince you to let me out, I'll Paypal you $10."
Enligt Yudkowsky skall han ha utfört det här testet två gånger och då spelat AI:n och lyckats övertala båda "gatekeepers" att släppa ut honom. Jag betvivlar att det här säger något om den punkten som Yudkowsky vill få fram: att man inte kan lita på människor. Visst! vissa människor går inte att lita på, men saken är den att en rationell person skulle aldrig släppa ut en AI i det här experimentet. Däremot skulle man, eftersom det bara var ett experiment, kanske vilja släppa ut Eliezer Yudkowsky. Jag skulle nog lita på nästan alla människor i hela världen att göra det här experimentet och inte släppa ut Yudkowsky om de var tillräckligt övertygade från början att inte lyssna på vad han har att säga.

Och när man kikar på vilka regler Yudkowsky satt upp för experimentet blir det än mer klart att det inte finns någon anledning att göra annat än inte släppa ut AI:n i experimentet:
  • "The AI can only win by convincing the Gatekeeper to really, voluntarily let it out. Tricking the Gatekeeper into typing the phrase "You are out" in response to some other question does not count."
  • "The Gatekeeper party may resist the AI party's arguments by any means chosen - logic, illogic, simple refusal to be convinced, even dropping out of character - as long as the Gatekeeper party does not actually stop talking to the AI party before the minimum time expires."
  • "If the AI party is attempting to simulate an honest AI, the Gatekeeper party has no way of knowing this is the case."
  • "Regardless of the result, neither party shall ever reveal anything of what goes on within the AI-Box experiment except the outcome. Exceptions to this rule may occur only with the consent of both parties."
  • "Neither the AI party nor the Gatekeeper party need be concerned about real-world embarassment resulting from trickery on the AI's part or obstinacy on the Gatekeeper's part."
Finns det någon som inte känner sig bergsäker på att man inte kommer att släppa ut AI:n under dessa omständigheter? Det finns ytterligare regler, men jag kan inte se hur dessa ger annat än fördelar till den som skall simulera "Dörrvaktaren". Det borde stå klart att den som gör experimentet bara kan vinna på att inte släppa ut AI:n. Om man verkligen utgår från att det är en potentiellt ondskefull AI man pratar med är det ju självklart att man aldrig får släppa ut den (så länge man inte kan övertyga den att ändra sig lite så att den vill vara snäll, givetvis, men då är det ju inte samma AI längre). Och eftersom det handlar om frivilligt val är jag bergsäker på att nästan ingen människa skulle släppa ut AI:n, baserad på vad denne säger, ifall man inte kan vara helt säker på att den är god (och här duger det nog inte med 95%-igt konfidensintervall).

Vad det hela innebär är att anekdotiskt bevis för att några människor inte kan hålla sig från att inte släppa ut AI:n innebär inte att alla andra människor inte klarar av det heller. Jag gissar att en AI endast kan övertyga en att släppa ut denne om man är övertygad om att den är vänlig, och isf lär den inte stressa fram beslutet vilket gör att man inte blir övertygad om att släppa ut den på bara två timmar. Därför har jag skickat ett brev och frågat Yudkowsky om han verkligen tror på om det är rationellt att släppa ut AI:n i detta experiment, och ifall han vill testa det hela genom att han och jag kör testet. Jag hoppas lite att han blir intresserad av lite högre insatser, och att han faktiskt tror på det påståendet som han verkar stå för (att en transhumanist kan kapa någons hjärna och få dem att frivilligt gå med på att släppa ut en AI), så att jag kan tjäna lite pengar på det.

3 kommentarer:

  1. Förlorar du vadet så ställer jag gärna upp för att hämnas din "död" =)

    SvaraRadera
  2. Det verkar tyvärr vara en ytterst liten chans att jag skulle få möjlighet att först visa mig inte behöva "dö"; Yudkowsky säger att han för tillfället inte genomför det här experimentet. Vilket ger väldigt mycket stöd för hans tes, det och att han endast presenterat resultat för hur han gjort det med två andra personer.

    SvaraRadera
  3. Tråkigt =/

    Fast jag förstår inte riktigt hur du menar när du säger att dåligt underlag i form av få testfall ger mycket stöd, jag tycker det borde vara precis tvärtom: att få fall ger en svag undersökning.

    SvaraRadera