« 数学記事、準備だけ&ジョギング、7kmだけ♪ | トップページ | 自宅のリニアモーターカー♪、推進の原理(タカラトミー)&12kmラン »

ナッシュ均衡とは~囚人のジレンマ(英語原論文)に即して

今までも度々具体的に指摘して来たが、いつもの事ながら、理数系の分野

では、古典的な原論文を本当にチェックしてる人が非常に少ない。専門家

を含めて言えることだと思う。「本質的に同じ内容ならOK」ということだろう

が、本質的に同じかどうかは、元のものと比較しないと分からないはず♪

 

今回、ノーベル経済学賞に輝くナッシュの訃報を目にして、「ナッシュ均衡」

の記事を書こうと思ったものの、その最適の有名な例である「囚人のジレン

マ」を探すのが大変だった。日本語はもちろん、英語で検索しても、変形し

たヴァージョンばかりで、原型や原論文の正確な引用が(ほとんど)見当た

らないのだ。

 

図書館の参考書にも英語版ウィキペディアにも無いし、パウンドストーンの

解説書『囚人のジレンマ フォン・ノイマンとゲームの理論』をGoogle books

で検索しても出て来ない。パウンドストーンのものも、現代版の言い換えだ。

 

結局、原論文そのものは発見できてないけど、著者本人が原論文を紹介す

る形の要約論文なら発見できた。パウンドストーンの記述とも整合的だし、お

そらくこれが本物だろう。もし間違いが判明したら、直ちに訂正することにして、

とりあえず先に進んでみよう。。

 

 

         ☆           ☆          ☆

さて、ではその「囚人のジレンマ」(Prisoner’s Dilemma)から。これは、

1950年、フラッド(Flood)とドレシャー(Dresher)が考案したパターンを、

タッカー(A.W.Tucker)が分かりやすく解釈して定式化したものだと言わ

れてる。私はフラッドの論文(ドレシャーは協力者)も探して目を通したが、

今現在、囚人のジレンマと同じなのかどうか、まだ理解できてない。

 

 (☆追記: 翌日、フラッドの論文を理解した。この記事末尾のP.S.参照。)

 

一方、タッカーが1983年に書いた、自分の過去の論文を紹介してるらしい

論文(The Mathematics of Tucker : A Sampler)は、米国の雑誌

データベース・JSTORで発見できた。

 

150526d
     

 

これがおそらく、本人の1950年の論文からの引用であって、そのまた元に

あるのが、パウンドストーンが言及してる個人的な手紙(ドレシャー宛)だろう

と想像するが、まだそこまでは確認できてない。

 

原文はリンクで確認して頂くとして、ここではポイントだけ、日本語訳で引用

しとこう。2人の囚人が警察に捕まって、別々に隔離された状態で、それぞ

れ交渉をもちかけられてる。

 

   (1)  一方が自白(confess)して、他方がしない場合、自白者には

        1単位(unit)の報酬が与えられるが、他方は2単位の罰となる。

   (2)  2人とも自白した場合は、どちらも1単位の罰を受ける。

   (3)  2人とも自白しない場合は、どちらも無罪となる(go clear)。

 

囚人Ⅰと囚人Ⅱについて、行動戦略と結果をまとめた表(利得行列)を書くと、

下のようになる。それぞれ、自白するかしないかの2通りだから、2×2行列

の形になる。成分の左側が囚人Ⅰの結果(=利得)、右側が囚人Ⅱの結果

だ。例えば(1,-2)なら、囚人Ⅰが1単位プラス、囚人Ⅱが2単位マイナス。

 

150526b

 

ちなみにパウンドストーンが示して英語版ウィキが採用してるのは、上の全

ての値から1を引いて、符号を変えて、年単位にしたものだ。例えば上の

(1,-2)なら、刑罰が(0年,3年)へと変更されてる。確かに、原論文の

+1という報酬は、司法取引としてもちょっと分かりにくいものだろう。

 

 

          ☆          ☆          ☆

2人の戦略と結果の総体で、利得の和はゼロではないから、「2人・非ゼロ和

のゲーム。協力できない状況だから、ナッシュの1950年の論文タイトルにも

なってる、「非協力ゲーム」(Non-cooperative Games)でもある。2国間

の戦力など、応用は色々可能だろう。戦力なら、自白の代わりに戦力増強と

考えればいい。

 

まず、素朴に考えてみよう。囚人ⅠとⅡの条件は全く同じ(対等)だから、囚人

Ⅰの立場だけ考えれば十分だ。

 

期待される利得の平均値だけで考えても、

     自分が自白した場合は、     (-1+1)/2=0

     自分が自白しない場合は、   (-2+0)/2=-1

よって、自白した方が得のような気がする。

 

ただ、相手は確率的にランダム(でたらめ)に行動を選択するわけではないか

ら、単純平均することにあまり意味がないし、利得の数値が少し変われば違

う結論にもなるだろう。

 

そこで、論理的に相手の戦略を場合分けして、それぞれに対する自分の戦

略を考えてみる。

 

   相手が自白する場合 ・・・ 自分が自白すると-1、自白しないと-2。

                     よって、自分も自白した方がいい。

 

   相手が自白しない場合 ・・・ 自分が自白すると1、自白しないと0。

                      よって、自分は自白した方がいい。

 

どちらの場合も、自分は自白した方がいい(自白が「最適応答」)。全く同じ考

えが相手にも使えるから、結局2人とも、自白した方がいいということになる。

その状態(どちらにとっても、相手が自白する場合)をもとにして考えると、お

互い自分の戦略を変える動機を持ちにくい。既に最適応答となってるからだ。

 

この2人の戦略の組合せ、互いに最適応答である(自白、自白)が、「ナッシュ

均衡点」(Nash equilibrium point)。そこでの均衡、安定状態がナッシュ

均衡だ。

 

ただ、利得は-1に過ぎないから、少なくとも心理的には、あまり得のような

気がしないだろう。例えば、2国がどちらも戦力増強してパワー・バランスを

保つことに決定しても、防衛費が増えてお互い損するだけのような気がする、

ということだ。。

 

 

         ☆          ☆          ☆       

同じ内容は、ナッシュの論文に似た書き方(同じではない)なら、以下のよう

になる。2人の戦略の組合せ、「(囚人Ⅰの戦略,囚人Ⅱの戦略)」に対する

利得関数 f を導入。囚人Ⅰなら、f₁。囚人Ⅱなら、f₂。また、cは自白する、nは

自白しない。「max」は条件をみたして変化する f の最大値を示す演算記号。

 

囚人Ⅰについて   f₁(c,c)=-1, f₁(n,c)=-2

            ∴ f₁(c,c)=max f₁(x,c) (x=c,n)

 

             f₁(c,n)=1, f₁(n,n)=0

            ∴ f₁(c,n)=max f₁(x,n) (x=c,n)

 

            よって、c(自白)を選択するのが合理的。 

 

囚人Ⅱについて   f₂(c,c)=-1, f₂(c,n)=-2

           ∴ f₂(c,c)=max f₂(c,y) (y=c,n)

 

            f₂(n,c)=1, f₂(n,n)=0

           ∴ f₂(n,c)=max f₂(n,y) (y=c,n)

 

           よって、c(自白)を選択するのが合理的。

 

したがって、2人の戦略の組合せは、(c,c)が合理的。この時、全員(2人)

の利得は、相手がc(自白)の場合の最大値となるので、この組合せはナッ

シュ均衡点となって安定する。正確には、安定する「と期待される」。

 

 

           ☆          ☆          ☆

ちなみにナッシュの論文自体では、遥かに高度で洗練された表現となってる。

n人の戦略(s : strategy)の組合せは、n-tuple(n個の組)と呼ばれる。n

次元ベクトルみたいな演算はできない単なる組合せだから、別の名前を付け

てるのだ。

 

150526c

 

なお、囚人のジレンマのナッシュ均衡点は1つだが、一般には1つとは限らな 

。また、ナッシュ均衡はお互いにとって、「ベスト」の状態ではない。どちらに

とっても、利得がもっと上(0や1)の状態が存在する。例えば囚人Ⅰにとって

は、お互い自白しない(n,n)や、自分だけ自白する(c,n)の方がいい。

 

全員にとって、これより上の状態がないことを、「パレート最適」(Pareto

optimal)と呼ぶ。これも、学者の名前を付けた概念で、ナッシュ均衡は一般 

には、パレート最適でない。だからこそ、均衡を破ろうとする特殊な動きが絶

えないのだろう。人間の欲望は無限なのだ。ちなみに囚人のジレンマには、

パレート最適な点は存在しない。

 

なお、パレート最適であるようなナッシュ均衡点の例としては一応、下のよう

150526e3  なつまらないゲー

  ムの(a,a)を挙

  げることができる。

  つまりプレーヤー

  ⅠとⅡがどちらも

戦略aを選択してる状態。これなら迷う余地はないはず。

とりあえず、今日はこの辺で。。☆彡  

 

 

 

P.S. タッカーより先の、フラッドの論文で、囚人のジレンマと本質的に同 

     じゲームを確認できた。2人それぞれが2通りの選択をして、ナッ

     シュ均衡点が存在するが、パレート最適点は存在しない。

 

     被験者AAが1行目か2行目を選択、被験者JWが1列目か2列目

     を選択して、それぞれの利得が決定するゲーム実験で、一応「非

     協力」だけど、過去の自分たちのデータを分析して「協力」に向か

     う様子が確認できたらしい。フラッドの論文にある、2人それぞれ

     の行列は次の通り。AAはAとだけ、JWはWとだけ、ラストネーム

     で書かれてる。

 

150527b

 

     これを私が1つの行列にまとめたものが下図。例えば(-1,2)な

     らAAが-1、JWが2という意味だ。これが囚人のジレンマの原型

     だと言ってもいいだろう。

 

150527a

 

    この場合、ナッシュ均衡は2行1列の(0,1/2)だが、100回の実験

    が進むにつれて、2人とも1行2列の(1/2,1)を目指すようになる。

    つまり、ナッシュ均衡から、お互いにとってより良い状態に向かう様子

    が、実験によって統計的に確認されてるのだ。

 

150527c  実験回数や実験条

  件には、統計学的

  に議論の余地があ

  るが、左の戦略頻

  度の表は興味深い

  ものだろう。

 

                                  (計 3807字)

| |

« 数学記事、準備だけ&ジョギング、7kmだけ♪ | トップページ | 自宅のリニアモーターカー♪、推進の原理(タカラトミー)&12kmラン »

経済・政治・国際」カテゴリの記事

数学」カテゴリの記事

コメント

読みやすいです。テンメイさんの文章に慣れてきていることを差し引いても、素直な説明文章です。
ナッシュ均衡はパレート最適ではない、ですね。

投稿: gauss | 2015年5月27日 (水) 00時56分

> gauss さん
  
こんばんは。いつも、どうもです。
今日になって、大幅に追記しました。
特にP.S.で書いた、囚人のジレンマ原論文の
実験結果はなかなか興味深いので、ご賞味ください。
ナッシュの論文を読みこなすのはまだ先になりそうです。。

投稿: テンメイ | 2015年5月27日 (水) 23時17分

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



« 数学記事、準備だけ&ジョギング、7kmだけ♪ | トップページ | 自宅のリニアモーターカー♪、推進の原理(タカラトミー)&12kmラン »