ナッシュ均衡とは~囚人のジレンマ(英語原論文)に即して
今までも度々具体的に指摘して来たが、いつもの事ながら、理数系の分野
では、古典的な原論文を本当にチェックしてる人が非常に少ない。専門家
を含めて言えることだと思う。「本質的に同じ内容ならOK」ということだろう
が、本質的に同じかどうかは、元のものと比較しないと分からないはず♪
今回、ノーベル経済学賞に輝くナッシュの訃報を目にして、「ナッシュ均衡」
の記事を書こうと思ったものの、その最適の有名な例である「囚人のジレン
マ」を探すのが大変だった。日本語はもちろん、英語で検索しても、変形し
たヴァージョンばかりで、原型や原論文の正確な引用が(ほとんど)見当た
らないのだ。
図書館の参考書にも英語版ウィキペディアにも無いし、パウンドストーンの
解説書『囚人のジレンマ フォン・ノイマンとゲームの理論』をGoogle books
で検索しても出て来ない。パウンドストーンのものも、現代版の言い換えだ。
結局、原論文そのものは発見できてないけど、著者本人が原論文を紹介す
る形の要約論文なら発見できた。パウンドストーンの記述とも整合的だし、お
そらくこれが本物だろう。もし間違いが判明したら、直ちに訂正することにして、
とりあえず先に進んでみよう。。
☆ ☆ ☆
さて、ではその「囚人のジレンマ」(Prisoner’s Dilemma)から。これは、
1950年、フラッド(Flood)とドレシャー(Dresher)が考案したパターンを、
タッカー(A.W.Tucker)が分かりやすく解釈して定式化したものだと言わ
れてる。私はフラッドの論文(ドレシャーは協力者)も探して目を通したが、
今現在、囚人のジレンマと同じなのかどうか、まだ理解できてない。
(☆追記: 翌日、フラッドの論文を理解した。この記事末尾のP.S.参照。)
一方、タッカーが1983年に書いた、自分の過去の論文を紹介してるらしい
論文(The Mathematics of Tucker : A Sampler)は、米国の雑誌
データベース・JSTORで発見できた。
これがおそらく、本人の1950年の論文からの引用であって、そのまた元に
あるのが、パウンドストーンが言及してる個人的な手紙(ドレシャー宛)だろう
と想像するが、まだそこまでは確認できてない。
原文はリンクで確認して頂くとして、ここではポイントだけ、日本語訳で引用
しとこう。2人の囚人が警察に捕まって、別々に隔離された状態で、それぞ
れ交渉をもちかけられてる。
(1) 一方が自白(confess)して、他方がしない場合、自白者には
1単位(unit)の報酬が与えられるが、他方は2単位の罰となる。
(2) 2人とも自白した場合は、どちらも1単位の罰を受ける。
(3) 2人とも自白しない場合は、どちらも無罪となる(go clear)。
囚人Ⅰと囚人Ⅱについて、行動戦略と結果をまとめた表(利得行列)を書くと、
下のようになる。それぞれ、自白するかしないかの2通りだから、2×2行列
の形になる。成分の左側が囚人Ⅰの結果(=利得)、右側が囚人Ⅱの結果
だ。例えば(1,-2)なら、囚人Ⅰが1単位プラス、囚人Ⅱが2単位マイナス。
ちなみにパウンドストーンが示して英語版ウィキが採用してるのは、上の全
ての値から1を引いて、符号を変えて、年単位にしたものだ。例えば上の
(1,-2)なら、刑罰が(0年,3年)へと変更されてる。確かに、原論文の
+1という報酬は、司法取引としてもちょっと分かりにくいものだろう。
☆ ☆ ☆
2人の戦略と結果の総体で、利得の和はゼロではないから、「2人・非ゼロ和」
のゲーム。協力できない状況だから、ナッシュの1950年の論文タイトルにも
なってる、「非協力ゲーム」(Non-cooperative Games)でもある。2国間
の戦力など、応用は色々可能だろう。戦力なら、自白の代わりに戦力増強と
考えればいい。
まず、素朴に考えてみよう。囚人ⅠとⅡの条件は全く同じ(対等)だから、囚人
Ⅰの立場だけ考えれば十分だ。
期待される利得の平均値だけで考えても、
自分が自白した場合は、 (-1+1)/2=0
自分が自白しない場合は、 (-2+0)/2=-1
よって、自白した方が得のような気がする。
ただ、相手は確率的にランダム(でたらめ)に行動を選択するわけではないか
ら、単純平均することにあまり意味がないし、利得の数値が少し変われば違
う結論にもなるだろう。
そこで、論理的に相手の戦略を場合分けして、それぞれに対する自分の戦
略を考えてみる。
相手が自白する場合 ・・・ 自分が自白すると-1、自白しないと-2。
よって、自分も自白した方がいい。
相手が自白しない場合 ・・・ 自分が自白すると1、自白しないと0。
よって、自分は自白した方がいい。
どちらの場合も、自分は自白した方がいい(自白が「最適応答」)。全く同じ考
えが相手にも使えるから、結局2人とも、自白した方がいいということになる。
その状態(どちらにとっても、相手が自白する場合)をもとにして考えると、お
互い自分の戦略を変える動機を持ちにくい。既に最適応答となってるからだ。
この2人の戦略の組合せ、互いに最適応答である(自白、自白)が、「ナッシュ
均衡点」(Nash equilibrium point)。そこでの均衡、安定状態がナッシュ
均衡だ。
ただ、利得は-1に過ぎないから、少なくとも心理的には、あまり得のような
気がしないだろう。例えば、2国がどちらも戦力増強してパワー・バランスを
保つことに決定しても、防衛費が増えてお互い損するだけのような気がする、
ということだ。。
☆ ☆ ☆
同じ内容は、ナッシュの論文に似た書き方(同じではない)なら、以下のよう
になる。2人の戦略の組合せ、「(囚人Ⅰの戦略,囚人Ⅱの戦略)」に対する
利得関数 f を導入。囚人Ⅰなら、f₁。囚人Ⅱなら、f₂。また、cは自白する、nは
自白しない。「max」は条件をみたして変化する f の最大値を示す演算記号。
囚人Ⅰについて f₁(c,c)=-1, f₁(n,c)=-2
∴ f₁(c,c)=max f₁(x,c) (x=c,n)
f₁(c,n)=1, f₁(n,n)=0
∴ f₁(c,n)=max f₁(x,n) (x=c,n)
よって、c(自白)を選択するのが合理的。
囚人Ⅱについて f₂(c,c)=-1, f₂(c,n)=-2
∴ f₂(c,c)=max f₂(c,y) (y=c,n)
f₂(n,c)=1, f₂(n,n)=0
∴ f₂(n,c)=max f₂(n,y) (y=c,n)
よって、c(自白)を選択するのが合理的。
したがって、2人の戦略の組合せは、(c,c)が合理的。この時、全員(2人)
の利得は、相手がc(自白)の場合の最大値となるので、この組合せはナッ
シュ均衡点となって安定する。正確には、安定する「と期待される」。
☆ ☆ ☆
ちなみにナッシュの論文自体では、遥かに高度で洗練された表現となってる。
n人の戦略(s : strategy)の組合せは、n-tuple(n個の組)と呼ばれる。n
次元ベクトルみたいな演算はできない単なる組合せだから、別の名前を付け
てるのだ。
なお、囚人のジレンマのナッシュ均衡点は1つだが、一般には1つとは限らな
い。また、ナッシュ均衡はお互いにとって、「ベスト」の状態ではない。どちらに
とっても、利得がもっと上(0や1)の状態が存在する。例えば囚人Ⅰにとって
は、お互い自白しない(n,n)や、自分だけ自白する(c,n)の方がいい。
全員にとって、これより上の状態がないことを、「パレート最適」(Pareto
optimal)と呼ぶ。これも、学者の名前を付けた概念で、ナッシュ均衡は一般
には、パレート最適でない。だからこそ、均衡を破ろうとする特殊な動きが絶
えないのだろう。人間の欲望は無限なのだ。ちなみに囚人のジレンマには、
パレート最適な点は存在しない。
なお、パレート最適であるようなナッシュ均衡点の例としては一応、下のよう
なつまらないゲー
ムの(a,a)を挙
げることができる。
つまりプレーヤー
ⅠとⅡがどちらも
戦略aを選択してる状態。これなら迷う余地はないはず。
とりあえず、今日はこの辺で。。☆彡
P.S. タッカーより先の、フラッドの論文で、囚人のジレンマと本質的に同
じゲームを確認できた。2人それぞれが2通りの選択をして、ナッ
シュ均衡点が存在するが、パレート最適点は存在しない。
被験者AAが1行目か2行目を選択、被験者JWが1列目か2列目
を選択して、それぞれの利得が決定するゲーム実験で、一応「非
協力」だけど、過去の自分たちのデータを分析して「協力」に向か
う様子が確認できたらしい。フラッドの論文にある、2人それぞれ
の行列は次の通り。AAはAとだけ、JWはWとだけ、ラストネーム
で書かれてる。
これを私が1つの行列にまとめたものが下図。例えば(-1,2)な
らAAが-1、JWが2という意味だ。これが囚人のジレンマの原型
だと言ってもいいだろう。
この場合、ナッシュ均衡は2行1列の(0,1/2)だが、100回の実験
が進むにつれて、2人とも1行2列の(1/2,1)を目指すようになる。
つまり、ナッシュ均衡から、お互いにとってより良い状態に向かう様子
が、実験によって統計的に確認されてるのだ。
実験回数や実験条
件には、統計学的
に議論の余地があ
るが、左の戦略頻
度の表は興味深い
ものだろう。
(計 3807字)
| 固定リンク | 0
「経済・政治・国際」カテゴリの記事
- イスラエルの先制攻撃と、イラン・米国の核交渉との関係、ChatGPT 4oに質問すると・・&ジョグとウォーク(2025.06.14)
- 江藤農水相「コメは買ったことない、売るほどある」発言、全文だと玄米のままの流通を訴える即興ジョーク&ジムは好調(2025.05.20)
- お米が高過ぎるから、価格がわりと安定してる小麦の食品(パン・麺類)を増やしてる所&ジムのバイクは不調(2025.04.23)
- 世界初、北京ヒューマノイド(人型)ロボット・ハーフマラソン2025、2時間40分で天工 Ultra 優勝&13km走(2025.04.20)
- トランプ相互関税の税率の数式、経済的にも意味はあるけど数値1つ(分母の係数 φ)の代入ミス、英語原文と数学的解説(2025.04.09)
「数学」カテゴリの記事
- パズル「推理」の解き方、考え方、表の書き方17(難易度5、ニコリ作、朝日be、25年7月5日)(2025.07.07)
- merry X-mas の数式変形(log e 方程式)、20年以上前の英語の math pun (数学ジョーク)&ジムやや不調(2025.07.03)
- パズル「絵むすび」34、解き方とコツ、考え方(難易度4、ニコリ作、朝日新聞be、2025年5月24日)(2025.05.25)
- 小学生の習い事と受験勉強でしぶとく人気の算盤(そろばん)、令和ではタブレットと可愛いアプリで(2025.04.26)
- トランプ相互関税の税率の数式、経済的にも意味はあるけど数値1つ(分母の係数 φ)の代入ミス、英語原文と数学的解説(2025.04.09)
コメント
読みやすいです。テンメイさんの文章に慣れてきていることを差し引いても、素直な説明文章です。
ナッシュ均衡はパレート最適ではない、ですね。
投稿: gauss | 2015年5月27日 (水) 00時56分
> gauss さん

こんばんは。いつも、どうもです。
今日になって、大幅に追記しました。
特にP.S.で書いた、囚人のジレンマ原論文の
実験結果はなかなか興味深いので、ご賞味ください。
ナッシュの論文を読みこなすのはまだ先になりそうです。。
投稿: テンメイ | 2015年5月27日 (水) 23時17分