ナッシュ均衡その１

ポーカーの戦略を突き詰めていくと必ず現れるナッシュ均衡という言葉。
なんとなく難しそうなのでスルーしてきた人のために、できるだけわかりやすく解説したいと思います。
少し長くなるので２回にわけます。「その1」にはポーカーの話は出てきません。

ナッシュ均衡とは
ナッシュ均衡の例
純粋戦略ナッシュ均衡
混合戦略ナッシュ均衡
囚人のジレンマ

ナッシュ均衡とは

ゲーム理論の用語の一つです。

ナッシュ均衡は非協力ゲームの解（最適な戦略）の一種で、考案者であるジョン・フォーブス・ナッシュの名前からきています。

非協力ゲームとは、ある主体が他の主体と協調せずに、自らの利益を最大限にすることをゲームの目的とした、いわゆる対戦型のゲームのことです。

将棋しかり、ポーカーしかり、企業同士の市場での争いにもあてはまります。

プレイヤー全員が互いに最適な戦略を選択しており、これ以上自らの戦略を変更すると、自分の利益が減る（もしくは無くなる）、つまり戦略を変更する動機がない安定的な状態になっている互いの戦略の組み合わせのことをナッシュ均衡といいます。

つまり、相手の出方に対して最適な戦略に変更する、という対応をお互いに続けていると、いつかはそれ以上お互いに戦略を変更することができない（変更すると自分が不利になる）ところまでいきつきます。その時のお互いの戦略の組み合わせをナッシュ均衡と言うのです。

はい、わかりづらいですね。

ナッシュ均衡の例

AとBという二人の人間に、肉と魚、どちらが好き？という質問をなげかけ、お互い相手の回答を見ることなく自分でフリップに書いて回答してもらいます。回答が二人共同じなら、互いに1万円を手に入れ、回答がばらばらなら0円、というゲームだとします。

二人共互いに、相手は肉が好きだな、と思っていた場合、二人共回答はに「肉」となり、お互い1万円をゲットします。お互い、相手は肉が好きだと知っている点が重要です。

もしAが肉と回答する戦略を魚と回答する戦略に切り替えたとします。すると互いに回答がばらばらになり、もちろん利益は0円になりますよね。Bにも同じことがいえます。

つまり互いに「肉」と回答する状態は、今の戦略（肉と回答）から変更する動機がない安定した状態になるため、Aの「肉」という戦略と、Bの「肉」という戦略の組み合わせはナッシュ均衡と言えるのです。

お互いの好みが魚で、それをお互い知っているのならA「魚」B「魚」というのがナッシュ均衡となります。

この組み合わせを利得表にするとこうなります。
※利得＝得られる利益
※利得表＝どのような行動を取ったらどのような結果（それぞれどれだけの利得があるか）になるかの組み合わせ全て書き出したもの

A/B	B肉	B魚
A肉	(A1万円 , B1万円)	(A0円 , B0円)
A魚	(A0円 , B0円)	(A1万円 , B1万円)

左の列がAの選びうる戦略、上の行がBの選びうる戦略です。()の中は、左がA、右がBの利得です。
肉-肉の組み合わせと魚-魚の組み合わせだとお互い1万円ゲットして、それ以外は互いに0円なのがわかります。

純粋戦略ナッシュ均衡

純粋戦略ナッシュ均衡とは、特定の戦略を選び続けることが最も利得が高くなる状態のことを言います。

肉と魚の例でいうと、お互いが肉を選び続けること、もしくはお互いが魚を選び続けることで利益が出ますので、肉-肉と魚-魚は純戦略ナッシュ均衡と言えます。

別の例で、企業Aと企業Bが同じ商品を新発売することになり、値付けの選択肢として、互いに100円か120円の2択の戦略があるとします。

お互いの値付の組み合わせによって、市場でのシェアは

Aが100円、Bが100円で発売＝お互いシェア50％ずつ。
Aが120円、Bが100円で発売＝Aがシェア20%、Bがシェア80%。
Aが100円、Bが120円で発売＝Aがシェア80%、Bがシェア20%。
Aが120円、Bが120円で発売＝お互いシェア50％づつす。

という状況になります。同じ価格ならシェアは半々で、相手よりも安くなるとシェアを伸ばせます。

これを利得表にすると以下のようになります。

A/B	B100円	B120円
A100円	(A50% , B50%)	(A80% , B20%)
A120円	(A20% , B80%)	(A50% , B50%)

互いに120円で発売した場合、シェアは半々となりますが、自分が価格を下げると、シェアは80%にまで増加することがわかります。よって、A120円、B120円という状況では、お互いに値下げすることで利得が上昇するため、戦略を変更する動機が生まれて安定していません。よって、この組み合わせはナッシュ均衡ではありません。

現在すでに互いの値付けに差がある場合、120円と値付したほうはシェアは20％しかとれず、相手に合わせて値付けを100円に下げてることによって50%までシェアを増加させることができます。また、値付けが既に100円のほうは、120円に上げてもシェアは80%から50%に減少するため、100円という戦略を変更しません。よって、片方に戦略変更の動機が生まれており、この状況はナッシュ均衡ではありません。

お互い100円で発売した場合、シェアは50％ずつで、もし値上げをするとシェアは20％に落ちるため、互いに戦略を変えません。よって、100円-100円という組み合わせはナッシュ均衡と言えます。

要は、100円という戦略を選んでおけば、自らのシェアは50%（相手も100円）か80%（相手は120円）になり、相手が自分よりも多くなるという組み合わせは存在しません、よって互いに100円という戦略を選択することが、純粋戦略ナッシュ均衡と言えます。

※実際の経済では利益率、シェア全体の母数の増減など、より複雑な要素が絡み合うため、一概にはこの表のようになるとは言えません。120円-120円だと、シェアは半々かもしれませんが、売れる総数が減ってしまうかもしれません。

このように、この値付けの例でのナッシュ均衡下では、シェアを50%以上にすることができません。要は負けない戦略であり、大きく相手に勝ち越すということはできません。

混合戦略ナッシュ均衡

混合戦略ナッシュ均衡とは、純粋戦略でのナッシュ均衡がない場合の解のことです。

わかりやすいのがジャンケンです。

AさんとBさんが複数回ジャンケンで対戦するとして、お互いグー、チョキ、パーの3つの戦略があります。

例えばAさんがグーを100%出し続ける、という戦略をとると、Bさんはそれを知ると当然パーを出し続けます。

Aさんの戦略がチョキを出し続ける場合もパーを出し続ける場合も、同じものを出し続ける戦略だと、相手に対応（exploit：搾取）されることで必ず負け越します。

つまり、特定の戦略を選び続けることがナッシュ均衡になる純粋戦略でのナッシュ均衡は存在しないのです。

こういう場合、グーを○％、チョキを○％、パーを○％の確率で出す、という各戦略を選択する確率から、ナッシュ均衡を導き出すことができます。これを混合戦略ナッシュ均衡と言います。

複数の戦略を混ぜて適切な割合で選択することで相手に対して負けない状態を作り出す、ということです。

なにやらポーカーに適用できそうな話になってきましたね。

結論から言うと、ジャンケンの場合は、それぞれ3分の1で出す、というのがナッシュ均衡となります。ちゃんとそれを証明する式もあるのですが複雑なので以下のサイトを参照してください。

ゲーム理論入門／（６）じゃんけんのナッシュ均衡 - himaginary’s diary

じゃんけんのナッシュ均衡（２回目のエントリの利得表を再掲）プレイヤー２（＝混合戦略）確率p 確率q 確率r 純粋戦略での G T P プレイヤー１利得プレイヤー１ G ０１ −１ q-r T −１０１ -p+r P １ −１０ p-q ＜純粋戦略でのナッシュ均衡＞このゲームのナッシュ均衡は純粋戦...

もし、Aさんがグー60%、チョキ30%、パー10%で出すとすると、極端な話、Bさんがパー100%という純粋戦略をとるとAさんは負け越します。なんせ60%は確実に負けてしまうのですから。

よって、相手がどのような確率で戦略を選択したとしても、必ず最適な利得を得ることができるのは3分の1でそれぞれを出すという混合戦略になるのです。

AとBが互いにグー・チョキ・パーを3分の1で出し続ければお互いの勝敗はどうなるでしょうか？もちろん、勝率は互いに50%になります。

互いに勝ち越すことはできませんが、負け越すこともないのです。

グー・チョキ・パーを機械的に3分の1の確率で出してくる相手にそれなりの回数の勝負を行い、確実に勝ち越す方法を考えてみてください。不可能であることがなんとなくわかると思います。

逆に、ナッシュ均衡通りにグー・チョキ・パーを出す相手は、あなたから勝ち越す（exploit：搾取）こともまたできません。たとえあなたが100%パーを出し続けても、相手は3分の1で勝ち、3分の1であいこ、3分の1で負けるからです。

※ジャンケンの回数が10回くらいでは勝率はブレます。1000回もすればほぼ50%になるでしょう。

囚人のジレンマ

この項は余談です。

ナッシュ均衡を互いに理解していれば、かならず利得を半分ずつにできるの？と思いがちですがそうではありません。

有名なのが、囚人のジレンマです。

重犯罪をおかしたAとBが、別の軽犯罪でつかまりました。

AとBそれぞれを別の取調室につれていき聴取します。

互いに、以下のことを伝えます。

重犯罪の自白（裏切り）した場合釈放する。ただし相方も自白した場合、互いに懲役3年。
もし片方が自白し、片方が黙秘した場合、自白したものは釈放、黙秘したものは懲役5年。
互いに黙秘した場合は互いに軽犯罪の罰のみで懲役1年。

その結果、お互いの得られる利得をわかりやすいように以下のように設定します。

釈放されると最も利益が大きいため5
懲役1年ならまだマシなので3
懲役3年なら微妙なので1
懲役5年なら最悪なので0

この場合の利得表はこうなります。

A/B	B自白	B黙秘
A自白	(A1 , B1)	(A5 , B0)
A黙秘	(A0 , B5)	(A3 , B3)

Aの立場から見てみましょう。

Aが自白を選んだ場合、Bが黙秘すれば利得がAは5、Bは0となり、Aとしては最も利得が高くなります。しかしその場合、Bは戦略を自白に変えることで、0から1にあげることができます。よってBは黙秘から自白に変える動機が現れます。

ではAが黙秘を選んだ場合、Bも黙秘を選べばA、B共にの利得は3となりそれなりの結果ですが、Bは自白に変えることで、利得5にあげることができるため、Bは黙秘から自白に変える動機が現れます。

これはBにも言えることなので、どのような場合でも互いに自白を選ぶことが最善の戦略ということになり、自白-自白の組み合わせで利得をお互い1つず得るというのがナッシュ均衡となります。

しかし普通に考えれば、この場合お互いに黙秘を選び、利得を3ずつ得たほうが、利得の総合計は最も高くなります

お互い自白：1+1=2
自白と黙秘：5+0=5
お互い黙秘：3+3=6

もしお互いが話し合って相談することができれば結果は違うかもしれませんが、この囚人のジレンマという、相手が選びうる戦略を推定するしかない状況では、互いに自白を選ぶことが最も「負けない」戦略になるのです。

このように、ナッシュ均衡が、全員にとって最も最適な結果にはならないこともあります。

次はナッシュ均衡をポーカーで使う方法について説明します。

ナッシュ均衡その2

ポーカーにおけるナッシュ均衡

ナッシュ均衡とは

ナッシュ均衡の例

純粋戦略ナッシュ均衡

混合戦略ナッシュ均衡

囚人のジレンマ

コメント 名前とメアドは必須ではありません

コメント名前とメアドは必須ではありません