« 新・創世記、「Let there be surf」(波あれ)~『HERO 2』第3話 | トップページ | 僅かな自転車連発&人妻不倫のぞき見♪(『昼顔』第3話) »

特殊な違いの有無の判定(統計的推測、5%片側検定)~『ハードナッツ』第6回

どうも、記事執筆の戦略がプチ失敗だったようだ♪ 難し過ぎるというか、面

倒過ぎることにこだわって時間を浪費。こんな事ならドラマ終了直後、サラッ

と簡単に書いた方が良かったな・・・というのは単なる結果論かも。。

 

ハードナッツ!~数学girlの恋する事件簿~第6回、「対決!!未来を読む 

」(脚本・徳尾浩司、演出・橋本光二郎)。今回は珍しく、数学考証・根上生也

以外に、確率論考証・今野紀雄という名前まであった。調べてみると、かなり

活躍してる横国大・大学院の教授とのこと。

 

マニアックなブロガーが色んなツッコミを入れて来るから、NHKとしても対策

を練ったんだろう・・・という仮説は間違いだろう♪ 当サイトのレビューは今年

だが、ドラマ制作は既に去年完了。よって、信頼度99%超の正確な判定で、

その仮説は棄却されるのだ。。

 

 

          ☆          ☆          ☆

さて今回、数学ガール・難波くるみ(橋本愛)が具体的に計算してみせたのは、

簡単な確率を用いた初歩的な統計的推測。「片側検定」と呼ばれるものだ。

 

高校数学の場合、少し前までの旧課程だと数学Cの分野。今現在の新課程

だと数学Bに格上げされてるようだが、片側検定・両側検定といった区別まで

教えてるかどうかは確認してない。私は高校の授業でどちらも習ったが、旧

課程の数学Cの教科書には、片側・両側とか「検定」という言葉抜きで、単に

確率分布の両側を考慮した「推定」のやり方が説明されてる。

 

簡単に違いを示すと、検定とは、ある具体的なデータが特殊かどうかのチェッ

ク。特に、「特殊ではない」(=自然に起きる現象だ)という仮説が正しいかど

うかのチェックを指す。推測とは単に、データがどうなるかの予測だ。

 

いずれにせよ、くるみの計算は高校数学の標準レベルに過ぎない。それに対

して、記者会見や黒板に書かれてた数式の多くは専門的で、ネットどころか中

規模の書店で探しても僅かな情報しか出ないほど。統計学辞典でさえ、ほん

の少ししか書いてなかった。私は今回、こちらにハマって時間を浪費したのだ。

 

 

         ☆          ☆          ☆   

では、くるみの5%検定の話に向かおう。まず、貴島道夫(吉沢悠)が開発し

て試験導入されたCPS(Crime Predict System : 犯罪予測システム)に

ついて、伴田刑事(高良)が「当たり過ぎてる気がする」と不信感を抱く。犯罪

が起こりそうなホットスポットを12回(のべ12ヶ所)予測して、11回も的中。

 

そこで、くるみは直ちに92%だと単純計算。11÷12=0.916・・・。よって

92%。ただし、これだけでは「当たり過ぎ」という判定は出来ない。そもそも、

シミュレーションで70%の精度を誇るシステムだから、単なるコイン投げ(確

率半々)の実験とは違ってる。

 

ただ、伴田や視聴者に分かりやすく説明するために、くるみは最初、コインの

例を持ち出した。微妙な語り口にしてあったが、論理的に再構成しとこう。

 

 

          ☆          ☆          ☆

コインを10回投げて8回表が出たら、不自然なイカサマかどうか。この時、統

計学的推測では、「イカサマ(隠れた特殊な条件)が無いという仮説のもとで、

表が8回以上出る確率は5%未満かどうか」を計算する。表が出る確率も裏

が出る確率も、1/2と仮定するわけだ。

 

(表が8回出る確率)={(1/2)の10乗}×

                 (10回の中から表が出る8回を選ぶ組合せの数)

             =(1/1024)× 10 C 8

             =(1/1024)×45

 

(表が9回出る確率)={(1/2)の10乗}×

                 (10回の中から表が出る9回を選ぶ組合せの数)

             =(1/1024)×10 C 9

             =(1/1024)×10

 

(表が10回出る確率)=(1/2)の10乗

              =(1/1024)×1

 

∴ (表が8回以上出る確率)=(1/1024)(45+10+1)

                  =56/1024

                  =0.0546875・・・

                  ≒5.47%       

                 (注. ドラマではなぜか切り捨てで5.46%としてた)

 

5.47% > 5%だから、珍しいけど一応あり得ることであって、イカサマが無い

という仮説を捨てるほど特殊な現象ではない、と考える。つまり、イカサマとま

では言いきれない。判定の基準値は棄却域とか危険率と呼ばれ、よく使われ

るのは5%。次に使われるのが、かなり厳しい1%だろう。

 

ちなみに棄却域とは、そこに入ったら仮説を棄却する確率の値域の境界(=

上界)という意味。危険率とは、その値を基準にした判断が間違ってる危険の

確率ということだ。5%を下回ったから仮説を捨てた場合、その捨てた判断が

実は間違ってるという危険を考えた言葉らしい。まあ、要するに、判断の分か

れ目となる基準値だ。

 

 

           ☆         ☆          ☆

一方、10回中、表が9回出たらイカサマかどうか。これも同様に、「イカサマ

が無いという仮説のもとで、表が9回以上出る確率は5%未満かどうか」を計

算する。

 

8回の時の計算を使えば、

 

表が9回以上出る確率)=(表9回の確率)+(表10回の確率)

                =(1/1024)×(10+1)

                =11/1024

                =0.0107421・・・

                ≒1.07%   

 

1.07% < 5%だから、不自然に低い確率となってる。よって、「イカサマが 

無い」という前提仮説は捨てられ、実はイカサマがあったと判断される。

 

ちなみに、棄却域とか危険率として、5%の代わりにより厳しい1%という値が

使われることもある。その場合は、1.07%だと、イカサマとまでは言いきれな 

ことになる。ともあれ、5%にせよ、1%にせよ、統計学的に基準値自体には、 

数学的な根拠はない。要するに、分かりやすい値だし、経験上もかなり上手く

いってるという事だ。10%だと大まか過ぎるのだろう(後述する両側検定は別)。

 

 

           ☆          ☆          ☆

さらに、例のシステム「CPS」による予測がイカサマ(不自然)かどうか。くる

みが黒板でやってみせたのは、14回の予測の内、13回で事件が起きた場 

の検定だった。コインと違って、精度70%(ハズレる確率30%)というもの

を考慮し、「イカサマが無いという仮説のもとで、13回以上起きる確率は5% 

未満かどうか」を計算する。

 

(13回起きる確率)={(70/100)の13乗}×30/100

              ×(14回の中から事件が起きる13回を選ぶ組合せの数)

            ={(70/100)の13乗}×(30/100)×14 C 13

            ={(70/100)の13乗}×(30/100)×14

            ≒0.0406934

 

(14回起きる確率)=(70/100)の14乗

            ≒0.00678223

 

∴ (13回以上起きる確率)≒0.0406934+0.0678223

                  ≒0.0474756 

                  ≒4.7%

 

 

ドラマでは端数を考えたのか、最後から2番目の数字が0.047475「7」とさ

れてたが、そんな細かい数字は関係ない。要するに、4.7% < 5%だから、

「イカサマが無い」という仮説は捨てられる。つまり、際どい所だが、おそらく

イカサマがあったと判断されるのだ。

 

 

           ☆          ☆          ☆

最後に、片側(one-sided)両側(two-sided)という区別について。ドラ

マの場合、要するに、イカサマによって当たり過ぎてるのではないか?、とい

う問いがスタートとなってる。

 

だから、色んな当たり方が考えられる中、「よく当たってる側」の5%に入って 

るかどうかを見たわけだ。コインの場合も、「イカサマによって表が出過ぎて

るのではないか」と考えて、「よく表が出る側」の5%に入ってるかどうかを見

た。こうした発想の検定を、片側検定と呼ぶ。

 

それに対して、単に不自然かどうかを考えるなら、「よく当たってる側」だけで

なく、「よくハズレてる側」も考慮する必要がある。コインなら、「よく裏が出る側」

も考慮。こうした両側を考えて、どちらかに入ってるかどうかで不自然さを判定

するのが、両側検定だ。

 

 

           ☆          ☆          ☆

当たり過ぎかどうかを見るのが片側検定。不自然(当たり過ぎ&ハズレ過ぎ)

140730b2  かどうかを見るの

  が両側検定。もし、

  同じ棄却域(5%

  とか)を用いるな

  ら、両側の方があ

  る意味、厳しい判

  定となる。左図の

  ように、両側の方

  が、左右それぞれ

  のエリア1つを見

  ると狭いからだ

  (2.5%ずつ)。

 

  図は福山平成大・

  福井正康氏のpdf

  ファイルからお借

りした。棄却域をαで表して、両側検定だとα/2になることを図示してある。

 

同じ t という確率が、両側だと棄却域に入らず、片側だと入ってる。つまり、 

側の方が入りにくいわけで、不自然だと判定する基準が厳しいのだ。そのため、

基本的には両側検定を使うことになってる印象だ。

 

 

          ☆          ☆          ☆

なお、ドラマのCPSの場合、14回中13回以上当たる確率約4.7%であって、

4.7% > 2.5%。よって両側検定だと、イカサマとは判定されないことになる。

正確に言うなら、イカサマが無いという仮説を捨てるほど珍しい現象とまでは言

いきれない、ということだ。

 

黒板に書かれてた「セントログラフィー」(多数のものの中心=センターを求め

ること)や「最近隣分析」(一番近くの点までの距離の分析、判定)、あるいは冒

頭の難しい数式(エリア内犯罪発生率)については、また後で書き足すかも知

れない(下のP.S.2参照)。

 

平面を多くのブロック(M×N区画)に分けて、当日(日付け t)と前日と前々日

の間の漸化式のようなものを立ててた訳だが、少なくとも、冒頭の1ヶ所は間

違ってたと思う(中段で、t-1,t-2と書くべき所を、t-1,t-1と書いてたの

ではないか・・)。

 

途中で映ったポアソン分布の式については、既に初回に説明してあるので省

略。とりあえず、今日はこの辺で。。☆彡

 

 

 

P.S. 黒板にくるみが(?)書いてた最近隣分析の式2本の内、下の式は

     おそらく間違ってる(分子と分母が逆)。2日以内に追記する予定。

 

 

P.S.2 では、黒板の右下にあった「最近隣分析」(nearest neighbor

       analysis)について。大まかに言うと、平面上の複数の点がどの

       程度、密集・集中してるか、あるいは分散してる(=バラけてる)か

       を判定する分析だ。ドラマの物語上は、犯罪発生地点の特徴を

       見出す作業ということになる。

 

       まず、ある1点から最も近い点までの距離(=最近隣距離)を求

       める。それを全ての点について求めて平均したものが、「平均最 

       近隣距離」で、黒板では「r a」と書かれてた。

 

       一方、統計学的に「ランダム」(無作為)とみなされる点の分布

       (一様ポアソン分布)について求めた平均最近隣距離は、「r e

       と呼ばれる。計算方法はまだ分からないが、面積A、点の個数 

       nの場合、1/{2√(n/A)}になるらしい。この分母のルートを、

       分数の右側(つまり分子の側)に書いてしまってたのが、ドラマの

       黒板の間違いなのだ。

 

       結局、r a / r e という分数の値を考えて、これが1よりかなり

       大きければ分散、1よりかなり小さければ密集と判断する。

 

       もし密集してるのなら、点の位置のセンター(中心=平均)を求め

       てみるのが自然な発想だろう。それには黒板の右上にあったセン

       トログラフィーの簡単な式を使えばいい。あれは単に、Σ(シグマ)

       でx座標Xnやy座標Ynの和をとって、個数cで割ってただけ。単純

       平均を難しげな式で書いてただけなのだ。ところが、cで割るべき所

       をΣの変数nで割ってしまってたから、これまた不注意によるミス

       ろう。

 

 

P.S.3  冒頭の発表会でスクリーンに映し出された「エリア内犯罪発生率

       の式3本も見ておこう。まず1本目。第ij番目のエリア(区域)におけ

       る犯罪発生率だろう。右辺のpの右肩の「kh」は、何乗かを表す指

       数ではなく、添え字だと思われる。第kh番目のエリアの犯罪が、第

       ij番目のエリアの犯罪につながる確率かも知れないが、詳細不明。

 

140803d

 

       続いて、2本目の式は、1本目の右辺の項Sを説明するものだ。

       時刻t-1(前日とか)と時刻t-2(前々日とか)の値を左辺に書く

       時、t-2をt-1と書き間違えたのだと思う。

 

140803e

 

       最後の3本目の式は、一本目の右辺で確率(?)を表す項pの説明。

       私の環境だと細かい部分が読み取れなかったが、BS(?)やブルー

       レイのフルHD映像なら分かるのかも。いずれにせよ、この式から、

       ijとkhがどちらもエリア番号を示す添字だろうと推測できる。分数の

       分母のdは2つのエリア間の距離だろう。

 

140803f

 

 

 

cf. トランプのポーカーの確率計算

          ~『ハードナッツ!~数学girlの恋する事件簿~』第1回解説

   検査精度と難病の確率、落下速度、素因数分解の暗号

                     ~『ハードナッツ!~数学girl』第2回解説

   無理数を発見した弟子をピタゴラスが殺したという伝説の検証

                             ~『ハードナッツ』第3回

   ピタゴラス音律と普通の十二平均律、周波数のズレなど~第3回

   ラブレターの換字式暗号&数字の順列パスワード~第4回

   計量文献学による解析、K特性値、筆者判定~第4回

   ハートマークと「i LOVE u」、愛の方程式~第5回

   「アッシェンフェルターのワイン方程式」の間違いと本物(原論文)~第5回

   変化点検出と外れ値、スコア(Score)~第7回

   変化点検出とスコア、具体的な計算例~最終回

 

                                      (計 5262字)

|

« 新・創世記、「Let there be surf」(波あれ)~『HERO 2』第3話 | トップページ | 僅かな自転車連発&人妻不倫のぞき見♪(『昼顔』第3話) »

数学」カテゴリの記事

「映画・テレビ」カテゴリの記事

「芸能・アイドル」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/123750/60070639

この記事へのトラックバック一覧です: 特殊な違いの有無の判定(統計的推測、5%片側検定)~『ハードナッツ』第6回:

» ダイヤが人を狂わせることもあるし、狂った人が中央・総武緩行線のダイヤを狂わせることもある(橋本愛) [キッドのブログinココログ]
土用の丑の日なのでささやかなうな重を食べる。 食が細い人はうな重(小)で充分でなんとなくリーズナブルだ。 そういう日にガンマナイフを照射される人もいる。 月の内側にもホットスポットがある。 世界を正しく認識していた人が自分の居場所を忘却する。 完全なデータを求めるほどにデータは不完全になっていく。 ... [続きを読む]

受信: 2014年7月31日 (木) 10時14分

« 新・創世記、「Let there be surf」(波あれ)~『HERO 2』第3話 | トップページ | 僅かな自転車連発&人妻不倫のぞき見♪(『昼顔』第3話) »