特殊な違いの有無の判定(統計的推測、5%片側検定)~『ハードナッツ』第6回
どうも、記事執筆の戦略がプチ失敗だったようだ♪ 難し過ぎるというか、面
倒過ぎることにこだわって時間を浪費。こんな事ならドラマ終了直後、サラッ
と簡単に書いた方が良かったな・・・というのは単なる結果論かも。。
『ハードナッツ!~数学girlの恋する事件簿~』第6回、「対決!!未来を読む
男」(脚本・徳尾浩司、演出・橋本光二郎)。今回は珍しく、数学考証・根上生也
以外に、確率論考証・今野紀雄という名前まであった。調べてみると、かなり
活躍してる横国大・大学院の教授とのこと。
マニアックなブロガーが色んなツッコミを入れて来るから、NHKとしても対策
を練ったんだろう・・・という仮説は間違いだろう♪ 当サイトのレビューは今年
だが、ドラマ制作は既に去年完了。よって、信頼度99%超の正確な判定で、
その仮説は棄却されるのだ。。
☆ ☆ ☆
さて今回、数学ガール・難波くるみ(橋本愛)が具体的に計算してみせたのは、
簡単な確率を用いた初歩的な統計的推測。「片側検定」と呼ばれるものだ。
高校数学の場合、少し前までの旧課程だと数学Cの分野。今現在の新課程
だと数学Bに格上げされてるようだが、片側検定・両側検定といった区別まで
教えてるかどうかは確認してない。私は高校の授業でどちらも習ったが、旧
課程の数学Cの教科書には、片側・両側とか「検定」という言葉抜きで、単に
確率分布の両側を考慮した「推定」のやり方が説明されてる。
簡単に違いを示すと、検定とは、ある具体的なデータが特殊かどうかのチェッ
ク。特に、「特殊ではない」(=自然に起きる現象だ)という仮説が正しいかど
うかのチェックを指す。推測とは単に、データがどうなるかの予測だ。
いずれにせよ、くるみの計算は高校数学の標準レベルに過ぎない。それに対
して、記者会見や黒板に書かれてた数式の多くは専門的で、ネットどころか中
規模の書店で探しても僅かな情報しか出ないほど。統計学辞典でさえ、ほん
の少ししか書いてなかった。私は今回、こちらにハマって時間を浪費したのだ。
☆ ☆ ☆
では、くるみの5%検定の話に向かおう。まず、貴島道夫(吉沢悠)が開発し
て試験導入されたCPS(Crime Predict System : 犯罪予測システム)に
ついて、伴田刑事(高良)が「当たり過ぎてる気がする」と不信感を抱く。犯罪
が起こりそうなホットスポットを12回(のべ12ヶ所)予測して、11回も的中。
そこで、くるみは直ちに92%だと単純計算。11÷12=0.916・・・。よって
92%。ただし、これだけでは「当たり過ぎ」という判定は出来ない。そもそも、
シミュレーションで70%の精度を誇るシステムだから、単なるコイン投げ(確
率半々)の実験とは違ってる。
ただ、伴田や視聴者に分かりやすく説明するために、くるみは最初、コインの
例を持ち出した。微妙な語り口にしてあったが、論理的に再構成しとこう。
☆ ☆ ☆
コインを10回投げて8回表が出たら、不自然なイカサマかどうか。この時、統
計学的推測では、「イカサマ(隠れた特殊な条件)が無いという仮説のもとで、
表が8回以上出る確率は5%未満かどうか」を計算する。表が出る確率も裏
が出る確率も、1/2と仮定するわけだ。
(表が8回出る確率)={(1/2)の10乗}×
(10回の中から表が出る8回を選ぶ組合せの数)
=(1/1024)× 10 C 8
=(1/1024)×45
(表が9回出る確率)={(1/2)の10乗}×
(10回の中から表が出る9回を選ぶ組合せの数)
=(1/1024)×10 C 9
=(1/1024)×10
(表が10回出る確率)=(1/2)の10乗
=(1/1024)×1
∴ (表が8回以上出る確率)=(1/1024)(45+10+1)
=56/1024
=0.0546875・・・
≒5.47%
(注. ドラマではなぜか切り捨てで5.46%としてた)
5.47% > 5%だから、珍しいけど一応あり得ることであって、イカサマが無い
という仮説を捨てるほど特殊な現象ではない、と考える。つまり、イカサマとま
では言いきれない。判定の基準値は棄却域とか危険率と呼ばれ、よく使われ
るのは5%。次に使われるのが、かなり厳しい1%だろう。
ちなみに棄却域とは、そこに入ったら仮説を棄却する確率の値域の境界(=
上界)という意味。危険率とは、その値を基準にした判断が間違ってる危険の
確率ということだ。5%を下回ったから仮説を捨てた場合、その捨てた判断が
実は間違ってるという危険を考えた言葉らしい。まあ、要するに、判断の分か
れ目となる基準値だ。
☆ ☆ ☆
一方、10回中、表が9回出たらイカサマかどうか。これも同様に、「イカサマ
が無いという仮説のもとで、表が9回以上出る確率は5%未満かどうか」を計
算する。
8回の時の計算を使えば、
(表が9回以上出る確率)=(表9回の確率)+(表10回の確率)
=(1/1024)×(10+1)
=11/1024
=0.0107421・・・
≒1.07%
1.07% < 5%だから、不自然に低い確率となってる。よって、「イカサマが
無い」という前提仮説は捨てられ、実はイカサマがあったと判断される。
ちなみに、棄却域とか危険率として、5%の代わりにより厳しい1%という値が
使われることもある。その場合は、1.07%だと、イカサマとまでは言いきれな
いことになる。ともあれ、5%にせよ、1%にせよ、統計学的に基準値自体には、
数学的な根拠はない。要するに、分かりやすい値だし、経験上もかなり上手く
いってるという事だ。10%だと大まか過ぎるのだろう(後述する両側検定は別)。
☆ ☆ ☆
さらに、例のシステム「CPS」による予測がイカサマ(不自然)かどうか。くる
みが黒板でやってみせたのは、14回の予測の内、13回で事件が起きた場
合の検定だった。コインと違って、精度70%(ハズレる確率30%)というもの
を考慮し、「イカサマが無いという仮説のもとで、13回以上起きる確率は5%
未満かどうか」を計算する。
(13回起きる確率)={(70/100)の13乗}×30/100
×(14回の中から事件が起きる13回を選ぶ組合せの数)
={(70/100)の13乗}×(30/100)×14 C 13
={(70/100)の13乗}×(30/100)×14
≒0.0406934
(14回起きる確率)=(70/100)の14乗
≒0.00678223
∴ (13回以上起きる確率)≒0.0406934+0.0678223
≒0.0474756
≒4.7%
ドラマでは端数を考えたのか、最後から2番目の数字が0.047475「7」とさ
れてたが、そんな細かい数字は関係ない。要するに、4.7% < 5%だから、
「イカサマが無い」という仮説は捨てられる。つまり、際どい所だが、おそらく
イカサマがあったと判断されるのだ。
☆ ☆ ☆
最後に、片側(one-sided)と両側(two-sided)という区別について。ドラ
マの場合、要するに、イカサマによって当たり過ぎてるのではないか?、とい
う問いがスタートとなってる。
だから、色んな当たり方が考えられる中、「よく当たってる側」の5%に入って
るかどうかを見たわけだ。コインの場合も、「イカサマによって表が出過ぎて
るのではないか」と考えて、「よく表が出る側」の5%に入ってるかどうかを見
た。こうした発想の検定を、片側検定と呼ぶ。
それに対して、単に不自然かどうかを考えるなら、「よく当たってる側」だけで
なく、「よくハズレてる側」も考慮する必要がある。コインなら、「よく裏が出る側」
も考慮。こうした両側を考えて、どちらかに入ってるかどうかで不自然さを判定
するのが、両側検定だ。
☆ ☆ ☆
当たり過ぎかどうかを見るのが片側検定。不自然(当たり過ぎ&ハズレ過ぎ)
かどうかを見るの
が両側検定。もし、
同じ棄却域(5%
とか)を用いるな
ら、両側の方があ
る意味、厳しい判
定となる。左図の
ように、両側の方
が、左右それぞれ
のエリア1つを見
ると狭いからだ
(2.5%ずつ)。
図は福山平成大・
福井正康氏のpdf
ファイルからお借
りした。棄却域をαで表して、両側検定だとα/2になることを図示してある。
同じ t という確率が、両側だと棄却域に入らず、片側だと入ってる。つまり、両
側の方が入りにくいわけで、不自然だと判定する基準が厳しいのだ。そのため、
基本的には両側検定を使うことになってる印象だ。
☆ ☆ ☆
なお、ドラマのCPSの場合、14回中13回以上当たる確率は約4.7%であって、
4.7% > 2.5%。よって両側検定だと、イカサマとは判定されないことになる。
正確に言うなら、イカサマが無いという仮説を捨てるほど珍しい現象とまでは言
いきれない、ということだ。
黒板に書かれてた「セントログラフィー」(多数のものの中心=センターを求め
ること)や「最近隣分析」(一番近くの点までの距離の分析、判定)、あるいは冒
頭の難しい数式(エリア内犯罪発生率)については、また後で書き足すかも知
れない(下のP.S.2参照)。
平面を多くのブロック(M×N区画)に分けて、当日(日付け t)と前日と前々日
の間の漸化式のようなものを立ててた訳だが、少なくとも、冒頭の1ヶ所は間
違ってたと思う(中段で、t-1,t-2と書くべき所を、t-1,t-1と書いてたの
ではないか・・)。
途中で映ったポアソン分布の式については、既に初回に説明してあるので省
略。とりあえず、今日はこの辺で。。☆彡
P.S. 黒板にくるみが(?)書いてた最近隣分析の式2本の内、下の式は
おそらく間違ってる(分子と分母が逆)。2日以内に追記する予定。
P.S.2 では、黒板の右下にあった「最近隣分析」(nearest neighbor
analysis)について。大まかに言うと、平面上の複数の点がどの
程度、密集・集中してるか、あるいは分散してる(=バラけてる)か
を判定する分析だ。ドラマの物語上は、犯罪発生地点の特徴を
見出す作業ということになる。
まず、ある1点から最も近い点までの距離(=最近隣距離)を求
める。それを全ての点について求めて平均したものが、「平均最
近隣距離」で、黒板では「r a」と書かれてた。
一方、統計学的に「ランダム」(無作為)とみなされる点の分布
(一様ポアソン分布)について求めた平均最近隣距離は、「r e」
と呼ばれる。計算方法はまだ分からないが、面積A、点の個数
nの場合、1/{2√(n/A)}になるらしい。この分母のルートを、
分数の右側(つまり分子の側)に書いてしまってたのが、ドラマの
黒板の間違いなのだ。
結局、r a / r e という分数の値Rを考えて、これが1よりかなり
大きければ分散、1よりかなり小さければ密集と判断する。
もし密集してるのなら、点の位置のセンター(中心=平均)を求め
てみるのが自然な発想だろう。それには黒板の右上にあったセン
トログラフィーの簡単な式を使えばいい。あれは単に、Σ(シグマ)
でx座標Xnやy座標Ynの和をとって、個数cで割ってただけ。単純
平均を難しげな式で書いてただけなのだ。ところが、cで割るべき所
をΣの変数nで割ってしまってたから、これまた不注意によるミスだ
ろう。
P.S.3 冒頭の発表会でスクリーンに映し出された「エリア内犯罪発生率」
の式3本も見ておこう。まず1本目。第ij番目のエリア(区域)におけ
る犯罪発生率だろう。右辺のpの右肩の「kh」は、何乗かを表す指
数ではなく、添え字だと思われる。第kh番目のエリアの犯罪が、第
ij番目のエリアの犯罪につながる確率かも知れないが、詳細不明。
続いて、2本目の式は、1本目の右辺の項Sを説明するものだ。
時刻t-1(前日とか)と時刻t-2(前々日とか)の値を左辺に書く
時、t-2をt-1と書き間違えたのだと思う。
最後の3本目の式は、一本目の右辺で確率(?)を表す項pの説明。
私の環境だと細かい部分が読み取れなかったが、BS(?)やブルー
レイのフルHD映像なら分かるのかも。いずれにせよ、この式から、
ijとkhがどちらもエリア番号を示す添字だろうと推測できる。分数の
分母のdは2つのエリア間の距離だろう。
cf. トランプのポーカーの確率計算
~『ハードナッツ!~数学girlの恋する事件簿~』第1回解説
検査精度と難病の確率、落下速度、素因数分解の暗号
無理数を発見した弟子をピタゴラスが殺したという伝説の検証
ピタゴラス音律と普通の十二平均律、周波数のズレなど~第3回
ラブレターの換字式暗号&数字の順列パスワード~第4回
計量文献学による解析、K特性値、筆者判定~第4回
ハートマークと「i LOVE u」、愛の方程式~第5回
「アッシェンフェルターのワイン方程式」の間違いと本物(原論文)~第5回
変化点検出と外れ値、スコア(Score)~第7回
変化点検出とスコア、具体的な計算例~最終回
(計 5262字)
| 固定リンク | 0
「映画・テレビ」カテゴリの記事
- 直前の欠場、「パリ五輪は、まだ走れ!っていうメッセージ♪」~カンテレ『前田穂南が走れなかったオリンピック』(TVer動画)(2024.09.06)
- 世論の逆風と雷雨の中、やす子(体重78kg、25歳)の81kmマラソンSPの感想~日テレ『24時間テレビ』2024年(2024.09.04)
- パリ五輪2024・女子マラソン、ほぼリアルタイムの感想♪&優勝したハッサンのラップタイム(2024.08.11)
- パリ五輪2024・男子マラソン、ほぼリアルタイムの感想♪&6位入賞、赤﨑暁選手のラップタイム(2024.08.10)
- 2024パリ五輪、スローガンはフランス語の掛け言葉「五輪を広く開こう=目を大きく開いて世界を見よう」~雨の開会式の感想(2024.07.27)
「芸能・アイドル」カテゴリの記事
- 世論の逆風と雷雨の中、やす子(体重78kg、25歳)の81kmマラソンSPの感想~日テレ『24時間テレビ』2024年(2024.09.04)
- 二重偏波気象レーダー、降雹(こうひょう)アラート、数式(偏微分方程式)の変数 Pidep、Pgacw、etc ~『ブルーモーメント』第5話(2024.05.25)
- 絶対に離れない手のつなぎ方、正義も真実も超えて、人間として「心中」へ・・~『Destiny』第1話~第4話(2024.05.02)
- 嘘(lie)で壊れた橋=つながり、再建を信じて(believe)生きる(be、live)~『believe ━ 君にかける橋 ━」第1話(2024.04.27)
- 晴原(ハルカン=山下智久)が書いた雪崩の数式の意味、雲田彩(出口夏希)の中国語の発音と意味~『ブルーモーメント』第1話(2024.04.25)
「数学」カテゴリの記事
- パズル「推理」、小学生向け8、カンタンな解き方、表の書き方(難易度3、ニコリ作、朝日be、24年8月31日)(2024.09.01)
- パズル「ナンスケ」解き方13、2024年7月13日の問題は間違い「ではありませんでした」(難易度4、ニコリ作、朝日新聞be)(2024.07.13)
- インドの摩訶不思議な「ヴェーダ数学」、100に近い2つの数の掛け算のやり方、明星学園の中学入試問題(算数)と一般的証明(2024.07.06)
- 2進法の計算、直接的な減法(引き算)と、コンピューター内部で「2の補数」を用いる減算 ~ 高校『情報Ⅰ』(2024.06.04)
- 腕を伸ばして太陽から手のひら1つ分の所に「幻日」が見える理由、cosの計算式(『ブルーモーメント』第6話)&再びハーフ走(2024.06.02)
コメント