データ分析(四分位数、箱ひげ図、相関係数)~2015センター試験・数学ⅠA・第3問
(☆16年1月18日追記: 最新の関連記事をアップ。
データ分析(相関の強弱、変数変換と共分散~2016センター数学ⅠA)
☆ ☆ ☆
恒例のセンター試験記事。国語に続いて数学では、新課程で導入されたデー
タ分析(初歩的なデータ・マイニング)の問題をブログ記事にしようと思って、
ネット上の信頼できそうなサイトを10くらい閲覧。内容のレベルは簡単だけ
ど、細かい所で食い違い(見解の相違)や不正確そうな点、単純な間違いが
あるので、時間を取られてしまった。
それでも、最大公約数的な理解でセンター試験の問題は正解できたので、
簡単に解説しとこう。より一般的・理論的な記事は、また後ほど書きたいと
ってる。あと、数日中に、複数の高校参考書できっちり内容確認する予定。
(☆追記: 直ちに19日の夜、数研出版『チャート式 数学A』で確認。理解
は合ってた。さらに20日夜、文英堂『理解しやすい 数学Ⅰ+A』
でも確認した。)
要するにここ数年、ビッグデータの活用などで社会的に流行してる、「最強」の
統計学の話だ。夏に再放送されたNHKの数学ドラマ『ハードナッツ』でも、全
編を通じた中心的内容となってた。
☆ ☆ ☆
2015年(平成27年度)の問題は既に、1月18日の夜20時半くらいから、あち
こちで全文公開されてるので、実質的に著作権の意味が無くなってる。ただ、一
応ここでの引用は、最低限に留めとこう。
では問題3(計15点)の〔1〕から。これは良問だと思う。高校3年生の生徒40
人で、ハンドボール投げの飛距離のデータを集めた。そのヒストグラム(柱状グ
ラフ)は下の通り。

まず(1)の問い。「第3四分位数が含まれる階級は」? 要するに、最小値の
データから数えて、全体の「3/4」(75%)の位置にあるデータが、どの柱に
入ってるかをたずねてる。
「40人の3/4だから30番目」とするのではなく、30番目の値と31番目の値
の平均とするらしい。ただ、いずれにせよ、左から5番目の柱(23番目~31番
目)のデータだから、答は「25m以上 30m未満」。よって、空欄アは4となる
(3点)。
☆ ☆ ☆
続いて(2)。下のような「箱ひげ図」にまとめた時、上のヒストグラムと矛盾する
ものを4つ選ぶ問い。
「箱」とは、第1四分位数と第3四分位数で挟まれた区間を長方形で表したもの
で、途中の第2四分位数の位置に線やバツ印等でマークを付ける。「ひげ」と
は、箱の両端の線で、左端から最小値へと伸ばした線と、右端から最大値へ
と伸ばした線(高校の標準的教え方では)。箱の中には、全体のデータの内、
中央付近の半分の個数が含まれ、左ひげには小さい側の1/4、右ひげには
大きい側の1/4が含まれる。
ヒストグラムと箱ひげ図の関係はやや曖昧だが、これは論理的にあり得ないと
いう箱ひげ図を選ぶ。まず0番、2番、3番の図は、箱の右端(第3四分位数)の
階級が30m以上になってしまってるので、矛盾。
次に、箱の左端(第1四分位数)に注目。これは、小さい方から数えて25%の
位置、つまり第10番目と11番目のデータの平均値だから、ヒストグラムを見る
と、15m以上20m未満のはず。ところが5番の図は、20m以上になってしまっ
てるので、矛盾。
以上より、答の空欄イ、ウ、エ、オは、0、2、3、5(順番は関係なし)。配点は
4点。逆に1と4の箱ひげ図は、あり得る場合として、次の問題のヒントになる。
☆ ☆ ☆
さらに(3)。同じ生徒40人で記録を取り直して、あらためて箱ひげ図を書いた
ものが4つ示される。それぞれの図と対応する説明とが、矛盾する組合せを
2つ選べ、というのが問い。

まず、図aの説明Aを読むと、「どの生徒の記録も下がった」と書いてある。もし
それが正しければ、箱の左端(第1四分位数)は、以前の図を推測したもの
(例えば1、4)より左方向にずれるはずだが、図aでは右方向にずれてしまっ
てる。これは矛盾。
次に、図cの説明Cを読むと、「最初に取ったデータで上位1/3に入るすべて
の生徒の記録が伸びた」とある。すると、右ひげの右端(最大値)は、以前の図
を推測したものより右方向にずれるはずだが、図cでは左方向にずれてる。こ
れは矛盾。
以上より、答の空欄カ、キは、0、2(順不同)。6点。図bとdについては省略す
るが、説明と「矛盾」はしてない。ただし、もし詳しいデータをチェックしたなら、
実は説明や図がおかしい可能性は残されてる。
☆ ☆ ☆
最後に、話が変わって〔2〕。別の40人が2回ずつハンドボール投げした時の、
飛距離のデータについて、相関係数の近似値を求める問い。グラフ、平均値、
中央値など、余分な情報を与えられてるので、迷った受験生もいるだろうが、
こけおどしに過ぎない。
単に、2種類のデータの「共分散」を、それぞれの「標準偏差」の積で割るだけ。
何も意味が分からなくても、公式を覚えてれば、簡単な計算問題になる。真面
目に計算してもいいけど、ちょっと面倒だから、近似値計算の方がベター。実
際、与えられた数字も、明らかに近似値計算しやすいものになってるのだ。
(相関係数) = 54.30÷(8.21×6.98)
≒ 54.3÷(8.2×7.0)
≒ 54.3÷57.4
≒ 0.95
答の空欄クを埋める選択肢は、7。簡単だから、配点は僅か2点。ちなみにこ
の相関係数は、1に近い値で、非常に強い正の相関となってる。同じ生徒が2
回投げたのだから、似たデータになるのは当然で、納得できる結果だろう。逆
に、ハンドボール投げ1回と国語のテスト1回なら、負の相関になるかも♪
それでは、今日はこの辺で。。☆彡
cf. データ分析2~2015センター追再試験・数学ⅠA・第3問
啓蒙やツイッターと異なる関係性、小池昌代『石を愛でる人』
~2015センター試験・国語
・・・・・・・・・・・・・・・
2014センター試験、数学Ⅱ・B
~第3問(数列の漸化式)、問題込みの解答・感想
(計 2443字)
| 固定リンク | 0
「数学」カテゴリの記事
- 大阪万博2025、のべ人数でない実際のユニーク入場者数は約1000万人か、愛知万博リピート率・再訪回数から計算(2025.10.14)
- ドラマ『舟を編む』最終回、コロナウイルス図版挿入の数式計算(字数・行数)の意味の解説(1ポイント=0.3514ミリ)(2025.08.21)
- 戦争を何年続けられるか、財政を計算する数式 Xn+X'n+Yn(余力、増税・国債発行、戦費)~『シミュレーション』総力戦研究所(2025.08.18)
- パズル「絵むすび」35、小学生むけのとき方(難易度2、ニコリ作、朝日新聞be、2025年7月19日)(2025.07.20)
- パズル「推理」の解き方、考え方、表の書き方17(難易度5、ニコリ作、朝日be、25年7月5日)(2025.07.07)
「教育」カテゴリの記事
- 女性AI研究者・新井紀子の『シン読解力』とRST(リーディング・スキル・テスト)、問題例の批判的解説(2025.09.18)
- APU(立命館アジア太平洋大学、別府市)の番組2つの比較、NHK『多国籍学生寮の72日間』はドキュメント72時間よりリアル(2025.06.11)
- 4×9=36マスの格子を、8つの長方形(1~8マス)に区切る方法~開成中2025年入試、算数・問題2の解き方(2025.02.15)
- かけ算の九九の表で、長方形で囲まれた数を足して315になる場合~灘中学校2025年入試、算数1・問題6の解き方(2025.02.07)
- 動画配信のおすすめ作品など、商業サイトでお薦めを決める方法と計算回数~2025年共通テスト・旧情報関係基礎・第2問(2025.02.04)


コメント