« ラブレターの換字式暗号&数字の順列パスワード~『ハードナッツ』第4回 | トップページ | 不正ログイン対策、ログインアラートとログイン履歴&僅かなジョグ »

計量文献学による解析、K特性値、筆者判定~『ハードナッツ』第4回

昨日の、暗号ラブレター解読その他に続いて、今日は本題の「計量文献学」

にチャレンジしてみよう。残念ながら時間が無いので、あまり詳しい記事は書

けないが、この程度でも十分意味はあると思う。

 

ハードナッツ!~数学girlの恋する事件簿~』第4回、「ラブレターと企業恐

喝テロ」。冒頭のタイトル表示の後、数学ガールの難波くるみ(橋本愛)はラ

ブレター執筆に行き詰まり、書棚の本を手に取る。『計量文献学 文章の数学

的解析と真贋判定』(川原崎健司)。検索しても出て来ないから、単なる架空の

テキストだろう。似たような本ならいくつかあったが、メジャーではなさそうだ。

 

そこで簡単に解析=分析されたのは、くるみ独特の文章で、2つの文からなる。

 

   世界中の誰も気付いてはいないけれど、

   この世の中を動かしているのはいくつかの数式だ。

   絵画や彫刻、音楽、そして文学の世界だって

   例外ではない。

 

 

            ☆          ☆          ☆

最初の分析は、センテンス(文)の長さで、句読点も含んでた。最初の文が

41文字、次の文が27文字だから、

 

    (文の長さの平均)=(41+27)/2=34 (文字)

 

一般的な文字式は、それぞれの文の長さをx i、文の数をnとして、和の記号

Σ(シグマ)を使えば、こんな感じになる。画面の右下にあった式を少し書き直

したものだ。くるみの文章の場合だと、x₁=41、x₂=27、n=2、とすればいい。

 

    (xの平均)=Σx i ( 1≦ i ≦n)/n

 

 

続いて、形容詞の使用頻度。句読点も含めて41個の単語・記号の内、形容詞

は1個(最後の「ない」)だから、

 

    (形容詞の使用頻度)=1/41=0.024390・・・≒2.43%

 

端数を四捨五入すれば2.44%だが、なぜか切り捨てで2.43%となってた。

 

一般的な文字式は、使用頻度を統計的な確率(probability)と見て、使用数

をk個、全体をn個とすれば、 p=k/n 。簡単すぎるが、画面に映ってたの

で一応、書き添えとこう。

 

 

            ☆          ☆          ☆

さらに、読点(、)の打ち方。全部で3回使ってる内、助詞の後(「けれど、」)

が1回だから、1/3=33.3%名詞の後(「彫刻、音楽、」)が2回だから、

2/3=66.7%。今度は普通に、端数は四捨五入になってる。

 

最後に、助詞の使い方。助詞が全部で15回(ホントは14回)使われてる内、

」は4回だから、4/15=26.67%。「」は3回だから、3/15=20%

」は2回だから、2/15=13.3%。これまた四捨五入。

 

ちなみに画面では、「例外では」の「で」を助詞扱いしてたが、本当は助動詞

(「だ」の連用形)のはず。この場合、助詞は全部で14回になるから、上の

パーセント計算は違ってくる。エンドロールをチェックすると、「計量文献考

証」として、村上征勝、小田淳一という名前があった。ミスなのか、独自の国

語文法的主張なのかは不明。

 

 

           ☆          ☆          ☆

こうした様々な数字データを使うと、『源氏物語』を書いたのが紫式部なのか、

あるいは、シェークスピアの作品は一人で書いたのか、あるいはフランシス・

ベーコンらの作品がまざってるのか、そういった筆者判定、あるいは真贋判定

が出来るとされてるようだ。その精度は知らないが、ネット上の情報がかなり

少ないことを見ても、今現在それほどの精度とは認められてないのだろう。

 

真贋判定や偽装を見破る作業に使う場合は、あくまで単なる学問的研究の試

みの一つとか、参考程度のものだと思う。人力で行うと、かなり手間がかかる

のも気になる所。ただ、面白い統計的分析ではあるし、コンピューターの時代

にもあってる。データベースとソフトを使えば一瞬で終了するような作業なのだ。

 

なお、くるみのレポートだと、この種の分析は「品詞出現率 word frequency

とか、「PCA=主成分分析(Principal Component Analysis)」と書かれて

た。積分の式まであったが、今の所、解読できてない。

 

 

           ☆          ☆          ☆ 

ここまでは基本的に簡単な話だが、「K特性」(characteristic K)はちょっ

と面倒で、今回の中では一番のハードナッツ(難関)だろう。と言っても、たか

が高校2年の教科書レベルの知識で十分間に合う。

 

英国の統計学者ユール(Udny Yule)が開発した道具的概念の中で、一番

有名なものとの事。特性といっても、計算で求める1つの値だから、K特性値

という呼び方もあるようだ。

 

この言葉自体がドラマで出たのは中盤。くるみが初めて伴田に計量文献学

を説明した時だった。「同じ単語を繰返し使ってしまう割合」という簡単な説明

で、画面には下のデータが並んでた。この右側に、K特性と書かれてたのだ。

あらかじめ言っておくと、これはK特性の定義とはかなり違ってる。ただ、雰囲

気とかイメージだけでも感じ取って欲しいという意味だろう。

 

          くるみ    一般平均

    世界中  9%      3%

    世の中  8%      4%

    数式   14%     1%

    例外    6%     2% 

 

 

一般平均で、「世界中」という単語を文章全体の3%も使うとは思えないが、

要するに、くるみの使用頻度が一般より多くて偏ってる、と言いたいのだろう。

これはパーセントだが、全体の単語をのべ100コ(同じ単語の重複も含む)と

するなら、次のように使用回数で書き直せる。

 

          くるみ    一般平均

    世界中  9回      3回

    世の中  8回      4回

    数式   14回     1回

    例外   6回      2回

 

さて、こうしたデータの表全体でも、くるみの特徴やこだわりは出てるが、もっ

と単純化して、たった1つの値で表すものがK特性なのだ。その計算と効果

を示すために、私が作った簡単な具体例を見てみよう。

 

 

          ☆          ☆         ☆ 

仮に、小学2年生のA君が次のような文章を日記に書いたとする。実際には

もっと、ひらがなが多いと思うが、見づらいので漢字を使っとこう。

 

  僕は遊園地に行った。遊園地にタケシがいたので、僕は一緒に遊んだ。

 

これは文法的に問題ないが、明らかにくどくて下手な文章だろう。理由の一

つは、短い文章の中に、「僕」と「遊園地」が2回ずつ使われてるからだ。それ

は、次のようなB君スッキリした文章と比べれば、ハッキリする。

 

   僕が遊園地に行くと、タケシもいたので、一緒に遊んだ。

 

 

          ☆          ☆          ☆

では、2人の文章のK特性をそれぞれ計算して、比べてみよう。まず、A君

 

のべ単語数は、「僕、は、遊園地、に、行っ、た。遊園地、に、タケシ、が、い、

た、の、で、僕、は、一緒、に、遊ん、だ」で20個。この内、「で」は「だ」の活用

だから、同じ種類の単語とみなすことにしよう。3個の「に」も、同じ種類として

おく。すると、単語の使用回数の分布は次のようにまとめられる。

 

    1回使った語の数  7コ (行っ、タケシ、が、い、の、一緒、遊ん)

    2回           5コ (僕、遊園地、は、た、で=だ)

    3回           1コ (に)

 

∴ (A君のK特性)={(1²×7+2²×5+3²×1)ー20}×10000/20² 

            =400

 

 

本質的には、小カッコ( )の中だけで、言葉の集中度の目安になる。ただ、

20を引くことで、全て1回しか使わなかった時には0になるようにしてある。

10000倍するのは、単に数字を分かりやすくするためで、小数に慣れてる

理系の感覚だと、ほとんど意味はない。分母に20²があるのは、のべ語数

が多いと分子が当然大きくなるから、その調整(正規化)のためだ。

 

 

           ☆          ☆          ☆ 

続いて、B君のべ単語数は、「僕、が、遊園地、に、行く、と、タケシ、も、

い、た、の、で、一緒、に、遊ん、だ」で16個

 

   1回使った語  12コ (僕、が、遊園地、行く、と、タケシ、も、い、た、の、

                  一緒、遊ん)

   2回        2コ に で=だ

 

   ∴ (B君のK特性)={(1²×12+2²×2)-16}×10000/16² 

               =156.25   

 

   ∴ (A君のK特性 400) > (B君のK特性 156.25) 

 

よって、値がハッキリ小さいB君の方が、単語が多様。つまり、語彙(ボキャブ

ラリー)が多いという判定になる。どれだけ差があれば統計的に有意なのか

は、別に考える必要があるが、どうせハッキリした差(数割以上とか)がある

時でないと使えない概念だから、あまり気にしなくていいだろう。

 

 

          ☆          ☆          ☆

ちなみに、すべての単語が1回しか使われてない場合は、K特性最小値 

になる。これが最小値であることの証明は、後述する一般的なΣ(シグマ)

の式を使えば簡単だ。

 

逆に、「好き、好き、好き」のように1つの単語だけを繰り返す場合は、

   (K特性)={3²×1-3}×10000/3²=6666.6・・・

で、巨大な値になってしまう。

 

「好き、好き、好き・・・・・・」と、1つの単語を無限に(n回)繰り返した場合、

   (K特性の極限値)=lim{(n²-n)×10000/n²}

               =lim(10000-10000/n)

               =10000  (n→∞)

 

これが最大値であることの証明は、とりあえず省略。なお、一般的な式を書

くと、mを回数、f(m)をm回使った語数として、

 

  K=〔Σ{m²×f(m)}-Σ{m×f(m)}〕×10000 / 〔Σ{m×f(m)}〕²

                              ( 1≦m≦(mの最大値) )

 

ややこしく見えるが、Σ{m×f(m)}は単に、のべ語数を表す式だから、実は

単純だ。のべ語数をS₁、もう一つのΣをS₂、10000を10⁴として書き直せば、

 

   K=10⁴ {(S₂-S₁)/S₁ ²}

 

これこそ、くるみが4つの文章を分析した時、黒板の左下に書いてた式なのだ。

一見、1番目と2番目と4番目が同一犯人のもののようだが、解析してみると、

2番目と3番目と4番目が同じ人物(実は社長)の文章だという話になってた。

 

 

          ☆          ☆          ☆

実際には、人力で長い文章を大量に扱うのは大変だから、ソフトを使ったりす

るようだ。人力で数万個(!)もの述べ語数を調べたpdfファイルもあったが、

その努力には感心するものの、他人による確認がほとんど不可能になるだろ

う。たとえ同じ参照文献を利用するにせよ、不要な手間がかかり過ぎるのだ。

 

むしろ、共通のソフトやデータベースを利用する方が、知識の共有や双方向

的伝達、発展のためには便利だと思う。もちろん、著作権や個人情報保護に

注意した上で。それでは、今回はこの辺で。。☆彡

 

 

 

 

cf. トランプのポーカーの確率計算

          ~『ハードナッツ!~数学girlの恋する事件簿~』第1回解説

   検査精度と難病の確率、落下速度、素因数分解の暗号

                     ~『ハードナッツ!~数学girl』第2回解説

   無理数を発見した弟子をピタゴラスが殺したという伝説の検証

                             ~『ハードナッツ』第3回

   ピタゴラス音律と普通の十二平均律、周波数のズレなど~第3回

   ラブレターの換字式暗号&数字の順列パスワード~第4回

   ハートマークと「i LOVE u」、愛の方程式~第5回

   「アッシェンフェルターのワイン方程式」の間違いと本物(原論文)~第5回

   特殊な違いの有無の判定(統計的推測、5%片側検定)~第6回

   変化点検出と外れ値、スコア(Score)~第7回

   変化点検出とスコア、具体的な計算例~最終回

 

                                      (計 4403字)

| |

« ラブレターの換字式暗号&数字の順列パスワード~『ハードナッツ』第4回 | トップページ | 不正ログイン対策、ログインアラートとログイン履歴&僅かなジョグ »

映画・テレビ」カテゴリの記事

芸能・アイドル」カテゴリの記事

数学」カテゴリの記事

コメント

計量文献学あるいは計量文体論。興味深いですよね。
前々から興味があったのとハードナッツの視聴者だったのでたどり着きました。
数字もコンピューターも弱い法学部生が片手間で文体論に興味をもって色々調べようとしてるだけなので、手が出せそうもないですが。
ただし闇雲に単語の数を数えるだけなら作者の推定にしか役立ちそうにない気もしますが。他の理論と組み合わせて複雑な計算ができないと。
漫才の研究ではこれを実践しておられる方もいらっしゃいますが。
今の時代コンピューターも数字も弱い奴なんで絶望的というツッコミはやめてください。

投稿: ふむふむ | 2014年8月21日 (木) 18時04分

> ふむふむ さん
   
はじめまして。コメントどうもです。
  
この種の分析は、コンピューターの発達と共に、
多方面で注目されるようになって来ました。
広い意味での「データ・マイニング」ですね。
「データ」からの知識の「発掘」。
最近では、ビッグデータという言葉も流行ってます。
   
作者の推定以外にも、時々見かけるのは、
ツイッターの分析とか。
ある対象に対して、肯定的な言葉と否定的な言葉が
どれくらい使われてるか、調べたりしてます。
    
あと、言語学にとっては決定的ですね。
言葉の意味と使われ方は、密接にリンクしてるので。
辞書の作り方にも大きな影響をもたらしてます。
   
私自身は少し前、最近の判例の中での
「悪意」という言葉の使われ方を軽く調べました。
やはり、普通に言われてる法学的説明とは
少しズレてる気がしたので、有意義な経験でした。
当然、専門家の方々も取り組んでるようです。
   
法学部の学生さんなら、大学でわりと簡単に
データベースを使えるのでしょうから、本来の
勉強の合間に色々と調べてみるのも面白いでしょう。
気軽に頑張ってください

投稿: テンメイ | 2014年8月22日 (金) 09時23分

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック


この記事へのトラックバック一覧です: 計量文献学による解析、K特性値、筆者判定~『ハードナッツ』第4回:

« ラブレターの換字式暗号&数字の順列パスワード~『ハードナッツ』第4回 | トップページ | 不正ログイン対策、ログインアラートとログイン履歴&僅かなジョグ »