渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

『「誤差」「大間違い」「ウソ」を見分ける統計学』は既に統計学を学んだ人がさらなる理解の深みと多様さを求めて読むべき「副読本」

しばらく前に共立出版様からご恵贈いただいたのがこちらの『「誤差」「大間違い」「ウソ」を見分ける統計学』。お気付きの方もいらっしゃるかもしれませんが、原著者デイヴィッド・ザルツブルグは『統計学を拓いた異才たち―経験則から科学へ進展した一世紀』で知られる生物統計学者で、その彼の近著です。なお本書の訳者の一人竹内惠行氏は『統計学を拓いた〜』の翻訳も手がけており、同じチームによるいわば「続編」的な一冊と言って良いかと思います。


前著は割と分厚い「統計学史」についての「読み物」という雰囲気の強い一冊でしたが、本書はそれに比べると古今東西統計学がキーワードとなった幅広い分野における実例を挙げつつ、同時に統計学の具体的なポイントについての解説を加えていくというスタイルで書かれており、いわば統計学テキストの「副読本」と言えるかなと感じています。


ということで、いつもながらですが本書の内容をざっくりとご紹介した上で、簡単に論評させていただこうかと思います。


本書の内容


過剰にならない範囲で、各章の内容を以下に簡潔に記しておきます。

第I部

  • 第1章 金星の太陽面通過

ここは本書の導入にあたるパートで、18世紀における金星の太陽面通過を利用した1天文単位*1同定計画が紹介されています。この計画で得られたデータの中に見られた「誤差」「大間違い」「ウソ」こそが、まさに本書のタイトルにもなった通りの「統計学による分析を歪ませる問題」であり、その起源が200年以上も前の科学研究に既にあったというエピソードが紹介されています。


ちなみに本文中で指摘されている通り、18世紀当時は「世界のどこにでもその気になれば向かうことができた」一方で「必ずしもどこでも安全かつ安定して天体観測ができるとは限らなかった」わけで、例えばその頃世界中に植民地を持っていた英仏は互いに交戦状態にあったために「ちょうど天体観測にうってつけの土地に限って戦争中でそれどころではない」という事態がそこかしこで頻発していたそうです。この辺の話は現代においても「データ測定・収集の問題」という形で再認識されることが多いことでしょう。

第II部 誤 差

  • 第2章 確率 vs. 尤度
  • 第3章 中心極限予想
  • 第4章 病気を測定する
  • 第5章 多重線形回帰モデルの他の使い方
  • 第6章 多重線形回帰モデルが適当でない場合
  • 第7章 相関 vs. 因果
  • 第8章 回帰とビッグデータ

ここからは実際に統計学の理論的な内容の紹介がされていきます。即ち「誤差」の概念、確率分布(特に正規分布の性質)、中心極限定理、重回帰分析(線形回帰モデル)、ダミー変数の誕生、ロジスティック回帰を初めとする一般化線形モデル、因果推論、罰則項(正則化項)つき回帰、多重比較補正、交差検証といった、一般的な頻度主義統計学における一連のトピックが様々なエピソードとともに取り上げられています。


なおこのパートでも面白い話が色々紹介されていて、例えば有名なフラミンガム研究で「心臓発作の有無」という二値回帰問題を解くためにロジスティック回帰が導入されたのは1954年のことで、それは辛うじてロジスティック回帰の最尤推定を数値解析で解けるコンピュータが登場した時のことなのだそうです。今でこそ大抵の最尤推定は様々なプログラミング言語でサクサクできるわけですが、当時は途方もなく大変なプロジェクトだったんだなと感嘆させられます。

第III部 大間違い

  • 第9章 汚染された分布
  • 第10章 プリンストン大学の頑健性研究
  • 第11章 求められているものが大間違いであるとき
  • 第12章 大間違いを分類する

ちょっと毛色が変わって、ここからは「データが間違っている場合」のストーリーが展開されます。例えば中央値の概念も(間違ったサンプルを回避して真のパラメータを得やすくするという意味での)頑健性robustnessの研究から支持されているし、そこからさらに踏み込んだウィンザー化平均が提案された際のエピソードも出てきます。


面白いのが、ここで多重比較補正に使われるFDR補正の話題が出てくる点です。これも良く良く考えたら元の名前の通り「偽発見率」(false discovery rate)をコントロールするものであり、それは狙った実験操作以外によって得られる陽性サンプルをいかにして統計分析に正しく反映させるか、という努力の結果なんですね。個人的にはその努力に敬服するとともに、自分の浅学を恥じる次第です……。

第IV部 ウ ソ

  • 第13章 王の在位期間
  • 第14章 「真の」デイヴィー・クロケットを探す
  • 第15章 偽造された数を見破る
  • 第16章 秘密を暴く
  • 第17章 誤差,大間違い,虚偽報告

そして最後は「ウソ」の話題です。これが本当に想像以上に「ウソ」ばっかりで、例えば「ローマ建国神話に出てくる王たちの在位期間」のばらつきがあまりにも小さ過ぎるので「古代の誰かが適当にでっち上げた数字だろう」という結論を「ある程度正確に記録されているイングランドの初期の王たちの在位期間」のばらつきと比較することで導く、という話が13章に出てきます*2。つまり、「誰かが人為的かつ作為的に作った(捏造した)数値は統計学で見破り得る」というのがこのパートの主題です。


その例として、旧約聖書の中に出てくる「〇〇の人数」というやたら細か過ぎる数字も出てくれば(ランダム性が低過ぎて個人の創作と考えられる)、逆に第二次大戦のロンメル軍の戦車の総数を製造番号の分布から推定したり(ドイツ軍が几帳面に製造番号をつけていたせいで統計学的な推定が可能だった)、さらには国勢調査の調査員が調査を「サボって」適当に偽造したかどうかを見破る(前述の通りランダム性から判定される)、といった話題が紹介されています。そもそも統計学が「ランダム性」とその「ばらつき」を科学する学問であることを考えれば当然の帰結なのですが、自分のような浅学の徒には「なるほどこういう統計学の活躍の場もあるのか」という驚きの連続でした。


感想など


全体としては、ある程度統計学の素養がある人向けに「こんな面白い話題があるんだよ」「統計学を使うとこんな思いがけないことができるんだよ」と教えてくれる、そんな雰囲気の一冊だと感じられました。特に「ウソ」を見破る話題が並ぶ第IV部は、統計学をある程度使いこなせる人にとっては面白いエピソードだらけと感じられるのではないでしょうか。


ところで、本書のAmazonレビューに酷評が並んでいて実に醜い有様になっているのを見かけたんですが、これは単純に「統計学の素養がほぼ(全く)ない読者*3が読んでも何も分からず面白くない」というだけなのかなと思いました。この点は原著者の前著『統計学を拓いた異才たち』でも同様で、基本的には統計学を既にある程度学んだ人がさらなる理解の深みと多様さを求めて読む「副読本」という立ち位置なんですよね。特に『統計学を拓いた異才たち』では全く数式が出てこない分、地の文*4の専門用語を見ながら「どういう歴史的経緯があるのか」「どんなロジックなのか」「どんなアルゴリズムなのか」を想像しながら読む必要があったため、ますます前提としての統計学の素養が求められるという感じでした。それに比べれば、多少でも数式が載っていてある程度何を言わんとしているかがパッと見て分かるという点で、本書はもう少し親切であるようにも見えます。


ということで、データサイエンティストのような「統計学で仕事をする」職業を目指していたり、もしくは今既にそういう職業に就いて統計学を使って仕事をしているという人が、さらなる視野の広さを求めて読む上では実に良い本だと思います。ただし、前提として最低でも東大出版会の基礎統計学シリーズの赤・青・緑の3冊を読んでいる必要があるのかなと。裏を返すと、そうでない人には内容も筆者の意図も何もかも分からない「奇書」に見えるのかもしれません。世間に向けて広く遍く統計学の意義を説く本を書くというのは難しいことなのだなぁ……と感じさせられた次第です*5

*1:AU: 地球から太陽までの距離

*2:これは多分他の国・地域の神話なんかにも応用できそう

*3:多分赤本すら1ページも読んだことないくらいのレベル

*4:自然言語で書かれているともいう

*5:これ以上ないくらい自戒を込めて