『新版統計学のセンス』は統計学を「使う」人なら必携の書 - 渋谷駅前で働くデータサイエンティストのブログ

新版統計学のセンス ―デザインする視点・データを見る目― (医学統計学シリーズ1)

作者:丹後俊郎
出版社/メーカー: 朝倉書店
発売日: 2018/11/05
メディア: 単行本

少し前に広告を見かけてポチってみたのがこちらの本。丹後先生の著書というと『ベイジアン統計解析の実際 (医学統計学シリーズ)』をベイジアンモデリングを勉強していた際に愛読していたものですが、その丹後先生の本ならきっと間違いないだろうと思って読んでみたらやはり大正解でした。

ということで、以下に簡単に書評を並べておきます。なお僕は医学統計分野に関しては殆ど知識のない素人ですので、ところどころ誤読している箇所があるかもしれません。お気付きの点などあれば、是非ご指摘いただければ幸いですm(_ _)m

本書の内容
注目すべきポイント
その他感想など

本書の内容

全体としては1-4章が第I部「基礎編」、5-8章が第II部「アラカルト編」と位置付けられており、第I部の扉には「最小限これだけは知っておいてほしいと思われる統計学のセンス、多くの研究者が気がついていないと思われる注意事項を簡潔にまとめた」、第II部の扉には「研究目的に応じて、データをどのように解析して、どのようにまとめるか、そして最後に、どのように解釈するか、について実際例で解説する」とあります。

1.　randomness――新しい知識の創造

1.1　2値の一様乱数
1.2　37個の数値をもつ一様乱数
1.3　1927年，Random Sampling Numbersの本が出版される

この章は新版に当たって新たに追加されたものだそうです。文中では明言されていませんが、数値解析的な手法などに乱数が多く用いられるRやPythonの統計分析パッケージを念頭に置いて、"randomness"について強調したかったのではないかと推察します。ここで引かれているRaoの著書の例はなかなか面白くて、例えばインドの赤ん坊の性別のヒストグラムは確率50%の二値の無作為抽出と極めて類似していることから「神は硬貨を投げて、男児か女児を決めてくれている」と言っているのだとか。

2.　統計学的推測の意味――無作為化の重要性

2.1　母平均の推定とその信頼区間
2.2　Studentのt検定
2.3　Wilcoxonの順位和検定
2.4　標本の大きさ・例数

この章は物凄く大事な話がズラリと並んでいます。例えば「信頼区間」の定義ですが、頻度論的な説明がきちんとされている書籍というのは実は結構少なくて、それこそ赤本こと東大出版会『統計学入門』ですらも詳細な説明は端折られています。それに対して、本書ではきちんと下記のように明快に説明がなされています。

統計学のセンスNo.2　95%信頼区間とは
無作為抽出を繰り返し行って95%信頼区間を計算したとき、100回に95回くらいは真の平均値μを含んでいる範囲である。いま計算された95%信頼区間に真の平均値μを含む確率が95%という意味ではない。
その確率は1（含んでいる）か0（含んでいない）のどちらかである。

ちなみにこれまた色々な書籍や資料で説明がされていますが、「~~真の平均値~~ベイズ推定で導出した事後分布の最尤値（文脈によっては実現値）*1μを含む確率が95%になる」ような区間を与えるのは一般にはベイジアンです（95%ベイズ確信区間と言ったらその意味になる）。またこの章の2.4節では「サンプルサイズの決め方」という、うっかりすると正しく説明するのに本一冊を要するような大切な話をエッセンスだけ抜き出して明快に論じており、ここも必読です。ちなみにこの節では

医学的に意味のある効果の大きさ(effect size)を議論することなく統計学的検定の有意差にすり替えている風潮は問題である。
（太字原文ママ）

とreproducibility crisisについて痛烈に批判していて、著者のこの問題への姿勢のほどが読み取れます。その直後の統計学のセンスNo.5でも以下のように書かれています。

統計学のセンスNo.5　標本の大きさの見積もり
事前に医学的に意味のある効果の大きさを慎重に決定する

この「事前に」というのがいかに重要かという点についてはこのブログでも何度か議論したことがありますが、本書の紹介とは関係がないのでここでは割愛します。

3.　研究デザイン――無作為割り付けの重要性

3.1　動物実験
3.2　臨床研究
3.3　臨床試験――無作為割り付けは必須？
3.4　病歴記録のデータは怖い
3.5　再び臨床試験について
3.6　リスク評価の疫学研究
3.7　代表的なプロトコールの例
3.8　研究チームに医学統計学者は必須

この章では主に各種のバイアス、特に選択バイアスについての指摘がなされています。ここからは医学研究に関連する話題が増えてくるので、非医学系分野の人には少々取っ付きにくいかもしれません。が、そこで引かれる実例には唸らされるものも多いかと思います。例えばpp.30-31で無作為割り付けの重要性を論じた箇所では、肝硬変治療としてかつて行われていた「門洞静脈吻合術」という手術の評価を行った51編の論文を比べた結果、「論文著者がその手術に執着しているか否か」に「無作為割り付けが行われたか否か」が大きく依存していたという話が出てきます。なお対照群自体がないという論文が最も多かったという有様のこの手術、「効果なし」ということで現在では行われていないそうです。。。

またバイアスについて扱う章だけあって、この章では統計的因果推論そして交絡因子の調整についても触れられており、特に3.7.4節では傾向スコアのpros & consについても簡潔に解説されています。さらに、3.8節では「代表的なプロトコールの例」として7つの研究分類が挙げられていて、

動物実験
臨床試験
前向き疫学調査
後ろ向き疫学調査
過去の症例の分類検討
新しい質問票・指標の開発のための調査
クロスセクショナル調査

のそれぞれについて目的・評価項目・対象・測定方法・統計解析の類型がまとめられており、大いに参考になります。

4.　統計解析以前のデータを見る目

4.1　計量データのまとめ方
4.2　２値データのまとめ方
4.3　Statistical Analysis Section

この章では実践的なデータのまとめ方、特に可視化について触れています。面白いのは「もっとパーセンタイルを利用しよう」という4.1.2節。世の中に蔓延する「平均±エラーバー」という棒グラフがいかに誤った理解につながりかねないかという話がされており、それを避けるためにパーセンタイルを用いた可視化、即ち箱ひげ図をもっと使うべしと提唱しています。残りのパートは疫学研究に特化した話題なので、多くの人には馴染みが薄いかもしれません。

ただ、この章を良く読まないと先述の「前向き研究」と「後ろ向き研究」との違いは分かりにくいかもしれません。個人的には同様のパネル調査をwebマーケティング分野でも行うことがあり、読んでいてちょっとドキッとする箇所もありました。

5.　平均値の比較

5.1　２群だけの比較
5.2　３種類以上の群間比較
5.3　多重比較法？
5.4　見かけは一元配置，実は処理因子が２種類の二元配置
5.5　薬剤濃度を３濃度以上に変えた実験
5.6　調査データの３群以上への分類・比較
5.7　経時的繰り返し測定データの解析

ここからは「アラカルト編」ということで各論が続きます。節タイトルを見てピンと来た方も多いかと思いますが、このブログでも以前取り上げた多重比較の話題が出てきます。ただ、僕が知っている範囲を超えて「え？これも多重比較なのか？？？」みたいなシチュエーションに対する対処法も載っていて、読み応えがあります。

特に5.7節の「経時的繰り返し測定データの解析」は、アプリのone-to-oneマーケティングなどでいかにもありそうな行動データの分析とシチュエーションが類似している感があり、読んでいて思わず唸らされました。

6.　頻度の比較

6.1　２群だけの割合の単純比較
6.2　順序カテゴリーの分類データの２群の単純比較
6.3　３群以上の単純比較
6.4　３種類以上の薬剤濃度，曝露量等の効果・リスクの評価
6.5　一致性と再現性

これはwebマーケティングだとCTR / CVRなどの「『率』を対象にしているように見えるが実際には『頻度』を対象にしている」というタイプの分析や、パネル調査におけるアンケート結果の分析に近い話題を取り上げた章です。特に6.5節ではCohenの一致係数κ(kappa coefficient)のような一致性と再現性に関する指標の説明がされており、個人的には有益だなと思いました。

7.　イベント発生までの時間の比較

7.1　打ち切りデータ
7.2　リスク減少率
7.3　競合リスク

Coxの比例ハザードモデルなどが良く知られている、いわゆる生存分析の話題です。webマーケティングの世界だとlife time value (LTV)などにも関わる分野ですね。ここでは「Coxの比例ハザードモデルが適用できないケース」のようなあまり他書ではお目にかからない話題にも触れています。

8.　付録

8.1　臨床研究での無作為割り付けの方法
8.2　交絡因子の調整とは？
8.3　臨床的同等性の検証とは？
8.4　メタ・アナリシスとは？
8.5　データを併合するとは？
8.6　診断検査のカットオフ点の決め方
8.7　統計手法の引用文献

「付録」という章題に対してその内容があまりにも重要過ぎる章です。8.2節では第3章でさらりと流した「交絡因子の調整」について、8.3節では通常の仮説検定の枠組みでは結論が出せない「A = Bであると言いたい時」の比較方法について、8.4節ではこのブログでも何度か取り上げているメタアナリシスについて、それぞれ詳細に論じています。

特に8.3節の同等性を示すための「非劣性検定」の話題は「統計学のセンスNo.34」としてp.144にまとめられているので、どうしても「A = Bである」ことを示さなければならないというタスクを抱えている人には一読を勧めます。

注目すべきポイント

ということであらすじをたどりながら本書の注目ポイントを挙げてきましたが、改めて以下のようにまとめておきます。

統計学の「理論や手法」の話よりも「理解とその使い方」の話に重きを置いている

東大出版会の三部作を筆頭として、統計学の教科書というと「理論や手法」の話に終始するものが多いというのが僕個人の印象です。例えば赤本こと『統計学入門』の第11章「推定」の11.5.1節を開くと、見開きの2ページに渡ってテキストよりも数式の方が多いという有様で、さすがに既習で大体のことが分かっている身であっても読んでいて目がチカチカする感があります。もちろん、教科書という立ち位置の都合上証明や導出や定義についてきちんと説明する必要があるからこそなのですが、それでも数学が大の苦手な人間には結構つらいものがあります。

これに対して、本書は統計分析が今やR / Pythonでスピーディに行われてしまい、必ずしも理論や手法のことを毎回思い出しながら為されるものではないという前提に立ち、データそのものの表やデータを可視化した図表を駆使することで直感的な理解を促し、その上で「どのように〇〇という統計手法を理解すべきか」「いかにして〇〇という統計手法を正しく使うか」というポイントに多くのページを割いています。その代表的なパートが第5章「平均値の比較」で、具体的なデータセットの可視化を一望した上でt検定、Wilcoxonの順位和検定、さらにはANOVA、Jonckheereの順位和検定*2、そして多重比較補正へと進んでいき、それぞれが適切・不適切な例を挙げて丁寧にしていくという流れで、極めて分かりやすいです。

実験計画などの「統計学の運用」についての話題が豊富

そもそもが治験・疫学調査などの医学統計をテーマとした本書だけに、それらの根幹を成す実験計画法を含めた統計学の「運用」方法についての話題が多く盛り込まれています。圧巻はやはり第3章「研究デザイン」で、様々なバイアスに対処するための様々な実験計画法がこれでもかとばかりにズラリと並んでいて壮観です。

ちなみにそれっぽい話題を聞いたことはあったものの門外漢なもので読んでみて「へー、なるほど」と思ったのがBerkson's bias。選択バイアスの一種なのですが、要は臨床研究において診療記録をデータとして用いると「そもそも受診率が異なる」というバイアスに侵されてしまう、というお話。自分が守備範囲とするデジタル広告やマーケティングの世界でも似たような話は沢山あるので、読んでいて耳が痛くなりました。。。

因果推論の話題もカバーしている

他の入門レベルの統計学の書籍だと殆ど取り上げられない話題のひとつが「統計的因果推論」。一方で、ガチの因果推論の書籍を当たると結構ガッチガチの理論体系をゴリゴリ掘り下げてくるものが多く、初学者が学ぶにはかなりつらいのではないかと思われます。本書はこれに関しても、第3章や第8章の8.2節でかなりシンプルかつ分かりやすく論じていて、個人的には入門という意味ではオススメです。

個人的な印象としては、因果推論というとどうしてもバックドア基準か傾向スコアのどちらかに議論が集中しがちな印象が（日本では）あるのですが、本書では操作変数法や層別解析、共分散分析といったそれ以外のより取っ付きやすい手法に多くの説明が割かれていて、実践的であるという印象を持ちました。

その他感想など

現実には医学統計以外でこのような本物の実験計画法の考え方を駆使した介入試験を行うことは稀かもしれませんが、それでも自分が守備範囲とするマーケティング分野では広告出稿の仕方をコントロールすることによって行うマーケティング・エクスペリメントのようなものもありますし、観察的研究に近いもので言えばアンケートに基づくパネル調査のようなものもあります。それらのデータ分析をする際には明らかに本書で取り上げられたような問題点に突き当たることも多いため、個人的には本書はマーケティングに関わるデータ分析を手がける人たちに是非薦めたいと思っています。

*1:2020 Feb 18修正：ベイズ統計に詳しい知人からの指摘を受けて差し替えました。ベイジアンの場合は「真の値」という考え方はせず、概して「モデルとして想定する分布」や想定されたモデルそのものが与える値をここに置くことが多いようです

*2:研究者時代にたった1回だけ試したことのあるマニアックな手法だが、まさかここで見るとは思わなかった

本書の内容

1. randomness――新しい知識の創造

2. 統計学的推測の意味――無作為化の重要性

3. 研究デザイン――無作為割り付けの重要性

4. 統計解析以前のデータを見る目

5. 平均値の比較

6. 頻度の比較

7. イベント発生までの時間の比較

8. 付録