渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

分析結果が有意にならなくて困っている人々のためのハウツー本を書きました

f:id:TJO:20220329151316p:plain

近年様々な議論もあるようですが、依然として「統計的仮説検定」を初めとする統計分析においては「p < 0.05」なるp値が得られるような「有意差」もしくは「有意性」が重視される業界は世間には数多く、有意な分析結果が得られなくて困っている人々は少なくないようです。


そこで、そんな人々のためになるようなハウツー本的な書籍をこの度上梓しました。題して『今日からはじめる達人p値ハッキング』ということで、p-hacking及びそれ以外の様々な「有意な分析結果を得るためのテクニック」をまとめてあります。以下に目次を挙げておきます。

目次

  • 第1章:何故貴方の分析にはp < 0.05が必要なのか
  • 第2章:全てのサンプルを使うことをやめよう
  • 第3章:サンプルをもっと増やしてみよう
  • 第4章:p < 0.05が得られるような仮説を設定してみよう
  • 第5章:検定手法を使い分けてみよう
  • 第6章:p < 0.05が大変なら、0.05という閾値を変えてしまおう
  • 第7章:サンプルが足りないなら、ブートストラップしよう

まず第1章では「何故p < 0.05を求められる場面が多いのか」という歴史的経緯の話題を扱います。以降は有意な分析結果を得るためのテクニックを紹介しており、まず第2章では集めた実験サンプル全体を使うのではなく自分の分析でp < 0.05が得られるようなサブセットに絞り込む方法を解説しています。第3章ではfile-drawer problemの応用として「あと幾つ都合の良いサンプルが手に入るか」を推定しながらサンプルを増やす方法に触れています。


第4章はちょっと毛色の異なる章で、いわゆるHARKing (Hypothesizing After Results are Known)に触れています。これはサンプルが全て揃った後でp < 0.05を得やすい仮説を改めて立て直すという方法で、サンプル自体が好都合な際には効果的です。他にも、事前分析としてサンプル全体に対してローラー作戦的に検定をかけた後、そこでp値が低かったサブグループのサンプルに対して深掘り分析をしてより低いp値をアピールするというdouble dipping(二度漬け)というテクニックもあります。


第5章以降は再びp-hackingの話題に戻ります。まず「t検定やANOVAでは有意にならない」際の代替検定手法の話題として、順位和検定や他のノンパラメトリック検定について触れます。その後第6章では多重比較補正などにおいて「Bonferroni補正など厳密なp < 0.05だと有意な結果が得られない」際に、FDRや帰無仮説自体を変えることで実質的にp < 0.05より緩める方法を紹介しています。そして発展的内容として、第7章ではブートストラップ法を応用して有意な分析結果が得やすいようなnull distributionを得る方法を解説しています。例えば、study間で明らかに有意差が出そうな指標を選んできて複数studyを統合する別指標を作り、これをリサンプリングしてブートストラップ法にかけるといった按配です。


「いつも分析結果が有意にならなくて困っている」という方々におかれましては、是非書店でお手に取っていただけると有難いです。きっと皆さんのお役に立つ一冊になると信じております。


(これはエイプリルフールネタです。決して参考にしてはいけません!)