2022-04-01

分析結果が有意にならなくて困っている人々のためのハウツー本を書きました

f:id:TJO:20220329151316p:plain

近年様々な議論もあるようですが、依然として「統計的仮説検定」を初めとする統計分析においては「p < 0.05」なるp値が得られるような「有意差」もしくは「有意性」が重視される業界は世間には数多く、有意な分析結果が得られなくて困っている人々は少なくないようです。

そこで、そんな人々のためになるようなハウツー本的な書籍をこの度上梓しました。題して『今日からはじめる達人p値ハッキング』ということで、p-hacking及びそれ以外の様々な「有意な分析結果を得るためのテクニック」をまとめてあります。以下に目次を挙げておきます。

目次

第1章：何故貴方の分析にはp < 0.05が必要なのか

第2章：全てのサンプルを使うことをやめよう

第3章：サンプルをもっと増やしてみよう

第4章：p < 0.05が得られるような仮説を設定してみよう

第5章：検定手法を使い分けてみよう

第6章：p < 0.05が大変なら、0.05という閾値を変えてしまおう

第7章：サンプルが足りないなら、ブートストラップしよう

まず第1章では「何故p < 0.05を求められる場面が多いのか」という歴史的経緯の話題を扱います。以降は有意な分析結果を得るためのテクニックを紹介しており、まず第2章では集めた実験サンプル全体を使うのではなく自分の分析でp < 0.05が得られるようなサブセットに絞り込む方法を解説しています。第3章ではfile-drawer problemの応用として「あと幾つ都合の良いサンプルが手に入るか」を推定しながらサンプルを増やす方法に触れています。

第4章はちょっと毛色の異なる章で、いわゆるHARKing (Hypothesizing After Results are Known)に触れています。これはサンプルが全て揃った後でp < 0.05を得やすい仮説を改めて立て直すという方法で、サンプル自体が好都合な際には効果的です。他にも、事前分析としてサンプル全体に対してローラー作戦的に検定をかけた後、そこでp値が低かったサブグループのサンプルに対して深掘り分析をしてより低いp値をアピールするというdouble dipping（二度漬け）というテクニックもあります。

第5章以降は再びp-hackingの話題に戻ります。まず「t検定やANOVAでは有意にならない」際の代替検定手法の話題として、順位和検定や他のノンパラメトリック検定について触れます。その後第6章では多重比較補正などにおいて「Bonferroni補正など厳密なp < 0.05だと有意な結果が得られない」際に、FDRや帰無仮説自体を変えることで実質的にp < 0.05より緩める方法を紹介しています。そして発展的内容として、第7章ではブートストラップ法を応用して有意な分析結果が得やすいようなnull distributionを得る方法を解説しています。例えば、study間で明らかに有意差が出そうな指標を選んできて複数studyを統合する別指標を作り、これをリサンプリングしてブートストラップ法にかけるといった按配です。

「いつも分析結果が有意にならなくて困っている」という方々におかれましては、是非書店でお手に取っていただけると有難いです。きっと皆さんのお役に立つ一冊になると信じております。

（これはエイプリルフールネタです。決して参考にしてはいけません！）

2022-03-28

『計量経済学』（末石本）はエコノメトリクスのエッセンスを「オールインクルーシブ」で簡潔にまとめた必読の一冊

書籍書評統計学

計量経済学ミクロデータ分析へのいざない

作者:末石直也
日本評論社

Amazon

データ分析業界の友人から「読んでみたら物凄く良かった」と勧められて買ったのが、こちらの一冊。同名の書籍は沢山あるので、ここでは著者の末石先生のお名前を取って「末石本」と呼ばせていただきますが、これが本当に物凄く良くて感嘆させられるばかりでした。

ということで、門外漢が書いて良いものかどうか迷うところですが簡単に書評をまとめてみました。特に操作変数法を中心とする因果推論・自然実験まわりの確かな知識を得たい人にはお薦めだということを最初に書き添えておきます。なお、いつもながらですが僕の理解があやふやなため書評の中には怪しい箇所もあるかと思いますので、お気付きの方はコメント欄なりでご指摘くださると幸いです。

2022-03-16

蔓延防止等重点措置（まん防）の効果検証を「あえて」DID＋TSclustによる時系列クラスタリング＋CausalImpactでやってみた

統計学統計的因果推論時系列分析データ分析 R

少し前の話ですが、現在COVID-19の感染が拡大している地域で実施される「蔓延防止等重点措置（まん防）」に効果があったかどうかについて、計量経済学的な観点に基づいた政策評価レポートが公開されて話題になっていました。

追記
本日午前中に元のレポート自体が更新されていたようで*1、今回の記事はその更新を反映していない点悪しからずご了承ください。

で、結論はともかくその手法とアプローチについては色々と議論が起きているようです。例えば、上記のブログ記事では実際に東京都のデータで追試をしてみて、もう少し異なるやり方があるのではないかと指摘しています。

この辺は僕にとっても同様で、普段から同様のデータ分析を広告・マーケティング分野で手掛けている身としては「自分ならこうしたい」と思われるポイントが幾つかあり、折角データソースや背景となる行政措置の詳細などがレポート中で明記されているのだから、いっそ自分で追試してみようかと思ったのでした。

ということで、以下にその過程と結果をまとめて置いておきました。なお、今回の取り組みはあくまでもその「手法とアプローチ」に着目したものであり、「結果」にはあまり関心がありませんので、後者についての議論は一旦傍に置かせてください。

*1:https://twitter.com/ShuheiKitamuraJ/status/1503913713803284480

渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

分析結果が有意にならなくて困っている人々のためのハウツー本を書きました

『計量経済学』（末石本）はエコノメトリクスのエッセンスを「オールインクルーシブ」で簡潔にまとめた必読の一冊

蔓延防止等重点措置（まん防）の効果検証を「あえて」DID＋TSclustによる時系列クラスタリング＋CausalImpactでやってみた