以前から同様の指摘は様々な分野から様々な人々が様々な形で出してきていましたが、アメリカ統計学会が以下のような明示的な声明をこの3月7日(現地時間)に発表したということで注目を集めているようです。
AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON STATISTICAL SIGNIFICANCE AND P-VALUES
Provides Principles to Improve the Conduct and Interpretation of Quantitative Science
https://www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf
The ASA's statement on p-values: context, process, and purpose
http://amstat.tandfonline.com/doi/abs/10.1080/00031305.2016.1154108
- P-values can indicate how incompatible the data are with a specified statistical model.
- P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.
- Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.
- Proper inference requires full reporting and transparency.
- A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.
- By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.
(私訳)
このドキュメントの中でアメリカ統計学会のpresidentであるJessica Utts教授も語っていますが、「p値偏重主義に対する決別を統計学者のコミュニティがその会長とboardの名において宣言する」のは恐らく史上初めてのことではないかと思われます。そしてこの声明の取りまとめ役でもありASAのexecutive directorを務めるRon Wasserstein博士は「良く吟味された統計学上の議論とは、ひとつの数字がどうとかその数字がある恣意的な閾値を超えているかどうかなどという以上の内容を含むものだ」「このASAの声明は(統計学を用いる)研究の舵を『ポストp < 0.05時代』へと切らせるものだ」とまで言っています。
僕自身もかつて、いや今現在も時々悩まされる問題なので耳の痛い話ですが、「p < 0.05でなければ受け入れられない」というカルチャーがもたらす弊害は非常に大きいわけです。ある時はfile-drawer effect*1につながったり、ある時はp-value hacking*2やdata dredging*3につながったり、と「データから真に意義ある知見を得る」という本義に悖る事態になることもある、という。
この声明の後半には「p値に依拠しない新たなアプローチの例」として予測値を重視するアプローチ*5、ベイジアンモデリング、決定理論的アプローチ*6およびfalse discovery rate*7といったものを用いるべき、というコメントが付されています。実は同様の話は[twitter:@KuboBook]先生の「みどりぼん」(データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学))でも指摘されていて、それがようやくこうして公のものとして日の目を見たのかな?と思っているところです。そういう意味で言うと、少し前にブログに書いたこの件も「追記」で取り上げたベイジアン的アプローチの方が妥当なのかもしれませんね。
ところで、このASAの声明は実験科学・社会調査の研究をしている人々に大きな波紋を投げかけるのだろうと思いますが、上の私訳で太字下線にしたように「ビジネス・政策上の意思決定においても」p値偏重主義からの脱却を促しているとも言え、僕を含めたビジネス実務の現場でデータ分析に取り組む人々にとっても心すべきものなのかなと受け止めています。「全てをp値のせいにするな、自らデータそのものにdeep diveして納得のいくエビデンスを求めよ」という読み方をするならば、これまで以上に「検定」ではなく「モデリング」へとシフトしていくべきなのかなと思う次第です。
*1:p < 0.05に達しなかったというだけで論文誌の査読やその他の審査を通過できず採択されない研究が出てくる問題
*2:p < 0.05にすることだけを目的として合理的な理由もなく統計分析手法をあれこれ手当たり次第に試すこと
*3:不必要に大きなサンプルサイズと多くの特徴量を用意することによって本来なら何の関連もないはずの変数同士に関連があるかのように見えてしまい誤った結論に至ることで、多重比較の枠組みで問題になることが多いらしい
*4:やり方をほぼ忘れていたのでこちらを参照しました http://aaaaushisan.blogspot.jp/2012/04/r_13.html
*5:おそらく機械学習的な交差検証などを想定しているのかなと
*6:もしかしたらconfusion matrixに基づく各種の予測スコア評価を言っているのかも
*7:多重比較補正の中では割と新しい手法