最近になって、データ分析界隈で多重比較補正が話題に上ることが増えていると聞きまして。一方で、僕自身も何を隠そう研究者時代の専門分野が長年多重比較補正の問題に悩まされてきた分野だったこともあって、かなり若い頃から多重比較補正については色々勉強したり実践したり検討したりしてきたものでした。
ちなみに下記のリンクはその分野で広く使われている多重比較補正の方法論に重大な瑕疵があるのではないかと指摘した2年前の論文で、曰く「理論上は偽陽性(false positives)5%で済むはずのものが実際には偽陽性が最大70%に達する可能性がある」とのこと*1。
事によっては15年間に渡る40000件の研究が実は偽陽性まみれだったという可能性もあるという話で、多重比較補正って怖いんだなぁとつくづく思う次第です。
閑話休題。このように多重比較補正というのは「偽陽性」という統計データ分析においては厄介な問題と密接に関わるものでもあります。そんなわけで、この記事では昔勉強した内容を思い出しながら多重比較補正にまつわるあれこれを書き綴ってみようとかと思います。特に学術的にきっちりとした議論をするつもりはないので、内容としてはほんのさわり程度に留めます。
そうそう、今回の話題も僕自身頑張って勉強していた頃から既に6年以上が経って曖昧な記憶を思い出しながら書いている有様なので、間違っているところが多々あるかもしれません。いつも通りご意見ご指摘などあればどしどしお寄せいただけると有難いですm(_ _)m
続きを読む