六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

多重比較補正のはなし

最近になって、データ分析界隈で多重比較補正が話題に上ることが増えていると聞きまして。一方で、僕自身も何を隠そう研究者時代の専門分野が長年多重比較補正の問題に悩まされてきた分野だったこともあって、かなり若い頃から多重比較補正については色々勉強したり実践したり検討したりしてきたものでした。


ちなみに下記のリンクはその分野で広く使われている多重比較補正の方法論に重大な瑕疵があるのではないかと指摘した2年前の論文で、曰く「理論上は偽陽性(false positives)5%で済むはずのものが実際には偽陽性が最大70%に達する可能性がある」とのこと*1

事によっては15年間に渡る40000件の研究が実は偽陽性まみれだったという可能性もあるという話で、多重比較補正って怖いんだなぁとつくづく思う次第です。


閑話休題。このように多重比較補正というのは「偽陽性」という統計データ分析においては厄介な問題と密接に関わるものでもあります。そんなわけで、この記事では昔勉強した内容を思い出しながら多重比較補正にまつわるあれこれを書き綴ってみようとかと思います。特に学術的にきっちりとした議論をするつもりはないので、内容としてはほんのさわり程度に留めます。


そうそう、今回の話題も僕自身頑張って勉強していた頃から既に6年以上が経って曖昧な記憶を思い出しながら書いている有様なので、間違っているところが多々あるかもしれません。いつも通りご意見ご指摘などあればどしどしお寄せいただけると有難いですm(_ _)m

*1:興味のある人は論文に加えてここを読むとよろしいかと Statistical parametric mapping (SPM) - Scholarpedia

続きを読む

時変係数動的線形モデル続き:時変・時不変・OLS線形回帰で比較してみる

2週間前にふと思い立ってこんなことを試してみたわけですが。

よくよく考えてみたら「データを生成した真のモデルが時変係数&モデル推定も時変係数」でやってみた結果を並べただけで、これを(例えば)時不変係数モデルで推定してしまった場合や単なるOLS線形回帰で推定した場合との比較みたいな、ありがちなケースを試してみるのを忘れていたのでした。


ということで、単にそれらをやってみます。なお今回も面倒なので交差検証は入れていません。興味のある方は以下の過去記事をご参照ください。

続きを読む

データ人材は日本に何人必要なのか?(2018年Q2版)

f:id:TJO:20180529102204p:plain

(Image by Pixabay)

最近になって以下のようなメディア記事やそれに類する報道が殊に増えているようです。

以前研究者だった身としてはこういう「これから日本には〇〇万人の△△人材が必要」みたいな物言いを聞くとポスドク1万人計画の悪夢を思い出してしまう部分もありますが、そもそも論として「今後データ人材は日本に何人必要なのか?」を現場のヒューマンリソースの需給状況から述べる向きは相変わらず少ないのではないかという印象が強いです。


ということで相変わらずの与太記事で恐縮ですが、自分の6年間のデータ分析業界での経験と見聞をもとに「今後データ人材は日本に何人ぐらい必要なのか」を極めて主観的ながら論じてみようかと思います。いつも通り異論反論またはご指摘大歓迎ですので、コメントのある方は何がしかの方法でお寄せくださると有難いです。

続きを読む