渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

シンプソンのパラドックスのはなし

今月はモデルナワクチンの2回目接種*1やら仕事でも負荷の高い分析業務やら、はたまた執筆*2やらでネタ切れなのもあってあまりブログ記事を書けていなかったので、最近話題になった件について簡単に論じてみようかと思います。元ネタはこちらです。


これはイスラエルで公表されたCOVID-19ワクチンの重症化防止効果に関する統計について、いわゆる「シンプソンのパラドックスが見られるのでそれを補正する必要があると指摘するブログ記事です。この件について僕が引用しながらボソッと放言したところ、思いの外大きな反響があったのでした。

シンプソンのパラドックスというと数ある統計学パラドックスの中でもかなりメジャーな部類に入ると思うのですが、意外にもこれがズバリ適用されるべきデータってなかなか実務では出くわさないんですよね*3。上で引用したブログ記事的には良き敵にこそござんなれという按配だったのでしょうが、反響を見ている限りでは思った以上に複雑な概念だと一般には感じられているらしいという印象がありました。


ということで、僕個人にとってもちょうど良い機会なのでシンプソンのパラドックスについて調べてみた結果を、記事としてまとめてみようと思います。なおいつもながらですが、記事内容に誤りや理解不足などあればご指摘くださると有難いです。

*1:コロナワクチンの副反応、ありましたか?に対するTakashi J. Ozakiさんの回答 - Quora

*2:何を書いているかはまだ秘密です

*3:後述するように特定の状況下では頻出するようですが

続きを読む

戦力になるレベルのデータサイエンティストを育成することの難しさ

f:id:TJO:20210714135919p:plain
(Image by Pexels from Pixabay)

僕自身がデータサイエンティストという肩書きを与えられて働くようになった9年前から、一貫して問題意識を持ち続けてきたのが「データサイエンティストをどう育成すべきか」についてでした。その後、この9年の間に質の良し悪しや量の多寡はともかく多くのデータサイエンティスト向け技術講座・資料が沢山世に出るようになり、一見その育成体制はそれなりに整ってきたように見えます。


しかし、当事者たちから見ると必ずしもそうではないようだ、という指摘を陰に陽に見聞しており、しばらく前のことながら実際に僕自身が機会があって聞かされたコメントを引用して放言したところ、結構な反響があったので「ああ戦力になるレベルのデータサイエンティストを育成するのは誰もが難しいと思っているんだな」と実感していた次第です。そんなわけで、上記の4つのポイントに触れながら改めてその「難しさ」と、考えられる解決策を論じてみようと思います。

続きを読む

95%信頼区間の「95%」の意味

ふと思い立ってこんなアンケートを取ってみたのでした。

結果は物の見事に真っ二つで、95%信頼区間の「95%」を「確率」だと認識している人と、「割合」だと認識している人とが、ほぼ同数になりました。いかに信頼区間という概念が理解しにくい代物であるかが良く分かる気がします。


ということで、種明かしも兼ねて95%信頼区間の「95%」が一体何を意味するのかを適当に文献を引きながら簡単に論じてみようと思います。なお文献の選択とその引用及び解釈には万全を期しているつもりですが、肝心の僕自身が勘違いしている可能性もありますので、何かしら誤りや説明不足の点などありましたらご指摘くださると有難いです。

続きを読む