2021-07-30

戦力になるレベルのデータサイエンティストを育成することの難しさ

f:id:TJO:20210714135919p:plain
(Image by Pexels from Pixabay)

僕自身がデータサイエンティストという肩書きを与えられて働くようになった9年前から、一貫して問題意識を持ち続けてきたのが「データサイエンティストをどう育成すべきか」についてでした。その後、この9年の間に質の良し悪しや量の多寡はともかく多くのデータサイエンティスト向け技術講座・資料が沢山世に出るようになり、一見その育成体制はそれなりに整ってきたように見えます。

以前議論していた「何故戦力になるレベルのデータサイエンティストが育たないのか」4項目を発掘して面白かった
1. 実戦可能レベルになるまでの学習量が多過ぎる
2. 『知っている』から『使いこなせる』への溝が深い
3. コミュニケーションで死ぬ
4. ビジネス価値と結びつけて自走するところに溝がある
— TJO (@TJO_datasci) 2021年6月1日

しかし、当事者たちから見ると必ずしもそうではないようだ、という指摘を陰に陽に見聞しており、しばらく前のことながら実際に僕自身が機会があって聞かされたコメントを引用して放言したところ、結構な反響があったので「ああ戦力になるレベルのデータサイエンティストを育成するのは誰もが難しいと思っているんだな」と実感していた次第です。そんなわけで、上記の4つのポイントに触れながら改めてその「難しさ」と、考えられる解決策を論じてみようと思います。

2021-07-16

95%信頼区間の「95%」の意味

統計学書籍

ふと思い立ってこんなアンケートを取ってみたのでした。

頻度主義統計学における「95%信頼区間」の95%というのは、以下のどちらだと思いますか
— TJO (@TJO_datasci) 2021年7月16日

結果は物の見事に真っ二つで、95%信頼区間の「95%」を「確率」だと認識している人と、「割合」だと認識している人とが、ほぼ同数になりました。いかに信頼区間という概念が理解しにくい代物であるかが良く分かる気がします。

ということで、種明かしも兼ねて95%信頼区間の「95%」が一体何を意味するのかを適当に文献を引きながら簡単に論じてみようと思います。なお文献の選択とその引用及び解釈には万全を期しているつもりですが、肝心の僕自身が勘違いしている可能性もありますので、何かしら誤りや説明不足の点などありましたらご指摘くださると有難いです。

2021-07-13

温故知新：古典的名著『回帰分析』（佐和隆光）を読む

統計学書評書籍

回帰分析(新装版) (統計ライブラリー)

作者:隆光, 佐和
朝倉書店

Amazon

タイトルに「古典的名著」とうたっておきながら、実は米倉さんのツイートで紹介されるまで浅学にして全然存じ上げなかったんですが、いざ読んでみたらあまりにも素晴らしい内容だったので、その感動を伝えたいがためにわざわざこの記事を書いています（笑）。

ちなみに今現在、訳あってこちらの論文とその実装を相手にしなければならない状況で、関連してそもそも論としての「回帰分析の取り扱い方」を改めて紐解く必要があり、その点でも本書は大いに役立っている感があります*1。ということで、個人的に本書が「実際に役立った」と感じた点を適当にピックアップして紹介していこうと思います。

*1:本質的にはベイジアン構造化時系列モデルであっても回帰パートは単なる線形回帰モデルに帰着できるため、本書のカバー範囲に完全に入る

渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

戦力になるレベルのデータサイエンティストを育成することの難しさ

95%信頼区間の「95%」の意味

温故知新：古典的名著『回帰分析』（佐和隆光）を読む