渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

初めてこのブログに来た方へ

f:id:TJO:20200106165910p:plain
これは初めてこのブログに来た方々向けのトップ固定記事です。最新記事の更新状況に応じて随時更新されます。

はじめに


公式のプロフィールはLinkedInに掲載しております。


このブログの内容は個人の意見・見解の表明であり、所属組織の意見・見解を代表しません。またブログ記事の内容の正確性については一切保証いたしません。学術的・技術的コンテンツを求めて来訪された方は、必ず学術書や論文などのオーソライズされた資料を併せてご参照ください。むしろ僕自身の学習のプロセスを記録しているだけの備忘録的記事が多いため、誤りもまた多いはずです。後学のため、誤りを見つけた場合はコメント欄などでお知らせいただけると有難いです。


また、ブログの中で取り上げられているデータ分析事例・データセット・分析上の知見など全ての記述は、いずれも特別に明記されていない限りはいかなる実在する企業・組織・機関の、いかなる個別の事例とも無関係です。ブログ記事内容は予告なく公開後に改変されることがあります。改変した事実は明示されることもあれば明示されないこともあります。


このブログはあくまでも僕自身にとっての備忘録であり、利便を考えてweb上に公開しているだけという位置付けのものです。中にはその見かけとは全く別の真の目的をもって書かれた記事もあります。以上の点をご理解の上、お読み下さると有難いです。

id:TJOとは何者なのか

データサイエンティスト・機械学習人工知能)エンジニアとは何か

データ分析を仕事にしたければ読むべき本は何か

続きを読む

戦力になるレベルのデータサイエンティストを育成することの難しさ

f:id:TJO:20210714135919p:plain
(Image by Pexels from Pixabay)

僕自身がデータサイエンティストという肩書きを与えられて働くようになった9年前から、一貫して問題意識を持ち続けてきたのが「データサイエンティストをどう育成すべきか」についてでした。その後、この9年の間に質の良し悪しや量の多寡はともかく多くのデータサイエンティスト向け技術講座・資料が沢山世に出るようになり、一見その育成体制はそれなりに整ってきたように見えます。


しかし、当事者たちから見ると必ずしもそうではないようだ、という指摘を陰に陽に見聞しており、しばらく前のことながら実際に僕自身が機会があって聞かされたコメントを引用して放言したところ、結構な反響があったので「ああ戦力になるレベルのデータサイエンティストを育成するのは誰もが難しいと思っているんだな」と実感していた次第です。そんなわけで、上記の4つのポイントに触れながら改めてその「難しさ」と、考えられる解決策を論じてみようと思います。

続きを読む

95%信頼区間の「95%」の意味

ふと思い立ってこんなアンケートを取ってみたのでした。

結果は物の見事に真っ二つで、95%信頼区間の「95%」を「確率」だと認識している人と、「割合」だと認識している人とが、ほぼ同数になりました。いかに信頼区間という概念が理解しにくい代物であるかが良く分かる気がします。


ということで、種明かしも兼ねて95%信頼区間の「95%」が一体何を意味するのかを適当に文献を引きながら簡単に論じてみようと思います。なお文献の選択とその引用及び解釈には万全を期しているつもりですが、肝心の僕自身が勘違いしている可能性もありますので、何かしら誤りや説明不足の点などありましたらご指摘くださると有難いです。

続きを読む

温故知新:古典的名著『回帰分析』(佐和隆光)を読む

タイトルに「古典的名著」とうたっておきながら、実は米倉さんのツイートで紹介されるまで浅学にして全然存じ上げなかったんですが、いざ読んでみたらあまりにも素晴らしい内容だったので、その感動を伝えたいがためにわざわざこの記事を書いています(笑)。


ちなみに今現在、訳あってこちらの論文とその実装を相手にしなければならない状況で、関連してそもそも論としての「回帰分析の取り扱い方」を改めて紐解く必要があり、その点でも本書は大いに役立っている感があります*1。ということで、個人的に本書が「実際に役立った」と感じた点を適当にピックアップして紹介していこうと思います。

*1:本質的にはベイジアン構造化時系列モデルであっても回帰パートは単なる線形回帰モデルに帰着できるため、本書のカバー範囲に完全に入る

続きを読む