渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

「実務者としてのデータサイエンティスト」になるということ

f:id:TJO:20211129153152p:plain
(Image by katielwhite91 from Pixabay)

先日のことですが、大変に面白い記事を読みました。

この記事では「データサイエンティスト職のインターンに応募してくる若いエンジニアや学生向け」の話題として語られていますが、全体として読むとそもそも論としての「学術・技術的な側面から見た場合のデータサイエンティスト」と「泥臭い現場で働く実務者としてのデータサイエンティスト」との違いについて良くまとめられた文章だ、という感想を持ちました。


ということで、この良記事に触発された形である上にこのブログでは既に散々語り尽くされてきた議論でもありますが、改めて僕なりの「両者の間の垣根を越えて真に活躍できる」「実務者としてのデータサイエンティスト」とはどうあるべきかについて、一通り書いてみようと思います。

続きを読む

『「誤差」「大間違い」「ウソ」を見分ける統計学』は既に統計学を学んだ人がさらなる理解の深みと多様さを求めて読むべき「副読本」

しばらく前に共立出版様からご恵贈いただいたのがこちらの『「誤差」「大間違い」「ウソ」を見分ける統計学』。お気付きの方もいらっしゃるかもしれませんが、原著者デイヴィッド・ザルツブルグは『統計学を拓いた異才たち―経験則から科学へ進展した一世紀』で知られる生物統計学者で、その彼の近著です。なお本書の訳者の一人竹内惠行氏は『統計学を拓いた〜』の翻訳も手がけており、同じチームによるいわば「続編」的な一冊と言って良いかと思います。


前著は割と分厚い「統計学史」についての「読み物」という雰囲気の強い一冊でしたが、本書はそれに比べると古今東西統計学がキーワードとなった幅広い分野における実例を挙げつつ、同時に統計学の具体的なポイントについての解説を加えていくというスタイルで書かれており、いわば統計学テキストの「副読本」と言えるかなと感じています。


ということで、いつもながらですが本書の内容をざっくりとご紹介した上で、簡単に論評させていただこうかと思います。

続きを読む

VIF (Variance Inflation Factor)を計算する関数を書いてみた(備忘録)

多重共線性(multicolinearity)の代表的指標として頻繁に用いられるVIF (Variance Inflation Factor)というと、Rでは普通に{car}とか{usdm}とかのパッケージに実装された関数があるのでそれらを利用すれば良いのですが、ちょっと訳あって自分で実装してみることにしました。ということで、備忘録的に書き残しておきます。

続きを読む