渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

初めてこのブログに来た方へ

f:id:TJO:20200106165910p:plain
これは初めてこのブログに来た方々向けのトップ固定記事です。最新記事の更新状況に応じて随時更新されます。

はじめに


公式のプロフィールはLinkedInに掲載しております。


このブログの内容は個人の意見・見解の表明であり、所属組織の意見・見解を代表しません。またブログ記事の内容の正確性については一切保証いたしません。学術的・技術的コンテンツを求めて来訪された方は、必ず学術書や論文などのオーソライズされた資料を併せてご参照ください。むしろ僕自身の学習のプロセスを記録しているだけの備忘録的記事が多いため、誤りもまた多いはずです。後学のため、誤りを見つけた場合はコメント欄などでお知らせいただけると有難いです。


また、ブログの中で取り上げられているデータ分析事例・データセット・分析上の知見など全ての記述は、いずれも特別に明記されていない限りはいかなる実在する企業・組織・機関の、いかなる個別の事例とも無関係です。ブログ記事内容は予告なく公開後に改変されることがあります。改変した事実は明示されることもあれば明示されないこともあります。


このブログはあくまでも僕自身にとっての備忘録であり、利便を考えてweb上に公開しているだけという位置付けのものです。中にはその見かけとは全く別の真の目的をもって書かれた記事もあります。以上の点をご理解の上、お読み下さると有難いです。

id:TJOとは何者なのか

データサイエンティスト・機械学習人工知能)エンジニアとは何か

データ分析を仕事にしたければ読むべき本は何か

続きを読む

「実務者としてのデータサイエンティスト」になるということ

f:id:TJO:20211129153152p:plain
(Image by katielwhite91 from Pixabay)

先日のことですが、大変に面白い記事を読みました。

この記事では「データサイエンティスト職のインターンに応募してくる若いエンジニアや学生向け」の話題として語られていますが、全体として読むとそもそも論としての「学術・技術的な側面から見た場合のデータサイエンティスト」と「泥臭い現場で働く実務者としてのデータサイエンティスト」との違いについて良くまとめられた文章だ、という感想を持ちました。


ということで、この良記事に触発された形である上にこのブログでは既に散々語り尽くされてきた議論でもありますが、改めて僕なりの「両者の間の垣根を越えて真に活躍できる」「実務者としてのデータサイエンティスト」とはどうあるべきかについて、一通り書いてみようと思います。

続きを読む

『「誤差」「大間違い」「ウソ」を見分ける統計学』は既に統計学を学んだ人がさらなる理解の深みと多様さを求めて読むべき「副読本」

しばらく前に共立出版様からご恵贈いただいたのがこちらの『「誤差」「大間違い」「ウソ」を見分ける統計学』。お気付きの方もいらっしゃるかもしれませんが、原著者デイヴィッド・ザルツブルグは『統計学を拓いた異才たち―経験則から科学へ進展した一世紀』で知られる生物統計学者で、その彼の近著です。なお本書の訳者の一人竹内惠行氏は『統計学を拓いた〜』の翻訳も手がけており、同じチームによるいわば「続編」的な一冊と言って良いかと思います。


前著は割と分厚い「統計学史」についての「読み物」という雰囲気の強い一冊でしたが、本書はそれに比べると古今東西統計学がキーワードとなった幅広い分野における実例を挙げつつ、同時に統計学の具体的なポイントについての解説を加えていくというスタイルで書かれており、いわば統計学テキストの「副読本」と言えるかなと感じています。


ということで、いつもながらですが本書の内容をざっくりとご紹介した上で、簡単に論評させていただこうかと思います。

続きを読む

VIF (Variance Inflation Factor)を計算する関数を書いてみた(備忘録)

多重共線性(multicolinearity)の代表的指標として頻繁に用いられるVIF (Variance Inflation Factor)というと、Rでは普通に{car}とか{usdm}とかのパッケージに実装された関数があるのでそれらを利用すれば良いのですが、ちょっと訳あって自分で実装してみることにしました。ということで、備忘録的に書き残しておきます。

続きを読む