渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

初めてこのブログに来た方へ

f:id:TJO:20200106165910p:plain
これは初めてこのブログに来た方々向けのトップ固定記事です。最新記事の更新状況に応じて随時更新されます。

はじめに


公式のプロフィールはLinkedInに掲載しております。


このブログの内容は個人の意見・見解の表明であり、所属組織の意見・見解を代表しません。またブログ記事の内容の正確性については一切保証いたしません。学術的・技術的コンテンツを求めて来訪された方は、必ず学術書や論文などのオーソライズされた資料を併せてご参照ください。むしろ僕自身の学習のプロセスを記録しているだけの備忘録的記事が多いため、誤りもまた多いはずです。後学のため、誤りを見つけた場合はコメント欄などでお知らせいただけると有難いです。


また、ブログの中で取り上げられているデータ分析事例・データセット・分析上の知見など全ての記述は、いずれも特別に明記されていない限りはいかなる実在する企業・組織・機関の、いかなる個別の事例とも無関係です。ブログ記事内容は予告なく公開後に改変されることがあります。改変した事実は明示されることもあれば明示されないこともあります。


このブログはあくまでも僕自身にとっての備忘録であり、利便を考えてweb上に公開しているだけという位置付けのものです。中にはその見かけとは全く別の真の目的をもって書かれた記事もあります。以上の点をご理解の上、お読み下さると有難いです。

id:TJOとは何者なのか

データサイエンティスト・機械学習人工知能)エンジニアとは何か

データ分析を仕事にしたければ読むべき本は何か

続きを読む

VIF (Variance Inflation Factor)を計算する関数を書いてみた(備忘録)

多重共線性(multicolinearity)の代表的指標として頻繁に用いられるVIF (Variance Inflation Factor)というと、Rでは普通に{car}とか{usdm}とかのパッケージに実装された関数があるのでそれらを利用すれば良いのですが、ちょっと訳あって自分で実装してみることにしました。ということで、備忘録的に書き残しておきます。

続きを読む

何故「データ『サイエンティスト』」と呼ばれるのか?という問いへの端的な答え

f:id:TJO:20210927143344p:plain

第一次データサイエンティスト・ブームから8年以上が経つわけですが、結構不思議なのが今でも「何故データ『サイエンティスト』という名前なのか?彼らは研究者ではないのだからおかしい」という議論が定期的に沸き起こる点です。


f:id:TJO:20210927143214p:plain

その理由は色々ありそうですが、つい最近ではこちらのNHK報道特集でフィーチャーされたのが大きかったのかもしれません。つまり、それまで「データサイエンティスト」という語を知らなかった人たちがこのようなメディア報道に触れて初めて知るたびに、上記のような疑問を持つ人たちが現れては各所で議論になるという流れが繰り返されているということなのでしょう。


ということで、いつも通りネタ切れで書くことがないので今更ながらですが「何故データ『サイエンティスト』と呼ばれるのか?」という疑問に対する、僕なりの回答をざっくり書いてみようと思います。なお、恒例ながら事実誤認や理解不足の点など記事中にありましたらご指摘下さると幸いです。

続きを読む

「あえて精度勝負をしない機械学習」という選択肢

少し前のことですが、こんな話題がありました。

実際問題として「ある目的のために機械学習システムを開発し、非常に高精度のものが出来上がったが、結局色々あって実戦投入されなかった」という話は、自分の身の回りでも業界内の伝聞でも事欠きません。


しかし、機械学習と言えばどちらかというと「より精度の高いモデルを追い求める」試み、もう少し下世話に言うと「精度勝負」によって、連綿と発展してきたという歴史があります。それは古くはMNISTに対する精度追求*1Deep Learning隆盛以降はImageNetに対する高精度モデルの追求*2であったりその他のドメインにおける有名ベンチマークデータに対する精度追求などに代表されてきたように見受けられます。


にもかかわらず、ビジネスを含む実務の場面においては「より高精度で優秀な機械学習モデル」が様々な実務上の制約によって使われず、そうでない何かが代わりに用いられるというケースが多いということは、言い換えると「実務上のニーズと機械学習の精度とは必ずしもマッチしない」という難しい現実を意味しているように思われます。そこで、今回の記事では「あえて精度勝負をしない機械学習」というテーマのもと、機械学習システムをいかにして現実のニーズに合わせて導入していくかについて論じてみます。


なおいつもながらですが、引用している資料や今回のテーマとしている実務ニーズへの機械学習導入について、事実誤認や認識違いなどがある可能性がありますので、お気付きの方は是非ご指摘くださると幸いです。

*1:LeCunのMNISTサイトを参照のこと

*2:つまりILSVRCのこと

続きを読む