読者です 読者をやめる 読者になる 読者になる

六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

データサイエンティスト(本物)は決して幻の職業などではない

データサイエンティスト 人材 書籍 書評

かつて拙著出版の際に大変お世話になった技術評論社技評)さんから、『データサイエンティスト養成読本』改定2版のPRとして以下の記事がリリースされていました。この記事がもう何と言いますか、「読めばそのままデータサイエンティスト(本物)もしくはグローバルにおけるData Scientistのスキル要件になっている」ほどの素晴らしい記事なので、ぜひ皆様にはご一読をお薦めいたします。

ちなみにここであえて「本物」と銘打ったのは、少し前にもどこかで論じられていた記憶があるのですが、要は「なんちゃってデータサイエンティスト」は含まないということです。僕の知る限り、日本国内でデータサイエンティストと言うと「データサイエンティスト(カナ)」と方々から侮られるのが常なのですが、それはそもそも後述するように数年前に大量に発生したデータサイエンティスト(本物)でも何でもない専門的スキルに乏しい人々のことが世間では想起されやすいから、ではないかと思われます。


これに対し、グローバルにおけるData Scientistは(後述するようにまだ幻滅期を迎えていないだけかもしれないものの)例えばInsight Data Science Fellows Programが掲げるようにそれなりにきちんと専門性のはっきりしたスキルが求められる傾向にあるように見受けられます。Insightに限って言えば、統計学・機械学習・アルゴリズムを含むプログラミング全般・データ基盤技術の教育がなされているとのことなので、グローバルというか少なくともUSではそれらがData Scientistの必須スキルとして認識されていることなのでしょう。海の向こうとの彼我の差を思うと嘆かざるを得ません。


そう言えば、昨年このブログでもデータサイエンティスト(本物)のスキル要件について論じたことがあったんですが、最近の「人工知能」ブームによってデータサイエンティスト(本物)というよりは機械学習エンジニア系の求人が激増したこともあり、人材要件・スキル要件周りの議論が再び混沌としてきている印象があります。

ということで、技評さんの素晴らしい記事を踏まえながら久しぶりの与太話エントリを書いてみようと思います。

続きを読む

香港・マカオに行ってきました

旅行記

今年は遅い夏休みを9月に2回に分けて取ることにしておりまして、1回目は香港・マカオに行ってきました。実は香港には7年前にも行ったことがあるんですが、今回改めて訪港してみて色々と気付いたこと・ハマったことなどがあったので、今回もその辺の教訓などを踏まえて以後香港・マカオを訪れる方のために、そして僕らが3回目に訪れる時のために備忘録として残しておこうと思います。

続きを読む

統計的因果推論(2): 傾向スコア(Propensity Score)の初歩をRで実践してみる

R 統計学 統計的因果推論

さて、統計的因果推論についてだらだらと独習していくこのシリーズですが、今回はDonald Rubinが考案したRubinの因果モデルで用いられる、傾向スコア(Propensity Score)を取り上げてみようと思います。「お前岩波DS3で事前に原稿読んで中身は知っているはずじゃないのか」とかいうツッコミはご勘弁ください(笑)。


元々は観察データ(つまりRCTを含む実験データではない)から因果関係を推定するための手法ということで、いかにして観察データに隠れた影響を与える共変量を突き止め、その共変量から及んでくる影響をバランスさせ、真の因果効果を推定するか、というのが主眼でした。つまり、RCTを実践できないような疫学データや社会科学的データに対する適用がメインだったようです。


しかしながら、最近は例えば広告やマーケティングといった「ある程度の介入(処置)*1はできても事実上RCTを徹底することは不可能」な調査データにおいても同様のニーズが増えているとも聞きます。岩波DS3にもそのような事例の紹介が実際にされており、今後も同様の取り組みは広告・マーケティング領域では増えていくものと予想されます。


今回は僕自身の勉強が決定的に不足しているため、基本的にはほぼ全面的に他の資料を参考にしながら備忘録的に内容をまとめたに過ぎない内容に終始しています。そのため大半の数式・定義類は割愛しております。きちんとした解説を読みたいという方は岩波DS3をお求めいただくか、バント効果推定記事をお書きいただいた中村知繁さんのブログ記事をお読みいただくことをお薦めいたします。

岩波データサイエンス Vol.3

岩波データサイエンス Vol.3


そしてRでの実践部分については以下のid:isseing33さん&id:SAMさんのブログ記事を参考にしています。

Disclaimer

いつも通り、調べながらの記事なので盛大に間違っている可能性があります。間違いを見つけた方は盛大に突っ込んで下さると有難いです。。。

*1:僕個人はこれまで「処置」という語は使ってこなかったので、以後「介入」に基本的には統一しています

続きを読む