渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

初めてこのブログに来た方へ

f:id:TJO:20200106165910p:plain
これは初めてこのブログに来た方々向けのトップ固定記事です。最新記事の更新状況に応じて随時更新されます。

はじめに


公式のプロフィールはLinkedInに掲載しております。


このブログの内容は個人の意見・見解の表明であり、所属組織の意見・見解を代表しません。またブログ記事の内容の正確性については一切保証いたしません。学術的・技術的コンテンツを求めて来訪された方は、必ず学術書や論文などのオーソライズされた資料を併せてご参照ください。むしろ僕自身の学習のプロセスを記録しているだけの備忘録的記事が多いため、誤りもまた多いはずです。後学のため、誤りを見つけた場合はコメント欄などでお知らせいただけると有難いです。


また、ブログの中で取り上げられているデータ分析事例・データセット・分析上の知見など全ての記述は、いずれも特別に明記されていない限りはいかなる実在する企業・組織・機関の、いかなる個別の事例とも無関係です。ブログ記事内容は予告なく公開後に改変されることがあります。改変した事実は明示されることもあれば明示されないこともあります。


このブログはあくまでも僕自身にとっての備忘録であり、利便を考えてweb上に公開しているだけという位置付けのものです。中にはその見かけとは全く別の真の目的をもって書かれた記事もあります。以上の点をご理解の上、お読み下さると有難いです。

id:TJOとは何者なのか

データサイエンティスト・機械学習人工知能)エンジニアとは何か

データ分析を仕事にしたければ読むべき本は何か

続きを読む

VARそして時系列因果性分析の復習

f:id:TJO:20201123172036p:plain

新型コロナウイルス感染症における治療の進展(令和2年10月29日に開催された第13回新型コロナウイルス感染症対策分科会事務局提出資料を基に内閣官房・内閣府作成)」という資料が世間で物議を醸しているようです。ただ、これを見ていて僕が個人的に気になったのは、その議論の内容や結論ではなく、「グレンジャー(Granger)因果」が使われているという点でした。


Time Series Analysis

Time Series Analysis

以前このブログでも一通り計量時系列分析を取り上げて一生懸命沖本本やHamiltonで勉強しながらシリーズ記事を書いたものですが、その時の記憶から言えば「Granger因果ってそんなに軽い気持ちで使って大丈夫な代物だったっけ?」という印象を強く受けたものです。そこで、今回の記事では以前のブログ記事から要所要所を抜粋しながら、Granger因果を含む時系列因果性分析がどんなものであるかを復習し、その上で冒頭に紹介した資料で行われている分析の妥当性について考察してみようと思います。


いつもながらですが、僕の計量時系列分析に関する知識は中途半端な点が多く記事中には誤りや理解不足が含まれている可能性がありますので*1、お気付きの方はどしどしコメント欄などでご指摘下さると有難いですm(_ _)m

*1:そもそも一生懸命勉強していたのがもう7年も前なので色々と記憶が曖昧になってきている

続きを読む

実験科学の考え方を転じて「ビジネスサイエンス」にする

先日までこちらの書籍を読んでいました。ここ数年「ワークマンのすごいデータ活用」としてそのデータ活用事例が大いにクローズアップされてきたワークマン社ですが、その裏側を取材した本書を読むとデータ活用も凄い一方で、それ以外の部分も凄いところだらけという印象があります*1


その詳細については本書を実際にお読みいただくとして、今回の記事ではその中から僕が特に強いインスピレーションを覚えた箇所にフォーカスを当て、そこから今後の「データサイエンス」がどうあるべきかを個人的に考察してみようと思います。


先にこの記事で言いたいことを簡潔にまとめてしまうと、「これからは『データサイエンス』というよりも実験科学の考え方を転用した『ビジネスサイエンス』が重視されるべき」というものです。これまではビジネスシーンにおける「データサイエンス」が重視されてきましたし、それが故の狂騒を見かけることも多いのですが、最近になって「データ」サイエンスというよりも、もっと包括的で科学的なアプローチが重要なのではないかと感じる局面が増えており、その一つとして「実験科学的な取り組み」*2への理解がもっと広まるべきだという感想があります。これをあえて「ビジネス」サイエンスという語で括れないか?というのが、今回の記事のもう一つの主題です。

*1:そう言えば某所で「いやOpenWorkの口コミ見てみろよ」というツッコミが飛んでいるのを見かけましたが、見なかったことにしておきます

*2:ここには統計的因果推論なども含まれる

続きを読む

データサイエンス実務の典型的なワークフローを考える

f:id:TJO:20201015173914p:plain
(Image by Gerd Altmann from Pixabay)


元々Quora英語版で回答を書いた話題なのですが、「データサイエンティストの典型的なワークフロー」というのは当たり前の話題のようでいて意外と難しいトピックです。それこそ例えば巷の営業やエンジニアの人々に向かって「あなたの『職種』の典型的なワークフロー」について教えて欲しいとリクエストしても「それは個々の現場・会社ごとに千差万別だろう」と言われてしまうのが関の山だと思われます。


ただ、おそらくこの質問がQuora英語版でされていた理由として「まだデータサイエンティストという職種がそれほど世間に広まっていないので、そもそもどのような仕事の流れをたどるかのイメージ自体が未経験者には思いつかない」ということがあるのではないかと個人的には見ています。ここが明確になっていないせいで、新たにデータサイエンティストの仕事に就きたいという新規参入者たちにとってもその職務の具体像が見えてこないという問題があり、それがそのまま各現場で新米データサイエンティストたちが暗中模索と四苦八苦*1を余儀なくされるという構図に繋がっているのではないでしょうか。


そういう事情を踏まえて書いたのがQuoraの回答なのですが、スペースの都合上*2そこまで仔細に渡った解説を付すことも憚られるので、言いたかったことの数々を端折って書いてあります。ということで、今回のブログ記事ではその僕個人が自分の経験に基づいて考える「データサイエンス実務の典型的なワークフロー」を再録した上で、さらにその詳細についても細かく書いていこうと思います。

*1:もしかして:七転八倒

*2:あまりにも長大過ぎる回答は好まれないことが多いので

続きを読む