渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

データサイエンス実務の典型的なワークフローを考える

f:id:TJO:20201015173914p:plain
(Image by Gerd Altmann from Pixabay)


元々Quora英語版で回答を書いた話題なのですが、「データサイエンティストの典型的なワークフロー」というのは当たり前の話題のようでいて意外と難しいトピックです。それこそ例えば巷の営業やエンジニアの人々に向かって「あなたの『職種』の典型的なワークフロー」について教えて欲しいとリクエストしても「それは個々の現場・会社ごとに千差万別だろう」と言われてしまうのが関の山だと思われます。


ただ、おそらくこの質問がQuora英語版でされていた理由として「まだデータサイエンティストという職種がそれほど世間に広まっていないので、そもそもどのような仕事の流れをたどるかのイメージ自体が未経験者には思いつかない」ということがあるのではないかと個人的には見ています。ここが明確になっていないせいで、新たにデータサイエンティストの仕事に就きたいという新規参入者たちにとってもその職務の具体像が見えてこないという問題があり、それがそのまま各現場で新米データサイエンティストたちが暗中模索と四苦八苦*1を余儀なくされるという構図に繋がっているのではないでしょうか。


そういう事情を踏まえて書いたのがQuoraの回答なのですが、スペースの都合上*2そこまで仔細に渡った解説を付すことも憚られるので、言いたかったことの数々を端折って書いてあります。ということで、今回のブログ記事ではその僕個人が自分の経験に基づいて考える「データサイエンス実務の典型的なワークフロー」を再録した上で、さらにその詳細についても細かく書いていこうと思います。

*1:もしかして:七転八倒

*2:あまりにも長大過ぎる回答は好まれないことが多いので

続きを読む

RにTorchとLightGBMがやってきた

f:id:TJO:20201004154349p:plain

これまで、RとPythonは両方使える人が少なくないながらも開発陣やコミュニティの思想が違うせいもあってか、「Rは統計学向け」「Python機械学習向け」的な住み分けが年々進み、特に機械学習関連の重要なフレームワーク・ライブラリ類はPython向けのみがリリースされることが多く、R向けにはリリースされないということが常態化している印象がありました。


そんな中、この9月にPython機械学習OSSを代表する2つのライブラリが相次いでR版パッケージを発表したので、個人的にはなかなか驚きました。中には「この2つがRに来たからにはもうPythonは触らない」と豪語する過激派の方もいらっしゃるようですが(笑)、それはさておき個人的な備忘録としてこの2つのR版パッケージを試してみた記録を記事として残しておこうと思います。


なお、以下のモデリングはほぼ何もチューニングを行っておりません。あくまでも「こうすれば回ります」という動作確認以外の何物をも目的としておりませんので、チューニングなどは皆さんのお手元で皆さんの責任で行っていただくようお願いいたしますm(_ _)m またいつもながらですが、コード実装部分に誤りなどあれば是非コメント欄などでご指摘いただけると有難いです。

続きを読む

データサイエンティストの「真の実力」を測るための効果的な面接方法

f:id:TJO:20200915104214p:plain
(Image by neo tam from Pixabay)

最近こんな記事が出ていたようですが、僕にとっては既視感満載の話題でした。何故かというと、実は現職に来る以前に既にここで書かれている面接方法を実務担当者面接の責任者として実践していたからです。ちなみにその方法は2013年ぐらい当時のテック系メディアで記事として取り上げられていたものなのですが、残念なことに現在どれほど検索してもその記事が見つかりません……。

その内容自体はしばらく前に英語版Quoraに書いていたり*1もっと遡ればTwitterに書いたりしていたのですが、そう言えばブログには書いていなかったなと思い出したので、改めてブログ記事にしてみようと思います。なお、ここに書かれている内容は僕の現在の職務とは一切関係がないことを予めお断りしておきます。

*1:自分で日本語版への翻訳記事も書いています

続きを読む