渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

企業で働くデータサイエンティストになって10年が経ちました

TL;DR 10年前の落ちこぼれポスドクが今は立派なデータサイエンティストになれたっぽいので、ポエムを書きました。業界事情の振り返りと、仕事の話、知名度が上がることの良し悪し、キャリアの話などを綴っています。


時が経つのは早いもので、落ちこぼれポスドクだった僕が企業転職をし、データサイエンティストになって今日で10年が経ちました。自分の中ではデータサイエンティストに転じたのはついこの前のことのように思える一方で、あまりにも多くの様々な体験をしてきたせいか「もっと時間が経っている気がするのにまだ10年しか経っていないのか」という気もしています。


今でも時々SNSで話題に上る回顧録を書いたのが3年前のことなんですが、それ以降は相変わらず同じく現職に留まり続けていることもあり、有体に言えばそれほど大きく変わったことはありません。なので、新たに3年間の振り返りを書くのではなく、回顧録で書き漏らしたことも含めて徒然なるままに書き綴ってみようと思います。ただし、気が付いたら現職には既に6年以上いることになり、ポスドク時代を含めても最も長く身を置いているのも現職という有様ですので*1、事実上現職の話が多くなってしまう点予めご理解ください。

直近5年間のデータ分析業界の見聞録


まず、前回のデータ分析業界見聞録記事から5年経ったので、簡単にその後5年間の業界見聞録を書いてみます。ただし、僕自身が現職の現在のポジションに就いて以降は色々inactiveな部分もあるかと思いますので、あまり網羅的でない内容になってしまうであろう点はご容赦ください。また事実関係の誤りなどあればコメントなどでご指摘くだされば幸いです。

2018年


前回の振り返りにも書いたように2017年にはDeep LearningというかNNの時代が到来したという感があったのですが、その翌年からはそれを通り越して「NNに非ずんば機械学習にあらず」みたいな状況が出現していたように思います*2。そして、この頃から嘘のようなNNの応用例が次々と発表され*3、「機械学習は万能」と言わんばかりの風潮がサイエンス・テクノロジー業界に広まっていったように思います。その勢いたるや「arXivに投稿される機械学習分野の論文数の伸びがムーアの法則を上回る」とまで喧伝されたほどです。


個別の話を書くと、この年にBERTELMoが登場して「自然言語理解タスクでヒトの精度を超えた」と喧伝され、巨大なpre-trained model大流行の先鞭をつけた感があります。個人的には、この頃から様々なpre-trained modelを使ってembedding vectorベースの機械学習ツールを作ることが増えてきたという記憶があり*4、「もはやNNモデルは全部自分で用意するのではなく他の人が作った巨大なモデルを援用するもの」というスタンスに移行していったものでした。


ちなみに2016年頃に始まった人工知能ブームがこの頃からようやく「凄い凄いと指をくわえて見ているもの」から「自分でも作ってみるもの」というフェーズに移り変わったようで、様々な機械学習入門書が出てきたという印象があります。好例は『機械学習のエッセンス』で、あまりの人気ぶりにアジア各国でも翻訳版が刊行されているそうです。ただ、この頃はそれでも「基礎から学んで機械学習を身につける」というスタイルがまだ主だったように思います。


蛇足ながら。僕もリアルタイムで見ていたくせに記憶が曖昧なのですが、調べたところではML Opsの概念が提唱されるようになったのは2018年頃からなのだそうです。ただ、僕の印象では「海外では」議論が始まっていたけれども、日本国内ではまだそれほど熱心に議論されていなかったという気がします。この年の段階では、まだ「機械学習そのものを導入するだけで必死」という国内の現場が多かったのではないでしょうか。


ところで、この年辺りから全国各地の大学で新たに設置されたデータサイエンス学部が社会の注目を集めるようになります。個人的な理解ではこれは人工知能ブームに便乗した流れだと見ていますが、実際にはあまり機械学習はゴリゴリ教えずに数理統計学を教えているところも結構あるようで*5、正直なところちょっとチグハグだなと思わなくもないです。この辺はもしかしたらCS系の「機械学習が専門」の専攻との棲み分けという部分もあるんでしょうか。

2019年


この年は「AutoML元年」と言っても差し支えないでしょう。4月に開催されたKaggleDays SF Hackathon*6で8時間半という時間制限の中でテーブルデータ向けAutoML技術を利用しただけのチームが2位に食い込む*7という快挙を達成し、以後AutoML技術が注目を集めていくことになります。日本国内では僕が炎上記事を書いたりイベントに登壇して同様の話題で講演する*8などしたことで無駄に注目度を高めた気がしないでもないですが(笑)、ともあれAutoML技術が段々と日本のテクノロジー業界に浸透していったように見受けられます。


一方、 前年にBERTの登場で流行に火がついた巨大言語モデルの開発競争が本格化し、この年にはGPT-2が登場します。正直に書くと、この辺からは僕は巨大pre-trained modelの開発動向についていけなくなったこともあって興味を失ってしまい、気がついたら化け物のような巨大モデルのさらに進化版が出ていましたという事態がその後何度も繰り返されることになります。


また、厳密には2018年からなのかもしれませんが、この頃から機械学習の説明可能性(解釈性)についての研究が注目を集めるようになったという印象があります。それはやはり「解釈が難しい機械学習」であるNNが「解釈が容易な機械学習」である樹木モデルやその他の線形モデル族などに完全に取って代わったことで、NNでも「何故そういう結果になったかの解釈」を行いたいという欲求が増したということなのだろうと僕は理解しています。このブログでもその辺の議論を取り上げましたが、その後この分野はXAI (eXplainable AI)として市民権を得ていくようになります。


あとは、細かい話ですが前年からの「自前で機械学習システムを作る」潮流が強まったことで、「機械学習システムを作ったは良いがその効果のほどは〇〇」みたいな話を聞くようになったのもこの頃です。そこで、やっぱり効果検証とか重要だよねという意図でブログ記事を書いたりしたものですが、その後この話がどうなったのかは正直言って把握しておりません。案外今でも効果検証をきちんとせずに漫然と導入されている機械学習システムが巷にはあったりするんじゃないかと思っています。

2020-22年(コロナ禍以降)


2020年に世界が新型コロナウイルスパンデミックに見舞われたことで多くの業界が甚大な影響を受けましたが、それはデータ分析業界も例外ではありませんでした。例えば、Uberはコロナ禍を機に自動運転部門すべてをリストラしていますし、シリコンバレーではレイオフされるデータサイエンティストが少なくなかったと聞きます*9。どちらかというと「すぐ目に見える結果を出すわけではない」データ分析職の人々にとっては、コロナ禍に伴う経済停滞でキャッシュに余裕がなくなった企業からは切られやすい対象だったのではないか、という観測もありました。


そういう世相の中で、データ分析業界には色々な動きがありました。一つは統計的因果推論が広く関心を集めたということ、そしてもう一つは「データサイエンティストワナビー問題」です。


統計的因果推論がブームになった背景としては、ある意味「解釈可能な機械学習」が関心を集めるようになったのと同じ文脈があり、端的に言えば「NNでブラックボックス化してひたすら予測精度だけは高い機械学習が実践できるようになったが、果たしてその因果効果はどう測れるのだろうか」という課題意識がデータ分析業界内で広く共有されるようになったということがあるのだと見ています。2015年頃に一度ブームになった統計的因果推論*10は直後の人工知能ブームの勃興もあってあまり注目されない時期が続いていましたが、先述の課題意識を反映して2020年に『効果検証入門』が刊行されるとこれを皮切りに多くの関連図書が刊行されるようになりました。


一方、コロナ禍以降の「新しい働き方」ブームに伴って持ち上がってきたのが「データサイエンティストワナビー問題」です。これについては以前のブログ記事で詳説したことがありますが、現在のデータサイエンティストの過剰な需要を当て込んで「未経験からでも促成栽培で簡単にデータサイエンティストの職にありつけて優れたワークライフバランスや高待遇を謳歌できる」*11とうたう情報商材屋が世に溢れ、ちょっとしたバブルになっているというお話です。黎明期からのデータサイエンティストたる我が身としては、そのように熟練度の低い人材を大量に供給して業界のバランスを壊す風潮は好ましくないと考えていますが、実際にはブログやTwitterなどで注意喚起するぐらいのことしか対応できていないのが現状です。今後、この問題のダメージはじわじわと効いてくるのではないかと危惧しています。


ちなみに、年々激化する巨大pre-trained model開発はコロナ禍にあっても留まることを知らず、2020年にはGPT-3が登場します。そして2022年には5400億個のパラメータから成るPaLMが発表され、最大数百万種類の自然言語処理タスクに対応できるとされています。ここまで来るとjaw-droppingというか空いた口が塞がらないという感もありますが、この辺の流れが加速しているのはやはりコロナ禍で「出来るだけ人同士で接触せず何でも機械にやらせたい」という欲求が社会に遍く広まった結果なのかもしれません。


僕の理解が間違っていなければ、ML Opsの動きが活発になったのも2020年以降という印象があります*12。これまたやはり機械学習が社会に浸透したことで、その運用体制の在り方についての関心が高まったという側面があるのでしょう。気が付いたらML Opsに関する技術書も沢山出ているようです。ただ、後述しますが現在の僕の仕事でML Opsに関わることはほぼないので、正直なところ今現在の日本のML Opsの状況は良く分かっていません。

10年間全体を振り返って


以前の回顧録記事でも書いたように、僕は偶然にも日本でまだ黎明期だった頃にデータサイエンティストの仕事に就き、その後データサイエンティストや人工知能が空前のブームとなって広まっていく場面に当事者として立ち会うことになりました。その意味でいうと、この10年間の業界の変遷はあまりにも大きかったと感じています。少なくとも、その前の10年間所属したアカデミックな基礎研究の世界*13ではあり得ないほどの大激変が、1-2年という短いスパンで何度も繰り返して起きていたという印象です。


その筆頭に挙がるのはやはりDeep LearningそしてNN時代の到来でしょう。これは前回の業界見聞録でも書いた通りで、2012年に本格的に流行り始めたものの*14、最終的に全世界的なブームを巻き起こしたのは何と言ってもAlphaGoの快進撃だと思います。それを踏まえて書いた解説記事がはてブ1000超えを記録したのも道理で、以後は波はあっても人工知能ブームは衰えることなく続いているように感じています。NNフレームワークも最初期はTheano, PyLearn2, Caffeなどしかなかったのが、Chainer, TensorFlow, Keras, PyTorch, JAXとどんどん新しいものが出てくるようになり、技術者にとっては非常に身近なものになって久しいです。


一方、統計学方面ではベイズ統計が本格的に普及していったように見えます。これはMCMCサンプリングの実装として以前はBUGS系統しかなかったのが*15、この10年の間にStan, PyMC, TensorFlow Probability, NumPyroといったOSS実装が次々と登場し、RやPythonで簡単に実践できるようになったのが大きいです。僕も2014年にWinBUGS・RStanを入口としてベイズ統計に触れるようになりましたが、近年の複雑化するデータに合わせて複雑化していく統計モデリングを扱う上では、もはや必須の教養と言っても過言ではないでしょう。


統計的因果推論は2015年にブームの波が来た後一旦下火になり、その後2020年になって再ブレイクしていますが、これも先述のNN時代の到来と考え合わせれば納得がいきます。それはやはり2015年の段階ではデータ分析業界の課題意識が熟しておらず、後にNN全盛の時代になった時に改めてその必要性がクローズアップされたということがあるのでしょう。本質的に重要性が高いものであっても、業界を取り巻く状況次第で人々の受け取り方がまた変わってくるという好例だと思っています。


そして、これらデータサイエンスを支えるインフラとしてクラウドが広く社会に普及したのもこの10年の間に起きたことでした。僕が1社目に入社した頃はまだまだオンプレ環境を使っていたものでしたが、2社目では徐々にクラウドが使われ始め、3社目の現職は言うまでもなく全てがクラウド環境である上に*16、お客さんも大半がクラウド環境という状況になっていました。それに伴い、データ基盤のあり方も明らかに10年前とは大きく異なるものになっています。


……ということで個人的には、当初海のものとも山のものともつかない代物だと社会からみなされていたデータサイエンスそしてデータサイエンティストという職業が、10年かけて社会に浸透していくのを目の当たりにできたのかなという感慨があります。恐らくですが、今後もそれらはより発展していくことはあったとしても、もはや社会から排除されて消えてなくなるということはないでしょう。即ち、社会においてデータサイエンスとは何ぞやという"What"を問う段階はクリアしたということですね。次の10年は、社会におけるデータサイエンスをどう洗練させ、どう深化させていくかという"How"が社会から問われるのではないかと予想しています。


仕事の話


LinkedInにも載せてあるように、この10年間で僕は3社を渡り歩いています。1社目に1年1ヶ月、2社目に2年6ヶ月いた後に、3社目の現職に転じて今日で6年5ヶ月になります。偶然という側面もあれば必然という側面もありますが、この10年間に渡り概ね一貫して僕は「データサイエンティスト」という肩書きで仕事をし続けています。


その仕事のテーマは現場ごとにまちまちで、1社目ではどちらかというと「web・アプリ改善」的な仕事がメインでした。2社目ではweb改善に加えて広告戦略の最適化や事業戦略の現状把握といった仕事も手掛けていました。そして3社目の現職ではほぼ純粋に広告戦略の最適化や、広告クリエイティブの最適化といった仕事に特化して仕事をしています。


何度も書いているように、現職には多くの偶然が重なった結果「広告営業部門のデータサイエンティスト」として入社しています。故に、世の中の多くの人が想像するであろう仕事*17とは割と大きく毛色の異なる仕事をしているというのが実態です(詳細は後述します)。ただ、そのおかげで逆に現職の会社全体から見ると珍しい部類に入る仕事も多い上に、広告主のお客様の許可を頂戴していわゆる「成功事例」として公に広報される仕事もあったりします。YouTube動画になった機械学習ソリューション事例は広告技術部門の同僚含め多くの人たちに支えられて実現したものですが、その後も適用領域を変えつつ今でも最前線で使われていて*18、個人的には有難い限りです。


また、時には自社データに基づいて日本社会全体のマーケットトレンドを分析するといった仕事も手掛けていたりします。コロナ禍初期に公開した一連の分析レポートは、たまたまその直前に構築していた時系列データ分析フレームワークを検索動向データに応用した事例ですが、当時先行きに不安を抱えていたマーケティング業界の何人かの方々から参考にしていただけたという声を頂戴したこともあります。


ただ、ここ数年は機械学習系の開発プロジェクトはあまり手掛けていません。理由は幾つかありますが、後述するように少人数のサブチームで取り組んでいるので総合的にシステム構築するような手間のかかる仕事は引き受けにくいというのと、仮に必要になった場合でも大半はAutoMLフレームワークで代用してしまうことが大半だからです。このため、比較の問題でいうと最近は統計分析系の仕事が多くなっています*19


一方で、ここ3年ほど意識的に取り組んでいるのがジュニアレベルのデータサイエンティストの育成です。これは単純に僕がデータサイエンスの習得と実践に意欲的な同僚たちを勝手連(サブチーム)として集めて、統計学機械学習などのスキルをトレーニングしつつ実際のデータ分析業務のメンタリングを行なっているというだけなのですが、幸いにも優秀な若いメンバーに恵まれたことでほんの3年ほどでデータ分析業界のどこに出ても通用するレベルに皆さん育ってくれています。おかげさまで、僕が手を動かさなくても良いことばかりになっていて、暇で仕方ないです(笑)。


そして、サブチームとしてデータ分析の仕事を引き受けるようになったことで、何よりもスケーラビリティ(拡張可能性)が上がり、レバレッジ(梃子の原理で小さな力で大きな物を動かすこと)がきくようになった、という側面が大きいと感じています。以前であれば本当に僕一人で片付けられる範囲のデータ分析しか引き受けられず、個々の案件としては画期的な成果になってもその案件限りで後が続かないということが非常に多かったのですが、ちょっとでも良い成果が得られた分析があればサブチームの皆で寄ってたかってフレームワーク・ソリューション・システム化し、多数の案件を同時に引き受けることが出来るようになってきています。


実は、「スケーラブルなデータサイエンス」というのは僕が現職に入社した当時から掲げていたデータ分析の方向性だったのですが、先に書いたようにそれはどちらかというと「システム化(そしてそれの元となる機械学習ソリューション)」によってなされることを想定していました。それが、優秀なジュニアメンバーに囲まれたことで「組織化(チーム化)」によってもなされるようになりました。加えて、図らずもこれはそのまま僕にとっては「小さいながらもチームをリードする」経験を積む良い機会になっています。


10年前に初めてデータサイエンティストに転じた頃は一匹狼然とした仕事スタイルがメインで、それは時にはエッジな仕事を成し遂げる上でプラスになることもありましたが、また時には仕事さらにはキャリア構築につまずく要因になることもありました。しかし10年の時を経て、いつの間にか僕はいっぱしの企業人らしくチームで働くことの出来るデータサイエンティストへと成長できたようです。あえて言うなら、これがこの10年間で得た僕にとって最大の成果なのかもしれません。


知名度が上がるということ


僕がこのブログと現在のTwitterアカウントでのツイートを始めたのは9年前のことでした。当時既に黎明期のデータサイエンティストコミュニティが存在しており、その人々と交流することで少しでも自分自身のデータ分析スキルのレベルを上げられたら、そしてあわよくばより良いポジションへの転職の契機にもなれば、と思っていました。


ところが、自分で書くのも何ですがやはり前回の回顧録で触れたような旧ブログ&旧Twitter時代の経験もあり、悪い言い方をすると「バズらせようと思ってバズらせるのは朝飯前」だったもので、大バズりや大炎上を繰り返すのがすっかり平常運行になってしまいました*20。それは、時と場合によっては「炎上ラーニング」ということで僕に正しい知識・学識を伝授してくれる識者に出会う良い機会になることもあれば、また時には単純に無用な誹謗中傷を招くだけの不毛な結果に至ることもありました*21


気が付いたら、いつの間にかTwitterのフォロワー数は5万以上にまで膨れ上がっています。これはちょっとした芸能人に匹敵するくらいの数で*22、一体自分はこの10年間で何を仕出かしてきたんだろうと思う瞬間が未だにありますが、それでもそこまで知名度が上がったことで「自分が分からないことを詳しい人を探し出して教えていただく」というのが物凄く容易になったというメリットが得られています。個人的には、これが知名度が上がったことで被っている最大の恩恵だと思っています。


おかげさまで、直接の面識はないことが多いものの、統計学機械学習はたまた計量経済学といった分野の名だたる専門家の方々と繋がらせていただいていて、中には定期的に意見交換の機会を頂戴している方々もいらっしゃいます。僕のような、事情があって畑違いの世界から迷い込んできた半端者にとっては、これほど有難く光栄なこともありません。実はブログ記事を書いたり、稀には仕事上手法や技法で迷った時に、そういった方々のご指導を仰ぐこともあったりします。


ただ、最近Querie.meという質問箱サービスでオープンに質問を受け付けて回答するのを趣味にしているんですが*23、特に若い(と思しき)人たちから権威というか何かauthorizeされた存在であるかのように扱われることが多くて、ちょっと面はゆい気分になることがままあります。自分の中では「畑違いの世界から迷い込んだ半端者が様々な幸運に恵まれてデータサイエンティストの仕事を10年も続けているだけ」という認識なので正直言って戸惑いを隠せないのも事実なのですが、それでも多くの(特に若い)人たちから頼りにされるならそれを邪険にすることもできない、という思いもあります。なので、基本的にはいつでも駆け出しの右も左も分からなかった頃の記憶を思い出しながら答えるようにしています。


そういうわけで、僕はどれほど自分の知名度が上がったとしても基本的にはいつまで経っても「一学徒としてのデータサイエンティスト」のままだと自身のことを見做していますし、それは死ぬまで変わらないだろうと思います。生涯「一学徒(Student)」を論文中で自称したウィリアム・ゴセット*24のように、謙虚に学究に努めながら自らに与えられた職務を全うする職業人でありたいというのが僕の願いです。


キャリアの話


前回の回顧録にも書いた通り、僕はちょうど10年前に研究者稼業を引退して1社目に転職・入社しています。実はその時の僕の肩書きは「ITエンジニア」だったのですが、当時のCTOは僕を採用した頃から既にデータサイエンティストの仕事をさせようと決めていたフシがあり、入社後間もなく「尾崎さんはデータサイエンティストってことでいいよね」と申し渡されて名実ともに「データサイエンティスト」になっています。後になってから思い返してみると、かの有名な「データサイエンティストは21世紀で最もセクシーな職業である」論説が本家版HBRに載ったのはその年の10月であり、それよりも前から「データサイエンティスト」という言葉を知っていた当時のCTOの慧眼には今でも感服するしかありません。


そして実は2社目に入った時の肩書きも「データマイニングエンジニア」だったのですが、程なくして「データサイエンティスト」に変更されています。これについては単に僕が既に『道玄坂→銀座で働くデータサイエンティストのブログ』というタイトルでブログを書いていたために特にこだわったというのが真相なのですが、第一次ブームのさなかだったということもありあっさり認められたという記憶があります。


その後3社目の現職では、前述のように僕は完全なる偶然に導かれて広告営業部門のデータサイエンティストの職に就いたわけですが、居心地が良かったこともあり結局そのまま6年以上に渡って居着いてしまいました。その理由は色々あるのですが、何よりも現職で何年か働き続けるうちに「この巨大な会社の中では、誰もが必要性を認めながら誰もやっていない仕事をする方が、誰かが既にやっている仕事をするよりも遥かに取り組みやすく、しかも新たな価値がある」と思うようになったからです。


詳細はここでは伏せますが、端的に言うとプロダクト*25側とビジネス*26側とのはざまに取り残された、いわば「空白地帯」のような課題が沢山あることを入社してから知り、ビジネスのことが分かるデータサイエンティストとしては、機械学習統計学を活かしてその空白地帯を埋めていくのが自分の仕事であるべきではないのか?と、思ったのでした。


言い古された言葉ですが、天才ならざるただの凡人のキャリアにおいて大事なことは「鶏口となるも牛後となる勿れ」なんですよね。他に沢山自分よりも優れたtalentたちで溢れ返っている界隈に突っ込んでいくよりは、自分が第一人者として立ち居振る舞える界隈に身を置きそこで無双する方が、より容易で尚且つより評価されやすいのです。僕の場合は、他のデータサイエンティストや機械学習エンジニアの人たちとは異なり統計学機械学習の専門教育をきちんと受ける機会に恵まれなかったので、尚更です。


特に現職では、データサイエンティストにせよ機械学習エンジニアにせよ、世界レベルで見ても控えめに言って天才と呼ばれるべき同僚たちが、世界各国にまたがって文字通りひしめき合っています*27。全社レベルの統計学機械学習のグループに飛び交っている投稿を見ていると、何を言っているのか一語も分からないようなハイレベルな研究開発に関する議論が展開されているなどというのはほぼ日常茶飯事です。そんな天才たちに対して無理に伍していこうとするよりは、凡人たる自分としては彼らが見落としている落穂を拾う仕事をしよう、と思うようになったのでした。


加えて、もっと実際的な理由があります。それはこのQuoraアンサーで述べられている通りで、機械学習にせよ、統計学にせよ、自分のような後発の人間が新しいアルゴリズムの研究で画期的な成果を挙げて世界を驚かせようとするには、既にあまりにも残されたパイが小さ過ぎるのです。

こちらは昨年末に公開された最新のNN研究の動向のまとめですが、正直言って僕はこれを見て「全っっっ然分からねーわ」となりました。多分、分かるのはJAXぐらい*28で、残りは「今どきのNNってこんなことしてるんだ」という驚きしかありませんでした。気が付いたら、今やNN研究界隈で飛び交っているキーワードの7割以上が知らないものばかりです。ここまで来ると、もはや自分が居合わせること自体が場違いという感すらあります。


そしてもう一つ、「研究成果で食っていくということへの不安」も大きかったです。実は2社目時代に「自分たちも研究活動を展開してアピールしていこう」という話がチーム内で持ち上がった際に、後輩*29から「尾崎さんはまた論文の本数やら被引用数やらで評価される世界に戻りたいんですか?」と言われてドキッとしたものでした。再現しない先行研究に振り回されながら*30、いつまで経っても思い通りの結果が得られない中で無理やり論文を書き続ける……一瞬脳裏に悪夢が蘇ったことは言うまでもありません。


故に、自ら機械学習統計学について新たな研究を興したり論文を書いたりすることよりも、むしろこれまでに成し遂げられてきた既知の研究成果を未解決の実社会の課題に適用し、解決していくことを志向するようになりました。これについては、5年前の年末振り返り記事でもちらっと書いたことがあります。


結局のところ実務の現場という泥まみれの沼地で仕事をする身としては「目の前の課題を解決することにまずはベストを尽くすこと」しかないのかな、と思う次第です。遥か天上の研究の最先端領域で繰り広げられる華麗な活劇を楽しみながらも、足元の沼地でこなすべき日々の仕事は地道に着実にこなさければならない、と。


天上の最先端の研究が競われる世界は確かに遠い彼方の存在ですが、その足元でその知恵に支えられた仕事をこなすというのは、それがどれほど地道であったとしても何物にも代えがたい極めてexcitingな体験です。そういう仕事の楽しみ方を今後も続けていこうと思っています。

今でもこの心境に変わりはありません。それがあるからこそ、今現在の立ち位置で、地道かつ堅実に仕事をやり続けていると言っても過言ではないです。


しかし、それ以上に何よりも僕にとってビジネス側の最前線のデータサイエンティストに転じて良かったことは、「成果がストレートに現実世界の数字となって現れる」ことでした。「旅行パッケージのコンバージョン数+44%」にせよ「eコマースのコンバージョン数+196%」にせよ、自分が編み出したソリューションによって現実世界のビジネスにプラスの影響が生じ、その結果が具体的な数字として得られるわけで、個人的にはこんなに嬉しいことはないと思っていますし、報われたという気持ちになれます。そしてその達成感を得たいからこそ、また次の統計分析や機械学習を駆使した新しいプロジェクトを興し、作り上げて広めていく……というサイクルが続くというわけです。


それは、言い換えるならやはり「社会実装」ということなのでしょう。データサイエンスの叡智を社会に「実装」し、そこから得られた成果で社会を実り多いものにしていくというのは、何物にも代え難い醍醐味です。


ところで、今も昔も変わっていないことの一つとして「データサイエンティストになりたかったら単に『データサイエンティストだ』と名乗るだけで良い」という点があります。それは、国家資格でもなければ認証制度もない以上当然のことで*31、何なら日本に限らず世界中のどの国のどの業界に行っても同じです。しかしながら、裏を返すと「データサイエンティストと名乗るからにはその名に相応しい仕事をし、相応しい成果を挙げることが求められる」ということであり、「さもなくばデータサイエンティストとしては『失格』と見做される」ということでもあります。


実は、僕のところに幾つかの私立大学から友人知人を介して「実務家教員にならないか」*32というお誘いをいただくことも何度かあったんですが、全部お断りしています。それは、大学教員になるからにはやはり「分野の最先端」を踏まえているべきだという研究者時代からの信念がある一方で、「実務家」を辞めて教員になった暁には「実務家としての最先端」からは確実に離れてしまうと思われるからです。それでは、自分も失うものも大きく、尚且つ新たに学生さんたちに教えるべきものも持ち合わせない、ということになりかねません。言い換えると、「もはやデータサイエンティストとしては『失格』の人間がデータサイエンティストになる方法を教える」という体たらくになるということですね。恐らく、今後もどのようなお誘いがあったとしても、大学の先生になることはないでしょう*33


「現場から離れて上っ面の話しか出来なくなったデータサイエンティスト」に堕してしまわないよう、僕としては出来るだけ陰に陽に実務の現場に関わって仕事を手掛け、その職名に相応しい成果を挙げられる、データサイエンティストであり続けたいと願っています。そうあり続けることこそが、僕にとってのこの10年間のキャリアそのものであったわけですから。


最後に


色々書いてきましたが、実はこの記事を書いている前後に実家の親父が亡くなったり、はたまた僕自身が深部静脈血栓症(DVT)という厄介な病気に罹ったりと不幸や災難が続いていました。流石の楽観主義者の僕でも完全に心が折れる瞬間があったのは事実です。


けれども、非常に多くの方々から(特に病気に関して)お見舞いや励ましのお言葉をいただいて、ちょっと目が覚めた気がします。思った以上に、僕はどうやら知らないうちに世の中の多くの人たち(特に若い人たち)に良い意味でインパクトを与えているらしく、中には人生が変わるほどの影響を受けたという方もいらっしゃるようです*34。僕なんぞにそんな影響力があるかどうか正直言って全く実感がないのですが、仮に僕のことを必要してくださる方々が少しでもいらっしゃるのであれば、黎明期からのデータサイエンティストとしては力の続く限り、データ分析の仕事で社会に貢献すると同時に、世の中の人々のためになる知識や情報を伝えていきたいと思っています。


ちなみに、最近公開したこちらの記事を書くまでは制約の多い療養生活を強いられていたこともあって、かなり鬱々としていたものでした。けれどもいざ重い腰を上げてラップトップを開き、Rコードを書き始めたら、段々と楽しくなってきて鬱憤もだいぶ晴らせた気がします。やっぱり僕は、このデータサイエンスの世界が好きで、尚且つ自分に物凄く合っているんでしょうね。これからも、このブログと仕事を通じて、データサイエンスの世界に貢献していきたいと願う次第です。


最後に、今回の療養生活においても嫁さんには大いに助けられています*35。結婚してから今年で15年になりますが、相変わらず僕はいつでも嫁さんに助けられっぱなしです。本当に嫁さんには感謝をいくら重ねても感謝し切れないと感じています。今後時間をかけてでも嫁さんに飛び切り大きな恩返しが出来るよう、仕事にプライベートに頑張っていく所存です。


ということで、データサイエンティストになってからの10年を振り返ってみました。願わくばそのまた次の10年後にでも、皆さんにさらに成長した自分の姿をお見せできたら良いなと思っています。改めて、今後ともよろしくお願いいたします。

*1:理研BSIは5年だった

*2:「NNは知っているがSVMは触ったこともない」的な話が聞かれるようになったのもこの頃

*3:例えば[1801.07729] The Shape of Art History in the Eyes of the Machineなど

*4:仕事でもそういうソリューションを作ったりしてました

*5:特定の大学を挙げているわけではありません、念のため

*6:KaggleDays SF Hackathon

*7:Google AI Blog: An End-to-End AutoML Solution for Tabular Data at KaggleDays

*8:https://twitter.com/yuta3w/status/1149219840638377985

*9:redditでの議論を読んだ感じでは

*10:当時「因果フェス」に登壇させていただいたことを思い出します

*11:http://lifehack2ch.livedoor.biz/archives/51732787.html

*12:2019年のQ4ぐらいだったかもしれませんが

*13:と言っても僕が身を置いていた認知神経科学分野に限りますが

*14:2012年のILSVRCでDeep Learningに基づくAlexNetが優勝した

*15:JAGSは割愛しました

*16:AutoMLもクラウド上で動くものばかり

*17:Eng側のデータサイエンティストが担当する、プロダクト関連の分析など

*18:例えばこの辺など

*19:具体例は挙げられませんが、例えばこちらの過去記事でやっていることは実際に仕事で手掛けている分析アプローチにかなり近いです

*20:このブログにもはてブ何百という記事を連発していた時代がかつてはあったのです

*21:おかげさまで「アンチ」もかなり増えた気がします笑

*22:自分も良く知っている芸能人のアカウントに出くわした際にフォロワー数を見て「……」となることが時々あります

*23:https://querie.me/user/TJO_datasci

*24:ウィリアム・ゴセット - Wikipedia、スチューデントのt検定の発明者として名高い英ギネス社の統計学社・醸造技術者

*25:つまりいわゆるEng

*26:特にSales

*27:研究者からの転向やPhD course修了から弊社に新たに入ってくる人たちのpublication listが回覧されているのを見て鼻血を噴くとか日常茶飯事です

*28:しかもどういう文法のどういうフレームワークかは知っていても実際に触ったことがない

*29:彼も博士で、尚且つ現職に自分より一足早くsoftware engineerとして入っている

*30:これは研究者時代の業界も近年のNN研究業界も同じ

*31:某協会の検定が今後どうなるかは分かりませんが

*32:テニュアの准教授で、というものもあった

*33:実際には給料の問題もあったりしますが

*34:勿論ただの僕の思い過ごしかもしれませんが

*35:酒が飲めない自分に付き合ってモクテルパーティーをしてくれたりするなど