渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

人類未曾有の危機に抗いながら、前を向く

f:id:TJO:20201219174315p:plain
(Image by cromaconceptovisual from Pixabay)

これは年末恒例のポエムです。故に皆様にとって役に立ったりあまつさえ学術・技術的に価値ある内容などは何ひとつございませんので、予めご了承ください。


今年は何と言っても、COVID-19パンデミック新型コロナウイルス及びその感染症とさらには派生した「コロナ禍」と呼ばれる社会的影響)という人類未曾有の危機が世界中のほぼ全ての話題をさらった1年でした。僕自身にとっても、本業の仕事でも趣味のデータ分析でもコロナと向かい合うことを迫られ続けた1年であったという印象があります。


今回の記事ではそんな今年1年間を振り返りつつ、来年以降 (with / after COVID-19) の展望を徒然なるままに書き散らしてみようかと思います。

コロナ禍の社会的影響と向かい合う


僕の本業はデジタル広告・マーケティング向けデータ分析であり、例えば広告戦略の最適化や広告クリエイティブの改善を統計分析や機械学習を用いて支援するというのが主な仕事でした*1。ところがコロナ禍を受けて急激な社会変化が次々と沸き起こったことで、従来とは異なる方向性のデータ分析を手掛けることが今年は多かったように思います。


f:id:TJO:20201225142717p:plain

例えば、これまであまり手掛けてこなかった「ビッグデータからコロナ禍の影響下における社会の消費ニーズ動向を俯瞰する」というような外向けの仕事を手掛けたりしました*2。やはり「コロナ禍に何とかして適応しようと社会全体が激変していく」という未曾有の事態を、しかも何の前提知識もない中で適切に捉え理解するためには、あえて仮説フリーの分析を莫大なデータに適用することで*3、浅くても広くカバーする方が堅実だろうと考えた結果です。


このアイデア自体は実はコロナ以前の去年の夏頃からあったのですが、平時においては「そんなの誰でも知っているよ」という分析結果しか得られないのでその頃はあまり注目されなかったのでした。それが、コロナ禍という緊急時においては「そんなの知らなかったよ」という分析結果が得られることが多く、広告主やマーケッターの方々から何かと注目されるようになったのは実に興味深いことでした。先行きの見えない不透明な時代だからこそ役に立つデータ分析というものがあり得るのだな、と認識を新たにした次第です。



一方でコロナ禍自体の"As is"即ち現況を捉え、可能なら近未来の状況を大雑把に占うこともそれなりに重要です。そこで、5月以降はRStanの肩慣らしも兼ねて東京都の新型コロナウイルス陽性報告数の時系列推移を毎日統計モデリングするようになりました。と言ってもこれはモデリングなんて立派なものではなく単なる「スムージング」と呼んだ方が良いような代物で、たかだか曜日変動を除去(季節調整)してローカル線形トレンド(二階差分トレンド)を推定するだけの分析なのですが、それでも「上がった」「下がった」「加速している」「減速している」ぐらいのことは分かります。


実はこれは僕自身が出かけたりする時に自分の参考とするためにずっとやっているものなのですが、毎日某所に貼っているせいか意外と多くの方々に毎日チェックしていただいているようです。勿論真剣にやればある程度の「予測」も可能なのでしょうが、一般に時系列データの未来予測はそもそも原理的に難しい部分が多く*4、加えて新型コロナウイルスの感染拡大状況は社会的な要因に鋭敏に反応するらしいという個人的な観測もあり*5、基本的には自分からは手を出さない方針でずっとやっています。


データ分析を「束ねる」役割への転換


ところで、今年は僕自身のデータサイエンティストとしての立ち位置が大きく変わった1年でもありました。かつての僕は言わば独立愚連隊であり、良くも悪くも一人で動くことが多かったのでした。しかしながら今年は「自ら手を動かす」ことが段々と減っていき、代わりに「ジュニアメンバーに手を動かしてもらった上で全体の動きをマネジメントする」ことが増えました。この辺は1年前に書いた「育成する」記事で想定した流れをそのまま実践している感があり、良くも悪くも有言実行という形になったと思っています。


結果として、ML Ops的な機械学習導入プロジェクトとマーケティング実験を主眼とする統計分析案件とが常時自分の周囲で複数並行して走り続けるようになり、それらを適切にsuperviseすることでscalabilityを向上させるというやり方がめっきりメインになっています。勿論これはジュニアメンバーの皆さんが優秀なればこそという側面もあり、おかげさまで多くの優れた成果として結実させることが出来ています。


ただ、言い訳ではないんですが……何と言っても自分で手を動かさなくなった結果として、明らかに学術・技術の最新動向をキャッチアップしようというモチベーションが下がっていっており、今年初め以降に発表されたNNの理論・アルゴリズムフレームワークなどは殆ど把握していないという有様になってしまいましたorz 一応、自分では手を動かさなくともsupervisorとしては最新動向には概要レベルであっても通じていなければならないので*6、ここは年明け以降は是非改めて勉強しキャッチアップしていかなければならないなぁと考えております。


「ビジネスサイエンス」そして「デザイン」の重要性



そして、今現在僕が取り組んでいるのが「ビジネスサイエンス」さらにはその「デザイン」という考え方の整理です。というのは、今や機械学習は程度問題ながらAutoMLなどの自動化技術を使えばコーディングなしでも実践できますし、統計分析も各社・各プラットフォームから提供されているツールなどを使えばやはりコーディングなしでも実践できる、という状況だからです。特にコロナ禍で人手を含む各種リソースに制約がかかる中にあって、多くのビジネスの現場でデータ分析に活路を見出そうという機運は日に日に高まっているように見えます。


ところが、僕の観測範囲では「データ分析そのもの」は適切に出来ているのですが、その前提となる実験計画や効果検証などの「デザイン」が全然適切に出来ていなくて台無しになってしまっているケースを往々にして見かけます。この辺の課題意識を念頭にこのブログで紹介したのが、ML designという機械学習のメタな枠組み(の提案)と*7、ワークマンの「リアル店舗A/Bテスト」事例から学べる「ビジネスにおけるサイエンス」の重要性でした。従来の常識ではビジネスとサイエンスとは別物とされがちだった*8わけですが、実はビジネスを「サイエンス」すればずっと合理的かつ効率良く出来るし、同時にそれは「データサイエンス」を正しく使えるようになる、ということでもあるのです。それは、「データサイエンス」が先行してしまったことで見落とされていた視点でもあったのでしょう。


故に、今後データサイエンスをより確実かつ堅実にビジネスの世界に定着させていくためには、データサイエンスと同じように「ビジネスサイエンス」とその「デザイン」の考え方を、広く社会に普及させていく必要があるのではないか?と考えているところです。勿論これは僕一人では到底なし得ることではないのですが、何かしらのアウトプットを世に問うことはこの3ヶ月ぐらいずっと検討しています。


実際に、これらの論点と考え方を整理した上でどのようなアウトプットにするかはまだあまり具体化出来ていませんが、どのような形であれ2021年のうちには何かしら皆さんにお見せできるのではないかと考えております。乞うご期待!とまでは大口は叩けませんが(笑)、気長にお待ち下されば有難いです。


ということで、皆様2020年もこのブログをお読み下さいまして有難うございました。また来年もよろしくお願いいたします。

*1:今年公開されたもので言えばこの事例のデータ分析部分の開発など

*2:この記事シリーズなど

*3:この辺の話だと思ってください

*4:特にトレンドなど非線形要素が多い非定常な過程では未来予測は困難

*5:故に説明変数を伴うモデルだとその選び方によって予測精度が乱高下してしまう

*6:少なくとも目の前の課題が「原理的に解けない」のか「リソース面で難しいが解く方法がある」のか「勉強さえすれば解ける」のかは切り分けられる必要がある

*7:動画もあります

*8:特に体育会系営業の世界から見れば