渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

犬は狼にはなれないが、狼は犬にもなれる

f:id:TJO:20211213232837p:plain
(Image by qimono from Pixabay)

年月が過ぎるのは早いもので、2021年もあっという間にわずかな日数を残すのみとなってしまいました。ということで、恒例の1年の振り返りとともにちょっとした年末の気付きをポエムにまとめてみようと思います。

ワクチンの普及がもたらした希望と、そこに立ちはだかった因果推論の壁


今年は単に2年前に始まった新型コロナウイルス感染症(COVID-19)のパンデミックが続いたというだけでなく、デルタ株という変異株が猛威を振るい、あたかも「新たに別の感染症パンデミックに至った」が如き別次元の展開を見せた年でした。


しかし、結果だけ見れば最終的には新型コロナワクチンがその威力を発揮し、こと日本に関してはデルタ株が猖獗を極めた第五波を収束させるという大きな成果の一翼を担ったのでした。我が家も職域接種でモデルナ社製ワクチンを2回接種しております。現在ではオミクロン株が新たに登場してさらに複雑な局面に至りつつありますが、これまでの各種報道を見る限りでは同じ方針である程度抑え込んでいけるのではないかという観測ができそうです。


一方で、あまりにも多種多様な要因がリアルタイムで変化し続けた結果として生じる新型コロナの感染拡大・収束状況について、予測や分析を行うことの難しさが浮き彫りになったのも事実です。上記はQuoraアンサーとしてまとめたものですが、コロナ感染拡大予測は「データの多様性の度が過ぎていて予測に活かすレベルに集約し切れない」「外生性など識別問題にハマる変数が多過ぎるため世間で期待されるような高精度なモデルを作るのは難しい」というのが個人的な理解です。


新型コロナのパンデミックにまつわる統計分析結果が、思わぬ大混乱を招いた一幕もありました。端的に言えばこれは「シンプソンのパラドックス」として説明可能な現象で、適切な因果推論を行わなければ適正な結論にたどり着けないという難題です。このブログでも簡単にまとめた記事を書いています。

ちなみに何を隠そう、実はその後自分の実際の仕事でも完全にシンプソンのパラドックスに当てはまるシチュエーションが発生して、頭を抱える羽目になったのでした。僕にとっては、実世界における統計分析と因果推論の難しさを再認識させられた事例だと言っても過言ではないです。


犬は狼にはなれないが、狼は犬にもなれる


ところで。ちょっと前にこんなことを放言したら、思いの外反響が大きくて意外に感じたのでした。

実務データ分析というのは因果な商売で、以前にもちらと書いた気がしますが「素人が『難しい』と思う課題ほど簡単で、素人が『簡単』と思う課題ほど難しい」ことが多いという代物です。一方で、実務の現場に湧いてくるデータ分析課題の大半は前者だったりします。故に、簡単なデータサイエンスの知識さえあれば大半の課題は片付いてしまうのですが、稀にやってくる後者のような難題を解決できるかどうかが自分の職掌への信用を左右してしまう……ということもまた多々あります。そんなシチュエーションについて考えていて、ふと僕が思い出した漫画のエピソードがあったのでした。


エリア88 14

エリア88 14

Amazon

それは、僕が若い頃に復刻版を愛読していた新谷かおる氏の代表作『エリア88』に出てくるエピソードです。主人公であるシンと後に敵対することになる傭兵隊長(劇中当時はフランス空軍将校)ボッシュが、傭兵パイロットのシンが難無くこなしたハードな空戦訓練に空軍の若いパイロットたちが耐えられず這いつくばる様子を見て、こう語るシーンがあります。

「しょせんは狼と犬のちがいだ・・・狼は犬にもなれるが、犬は狼になれん」

「狼」でさえあれば、その場の必要に応じて「犬」として振る舞うこともできる。けれども、「犬」であることに満足していたらいざという時に「狼」になって戦うことはできない。これは能ある鷹は爪を隠すという諺にも通じるものがあって、強者は韜晦して相手を無難にやり過ごすこともできるが、いざ必要があれば爪や牙を剥き出しにして戦うこともできるというわけです。


喩えは悪いかもしれませんが、個人的にはデータサイエンティストもまた「狼」であるべきだと思うのです。即ち、統計学機械学習や因果推論さらにはデータ基盤やプログラミングなども我が物としているが、普段はビジネス上の必要やステークホルダーの理解度・受容度*1などを見極めた上であえて単純な集計や可視化はたまた簡便な線形回帰で分析を片付ける。いわば穏やかな「犬」のふりをするということです。


けれども、いざそんな簡単には片付かない難題が現れたら(それこそ適切な因果推論による解決が必要なシンプソンのパラドックスのような事態が起きたら)、ここぞとばかりに持てる限りの高度な統計学機械学習などの学術・技術を投入して誰もが納得できるような最適解を叩き出してみせる。……そんな強者の「狼」としての側面も併せ持ち、普段は韜晦して「犬」としても振る舞えるようなしたたかなデータサイエンティストであってこそ、周囲からの信頼も得られるのではないかと思っています。


と書くと「ならばどうせ普段は『犬』で十分に務まるのならば『犬』のままで良いのではないか」という声が出てきそうですが、これについては僕個人としては明確に「否」と答えたいです。というのは、中途半端に統計学機械学習の初歩〜やや発展ぐらいの内容を上っ面だけ覚えて、便利なビジネスツールであるか如くあまり深く考えずに日常的に使っている人たちが、ある日思わぬ本質的な問題に直面してつまずいてしまう……という場面を往々にして見かけるからです。


そういう事例を挙げたらキリがありませんが、代表的なものは今年の5月に書いた記事で7つのケーススタディとしてまとめた通りです。当該記事では「不適切な交差検証デザイン」「サンプルサイズ設計や実験計画法・メタアナリシスについての無知」などの例を挙げましたが、これらはいずれも「ただ単にツールを当てはめていれば何となく出来ているつもりになれるが、実際には本質を踏まえたアプローチを取らないと誤った帰結に至る」ものばかりです。


そういう本質的な問題に直面した際に「所詮『犬』だから戦いようがない」と諦めるのか、それとも「一朝ことあらば戦える『狼』であろうとする」のか。そこを問われていると思うからこそ、データサイエンティストたるもの可能な限り「狼」であるべき、と考える次第です。


来年に向けて


今年はあまり対外発表の類をしなかったので*2、来年こそはある程度形になったものを出せればと考えています。ちなみに、昨年の年末ブログ記事で

実際に、これらの論点と考え方を整理した上でどのようなアウトプットにするかはまだあまり具体化出来ていませんが、どのような形であれ2021年のうちには何かしら皆さんにお見せできるのではないかと考えております。乞うご期待!とまでは大口は叩けませんが(笑)、気長にお待ち下されば有難いです。

と書いていた件ですが、色々あってまだ絶賛準備中のままです(汗)。2022年こそは、皆さんにお見せできる形のアウトプットを出せるものと意気込んでおりますので、ご期待いただければと思います。


ということで、2021年もこのブログをご愛読下さいまして皆様まことに有難うございました。来年もまたよろしくお願いいたします。

*1:露骨に言えば「話の通じやすさ(通じにくさ)」

*2:仕事絡みで出したのはこれだけ