渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

データサイエンスは扱い方次第でscienceにもpoliticsにもなり得る

これまでの10年以上に渡って、僕個人としては「データサイエンスはscienceである」という信念を持って、このブログなり各種SNSなり様々なカンファレンス・セミナー・イベントなりで活動してきたつもりです。が、近年になって「どう見てもそれはデータサイエンスと言ってもscienceではなくpoliticsでは」という案件が日に日に増えてきている印象があり、顰蹙し過ぎて眉が筋肉痛になりそうな感があります。


ということで、ネタ切れで与太話ぐらいしか書くことがないというのもありますが「データサイエンスは扱い方次第でscienceにもpoliticsにもなり得る」事例を幾つか振り返りながら、データサイエンス実務に関わる分析専門職はどうするべきかという話を書いてみようかと思います。

意識的・無意識的なQRPs


一つ目は、様々な商品やサービスの効果検証にありがちな「有意差が確認されました!」という宣伝文句の裏を取ってみたら、QRPsまみれだった……というお話です。言うまでもなく、p-hacking / cherry-picking / HARKingといったQRPsは再現性問題を生じさせるため、可能な限り最大限排除すべきものです。しかしながら、現実には「とにかく有意差を出したい」(宣伝のためだったりお偉いさんに認めてもらうためだったり)がために、意識的・無意識的を問わずQRPsが行われるケースが後を絶たないように見受けられます。


これは、帰無仮説有意差検定が「効果のほどに統計学的なお墨付きを与えてくれるもの」だと人口に膾炙してしまったが故の問題であるように思われますが、僕が直接見聞してきた範囲でも「有意差があったorなかった」で揉めに揉める界隈は少なくないです。再現性をガン無視して「とにかく有意差を出せ」と躍起になっている現場は多いんだろうなと思うと、気が重くなります。


ではこれを例えばベイズに改めたら何が良くなるかというと、p値がベイズ信用区間に置き換わるだけである上に、事によってはある時は「(過大に広い)信用区間同士が重なっているから差がない」と言った同じ口が別のある時は「信用区間にはそれほど意味がないので無視して良い」と言っていたりするケースがままあり、頭を抱えるばかりです。


見せかけの因果に基づく誤認への誘導


「国の科学研究予算が少なくなるほど日本のノーベル賞受賞者は増えている、だから予算を削減すべきだ」という主張がなされて、実際にそのようなプロットを見せられたら、皆さんはどう思われますでしょうか?


これは虚構新聞によるジョーク記事ではありますが、古来から有名な「喫煙率と肺がん死亡率との関係」*1同様のトリックが用いられています。要は「ノーベル賞の受賞対象となる研究が立ち上がって結実するまでの時間」「そしてその研究成果が世界に広く受け入れられてノーベル賞が授与されるまでの時間」などの交絡因子を無視すれば成立してしまう見せかけ(偽)の因果なのですが、これに類するquestionableな因果関係の主張が政治・行政の分野でなされることは全く珍しくないように見受けられます。


言うまでもなく、そのような主張が政治・行政の分野でなされるということは紛れもなくpoliticalな動機に基づくものであろうと容易に想像されます。まさしくデータサイエンスがscienceではなくpoliticsとして使われてしまうという構図そのものですね。


マーケティング分析を巡るpolitics


僕個人が如実に「データサイエンスがpoliticsに使われている」と感じている分野の筆頭が、マーケティング分析です。これは他でもない僕自身が当てはまる側面もあるので恥じ入るばかりですが、「scienceとしての正しさよりもpoliticsを優先させる」という行為が、この分野においては横行しているという印象があります。


例えばMMM (Media Mix Modeling)の実装ライブラリにおける方法論を巡って、どういうわけか「不偏推定量が得られないことが理論的にはっきりしている手法を使っておきながら『分析結果の妥当性は交差検証さえしていれば保証される』」という極端な主張*2がなされているのに対して、これまたどういうわけか「正しい因果推論がされていれば『交差検証なんて一切不要』」という真逆の極端な反論がなされているのを見かけたことがあります。「ほどほどに因果推論をして残りは交差検証で評価する」ぐらいが穏当だと思われるのですが、互いに相手の主張を退けようとして両極端に走っている印象があります。


他方で、系列相関に全く対処できていないと思しき手法による分析をパッケージ化してプロプライエタリのサービスとして提供していたり、「前処理から分析そしてレポーティングに至るまでオールインワンで請け負います」といって全て非開示のブラックボックスとして処理していたり、というケースも見受けられます。多重共線性に未対処なままの分析結果が「ステークホルダーの期待通りだから」という理由でまかり通っているという話も複数聞いたことがあります。


またもう少し汎用的なマーケティング分析でも、あからさまに計量時系列分析における「見せかけの回帰」を犯しておきながら「ステークホルダーに依頼された通りの分析だから」といって押し通したという話も聞いたことがありますし、最も極端なケースでは「ステークホルダーが需要予測モデルの精度低下を嫌うから」という理由で統計的学習モデルを推定しているように見せかけて実際には手動でゴリゴリにパラメータ調整した過学習モデルを手作りしていたという話もあったりします。


どれもこれもその手の大掛かりなマーケティング分析モデルに過大な期待を寄せるステークホルダーが多いせいであるように思われるのですが、何故そんなことになっているのかが分からないので如何ともし難い感があります。もしかしたらどこぞのMBAコース辺りでそうしろとでも教えているのかもしれませんが、勿論憶測の域を出ません。


Scienceたらしめたくば、再現性を担保するべき


以上の通り、データサイエンスがscienceではなくpoliticsになってしまっているパターンを見てきたわけですが、それらをscienceに引き戻すためにはやはり後からでも良いので「再現性の担保」に徹することが重要であろうと僕個人としては考えています。では、どうすればそれが出来るのでしょうか?


何度も口を酸っぱくして言っていますが、個人的には「適切に条件統制された事後の検証実験でダメ押しする」ことを推奨しています。これはQRPsの可能性がある分析結果の確認にも使えますし、過去の観察データに対するMMMなどの分析結果の検証にも有効です。


勿論、Pearl流の因果推論ではRCTですら交絡を完全に調整できるとは限らないと批判されていることは僕も知っていますし、実際医学・疫学・行政といった安易に広範囲な実験が打てない分野*3では因果推論の適切さの方を重視していることも知っています。一方で「きちんと交差検証されていればわざわざ事後実験などやる必要はない」という主張がなされることもあり、単純に実験にかかるコストや機会損失を忌避するビジネス領域では多く聞かれます。前掲の虚構新聞のケースではそもそも実験自体が困難でしょう。


しかしながら、例えば広告・マーケティングのように「交絡因子が暗黙的かつほぼ無限に存在していて悉皆的にデータを得られない」「問題設定が広汎過ぎて適切な因果推論が出来ている保証がない」一方で「実験を打つのが比較的容易」「条件統制もある程度以上の粒度で可能」な分野であれば、適切に事後実験を行う方がより平易かつより確実に、再現性を担保させられると考えています。そもそも「正しく因果推論された回帰分析など存在しない」という意見すら統計的因果推論の研究者から出ている*4ことを鑑みれば、統計的学習モデルの側を延々と弄くり回すよりは、その労力を適切な事後実験を打ってダメ押しする方向に振り向けた方が合理的であろうと考える次第です。


ちなみに、「ワークマンのすごいデータ活用」で著名なワークマン社では「リアル店舗A/Bテスト」を敢行して優れた成果を挙げていることが知られています。分析結果そして改善施策の再現性を担保するためにも、可能な限り「事後の検証実験でダメ押しする」という考え方はもっと広まっても良いと思っています。少なくとも実験することが難しくない分野では、積極的に取り入れられることを期待したいです。

*1:https://natrom.hatenablog.com/entries/2012/03/17

*2:多重共線性が交差検証では検出されないのと同根→多重共線性のはなし - 渋谷駅前で働くデータサイエンティストのブログ

*3:コストが莫大である上に人命に関わるので

*4:https://x.com/yaonacs/status/1857336918469398862