渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

新型コロナウイルス感染症の「真の」感染拡大状況を検索トレンドから何となく推測してみた

新型コロナウイルス感染症(COVID-19)のパンデミックに収まる気配が全く見られず、この記事を書いている2022年8月9日時点でも日本はオミクロン系統BA.5変異株を主体とする第七波に見舞われている有様です。東京でも毎日のように2万〜3万人という新規陽性者数が報告され続けていて、各種報道でも「検査体制の飽和(破綻)」が叫ばれるような事態となっています。


で、検査体制が飽和していて「真の陽性者数」が分からないとなると、実際にはどれくらいコロナの感染拡大が深刻化を正確に見積もるのも難しいということになります。そこでオープンデータからある程度真の陽性者数を見積もることが出来ないかなと考えていたら、灯台下暗しということで身近にありました。Googleトレンドの検索トレンドデータです。これである程度特徴的な検索ワードのトレンドを見ることで、実際の感染拡大状況がどれほどのものか見積もれるのではないかと思ったのでした。


ということで、このブログでは珍しいことですが検索トレンドデータに対して簡単な「定性的な分析」を行うことで、コロナの感染拡大状況の推定をしてみようと思います。いつもながらですが、分析に関しておかしな点・不備な点などありましたら何なりとご指摘くださると幸いです。


Googleトレンドで見てみる


重要なのは検索ワードの選択です。これは特に根拠があるわけではないのですが、パンデミック以降「実際に感染した人が検索しそうなキーワード」ということで、「PCR検査」「抗原検査」「発熱外来」「コロナ 症状」の4点を選びました。


そして、実際にGoogleトレンドで「PCR検査」「抗原検査」「発熱外来」「コロナ 症状」の検索トレンドを調べてみた結果が上図です。週次データで、期間は2020年1月19日から2022年8月6日(7月31日週)としています。


これを見ると、「コロナ 症状」のみパンデミック最初期に社会全体の人々(つまり感染者に限らない)の関心を惹いたことで非常に高いピークを示していますが、第三波以降辺りから4つのキーワードとも概ね各「波」の上下動に沿ったトレンドを示していることが分かります。実際には「抗原検査」が本格的に市中に普及したのが第六波からだったということもあり、第七波で最大のピークを示しています。


難しいのが「発熱外来」で、割とパンデミック最初期の頃から設置されていたはずにもかかわらず、思ったほど検索されていないんですね。これもまた第六波から増え始め、第七波で一番高いピークを示しています。その意味で言うと「PCR検査」がある意味実際の感染拡大規模にそれなりに沿った上下動を示しているようにも見えます。


公式発表の陽性者数と比較してみる


では、これらの指標を公式発表されている日本全体の陽性者数と比較してみましょう。データは厚労省のオープンデータページから入手できます。元データが日次なので日付を揃えた上で週次に直し、適当にプロットしてみたものが下図です。

これを見る限りでは、第六波以降で公式発表値に一番近い動き方をしているのは「抗原検査」に見えます(他の指標は第六波と第七波が同じくらいになっている)。ということで、公式発表値を真とするならば「抗原検査」をtrackするのが最も良いということになりそうです。


しかし、既に過去に何度か議論が喚起されているように「公式発表値は真の感染者数を網羅できていない」(検査体制の飽和などのため)という疑いがあり、この記事で試みている定性的分析もそれを検索トレンドのデータで何とか補完できないかという動機によるものです。そこで、「抗原検査」「発熱外来」と公式発表値の3指標に絞り込んで改めて比べてみました。

ある意味想像通りですが、「抗原検査」はむしろ第七波で低めに出ているように見えていて、こうなると「発熱外来」の方が正しそうです。けれどもこれも第六・第七波での公式発表値を正確にtrackしているだけのようにも見えます。勿論Googleトレンドの値は0-100でしか出せないので単に上下動さえ合っていれば良い&実際の規模は分からないので仕方ない*1という考え方もありますが、今回の定性分析ではこれが限界という感じですね。お粗末様でした……。

*1:中の人なら実測値は分かるのでは、というツッコミはお控えください