渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

「データ分析」「A/Bテスト」病は、「目の前のデータばかり追いかけて局所最適にハマる」のとほぼ同義


大変面白いブログ記事を拝読しました。うん、まさにこの通りだと僕も思います。笑 本当に、こういう記事を待ってました!というのが偽らざる本音です。・・・と称賛するだけならブログ記事にするほどの話じゃないじゃん、と言われそうなので何か僕も一つ書いてみます。

局所最適にハマってないか?

(注:元画像はこちら
・添付の図のように「戦略か戦術か」、「分析が必要か否か」の4分類を行い、現在の居場所を把握した上で施策を考えいくのがいいのではないかと考えました。


・①→②→③→④という順で、進めていくのがいいのではないかと考えました。


・①の「入り口論」ですが、これは、「この事業を続けるべきであるか?」「本当に今のルーチンワークでいいのか?」ということから「事業モデルを変えるべきではないか」など、分析から離れたことで考えるべきということです。「分析ありき」で考えると、どうしてもこの「入り口論」が抜けてしまうと思っています。


要点はここなんですよね。僕のイメージはもう少しグラフィカルで、ドンピシャで言えば全体最適vs.局所最適」なんだと思ってます。


要は、こういうことです。以下をサイト運営のパフォーマンス曲線のイメージとしましょう。緑色の点がサイト開設のスタート地点で、赤色の点が(例えば同種webサービスの総売上高No.1・アクセス数○○万以上などの)サイト運営のゴール地点とします。ちなみにこれって、言ってみれば「最適化計画」を表す曲線ですね。

f:id:TJO:20130508003814p:plain

ところが、サイト運営というのは山あり谷ありが普通です。大抵の場合、上の絵の通りでゴールに向かう道のりというのは一直線ではない。そこで、よくあるのが「とにかく一番急な坂を一気に下れ!」という方針を選ぶというパターンです。


これが、実はクセモノ。今目の前にある数字を、一番急に上下動させてくれるのは往々にしてUI改修とかサイトデザイン改修だったりするんですよね。特に流入UU数とかではなく、例えばリピート率みたいな「率」で見てしまうと覿面にそれが起きます。Facebookで言えば、スマホ向けアプリに「シェアする」ボタンを追加しただけでスマホUUのリピート率が20%アップ!とか。。。あくまでも想像ですが。


しかも、この辺のデータというのは一般には社内で測定可能なデータです*1。なので、極端な話毎日チェックできるんですが、これもまたクセモノ。何故なら、毎日の数字に一喜一憂しながらカイゼンすると「平均への回帰」「見せかけの回帰」による錯覚にハマりやすいからです。


百歩譲ってそれらの錯覚を回避できても、何と言っても毎日のカイゼン効果が目の前の数字として見えてしまうので、webディレクターとしては

  1. 目の前の数字をすぐ動かせる方法論としてUI・サイトデザイン改修などの(比較的)小さな施策で済むレベルの改善・運用に固執する
  2. その効果を分かりやすくチェックできる方法として、webデータ分析&A/Bテストに固執する

という行動パターンにどっぷり漬かり、その狭い範囲内でひたすら努力し続けるということになりやすいのだと思います。


ところが。もうピンと来た人もいると思いますが、上の図のような最適化計画を解こうとすると非常にハマりやすいのが「局所最適」です。つまり、「一番急な坂を下る」*2「すぐ数字に表れるカイゼン施策を打つ」という戦略ばかりを毎回取っていると。。。


f:id:TJO:20130508004041p:plain

物の見事に、途中のくぼみにハマりまくるという罠。つまり、何も考えずに一番急な目の前の坂ばかり一生懸命下ってると、本当に一生抜け出せなくなる、というわけです。これはまさに局所最適なんですが、改善・運用がうまくいってないサイトやアプリを見ているとおそらくこの局所最適にハマっているんじゃないかな?と思われることが少なくない印象があります。


つまり、今の例で言えば「短期的には改善・運用の施策を打つたびに売上(orアクセス数)は上がるんだけど、ここ半年のスパンで見るとずーっと右肩下がりで売上高(orアクセス数)が下がり続けてる!どういうこと!?」みたいなパターンですね。まさに、局所最適はできているのに全体最適ができていないという典型かと。


本質的かつ究極的な目的は、今の例であれば「同種webサービスで総売上高No.1 or アクセス数○○万」という全体最適なわけですから、ずっと数字が上がり続けてくれなければ困るわけです。でも、この例だと目先のほんのちょっとの数字アップ(局所最適)にこだわったせいで、半年間の数字はじわじわーっと下がり続けてしまうという、全体最適を損なう結果になっているんですね。即ち、

  1. 目の前の数字をすぐ動かせる方法論としてUI・サイトデザイン改修などの(比較的)小さな施策で済むレベルの改善・運用に固執する
  2. その効果を分かりやすくチェックできる方法として、webデータ分析&A/Bテストに固執する
  3. その結果、目の前の数字はupしても半年後の数字は下がりまくるという、「木を見て森を見ず」局所最適に固執して全体最適を見失うという事態に至る

ということになるわけです。あくまでも僕が色々なところで見聞した範疇での話ですが、うまくいっていないwebサイトやアプリというのはそういう顛末をたどっているのではないかなーと思います。


そしておそらく、江上さんが仰りたかったこともそこなのではないでしょうか。局所最適を最大化する「データ分析」「A/Bテスト」にこだわり過ぎて、全体最適を忘れてる人が多いんじゃないですか?と。


全体最適を目指すには?


ここで必要なのは全体を見据えて「本当に一番下まで下ること」ですよね。つまり、

f:id:TJO:20130508004115p:plain

この図のようにビューンといくつもの途中のくぼみを飛び越えて一番下までぶっ飛んでいく、もしくは一番下の目的地に近いところまで何とか突っ込んでいく、ということの方が遥かに重要なんだと思います。


で、それは何か?というと、「UI・サイトデザイン改修レベルの改善施策などデータ分析やA/Bテストで効果を計れる範囲を遥かに超えて、どこまでも本質的でwebサイトやアプリの存在意義そのものを変える改善」のはず。江上さんのお言葉を借りれば、

「この事業を続けるべきであるか?」「本当に今のルーチンワークでいいのか?」ということから「事業モデルを変えるべきではないか」など、分析から離れたこと

なのでしょう。もし、そうではなくデータ分析やA/Bテストで効果を計れる範囲で済む改善施策にばかり固執してしまうと、

「分析ありき」で考えると、どうしてもこの「入り口論」が抜けてしまう

というわけです。これははっきり言って仕方ないです。何故なら、人間には一般に現状維持バイアス(status quo bias)があり、できれば大きな変化は避けたいという気持ちが働きやすいからです。


でも、それに打ち勝つための、抜本的でwebサイト・アプリの存在意義を変えるほどの改善を常に考えなければならない。それをやってのけたwebサイト・アプリだけが、長期に渡って生き残っていることはweb業界の人ならよくご存じでしょう。


例えばオーソドックスなSNSとして始まったGREEは、その後モバイルゲーム・プラットフォームへと業態を変えて大成功しました。またマーク・ザッカーバーグが「可愛い女の子の顔写真サイト」として始めたFacebookは、汎用のコミュニティサービスになってから急成長を遂げて今や世界最大のSNSです。


いつもいつもそこまで大規模な変革をしまくるわけにはいかないでしょうが、時々はwebサイト・アプリそのものの在り方まで含めて抜本的な改善を考えていくことこそが、事業として成功するためには避けられないことで、それはデータ分析やA/Bテスト以前の話である、というのが江上さんが仰りたかったことなんじゃないかなと思います。


え?結論がベタ過ぎる? だって、それはデータ分析以前の話なんだから、ベタ過ぎて当然じゃないですかー。極論を言えばデータ分析だのA/Bテストだのする前にやることあんだろ!みたいなwebサイト・アプリが世の中には多いって話なんですから。


じゃ、例えばデータ分析(データサイエンス)はどうやって貢献するの?


ということで、一番突っ込まれると痛いところを自ら突っ込んでみます(笑)。正直言って、自社側のデータがない状況でデータサイエンティストの出る幕は多くはありません。というのは、普通はUU行動データを見るのがデータサイエンティストの常套業務であり、それを使わないということはそもそも出番がないということになりやすいからです。


一方で、このようなwebサイト・アプリの在り方そのものを問う、となると一般には既に定着しているユーザーではなく、潜在顧客たる外部ユーザーへの訴求を考えていく必要があるのではないか?とも思います。その一手法が「競合サイトでやっていて自社サイトでは未だやっていないこと」の実践ということなのでしょうが、ここで外部データを用いたマーケティングに取り組むというのも(迂遠ですが)一手でしょう。


例えば、デモグラフィック的にどの辺の年齢層・性別・収入層・生活リズムのユーザーに対して訴求していくべきか?みたいなところから練り直しになるかもしれませんし、もしかしたら「○時~△時までの間に頻繁にスマホをいじる層」の潜在ユーザーに対して遡及していくべき、という話になるかもしれません。


それらを、何かしらの外部データから捉え、定量化し、具体的なアクションプラン候補を示す、というのはマーケッターの仕事であると同時に、データサイエンティストの仕事でもあると、僕個人は考えています。幸い、今時は色々なところにそれら潜在ユーザーの行動を示唆するデータが沢山ありますので、そういうところにもまたデータサイエンティストの出番はあるのではないでしょうか?


あくまでも例ですが、そういった外部データの時系列の移り変わりに対して計量時系列分析を行うことで、○○が△△に影響を及ぼす可能性を推定して、それをもとに先行する○○に基づき最適化された△△に関連する課金サービスを始める!なんてことも出来るかも。


もちろん、いくつものwebサイト・アプリを同時に展開しているプラットフォーム*3などであれば、単純にマーケティングを徹底して「アプリAには10代女性」「アプリBには40代女性」「ソシャゲCには20代男性」というような、ベストの客層をユーザーフローデータから絞り込み、適切なユーザー導線を張ることでユーザー獲得を最大化するという方法論もあります*4


言い換えれば、個々のwebサービス内で局所最適するのではなく、コンテンツプラットフォーム内でユーザーを回遊させて全体最適を図る*5、という戦略ですね。はい、それが今の僕の仕事なんですがw


・・・と、ポジショントークになったところで今回はここまで。お粗末様でした。

*1:つまりwebサイト / アプリを介してDBやアクセス解析ツールに自動的に記録されていくということ

*2:最急降下法そのものですね

*3:弊社のスマホプラットフォームなど笑

*4:デモグラごとにデータを分けて、なおかつユーザー定着度合いごとにCVポイントを設定して、それに対して機械学習分類器&アソシエーション分析グラフィカルモデルで最適誘因を探索的に求めるとか

*5:肝心のプラットフォームに流入してくるお客さんが少なかったら意味ないだろ!って怒られそうですが、ハイその通りですw それはまた別の課題ということでw