六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

ビジネスにおける「ビッグデータ」「データサイエンス」は要するに「データドリブン」なのでは、というお話

ビッグデータといったときに、広義・狭義の定義とは別に「大量のデータを扱う」ということと、「データドリブン(僕はデータに基づいて意思決定、アクションを廻していくという理解です)」が混在しているように思う訳ですね。


これ、物凄くよく分かります。先日の記事でもざっくりぶった斬りましたが、例えばFacebookやYahoo!などのビッグデータを扱うとされる代表的グローバル企業ですら、実際に現場で扱っているのは「ビッグではないデータ」だったりします。そういう意味でいうと、ビッグデータと言った時に「大量のデータを扱う」こととイコールになっているところは恐らく少ないでしょう。



ご指摘の通りで、ほぼ確実に「ビッグデータと言えばデータドリブンのこと」とみなしている企業の方が多数派でしょう。ビッグデータを標榜する企業が実際に期待しているのも、恐らくデータドリブンの方のはずです。


僕はかつて自然科学の研究者だったので、データドリブン(data-driven)という考え方には割とかなり以前から慣れ親しんできたつもりです。というか、データに基づかないで何かを考える、何かを決めるという方がぶっちゃけあり得なくね?と思ってきたクチです。笑


なのですが、いざデータドリブンと言い出したところで「それって何なの?」ということになりやすいのではないかと思います。実際、「データに基づいて何かを決める」という以上の何かを知っている人はそれほど多くないんじゃないでしょうか。


そもそもデータドリブンとはどういうことなのか?


個人的には、「データに基づく」は大体のところ「根拠に基づく」と同じだと思ってます。もうちょっと言えば「数値的根拠に基づく」でしょうか。ところが、これは結構漠然とした表現で、これだけでははっきりしないと言う人もいそうです。


元々学者畑出身だった僕が「根拠に基づく」(evidence-based)と言うと必ず思い出すのが、Evidence-based medicine(根拠に基づいた医療)です。これは上の日英双方のWikipedia記事を見てもらえば分かるかと思いますが、要は「ただデータがあるだけじゃダメよ」ということです。上記日本語版の記事の中に

1980年代になって米国国立医学図書館によるMEDLINEなど医学情報の電子データベース化が進み、また疫学・統計手法の進歩によりできるだけバイアスを廃した研究デザインが開発されるに従って、治療法などの選択となる根拠は「正しい方法論に基づいた観察や実験に求めるべきである」という主張が現れた。
原文ママ

という下りがありますが、この文章に倣ってビッグデータ業界の現状に合わせて箇条書きにすると、データドリブンは以下のような定義として書けるんじゃないかと思います。

  • 機械学習・統計手法などの進歩により得られたバイアスを排した意思決定メソッドに基づき、
  • 経営施策・改善提案などの選択となる根拠は「それら正しい方法論に基づいた観察や実験に求めるべきである」とする態度

つまり、主観的なバイアスを排した意思決定を行い、それは科学的方法論に基づいて得られたデータに拠るべき、ということです。これこそが、ここで言うところのデータドリブンという考え方なんだと思います。


何の根拠もない「直感」や、その場の「ノリ」や「思い込み」、はたまた「生半可な経験」に基づいて意思決定してしまうのではなく、とにかくバイアスフリーで科学的なデータに基づいて意思決定しよう、それがデータドリブンという言葉の意味なのではないかと。


ちなみに、上記のWikipediaより引用した箇所の続きとして

EBMはこのように、通常行われている診療行為を科学的な視点で再評価(「批判的吟味」と呼ばれる)した上で、患者の問題を解決する手法と位置づけられ、外部のエビデンス(=科学的根拠)を目の前の患者にどのように適用するかに最も関心がある。

と書かれていますが、これもデータドリブンな意思決定が目指すところとほぼ同じだと思います。例えばこれを下のように書き換えれば分かりやすいかと思います。

データドリブンな意思決定は、通常行われている経営施策・改善提案を科学的な視点で再評価(「批判的吟味」と呼ばれる)した上で、ビジネスの問題を解決する手法と位置づけられ、外部のエビデンス(=科学的根拠)を目の前のビジネスにどのように適用するかに最も関心がある。

大事なことは、データを目の前のビジネスに生かすということですね。


それは、これまでの人による意思決定と何が違うのか?


ぶっちゃけ、大ベテランの「カン」の方が優秀かもしれないと思ってます。笑 いやいや、これジョークでも何でもないんです。弊社の場合、迷ったら社長に相談した方が早い可能性すらあります。何故なら、(特に弊社の場合は)社長が最もキャリアが長く、それだけ暗黙知としての蓄積が分厚いからです。


実際、先日のセミナーの席でも聞かれて答えましたが、僕は「大ベテランの『カン』『読み』とデータ分析の結果とが食い違ったら、まずデータ分析の方を疑え」と思ってます。理由は簡単で、同じデータに対してヒトが学習するか、機械学習アルゴリズムが学習するかの違いしかないからです。


「だったら大ベテランに任せてしまえばいいじゃないか」と思う人もいるでしょう。それはその通りなんですが、実際にその通りにすると大ベテラン不在だと回らないデータ分析体制になってしまいます。つまり、大ベテランが病欠でいなかったり、それこそ退職でもされた日には回らなくなるわけです。こういう属人的な能力に依存するのは、組織としては不健全ですね。


なればこそ、その大ベテランの暗黙知を誰でも使えるように数字なりアルゴリズムなりを使って定式化する。それこそが、「データドリブン」による意思決定の最大の利点なのです。


なら、どうやってそれを広めるべきか?

とはいえ、今はチャンスであることはやはり否定しがたいです。


世の中の注目が集まり、企業トップの視野にも検討に入れない訳にはいかない状況ではあるでしょう。


このとき、この場で、「しっかりと結果を見せる」ことがまず、そしてなにより重要だと思います。


データの大きさや、使っている手法にこだわるのも素敵かもしれません。


いずれにしても、「データに基づく意思決定」を高低ハードルを問わず、メリットをちゃんと伝えたい、と思うんです。

というように冒頭で紹介したブログ記事にもありますが、「しっかりと結果を見せる」ただそれだけだと思います。と言うのは、それこそ上記の「根拠に基づいた医療」(EBM)ですら、それ以前の医師個々人の経験に基づく医療に取って代わるまでに、かなりの時間がかかっています。それは、EBMが結果を見せて人々を納得させ切るのがどれほど大変だったか?ということでもあります。


同じことを、データ分析に関わる人々、特にデータサイエンティストはこれから色々なところでやっていかなければならないのでしょう。何故データドリブンな意思決定が重要で、合理的で、かつ自分たちの利益につながるか?・・・これをどう伝えていくべきか。結果を出してみせるのは勿論のこと、「説得力」のあるデモンストレーションをやってみせるなど、色々方法はあると思います。


とにかく、やるしかないですね。頑張ります。