渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか

データサイエンティストブームが去りつつある一方で、データ分析ブームそのものはじわじわと広がり続けている感じのする昨今ですが。最近また、色々なところで「本当にビジネスやるのに統計学って必要なの?」みたいな話題を聞くことが増えてきたので、何となくざっくりまとめて書いてみました。


ちなみに今回の話題の参考図書を挙げようと思ったら、この辺ですかね。


統計学入門 (基礎統計学)

統計学入門 (基礎統計学)


本当は赤本を読んで欲しいんですが、赤本の6ページ目*1ぐらいから体が拒否反応起こす人も出てくるおそれを感じるので、とりあえず弁当屋本*2から入った方が無難かもですね。。。


統計学的検定は「分からないなら使わない方が無難かも」


あまり統計学に明るくない人ほど、「統計学=仮説検定」というイメージを抱いていることが多い印象があり、よりによってそういう人ほど仮説検定の考え方が理解できなくて戸惑ってしまうのがもはや鉄板パターンではないかとすら思われます。


赤本には「仮説検定も人間の論証感覚を定式化したもので、ごく自然で理解しやすい」(p.233)と書いてありますが、僕には到底そうは思われないんですよね。これまで色々な人に統計学について教えたりアドバイスしてきた個人的な経験から言うと、むしろ仮説検定のところで理解がこんがらがって、統計学そのものの習得につまずく人の方が多い気がします。


では仮説検定とはそもそも何なんでしょうか? 細かいことはこの記事の最後にまとめてありますが、それはそれとして同じp.233の章頭には、こう書いてあります。

「仮説検定」は、統計的仮説の「有意性」の検定である。仮説の下でわれわれが期待するものと、観測した結果との違いを、これらの差が単に「偶然」によって起ったものか否かという見地から、確率の基準で評価する。


これを読んで「そうだよね」と言える人は大丈夫です。でも、これを読んでもポカーンとしてしまう人にはもう既に仮説検定は無理ゲーではないかと。


そういう無理ゲーな人が頑張ってExcelのttest関数やRを使って統計学的検定をやってみたとしても、その結果をどう解釈すべきか?というところでつまずいてしまうのではないでしょうか。p < 0.05だから良いのか?とか、p < 0.0000001だからもっと良いんだっけ?みたいな、そういう話になってしまうような。


しかもそこで追い打ちをかけるのが、例えば有意ではないという結果になった時にそれが「実際に帰無仮説が真」なのか「単にサンプルサイズが小さくて検出力が足りないだけ」なのか判断せよという問題。前者なら果てしなくサンプルサイズを大きくしても有意にはならないし、後者なら今度は効果量(effect size)*3のことを考えなければいけません*4


極端な話、「クリエイティブAの方がBより統計的に有意に効果があるけどCTRの増分が0.1%しかない」だったら、はたしてAにかけるコストに見合うかどうか考えざるをえないですよね?


そういったことをある程度理解した上で統計学的検定を使えるならまだしも、p値の高い低いぐらいしか分からないような人が無理に使うのはかえって混乱のもとになるだけかもしれません。ならまぁ、そういう人はやらなくてもいいんじゃないかなぁと。代替手段としてこんな提案を前にもしたことがありますが。

f:id:TJO:20130529170529p:plain


タイトルにもあるように全然厳密ではないんですが、それでもExcelでも簡単にできるし、やろうと思えばその辺のBIツールのカスタマイズでやれなくもないし、良い話だとは思うんですよね。ひとつのソリューションということで。


ぶっちゃけて言えば、統計学的検定についてよく分からない人は「平均値」と「標準偏差(or分散)」が分かれば十分だ*5、とも言えます。それらに拠るだけでも、それなりの結果は得られますので。


でも可能な限り統計学的検定は使うべき


とは言え、統計学的検定の考え方をある程度理解できる人であれば*6、やはり検定は使った方が良いです。それはいつも勉強材料にさせていただいているこちらのブログでも指摘されている通りかと。


もちろん、統計学的検定はそれ自体が一種の科学方法論みたいなもので取り扱いが難しいんですが*7、一方で正しく使えば「偶然ではない本当の必然」にたどり着くための良い助けになります。


そしてそれ以上に大きなメリットとして、「毎回データを自分の目で見なくても済む」ということがあります。上に挙げたような「プロットにして目で見て判断」だと全てのデータを見て行かなければいけないわけですが、もし監視するデータが例えば100セットとかあったら大変ですよね(笑)。できればどれもt検定やらカイ二乗検定やら順位和検定やらである程度自動的かつ機械的に判定して「有意に動いたor動かない」だけをインジケータにして見られるようにしておけば、いちいち100個全てのプロットに目を通さなくても良いわけです*8


多変量解析までは出来ると嬉しいことが多いかも


これまた上記引用ブログ記事でもコメントされていますが、一般にクリエイティブ改善の現場では純然たる二者比較であるA/Bテスト単体よりも、多要素での多測定値間での比較をするケースが結構多いのではないかと思います*9


そういう場合は、普通に多変量解析(重回帰分析=正規線形モデルもしくは一般化線形モデル)を用いる方が手っ取り早く、なおかつ確実に統計学的にもっともらしい結果を得やすいことでしょう。特に、多少あいまいでも要素間(クリエイティブ要素の色・文字サイズ・フォントなどなど)でそれなりに「独立」とみなせる状況であれば*10、多変量解析にかけてしまった方が一括で「どのクリエイティブ要素が最も効果的か」を出すことができるので、効率的だともいえるでしょう。


そして、大半の多変量解析は「推定」を行うことができます。どちらかというと「AとBとでどちらが強いか」という二択ではなく、「A・B・C・Dの強さ*11はそれぞれこれくらいある*12」というように量的(定量的)な結果として得られるので、例えば大小関係から優先順位をつけるみたいなこともできます。「推定」の話は例えばこの辺に。

f:id:TJO:20131022001936p:plain

f:id:TJO:20131022162952p:plain


こんな感じで、要素間の大小+その信頼性がいっぺんに手に入るので、ややこしい複数要素間での比較もスッキリと片付けることができます。もちろんそんなに単純にいかないケースも多いのですが、これが出来ることでだいぶこの手の検証作業は効率的になるはずです。


ただし多変量解析から先は専門家に投げた方が無難


とは言え、多変量解析から先の領域は結構複雑です。単なる重回帰分析=正規線形モデルであればまぁ難しくない方だとは思いますが、これが一般化線形モデルの領域に入ってくると色々ややこしくなります。ややこしくなって僕が勉強し直す羽目になった例がこちら。


調べていくうちに、定番の教科書の不備な点まで見つけてしまうという面倒くささ。なので、一般化線形モデルでも割と多用されるロジスティック回帰にしても例えばExcelではもはや普通にはできないし*13、かといってRでコマンドだけ覚えたからといってその結果の解釈も難しくなるわけで*14。ましてや、一般化線形モデルでも追い付かず混合効果モデルとか階層ベイズモデルとか、それこそMCMCサンプラーとか使うようになったらそんなレベルでは済まないという。


さらに、単なる測定データというだけならともかく、マーケティングデータだと社会科学系・ファイナンス系データと同じように、同時性・系列(自己)相関・不均一分散といったデータ系列自体のややこしい特性とも向き合わなければなりません。


そういう領域まで来たら、もう詳しい人に投げてしまった方が無難だと思います。。。もちろん詳しい人が手近にいることが前提ですが(笑)。最近はスポットで相談に乗ってくれるデータ分析コンサルも結構あるので、経費さえ問題でなければ迷わずそういうところに聞いた方が早いかも。


統計学を用いることは、究極的には属人的スキル依存からの脱却につながる


では、改めて「何故ビジネスの現場で統計学を使うのか?」という点について。これは昨年8月の講演会でお話した内容をちょっと改変して書いてみると*15

統計学はものすごいことを発見すると思われがちだけどそんなことはない。


データさえあれば、誰でも(分析結果を)再現できるようにするのが統計学を用いて分析することのメリットであり、長年のベテランとの知見と照らし合わせて答え合わせができる。


あるいは、まったくの新しいサービスや商品で、今までベテランの暗黙知がない場合には統計学が役立つ。


ということで、ベテランの暗黙知のような属人的スキルに頼らずともデータ分析の結果を再現することができるというのが、統計学を用いるメリットだと僕は思うのです。データが多くてとても人手をかけて全部目視するわけにはいかない状況であったり、長年のベテランが退職してしまって代わりがいないという状況であっても、ベテランの暗黙知と同じ結果を返すような統計学的データ分析が確立していれば、それなりにうまくいくはずなのです。


その統計学の利点がメンバー全員の間で共有されている現場であれば、統計学を用いることには大きなメリットがあるのではないでしょうか。


おまけ:赤本が示す仮説検定の定義


ところで、仮説検定とは一体何なのかという冒頭の問いかけについて。一応赤本pp.233-237から抜粋して紹介しておきます。

有意性検定


推定の考え方は数学的には単純なものであるが、仮説検定も人間の論証感覚を定式化したもので、ごく自然で理解しやすい。


仮説検定 hypothesis testing の目的は、母集団について仮定された命題を、標本にもとづいて、検証することである。たとえば、エンドウ豆の型の度数分布が、理論上の仮説に合致しているかどうかの検証がそれである。

表12.1 エンドウ豆についてのメンデルの有名な実験データ(メンデルの法則)*16

黄色・丸い 黄色・しわがある 緑色・丸い 緑色・しわがある
度数 315 101 108 32 556
理論比 9 3 3 1 (16)


度数の比が厳密に9:3:3:1になっていないことはいうまでもない。重要なことは、理論比からのずれが誤差の範囲内か、それ以上の何か意味のあるものか、ということである。後者の場合、統計学では仮説からのずれ(簡単に、仮説)は有意 significant であるという。ここで立てられた仮説を統計的仮説 statistical hypothesis または単に仮説 hypothesis という。したがって、仮説検定とは統計的仮説の有意性の検定 test of significance にほかならない。


有意性は標本が有意なずれを示す確率で表される。すなわち、標本分布がそこで役割を果たす。たとえば、コインを20回投げたときに14回表が出たなら、コインに歪みがないという仮説は支持できるか否か。これを、表の回数Xという標本の確率分布から見よう。これは二項分布Bi(20,1/2)である。


もし、「歪みがない」という仮説をp=1/2とすると、「コイン」という母集団分布に対する仮説である。もし、仮にこの仮説が正しいなら、表の回数Xについて、表12.2の二項分布の計算*17から


P(X\geq14)=1-0.9423=0.0577


であるから、X=14という標本は仮説からすれば、出るはずのないかなりはずれた(ずれが有意な)値である。したがって、p=1/2という仮説は「誤っている」と判断せざるを得ない。このとき、仮説は棄却 reject される、という。つまり、仮説検定とは、仮説が有意であるか否かに応じて、それを棄却するかあるいは棄却しないかを決定することである。


ここで、0.0577を"稀"と考えたのであるが、一般に、あらかじめどの程度の稀少確率を考えるかにより、有意か否かが変りうる。この基準の確率を有意水準 significance level といい*18\alphaで表す。たとえば、\alpha=0.1と約束するとき0.0577は稀と判断されるが、\alpha=0.01ならこの確率は"十分に起りうる"、"あってもおかしくない"ということだから、X=14有意にずれている、とは考えられない。


帰無仮説と対立仮説


コインを20回投げる実験において、コインに歪みがないという仮説p=1/2は(たとえば)有意水準\alpha=0.1棄却された。


棄却されたことで判断が終るという考え方(フィッシャーの立場)もあるが、pについて何かの積極的判断をしたいならば、あらかじめ、もう一つの仮説をp \neq 1/2と立てておき、(あるいはp>1/2としてもよい)もう一つの仮説が採択 accept されたとしよう。


このとき、もとの仮説p=1/2帰無仮説 null hypothesis、これと対立する仮説を対立仮説 alternative hypothesis という。「帰無」は、もと(最初)の仮説が、棄却されるかされないかの判断にさらすために立てられたもので、'無に帰することも予定して'くらいの意味である。深い意味はないので、「帰無」の語を無視しても、後の展開に差し支えない。


帰無仮説と対立仮説は互いに否定の関係にある。それぞれH_0, H_1、あるいはH_1, H2と記す。HはHypothesis(仮説*19)の意味である。ただし、p=1/2, p>1/2以外の第三の可能性(p<1/2)もあるが考慮しないこともあり、否定は完全なものではない。

表12.3 帰無仮説を棄却する、しないの決定に関しての四つの場合

真実 H_0が正しい H_0が誤り(H_1正しい)
H_0を棄却しない(採択する)
H_0を棄却する


①~④の場合が考えられ、①、④は正しいが②、③は誤り。


そのことを別にすれば、一応は、帰無仮説を棄却することは対立仮説を採択することを意味している。帰無仮説を棄却するか、しないかの決定に関しては表12.3の四つの場合が考えられる。いま、「棄却しない」を「採択する」といいかえれば、つぎの二つの誤り、(a)帰無仮説が正しいのに、それを棄却する第一種の誤り error of the first kind、および(b)帰無仮説が誤っているのに、それを採択する第二種の誤り error of the second kind、が考えられる*20。この考え方は、2×2 = 4通りの判断の結果のうち、正しい判断2通り、誤った判断2通りが生じるという一般的なものであるが、表12.4*21のごとく大量生産の品質管理の場面に適用されるほか、刑事訴訟で、無罪を有罪とする誤り、逆に有罪を無罪とする誤りなど、判断の誤りに対する一般的思考基準を与える。


原文ママ:ただし表12.1の付注・途中の挿絵&付注・表12.2・表12.4は割愛し、圏点は太字に改めた)


これを読んでも分かる通り、またp.233の章頭のコメントにもあるように、仮説検定には統計的判断の論理学、科学方法論という意味合いもあります。そういう点で、仮説検定をただの統計学のツールであるかのように上っ面だけ理解しようとしてもうまくいかない、ということも言えそうです。


最後に


いつもながらで恐縮ですが、おかしなところがあったらどしどしご指摘くださいー。ただし「もっと赤本真面目に引用しろ」だけはご勘弁を。。。ってか赤本買って読んで下さい(笑)。

*1:ここから早速Σが出始めます(笑)

*2:そう言えば職場の図書コーナーに置いといたら行方不明に。。。

*3:@さんの記事とか参考になるかと→ http://smrmkt.hatenablog.jp/entry/2013/08/11/095608

*4:効果量が大きければそれほどサンプルサイズが大きくなくても有意になるわけで、そうでないなら効果量が小さいということ

*5:もう少し譲歩して相関係数とかも入るかなー。でも偏相関を理解してないとやっぱり危ない、という側面も。。。

*6:専門家並みの厳密な理解でなくとも良いの意

*7:記事の最後を参照のこと

*8:多重比較の問題も生じますが、それはまた別に対策を取るということで

*9:と書いたところで多腕バンディットを思い出した人もいるかと思いますが、その話題はまたそのうち別に。。。

*10:つまり多重共線性が弱いという前提を置いても大丈夫そうな場合

*11:偏回帰係数のつもり

*12:ついでに書くと信頼区間も出せる

*13:最尤法でしか解けない上に解析的には解けず、ニュートン=ラフソン法などの数値解析による求解が必須になるため

*14:例えばオッズ比をどう扱うかというレベルでもそれなりに細かい知識が要る

*15:単に「データサイエンティスト」の語を「統計学」に変えただけ(笑)

*16:現在ではほぼメンデルによるデータ改竄ではないかと言われてますが。。。

*17:この表の引用は割愛しました、すみません

*18:原注:「危険率」という語も用いられるが、理論上は「有意水準」の方がよい

*19:原注:「仮設」というあて字もある。'仮に設ける'の意なら、全く誤った語とはいえないであろう

*20:この辺から「検出力」の考え方につながっていくわけですが、それは赤本ではなく青本の範囲なのでここでは割愛

*21:この表の引用も割愛しました。品質管理のための抜取検査における第一種の誤りを生産者のリスク producer's risk、第二種の誤りを消費者のリスク consumer's riskと呼ぶ旨紹介しています