そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ

データサイエンティストブームが去りつつある一方で、データ分析ブームそのものはじわじわと広がり続けている感じのする昨今ですが。最近また、色々なところで「本当にビジネスやるのに統計学って必要なの？」みたいな話題を聞くことが増えてきたので、何となくざっくりまとめて書いてみました。

ちなみに今回の話題の参考図書を挙げようと思ったら、この辺ですかね。

とある弁当屋の統計技師(データサイエンティスト) ―データ分析のはじめかた―

作者: 石田基広,りんと
出版社/メーカー: 共立出版
発売日: 2013/09/25
メディア: 単行本
この商品を含むブログ (13件) を見る

統計学入門 (基礎統計学)

作者: 東京大学教養学部統計学教室
出版社/メーカー: 東京大学出版会
発売日: 1991/07/09
メディア: 単行本
購入: 158人クリック: 3,604回
この商品を含むブログ (78件) を見る

本当は赤本を読んで欲しいんですが、赤本の6ページ目*1ぐらいから体が拒否反応起こす人も出てくるおそれを感じるので、とりあえず弁当屋本*2から入った方が無難かもですね。。。

統計学的検定は「分からないなら使わない方が無難かも」

あまり統計学に明るくない人ほど、「統計学＝仮説検定」というイメージを抱いていることが多い印象があり、よりによってそういう人ほど仮説検定の考え方が理解できなくて戸惑ってしまうのがもはや鉄板パターンではないかとすら思われます。

赤本には「仮説検定も人間の論証感覚を定式化したもので、ごく自然で理解しやすい」(p.233)と書いてありますが、僕には到底そうは思われないんですよね。これまで色々な人に統計学について教えたりアドバイスしてきた個人的な経験から言うと、むしろ仮説検定のところで理解がこんがらがって、統計学そのものの習得につまずく人の方が多い気がします。

では仮説検定とはそもそも何なんでしょうか？　細かいことはこの記事の最後にまとめてありますが、それはそれとして同じp.233の章頭には、こう書いてあります。

「仮説検定」は、統計的仮説の「有意性」の検定である。仮説の下でわれわれが期待するものと、観測した結果との違いを、これらの差が単に「偶然」によって起ったものか否かという見地から、確率の基準で評価する。

これを読んで「そうだよね」と言える人は大丈夫です。でも、これを読んでもポカーンとしてしまう人にはもう既に仮説検定は無理ゲーではないかと。

そういう無理ゲーな人が頑張ってExcelのttest関数やRを使って統計学的検定をやってみたとしても、その結果をどう解釈すべきか？というところでつまずいてしまうのではないでしょうか。p < 0.05だから良いのか？とか、p < 0.0000001だからもっと良いんだっけ？みたいな、そういう話になってしまうような。

しかもそこで追い打ちをかけるのが、例えば有意ではないという結果になった時にそれが「実際に帰無仮説が真」なのか「単にサンプルサイズが小さくて検出力が足りないだけ」なのか判断せよという問題。前者なら果てしなくサンプルサイズを大きくしても有意にはならないし、後者なら今度は効果量(effect size)*3のことを考えなければいけません*4。

極端な話、「クリエイティブAの方がBより統計的に有意に効果があるけどCTRの増分が0.1%しかない」だったら、はたしてAにかけるコストに見合うかどうか考えざるをえないですよね？

そういったことをある程度理解した上で統計学的検定を使えるならまだしも、p値の高い低いぐらいしか分からないような人が無理に使うのはかえって混乱のもとになるだけかもしれません。ならまぁ、そういう人はやらなくてもいいんじゃないかなぁと。代替手段としてこんな提案を前にもしたことがありますが。

「n日間移動平均」＋「±2σ境界線」をExcelでプロットしてお手軽にKPIの異常値をチェックする（厳密ではないけど） - 銀座で働くデータサイエンティストのブログ

f:id:TJO:20130529170529p:plain

タイトルにもあるように全然厳密ではないんですが、それでもExcelでも簡単にできるし、やろうと思えばその辺のBIツールのカスタマイズでやれなくもないし、良い話だとは思うんですよね。ひとつのソリューションということで。

ぶっちゃけて言えば、統計学的検定についてよく分からない人は「平均値」と「標準偏差（or分散）」が分かれば十分だ*5、とも言えます。それらに拠るだけでも、それなりの結果は得られますので。

でも可能な限り統計学的検定は使うべき

とは言え、統計学的検定の考え方をある程度理解できる人であれば*6、やはり検定は使った方が良いです。それはいつも勉強材料にさせていただいているこちらのブログでも指摘されている通りかと。

統計学的検定に対するある拒絶反応: ニュースの社会科学的な裏側

もちろん、統計学的検定はそれ自体が一種の科学方法論みたいなもので取り扱いが難しいんですが*7、一方で正しく使えば「偶然ではない本当の必然」にたどり着くための良い助けになります。

そしてそれ以上に大きなメリットとして、「毎回データを自分の目で見なくても済む」ということがあります。上に挙げたような「プロットにして目で見て判断」だと全てのデータを見て行かなければいけないわけですが、もし監視するデータが例えば100セットとかあったら大変ですよね（笑）。できればどれもt検定やらカイ二乗検定やら順位和検定やらである程度自動的かつ機械的に判定して「有意に動いたor動かない」だけをインジケータにして見られるようにしておけば、いちいち100個全てのプロットに目を通さなくても良いわけです*8。

多変量解析までは出来ると嬉しいことが多いかも

これまた上記引用ブログ記事でもコメントされていますが、一般にクリエイティブ改善の現場では純然たる二者比較であるA/Bテスト単体よりも、多要素での多測定値間での比較をするケースが結構多いのではないかと思います*9。

そういう場合は、普通に多変量解析（重回帰分析＝正規線形モデルもしくは一般化線形モデル）を用いる方が手っ取り早く、なおかつ確実に統計学的にもっともらしい結果を得やすいことでしょう。特に、多少あいまいでも要素間（クリエイティブ要素の色・文字サイズ・フォントなどなど）でそれなりに「独立」とみなせる状況であれば*10、多変量解析にかけてしまった方が一括で「どのクリエイティブ要素が最も効果的か」を出すことができるので、効率的だともいえるでしょう。

そして、大半の多変量解析は「推定」を行うことができます。どちらかというと「AとBとでどちらが強いか」という二択ではなく、「A・B・C・Dの強さ*11はそれぞれこれくらいある*12」というように量的（定量的）な結果として得られるので、例えば大小関係から優先順位をつけるみたいなこともできます。「推定」の話は例えばこの辺に。

データ分析を「させる（依頼する）」側に最低限知っていて欲しい4つの分析コンセプト - 銀座で働くデータサイエンティストのブログ

f:id:TJO:20131022001936p:plain

f:id:TJO:20131022162952p:plain

こんな感じで、要素間の大小＋その信頼性がいっぺんに手に入るので、ややこしい複数要素間での比較もスッキリと片付けることができます。もちろんそんなに単純にいかないケースも多いのですが、これが出来ることでだいぶこの手の検証作業は効率的になるはずです。

ただし多変量解析から先は専門家に投げた方が無難

とは言え、多変量解析から先の領域は結構複雑です。単なる重回帰分析＝正規線形モデルであればまぁ難しくない方だとは思いますが、これが一般化線形モデルの領域に入ってくると色々ややこしくなります。ややこしくなって僕が勉強し直す羽目になった例がこちら。

「使い分け」ではなく「妥当かどうか」が大事：重回帰分析＆一般化線形モデル選択まわりの再まとめ - 銀座で働くデータサイエンティストのブログ

調べていくうちに、定番の教科書の不備な点まで見つけてしまうという面倒くささ。なので、一般化線形モデルでも割と多用されるロジスティック回帰にしても例えばExcelではもはや普通にはできないし*13、かといってRでコマンドだけ覚えたからといってその結果の解釈も難しくなるわけで*14。ましてや、一般化線形モデルでも追い付かず混合効果モデルとか階層ベイズモデルとか、それこそMCMC サンプラーとか使うようになったらそんなレベルでは済まないという。

さらに、単なる測定データというだけならともかく、マーケティングデータだと社会科学系・ファイナンス系データと同じように、同時性・系列（自己）相関・不均一分散といったデータ系列自体のややこしい特性とも向き合わなければなりません。

そういう領域まで来たら、もう詳しい人に投げてしまった方が無難だと思います。。。もちろん詳しい人が手近にいることが前提ですが（笑）。最近はスポットで相談に乗ってくれるデータ分析コンサルも結構あるので、経費さえ問題でなければ迷わずそういうところに聞いた方が早いかも。

統計学を用いることは、究極的には属人的スキル依存からの脱却につながる

では、改めて「何故ビジネスの現場で統計学を使うのか？」という点について。これは昨年8月の講演会でお話した内容をちょっと改変して書いてみると*15、

統計学はものすごいことを発見すると思われがちだけどそんなことはない。

データさえあれば、誰でも（分析結果を）再現できるようにするのが統計学を用いて分析することのメリットであり、長年のベテランとの知見と照らし合わせて答え合わせができる。

あるいは、まったくの新しいサービスや商品で、今までベテランの暗黙知がない場合には統計学が役立つ。

ということで、ベテランの暗黙知のような属人的スキルに頼らずともデータ分析の結果を再現することができるというのが、統計学を用いるメリットだと僕は思うのです。データが多くてとても人手をかけて全部目視するわけにはいかない状況であったり、長年のベテランが退職してしまって代わりがいないという状況であっても、ベテランの暗黙知と同じ結果を返すような統計学的データ分析が確立していれば、それなりにうまくいくはずなのです。

その統計学の利点がメンバー全員の間で共有されている現場であれば、統計学を用いることには大きなメリットがあるのではないでしょうか。

おまけ：赤本が示す仮説検定の定義

ところで、仮説検定とは一体何なのかという冒頭の問いかけについて。一応赤本pp.233-237から抜粋して紹介しておきます。

有意性検定

推定の考え方は数学的には単純なものであるが、仮説検定も人間の論証感覚を定式化したもので、ごく自然で理解しやすい。

仮説検定 hypothesis testing の目的は、母集団について仮定された命題を、標本にもとづいて、検証することである。たとえば、エンドウ豆の型の度数分布が、理論上の仮説に合致しているかどうかの検証がそれである。

表12.1　エンドウ豆についてのメンデルの有名な実験データ（メンデルの法則）*16

型黄色・丸い黄色・しわがある緑色・丸い緑色・しわがある計

度数 315 101 108 32 556

理論比 9 3 3 1 (16)

度数の比が厳密に9:3:3:1になっていないことはいうまでもない。重要なことは、理論比からのずれが誤差の範囲内か、それ以上の何か意味のあるものか、ということである。後者の場合、統計学では仮説からのずれ（簡単に、仮説）は有意 significant であるという。ここで立てられた仮説を統計的仮説 statistical hypothesis または単に仮説 hypothesis という。したがって、仮説検定とは統計的仮説の有意性の検定 test of significance にほかならない。

有意性は標本が有意なずれを示す確率で表される。すなわち、標本分布がそこで役割を果たす。たとえば、コインを20回投げたときに14回表が出たなら、コインに歪みがないという仮説は支持できるか否か。これを、表の回数 $X$ という標本の確率分布から見よう。これは二項分布 $Bi(20,1/2)$ である。

もし、「歪みがない」という仮説を $p=1/2$ とすると、「コイン」という母集団分布に対する仮説である。もし、仮にこの仮説が正しいなら、表の回数 $X$ について、表12.2の二項分布の計算*17から

$P(X\geq14)=1-0.9423=0.0577$

であるから、 $X=14$ という標本は仮説からすれば、出るはずのないかなりはずれた（ずれが有意な）値である。したがって、 $p=1/2$ という仮説は「誤っている」と判断せざるを得ない。このとき、仮説は棄却 reject される、という。つまり、仮説検定とは、仮説が有意であるか否かに応じて、それを棄却するかあるいは棄却しないかを決定することである。

ここで、0.0577を"稀"と考えたのであるが、一般に、あらかじめどの程度の稀少確率を考えるかにより、有意か否かが変りうる。この基準の確率を有意水準 significance level といい*18、 $\alpha$ で表す。たとえば、 $\alpha=0.1$ と約束するとき0.0577は稀と判断されるが、 $\alpha=0.01$ ならこの確率は"十分に起りうる"、"あってもおかしくない"ということだから、 $X=14$ は有意にずれている、とは考えられない。

帰無仮説と対立仮説

コインを20回投げる実験において、コインに歪みがないという仮説 $p=1/2$ は（たとえば）有意水準 $\alpha=0.1$ 棄却された。

棄却されたことで判断が終るという考え方（フィッシャーの立場）もあるが、 $p$ について何かの積極的判断をしたいならば、あらかじめ、もう一つの仮説を $p \neq 1/2$ と立てておき、（あるいは $p>1/2$ としてもよい）もう一つの仮説が採択 accept されたとしよう。

このとき、もとの仮説 $p=1/2$ を帰無仮説 null hypothesis、これと対立する仮説を対立仮説 alternative hypothesis という。「帰無」は、もと（最初）の仮説が、棄却されるかされないかの判断にさらすために立てられたもので、'無に帰することも予定して'くらいの意味である。深い意味はないので、「帰無」の語を無視しても、後の展開に差し支えない。

帰無仮説と対立仮説は互いに否定の関係にある。それぞれ $H_0, H_1$ 、あるいは $H_1, H2$ と記す。 $H$ はHypothesis（仮説*19）の意味である。ただし、 $p=1/2, p>1/2$ 以外の第三の可能性 $(p<1/2)$ もあるが考慮しないこともあり、否定は完全なものではない。

表12.3　帰無仮説を棄却する、しないの決定に関しての四つの場合

真実　 $H_0$ が正しい $H_0$ が誤り（ $H_1$ 正しい）

$H_0$ を棄却しない（採択する） ① ②

$H_0$ を棄却する ③ ④

①～④の場合が考えられ、①、④は正しいが②、③は誤り。

そのことを別にすれば、一応は、帰無仮説を棄却することは対立仮説を採択することを意味している。帰無仮説を棄却するか、しないかの決定に関しては表12.3の四つの場合が考えられる。いま、「棄却しない」を「採択する」といいかえれば、つぎの二つの誤り、(a)帰無仮説が正しいのに、それを棄却する第一種の誤り error of the first kind、および(b)帰無仮説が誤っているのに、それを採択する第二種の誤り error of the second kind、が考えられる*20。この考え方は、2×2 = 4通りの判断の結果のうち、正しい判断2通り、誤った判断2通りが生じるという一般的なものであるが、表12.4*21のごとく大量生産の品質管理の場面に適用されるほか、刑事訴訟で、無罪を有罪とする誤り、逆に有罪を無罪とする誤りなど、判断の誤りに対する一般的思考基準を与える。

（原文ママ：ただし表12.1の付注・途中の挿絵＆付注・表12.2・表12.4は割愛し、圏点は太字に改めた）