渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

95%信頼区間の「95%」の意味

ふと思い立ってこんなアンケートを取ってみたのでした。

結果は物の見事に真っ二つで、95%信頼区間の「95%」を「確率」だと認識している人と、「割合」だと認識している人とが、ほぼ同数になりました。いかに信頼区間という概念が理解しにくい代物であるかが良く分かる気がします。


ということで、種明かしも兼ねて95%信頼区間の「95%」が一体何を意味するのかを適当に文献を引きながら簡単に論じてみようと思います。なお文献の選択とその引用及び解釈には万全を期しているつもりですが、肝心の僕自身が勘違いしている可能性もありますので、何かしら誤りや説明不足の点などありましたらご指摘くださると有難いです。

頻度主義において、95%信頼区間の「95%」は「割合」を指す


例えば『統計学のセンス』2.1節「母平均の推定とその信頼区間」p.12には以下のように書かれています。

統計学のセンスNo.2
----------
95%信頼区間とは


無作為抽出を繰り返し行って95%信頼区間を計算したとき、100回に95回ぐらいは真の平均値μを含んでいる範囲である。いま計算された95%信頼区間に真の平均値μを含む確率が95%という意味ではない。
その確率は1(含んでいる)か0(含んでいない)かのどちらかである。

明記されているように、95%信頼区間の「95%」は「確率ではない」のです。ちなみにこの直前の箇所でn = 20の標本を独立に100回繰り返し抽出したコンピュータシミュレーションの結果について触れられていますが、そこにはこんな記述もあります。

この例では、計算された100個の95%信頼区間に真値μが含まれていた割合は理論値に近い94%であった。逆にいえば、いい加減な標本抽出に基づく標本から計算された平均値、信頼区間が何を意味するのかはまったく不明である。

というように、標本抽出が正しく無作為に行われることの重要性も合わせて指摘されています。『統計学のセンス』の新版第1章は「ランダムさ」に関して論じているので、なればこそ「無作為標本抽出」であることが強調されているのでしょう。言い方を変えると、例えばバイアスのあるサンプリングから得られた信頼区間には意味がないということでもあります。


一方、赤本こと『統計学入門』11.5節「区間推定」における信頼区間の説明として、p.225の下半分には以下のような補遺が付記されています。

なお、同一の母集団から抽出した標本でも、標本ごとに信頼区間の推定値は変化する。θは未知ではあるが決まった定数である。したがって、一つの標本から信頼区間を具体的な数値として推定してやれば、これは信頼区間に含まれるか含まれないかのいずれかしかない。すなわち、具体的に数値として計算した現実の信頼区間に対して、"1 - αの確率でθを含む"ということはない。信頼区間の意味は、繰り返し多くの異なった標本について信頼区間をここで述べた方法によって何回も計算した場合、θを区間内に含むものの割合が1 - αとなるということである。(太字原文ママ

こちらも95%は「割合」だとわざわざ太字で書いています。ということで、教科書的な定義から言えば95%信頼区間の「95%」は「割合」だと捉えるべきだということになります。そして両書に書かれている通り、信頼区間というのは「多数回の無作為抽出で得られた標本から推定するもの」であり、「今目の前で抽出した単一の標本から推定されるものではない」というわけです。


もう少し直感的に分かりやすくニュアンスを与えるならば「95%」というのは文字通り「信頼できる度合いの大小」のことであり*1、標本から推定した「未知の真のパラメータ(母数)が含まれるだろうと信頼して良い範囲」がこれくらい、というように得られるものが95%信頼区間である、とも言えるのでしょう。これはそもそも「母集団の真のパラメータは原則として分からない」という考え方に基づいており、その標本から得られる推定値もまた確率的にある程度ばらつくという前提に沿った考え方なんですね。


ちなみに、マクリン謙一郎さんにこの記事を書くに当たって相談させていただいたところ、「ビッグデータを扱う場合、多数セットの標本を集めても(母集団に対して)似たような標本セットだらけになって逆に信頼区間が著しく狭くなってしまう」という現象が起こり得るらしく、これを解消するために「多数集めた標本セット間でクロスさせてブートストラップリサンプリングすることで適切な幅に信頼区間を広げる」という方法があるそうです。これはランダムフォレストで「互いに無相関な『木』をバギングで作る」のと同じく、汎化性能を向上させようという発想なのだなと個人的には理解しています。


良くある勘違い:「確率」だと思い込む


しかし、統計学における概念だという先入観がなせる技なのか、この95%を「確率」だと受け取る人は世の中かなり多いようです。それは冒頭に引用したアンケートの結果も裏付けているように思われます。仮に確率だと受け取ってしまうと、『統計学のセンス』でも警告されたように「今目の前の単一試行で抽出した標本から推定した95%信頼区間に真のパラメータが含まれる確率は95%」だと解釈することになってしまいます。これは本来の定義とは似て非なる捉え方で、『統計学のセンス』的な言い方をすれば「その標本抽出が万一デタラメだったらそもそも何が得られたのかも分からない」わけです。そうなるとちょっと困った事態になりそうです。


特に、上記のように「バイアスが高過ぎて違うところにバリアンスが低く信頼区間が推定されている」ケースなどでは、そのような誤った解釈だとそもそも再分析しようという発想にも至らないかもしれません。それこそ「信頼区間がこんなに狭いのだから良いことだ」という話にもなりかねません。信頼区間の妥当性とは「あくまでもサンプリングの適切さ」で決まるものだ、ということを理解していないと、まさに過学習してしまうということなんですね。


にもかかわらず、95%信頼区間を「真のパラメータが95%の確率で存在する区間」という説明をしてしまう資料は少なくないです。特にweb上に流布する「初心者向け」「誰でも理解できる」などとうたった統計学の解説記事の中には、明らかに「確率」だと誤解した上で、さらにその誤解の上に別のまた誤解を積み重ねたような説明を加えていっているようなものが少なからず目につきます。そういうイージーな記事を鵜呑みにして後で困ることがないよう、初学者の方々には是非きちんとした統計学の教科書を読んで学んでもらえればと願っています。


頻度主義統計学のややこしさについて


良く言われる話として、「ベイズ統計学は人の直感に近いが、頻度主義統計学はあまり人の直感に沿わない」というのがあります。これは確かに僕も同感という側面があり、例えばベイズ推定でMCMCなどを用いて算出されるパラメータ(母数)の事後分布の「確信区間」(信用区間)は、実際に「確率」を意味するとされます。これに対し、上で見たように頻度主義における信頼区間は基本的には「割合」です。この辺の「非直感的なややこしさ」が頻度主義統計学を難しく感じさせ、時には誤用を生じさせるというのも無理からぬことでしょう。


個人的に問題だと思っているのが、ベイズ統計学の方がより直感的であるにもかかわらず実際の演算などが煩雑で(変分ベイズMCMCなどに頼る必要が往々にしてあるため)、一方で頻度主義統計学の方が非直感的であるにもかかわらず実際の演算は楽であると同時に歴史的経緯を反映して多くの教科書で初歩的(入門的)内容として教えている点にあると思われます。さらに言えば、頻度主義統計学が「初歩」と捉えられているせいで、世の中の多くの統計学の講義・セミナー・スクール・資料・web記事などで「まず最初に頻度主義統計学から教える」ようになっており、いかにも「入門レベルのやさしい統計学」と思わせておきながら、肝腎要の頻度論の考え方は何故かきちんと教えないものが多いのも、尚更問題であるように見えます。


だいぶ前に紹介した「p値や有意性に拘り過ぎるのはやめよう」運動も多分その延長上にあるのでしょう。「p < 0.05でない限り唾棄すべき無意義な結果に堕してしまうのでp-hacking / cherry-picking / HARKingなどなどを駆使して遮二無二p < 0.05を目指そう」という謎の思い込みも、ある程度は頻度主義統計学に対する誤った理解から来ているのではないかと思われます。プロの実験科学の研究者でもこんなものなので、そうでない人たちであれば尚更かもしれません。


故に、このような頻度主義的な定義や理論はたまた考え方を正しく理解しているからこそ「偉い」とか「優秀だ」ということはない、と思っています。しかしながら、その意味を正確に捉えて実際の統計分析に活用する立場からすれば正しく理解しているに越したことはありません。況してや、これを例えば初学者の人たちに教えるというような立場であるなら尚更です。いかに頻度論が分かりにくいといえども、仮にそれを現場の統計分析で用いたりあるいは他人に教えるというように「仕事」に用いているのであれば、その正しい理解を得ておくべきだと個人的には思う次第です。


追記1


この記事を書くに当たって相談させていただいたマクリンさんが、こんなコメントをされていました。

僕が舌足らずだった側面を補足してくださるコメントで、まことに有難い限りです。ただ、マクリンさんのコメントを読んで「もしかしたら自分は無自覚にベイジアン的な捉え方をしているのではないか」とちょっと思いました。というのも、頻度と確率とを分けるべきという考え方*2に直感的に同意した結果この記事を書いたわけですが、これは「相対頻度の極限値」を確率とみなす頻度論の考え方*3とは対立するわけで、何だか無自覚に宗教戦争を煽っている気がしないでもないです(汗)。


追記2


この記事に関連して色々なところで交わされている議論を拝見して、その中で特に注目に値すると思われる内容について引用されていた文献が幾つかあることに気づきました。そこで、2点だけピックアップして補足的に議論してみます。

Wasserman "All of Statistics"における説明


Larry Wassermanの"All of Statistics"の6.3.2節には、信頼区間に関する説明として以下のように書かれています。念のため、当該節から全文引用しておきます。

6.3.2 Confidence Sets

A  1 − \alpha confidence interval for a parameter  \theta is an interval  C_n = (a, b) where  a = a(X_1, \cdots, X_n) and  b = b(X_1, \cdots, X_n) are functions of the data such that


 \mathbb{P}(\theta \in C_n) \geq 1 - \alpha, for all  \theta \in \Theta (6.9)


In words,  (a, b) traps  \theta with probability  1 − \alpha. We call  1 − \alpha the coverage of the confidence interval.


Warning!  C_n is random and  \theta is fixed.


Commonly, people use 95 percent confidence intervals, which corresponds to choosing  \alpha = 0.05. If  \theta is a vector then we use a confidence set (such as a sphere or an ellipse) instead of an interval.


Warning! There is much confusion about how to interpret a confidence interval. A confidence interval is not a probability statement about  \theta since  \theta is a fixed quantity, not a random variable. Some texts interpret confidence intervals as follows: if I repeat the experiment over and over, the interval will contain the parameter 95 percent of the time. This is correct but useless since we rarely repeat the same experiment over and over. A better interpretation is this:

On day 1, you collect data and construct a 95 percent confidence interval for a parameter  \theta_1. On day 2, you collect new data and construct a 95 percent confidence interval for an unrelated parameter  \theta_2. On day 3, you collect new data and construct a 95 percent confidence interval for an unrelated parameter  \theta_3. You continue this way constructing confidence intervals for a sequence of unrelated parameters  \theta_1, \theta_2,... Then 95 percent of your intervals will trap the true parameter value. There is no need to introduce the idea of repeating the same experiment over and over.

6.13 Example. Every day, newspapers report opinion polls. For example, they might say that “83 percent of the population favor arming pilots with guns.” Usually, you will see a statement like “this poll is accurate to within 4 points 95 percent of the time.” They are saying that  83 \pm 4 is a 95 percent confidence interval for the true but unknown proportion p of people who favor arming pilots with guns. If you form a confidence interval this way every day for the rest of your life, 95 percent of your intervals will contain the true parameter. This is true even though you are estimating a different quantity (a different poll question) every day. ■


6.14 Example. The fact that a confidence interval is not a probability statement about  \theta is confusing. Consider this example from Berger and Wolpert (1984). Let  \theta be a fixed, known real number and let  X_1, X_2 be independent random variables such that  \mathbb{P}(X_i = 1) = \mathbb{P}(X_i = -1) = 1/2. Now define  Y_i = \theta + X_i and suppose that you only observe  Y_1 and  Y_2. Define the following “confidence interval” which actually only contains one point:


 C = \left \{ \begin{array}{l}  \{ Y_1 - 1 \} ~ if ~ Y_1 = Y_2 \\ \{ (Y_1 + Y_2) / 2 \} ~ if ~ Y_1 \neq Y_2 \end{array} \right.


You can check that, no matter what  \theta is, we have  \mathbb{P} \theta (\theta \in C) = 3/4 so this is a 75 percent confidence interval. Suppose we now do the experiment and we get  Y_1 = 15 and  Y_2 = 17. Then our 75 percent confidence interval is {16}. However, we are certain that  \theta = 16. If you wanted to make a probability statement about  \theta you would probably say that  \mathbb{P}(\theta \in C | Y_1, Y_2) = 1. There is nothing wrong with saying that {16} is a 75 percent confidence interval. But is it not a probability statement about  \theta. ■


In Chapter 11 we will discuss Bayesian methods in which we treat  \theta as if it were a random variable and we do make probability statements about  \theta. In particular, we will make statements like “the probability that  \theta is in  C_n, given the data, is 95 percent.” However, these Bayesian intervals refer to degree-of-belief probabilities. These Bayesian intervals will not, in general, trap the parameter 95 percent of the time.

(太字箇所原文ママ

頻度的に定義された信頼区間ベイズ統計で与えられる確信区間との違いに言及してこの箇所の説明を締めているのが読み取れます。まとめると、

 1 - \alpha(今回の記事で言えば「95%」)は信頼区間 (a, b)が未知母数 \thetaを捉えられる「確率」だが、これは「信頼区間のカバー範囲」であり、例えば「ある母集団に対して100個の異なる未知母数を推定するために100組の異なる標本を無作為抽出して信頼区間を算出した場合に*4、うち95組が各々の信頼区間の中に未知母数を含む」という頻度論的な説明がされるものであって、未知母数に対して確率的な説明を与えるものではない(そもそも未知母数は確率変数ではない)。これに対して、ベイズ推定では未知母数を確率変数であるかのように扱い、ベイズ確信区間は「未知母数 \thetaをその内側に捉えられる確率は95%」と説明されるものだが、信頼区間とは異なりこれは「確信度的な確率」であり、上記の例で言えば100組中95組が各々の確信区間の中に未知母数を含むとは限らない

ということになるかと思います。これでもまだるっこしいのでもう少し簡潔にすると「どちらも『確率95%』を意味するが、信頼区間の95%は『頻度で定義される信頼区間のカバー範囲』であり未知母数に確率的な説明を与えない一方、ベイズ統計では未知母数を確率的なものとして扱い、ベイズ確信区間の95%は『確信度として未知母数を区間内に捉えられる確率』を表す」(ただし頻度論的なカバー範囲の保証はない)ということなんですね。

竹村『現代数理統計学』における説明


一方、今回の記事に関連して各所で見られた議論の中で多く引用されていた、竹村彰通先生の『現代数理統計学』では以下のように書かれています。

(9.1 区間推定の例)


……以上のように標準誤差を用いて推定量の平均的な誤差の大きさを評価できるが、区間推定ではさらにすすんで未知の母数を含むと考えられる区間を与える。すなわち未知母数を1点で推定するのではなく、区間を用いて推定しようとする考え方である。正規分布の母平均については、 \bar{X}を中心とする" \bar{X} \pm誤差範囲"の形の区間


 (L(X), U(X)) = (\bar{X} - C(X)), \bar{X} + C(X))


で、与えられた \alphaに対し


 P_{\mu, \sigma^2} (L(X) < \mu < U(X)) = P_{\mu, \sigma^2} (\bar{X} - C(X)) < \mu < \bar{X} + C(X)) \\ = 1 - \alpha (9.4)


となる区間 (L(X), U(X))を構成することができる。例えば \alphaを5%とすれば (L(X), U(X))という区間 \muを含む確率が95%となる。(中略)


一般に


 P_{\theta} (L(X) < \theta < U(X)) \geq 1 - \alpha, ~ \forall \theta \in \Theta (9.5)


という性質を持つ区間信頼係数 (confidence coefficient)  1 - \alpha信頼区間 (confidence interval) という。信頼区間を構成することを区間推定 (interval estimation) という。信頼区間においては"確率"という用語を用いないで信頼係数という用語を用いている。これは以下の9.3節で論じるように信頼係数を事後的な確率と解釈することはできないためである。(9.5)式の右辺においては確率を 1 - \alpha以上という不等式で与えているが、これは検定の有意水準の考え方と同様に実際の確率が 1 - \alphaを越えるものも含めて考えるためである。


(9.3節 信頼区間の解釈)


9.1節で述べたように信頼域については


 P_{\theta} (\theta \in S(X)) = 1 - \alpha (9.19)


を「確率」とよばずに「信頼係数」とよんでいる。それは P_{\theta} (\theta \in S(X))を確率と解釈することについて問題があるためである。 P_{\theta} (\theta \in S(X))において確率的に変動するのは S(X)であり S(X)はランダムな集合である。(9.19)式が意味しているのはランダムに発生する集合 S(X)が未知の母数 \thetaを含む確率 (coverage probability) が 1 - \alphaになるということである。これはいわば Xを観測する前の事前の確率であり、特定の X = xが実現したあとに \theta S(x)に含まれる確率を議論することはできない。すなわち \thetaは未知ではあるが固定された値であるから、特定の S(x)を固定すれば、 \theta S(x)に含まれるか含まれないかのいずれかであり、 \theta S(x)に含まれる確率は1か0になってしまう。ただし \thetaが未知であるから1か0のどちらであるかも未知である。従って通常の意味での確率を考えることは意味がないのである。例えば X \sim N(\mu, 1)とするとき Xの実現値 xに基づいて x \pm z_{\alpha / 2}の形の区間を作ったあとで、通常の意味で" \muがこの区間にはいる確率"を考えることはできない。(9.19)式、「 X \pm z_{\alpha / 2}という形の区間を作ることにしたとすると、 Xを観測する前にはこの形の区間 \muを含む確率が 1 - \alphaとなる」ということを述べているにすぎない。(中略)


……通常の信頼域については事後的な確率は未知である。信頼域が母数を含む事後確率の期待値が信頼係数であるから、事後確率についてはっきりした情報がなければ、いわば事後確率の推定値として信頼係数を用いることも合理的であると考えられる。また、同じ信頼係数の信頼域を異なるデータに対して繰り返し構成する場合を考えれば、信頼係数は信頼域が母数を含む比率となるから、1回ごとの繰り返しがお互いに区別できないという前提のもとでは、信頼係数を事後的な確率と考えることも正当化されよう。(中略)


信頼係数の解釈についてはベイズ統計学の立場からの解釈も重要である。実はベイズ統計学の立場にたてば、母数が信頼域に含まれる事後的な確率を明示的に求めることができ、信頼係数を考える必要はない。これは、ベイズ統計学においては、 \thetaは固定された値ではなく確率変数と解釈するからである。ベイズ統計学の考え方については14章で論じている。


(14.2 事前分布と事後分布)


信頼区間について注意すべき点は、ベイズ信頼区間においては母数 pは確率変数であるから、 X = xを観測した条件のもとで信頼区間が母数 pを含む確率を文字通りに解釈できるという点である。これに対して、古典的な信頼区間においては、すでに9.3節で述べたように、信頼区間の信頼係数を事後的な確率と解釈することはできない。このようにベイズ法においては概念的に矛盾のない信頼区間を構成することができる。

(太字原文ママ


重要なポイントは9.3節で、「 P_{\theta} (\theta \in S(X))(例えば「95%」)を確率と解釈することについて問題がある」「これはいわば Xを観測する前の事前の確率であり、特定の X = xが実現したあとに \theta S(x)に含まれる確率を議論することはできない」という説明が全てだと思います。そして「同じ信頼係数の信頼域を異なるデータに対して繰り返し構成する場合を考えれば、信頼係数は信頼域が母数を含む比率となる」ことから、「95%」が「幅」「割合」たり得ることも読み取れます。ただし、同じ箇所で「信頼域が母数を含む事後確率の期待値が信頼係数であるから、事後確率についてはっきりした情報がなければ、いわば事後確率の推定値として信頼係数を用いることも合理的であると考えられる」と述べているように、「95%」を「事後確率の推定値」即ち「確率」として扱うことを全否定しているわけでもないことが分かります。


とは言え、後の14.2節で改めてベイズ信頼区間(確信区間)との対比において「信頼区間の信頼係数を事後的な確率と解釈することはできない」と述べているところを見ると、「『95%』は事前の確率としての意味はあるが事後確率としては扱えない」のが基本姿勢であるということが窺えます。

追記2のまとめ


感想としては、今回の記事に関連した議論のほぼ全てが「何であれ信頼区間を算出したらその中に未知母数が含まれる確率が95%である」という素朴な解釈*5を認めない点には同意していて、どちらかというと「95%という数字をどう解釈するか」「信頼区間の算出に用いる標本の抽出をどう捉えるか」に様々な立場の違いがあるということなのだな、と感じた次第です。その上で以下に追記2を書くに当たって参照した各種資料の説明をまとめると、

  • 「算出された95%信頼区間には、95%の確率で未知母数が含まれる」というように未来の結果が得られるとする素朴な解釈は正しくない
  • 信頼係数「95%」は信頼区間の「幅」を決めるもので、これ自体を変動させることが目的ではない(北川(1948)p.344によれば「信頼区間の選び方の問題というのは、信頼係数の方は指定しておいての議論が多い」)
  • 信頼係数「95%」は具体的な標本が得られる前の段階で定められ、未知母数が含まれると期待される「事前の確率」だが、具体的に特定の標本が得られた後で未知母数が含まれる確率(事後確率)を論じるためには使えない
  • ただし95%を「割合」と呼んで良いかどうかは頻度論の文脈に沿って別の議論が必要である(信頼区間に未知母数が含まれる「比率」でもある)
  • ベイズ確信区間であれば、95%を未知母数が含まれる確率(事後確率)として扱える


ということで、端的に言えば「信頼区間の『95%』は具体的に得られた標本から算出され得る『確率』ではないのは確かだが、かといって『割合』でもなく、たかだか『信頼係数』として信頼区間の幅を決めるために用いられる数値である」というのが穏当な結論になるのかなと思いました。この度議論にお付き合いくださった皆様方、本当に有難うございました。大変に良い勉強になりました。

*1:実際、95%を「信頼係数」と呼ぶ資料や文献もある

*2:ベイズ確率 - Wikipedia

*3:8 確率基礎論 - 社会統計学の伝統とその継承

*4:無限に同じ実験をするのが手続き的頻度主義であるのに対して、異なる実験の頻度を考えるのが経験的頻度主義で、Wassermanは経験的頻度主義に拠っているということをこの節で明確に主張している、とのことらしいです

*5:単純に未来の結果が得られる確率だとみなすという点で