読者です 読者をやめる 読者になる 読者になる

六本木で働くデータサイエンティストのブログ

元祖「銀座で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木

「パラメトリック検定」と「ノンパラメトリック検定」の違いについて出典を明示して書いておく

最近また色々な新刊書で「パラメトリックvs.ノンパラメトリック検定の違い」について正確でない説明を見かけることが増えてきたので、ちょっと出典を明示して備忘録的に書いておこうと思ったのでした。


『自然科学の統計学』(東大出版会)pp.213-219に、仮説検定に対して分布の形が検出力に及ぼす影響について論じた箇所があり、そこからの発展としてパラメトリック検定とノンパラメトリック検定との違いについて述べられています。


自然科学の統計学 (基礎統計学)

自然科学の統計学 (基礎統計学)


以下、同書pp.217-218より抜粋。

7.3.2 ノンパラメトリック検定


誤差分布の形を特定しなくても、それが原点について対称であると仮定できるときは、\theta*1が観測値X_iの分布の中央値になるので、以下のようにして仮説\theta = 0を検定できる。すなわち


(7.33) p=P(X_i \geq 0)


とすると、仮説\theta = 0p=1/2と同等になる。そして


N=\{X_1, \cdots, X_nのうち、X_i \geq 0のものの個数\}


とすると、Nは二項分布Bi(n,p)に従う。したがって、p=1/2のとき


(7.34) P(|N-n/2| \geq c)=\alpha


となるように定数cを定め、|N-n/2| \geq cのとき仮説を棄却することにすれば、有意水準\alphaの検定方式が得られる。


たとえばn=17のとき、二項分布Bi(17,1/2)において


P(N \leq 4) = ({}_{17}C_0 + {}_{17}C_1 + {}_{17}C_2 + {}_{17}C_3 + {}_{17}C_4) / 2^{17}
=(1+17+136+680+2380)/131072 = 3214/131072 = 0.0245


となるから


N \leq 4またはN \geq 13


を棄却域とすれば、有意水準


0.0245 \times 2 = 0.0490


となり、ほぼ有意水準5%の検定方式が得られる。ただし、Nの取り得る値が離散的であるため、(7.34)の左辺が正確に*2\alphaに等しくなるように棄却域を決めることが一般にはできない。


このような検定方式は、分布が対称であればその形に関係なく、仮説が正しいときに仮説を棄てる確率がつねに\alphaになり、正しい結論を与える。このように分布の形に関係なく妥当な結論を与えるような検定方式をノンパラメトリック検定 non-parametric test という。これに対し、t検定のように分布の形について正規分布のような厳密な形を仮定して導かれる検定をパラメトリック検定 parametric test とよぶことがある。上に述べた検定方式はノンパラメトリック検定の一種であるが、観測値の符号のみに注目して結論を導くので一般に符号検定 sign test といわれる。


(太字は原文ママ、ただし上記脚注部の太字のみ原文では圏点)


一応まとめておくと、


というのが教科書通りの定義だということですね。特にノンパラメトリック検定の場合は順位和検定が使われることが多く、順位和が元の標本の分布形状にほとんど依存しない*4ことを利用している手法である、ということも知っておいて損はないと思います。

*1:平均のこと

*2:原典では太字ではなく圏点が振られている

*3:ただし引用箇所の直前でt検定のロバスト性の話をしているので注意を要する

*4:2標本の分布形状が極端に違う場合は問題が生じるらしい。Wikipedia記事を参照のこと→ http://ja.wikipedia.org/wiki/マン・ホイットニーのU検定