渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

統計学とはそもそも「無作為抽出された少量のデータ」を分析するためのものであった

しばらく前にQuoraにこんなアンサーを書いたことを思い出したので、ついでにリブログ記事として転載の上加筆修正したものを用意してみました。僕にしては珍しくコッテコテの頻度主義的な話題である上に、「p値なんか使うのはやめてしまえ」という記事を以前に書いておきながらこんな議論をするのは自己矛盾かもしれませんが(笑)、これまでの統計学の歴史を紐解くことで、温故知新ということで新たに理解されることもあるのかなと思っています。

小標本のための統計学と、「スチューデント」ことゴセットの話


近代統計学とは、「無作為抽出によって得られた小標本を分析することで、その背後にある母集団の性質を推定する」ために改良が積み重ねられてきた営みです。すなわち、統計学は「少量のデータを扱う学問」そのものだとも言えます。

f:id:TJO:20210222215443p:plain

(Skbkekas - 投稿者自身による作品, CC 表示 3.0, File:Student t pdf.svg (https://commons.wikimedia.org/w/index.php?curid=9546828による))

これはパラメータを様々に変えたt分布確率密度関数を図示したものです。t分布はt検定重回帰分析をはじめ様々な統計分析で用いられる非常に重要な確率分布ですが、よく知られるようにこの分布は有名な正規分布とは微妙に異なります。


そもそも、かつての古典的な統計学においては大数の法則の影響もあって「正規分布に従う大標本(無限に等しい膨大な数のサンプル)を扱うべき」とされていて、例えばある測定値(例えばビール工場における原液中の酵母の数など)の母集団の平均がどのように分布するかを知りたければ、サンプルの平均・標準偏差・歪度・尖度の4つのパラメータを知る必要がありました。


ところが、無限に等しい膨大な数のサンプルなど、当時は到底入手は不可能でした。その頃既に世の中に多くあった工業生産品の工場の実験室でも、普通は10–20個程度のサンプルを取ってくるのが精一杯でした。


小標本(サンプルが2桁程度に限られる)の場合は、サンプルから算出したその4つのパラメータ自体もばらつくことが多々あります。そうなると、今度は4つのパラメータそれぞれが実は入れ子のようにまた同じ4つのパラメータを持つ……これを突き詰め続けるとなれば、もはや何も定まりません。そこで、小標本を扱える統計学の登場が待たれていました。


f:id:TJO:20210222215520p:plain

(User Wujaszek on pl.wikipedia - scanned from Gosset's obituary in Annals of Eugenics, パブリック・ドメイン, File:William Sealy Gosset.jpg (https://commons.wikimedia.org/w/index.php?curid=1173662による))

そこに登場したのが、「スチューデント」ことウィリアム・シーリー・ゴセットです。彼は勤務する英ギネス社の測定データと日夜向き合い、それこそ現在で言うモンテカルロ法の元祖のような手書きの数値実験も行った結果、サンプルサイズ10–20個ぐらいの小標本では、上記の平均と標準偏差の比がある分布に従うということを発見したのでした。世に言う「スチューデントのt分布」です。これにより、分析者たちはサンプルの平均と標準偏差さえ求めれば、簡単に母集団の平均がどう分布するかを知ることができるようになりました。


t分布は自由度をパラメータに持っており、サンプルサイズの大小に合わせて変わることができます。これによって、分析者たちは小標本でもある程度の確実性をもって母集団の平均を推定することができ、ひいてはt検定によって異なる2つの母集団同士の平均の大小を決めることもできるようになったのです。


後の統計学者で、箱ひげ図を発明したジョン・テューキー「t分布が発明されていなければ統計学は滅びゆく運命にあった」とさえ評したそうです。それくらい、t分布の発明は以後の統計学に大きな影響を与えたものでした。小標本を扱えるようになったことで、統計学「机上の空論である大標本など追い求めずとも、無作為抽出さえできれば小標本からでも背後にある森羅万象の本質を追究できる」体系となっていったのです。


しかし、現在ではビッグデータの語に代表されるように、インターネットとコンピュータの発達によって「今この瞬間の地球上に限れば」限りなく全数に近い大規模な調査を簡単に行えるようになりました。そのため、逆に大規模調査が可能な状態でどのようにデータを扱うかを論じる新たな統計学が求められつつあるように、個人的には感じています。一方でどれほど大規模調査が可能になっても「未来のことは分からない」という側面があり、遠い将来のことを想定するならば依然として「(これまでの歴史上測定された値を抽出標本とみなす)小標本のための検定」の存在意義は残り続けるのかもしれません。


ちなみに、ゴセットが何故「スチューデント」と呼ばれるか、について。実は、当時(もしかしたら今も?)ギネス社は機密保持の観点から社員が勤務上知り得た知見に基づいて論文を公刊することを禁じており、苦肉の策としてゴセットは "Student" (一学徒)というペンネームでt分布の発見を含めた多くの論文を公刊していたのでした。後に異常検知指標として名高いホテリングの T^2を編み出したハロルド・ホテリングが直接会った時には、ギネス社に露見することを恐れてか、さながらスパイ映画のような段取りが整えられたそうです。全てが明るみに出たのは、1937年にゴセットが心臓発作で急逝し、その遺稿集を出版しようと彼の友人たちが資金援助を求めてギネス社を訪れた時のことでした。


歴史的経緯の解説は、『統計学を拓いた異才たち―経験則から科学へ進展した一世紀』に拠りました。統計学が現在のような形になっていく過程を仔細に綴った名著ですので、興味のある方は是非ご一読をお薦めします。


補足


ご存知の方も多いでしょうが、オリジナルのスチューデントのt統計量は上記の解説にもあるように以下の式で表されます。

 t = \displaystyle \frac{\bar{x} - \mu_0}{s / \sqrt{n}}

ここで \bar{x}は標本平均、 \mu_0は検定で比較したいターゲットの値、sは標本標準偏差、nはサンプルサイズを表します。自由度のn-1のt分布に従うことから、検定を行うことができます。


なお、現在ではもっと一般化して「互いに分散が異なる対応のない2群の比較」にも使えるウェルチのt検定の方がR実装などを通じて広く普及しています。これは \bar{X},  \bar{Y}を2群それぞれの標本平均、 U_x, U_yを不偏分散、 n_x, n_yをそれぞれのサンプルサイズとして、

 t = \displaystyle \frac{|\bar{X} - \bar{Y}|}{\sqrt{\frac{U_x}{n_x} + \frac{U_y}{n_y}}}

なるt統計量が

 \nu = \displaystyle \frac{(\frac{U_x}{n_x} + \frac{U_y}{n_y})^2}{\frac{U_x^2}{n_x^2(n_x - 1)} + \frac{U_y^2}{n_y^2(n_y - 1)}}

なる自由度のt分布に従う(ただし10未満であれば小数自由度のt分布表を、10以上であれば四捨五入した整数自由度のt分布表を用いる)ことから検定を行うものです。