統計の落とし穴と蜘蛛の糸
著/三中信宏
第7回 正規分布という王様が誕生する
はじめに
前回の記事では,パラメトリック統計学に歩み入るための“お守り”として「確率変数」と「確率分布」を読者の皆さんにお渡ししました.観察されたデータという限られた情報源から,いかにして未知の母集団の属性を探ることができるのか.ある確率分布に従う確率変数という考え方は,母集団のふるまいをモデル化するためにパラメトリック統計学が提唱する基本方針といえます.
18世紀はじめにジャック・ベルヌーイによって打ち立てられた近代確率論は,偶然性に支配されたできごと(事象)を数学によって記述するという選択肢を研究者に選ばせました.それは同時に,得られた知見を数値化することによって客観性と普遍性をもたせるという知の歴史の大きな流れにも合致していたに違いありません.
前回導入した確率分布という概念にはもっと説明すべきことがらがたくさん残されています.コインやサイコロを投げることだけが確率分布が扱える問題ではありません.もっと普遍的に使えるツールとして確率分布の威力を発現するにはどうすればいいでしょうか.今回はそれについて考えてみましょう.
研究現場から統計学のリクツを見直す
初学者が統計学を学ぶとき,確率変数や確率分布はカリキュラムの最初の方で教えられるのが今でも普通でしょう.しかし,それは必ずしも効果的な順序ではないかもしれません.確率論と統計学は,単に純粋学問的な興味から発展してきたのではなく,例えばサイコロの賭けでいかに効率を上げるか,のような,むしろ具体的な個別問題を契機として積み上げられてきました.そういう個々の問題状況を理解することが統計的思考を身につけるうえでもっとも効果的でしょう.しかし,残念ながら,きれいに磨き上げられて干からびてしまった“数理統計学”からはそういうリアルな現場感覚の痕跡はとどめられていません.
確率統計はいくつ知っていればいいのですか?
後の回であらためて説明しますが,統計学の世界では100を越えるさまざまな確率分布が用いられています.そのなかには,次に説明する正規分布のように,きわめて頻繁に用いられるものもあれば,特殊な用途にのみ使われる確率分布もあります.どの分布を使うにしても私たち統計ユーザーにとって理解しなければならないのは,理論的な確率分布と現実世界との結びつきです.
パラメトリック統計学はたしかに現在では厳密な数学の理論体系として構築されています.しかし,統計ユーザーである私たちに求められているのは,干からびた統計理論をよくわからないまま鵜呑みにすることではなく,むしろそういう理屈がどのような現実的状況のもとで生まれ,発展していったのかという歴史的経緯の理解でしょう.統計ツールのうっかり誤用を避けるためにも,歴史の理解は不可欠だと私は考えます1)2).
正規分布のひそやかな誕生
一つの例として,前回取り上げた二項分布の話を続けましょう.すでに説明したように,二項分布は,たとえばコイン投げ試行に代表される具体的な状況を確率の観点からモデル化したものです.整数値をとる二項分布の確率変数は,コインを投げる回数nと表の出る確率pによって厳密に決定されます.
では,あるpのもとで投げる回数nをどんどん増やしていったら,この二項分布はどのようになるでしょうか.図A〜Cはn=20,100,200と増やしたときの二項分布のグラフです.最初はばらばらの棒グラフの集まりにしかみえなかった二項分布が,回数n が増えるとともに,隣接する棒グラフがつながってしだいになめらかな連続するグラフにみえてきませんか.
ベルヌーイの著書『推測法』(1713)を読んだ数学者アブラハム・ド・モアブル(Abraham De Moivre:1667-1754)は,ベルヌーイの提唱する二項分布の回数nに関する極限分布について考察を重ね,1738年に出版された著書『偶然論』の中でその結果を公表しました.ド・モアブルは二項分布をする確率変数xに関してnが無限大に発散したとき,xの極限分布は
\[ \frac{1}{\sqrt{{2}{\pi}}}\exp \left( - \frac{x^2}{2} \right) \]
という指数関数によって与えられることを証明しました.この指数関数こそ後に正規分布(normal distribution)とよばれることになる確率分布の誕生です.
nの増大とともに二項分布が正規分布に近づいていく様子を見るには,nを無限大まで発散させる必要はありません.図Dを見るとn=200と設定した場合でも二項分布は正規分布によって無理なく近似できることがわかるでしょう.
ド・モアブルはあくまでも二項分布の極限として正規分布の関数を導き出しました.しかし,正規分布の威力は実はもっと強力で,しかももっと広範囲に及ぶことが後の研究によって明らかになりました.その一つは,離散的な数値をとる確率変数から連続的な数値をとる確率変数への確率分布の一般化です.二項分布は整数値の確率変数に限定された確率分布でしたが,正規分布は一般の連続実数値の確率変数にも適用できます.この一般化はさらに一世紀下った19世紀初頭になって確立されました.
正規分布のすこやかな成長
今から15年前の前世紀末1999年のこと,私はドイツの大学都市ゲッティンゲンに仕事で滞在したことがありました.中世の街の面影を残す石畳の旧市街区(アルトシュタット)は,200年前の19世紀はじめに有名な数学者カール・フリードリッヒ・ガウス(Carl Friedrich Gauss:1777-1855)が活躍しました.しかし,ユーロ通貨に切り替わる前のドイツでは,ガウスは単に歴史的人物というだけではありませんでした.というのも,旧ドイツのマルクが流通していたころ,10マルク紙幣にはガウスの肖像とともに,彼が発見した正規分布曲線が描かれていたからです.
すでに説明したように,指数関数の一つである正規分布の関数そのものはド・モアブルによって18世紀前半に導かれていました.彼はあくまでも二項分布の極限形としてそれを導出したのですが,そのままでは普遍的な利用は望めません.これに対して,ガウスが1809年にラテン語で出版した著書『太陽の周りを楕円軌道で公転する天体の運行に関する理論』 において提出された正規分布関数は,もっと一般的に,観測値の誤差のふるまいを記述する数式としての役割を担っていました.
ガウスによる正規分布の理論に衝撃を受けたのは,彼と同時代のピエール-シモン・ラプラス(Pierre-Simon Laplace:1749-1827)でした.ラプラスは,ガウスの正規分布関数を用いることにより,データの総和や平均はデータ数が無限大になれば必ず正規分布をするという定理,すなわち中心極限定理(central limit theorem)を証明しました.さらに,ラプラスは観測データから近似式を計算する最小二乗法(least square method)の前提として正規分布が必要であることも認識していました.
王様の出自は実は庶民だった
このように,18世紀前半から19世紀前半の一世紀の間に,ド・モアブル,ガウス,そしてラプラスらの研究を通じて,その後の理論統計学を制覇することになる正規分布の初期理論はすべて構築されました.賭け事の数理にはじまる確率論と統計学の歴史は,発展しつつあった数学の力を存分に駆使して,現実世界の不確定な現象を数理の観点からアプローチするという新たな展開を見せることになります.そして,誤差関数としての正規分布関数の評価は急速に上がっていきました.
日常生活に密着していたマルク紙幣に正規分布曲線が描かれていたという事実は,ドイツの国民性が厳密な論理を身近に感じていたという点だけではなく,理論統計学のルーツがそもそも日常生活空間のなかにあったのだということを現代の私たちに再認識させてくれます.
では,統計学の理論的基盤として運命づけられた正規分布は,その後いったいどのような発展を遂げることになるのでしょうか.正規分布がもついくつかの強力な性質のおかげで,パラメトリック統計学の理論が数学的体系として構築できたという点は強調すべきでしょう.次回ではこのあたりのことをお話しすることにしましょう.
文献
- 1)Theodore M Porter:The Rise of Statistical Thinking, 1820-1900. Princeton University Press, 1988
- 2)Stephen M Stigler:The History of Statistics: The Measurement of Uncertainty before 1900. Harvard University Press, 1986
統計の落とし穴と蜘蛛の糸 目次
- 第1回 データ解析の第一歩は計算ではない (2017/11/10公開)
- 第2回 データの位置とばらつきを可視化しよう (2017/11/17公開)
- 第3回 データのふるまいをモデル化する (2017/11/24公開)
- 第4回 パラメトリック統計学への登り道① ─ばらつきを数値化する (2017/12/01公開)
- 第5回 パラメトリック統計学への登り道② ―自由度とは何か (2017/12/08公開)
- 第6回 確率変数と確率分布をもって山門をくぐる (2017/12/15公開)
- 第7回 正規分布という王様が誕生する (2017/12/22公開)
- 第8回 ピアソンが築いたパラメトリック統計学の礎石 (2018/01/05公開)
- 第9回 秘宝:確率分布曼荼羅の発見! (2018/01/12公開)
- 第10回 実験計画はお早めに―完全無作為化法 (2018/01/19公開)
- 第11回 正規分布を踏まえたパラメトリック統計学の降臨 (2018/01/26公開)
- 第12回 統計データ解析の地上世界と天空世界 ―連載の総括として (2018/02/02公開)
- 質問コーナー:散布図の幹葉表示の作成方法が一部分理解できません… (2018/02/09公開)