中心極限定理1
f-denshi.com  最終更新日:11/07/06

「復元抽出」を多数回繰り返していくときに得られる標本分布は,抽出もとの母集団の確率(密度)分布とは無関係に,すべてが正規分布に近づいていく。 この事実は「中心極限定理」と呼ばれ,標本統計学の支柱となっている。 ここで,「母集団とは無関係」ということを実感していただくために「くっまんす王国の収入調査」について引き続き考えてみる。

1.つり鐘分布

[1]  くっまんす王国の収入を確率変数と考えたときの母集団の特徴は,

確率変数      X ={1,2,4,5,8}  
母平均      E(X)=4.0
   
母分散      V(X)=6.0
   
母標準偏差    σ0 =√6  (=2.45)
  

であった(復習)。さらに大きさが2である標本について考察を加えた結果,標本平均(値たち)X~の期待値,分散について次のことも確認された。

標本平均の期待値  E(X~)=4.0=E(X) 
標本平均の分散   V(X~)=3.0=V(X)/2
  ← 大きさnの標本では, V(X~)=V(X)/n となる。

標本平均の期待値は母平均と一致するが,標本平均の分散は母分散の2分の1である。また,一般論として,大きさnの標本平均の分散が母分散のn分の1となることもすでに示している[#]

前回はくっまんす王国から2人を抽出したが,さらに抽出人数を3人,4人と増やして考えることも可能だ。その際,くっまんす王国の人口は5人なので,5人までしか抽出できないと考えるのは正しくない。復元抽出法では何人でも好きなだけ人数を選び出すことができる。それまでに誰が選ばれたかに関係なく,毎回全員5人の中から等確率の下で1人を選び出す方法だからだ。したがって,標本平均として次のようにいくらでも大きなnに増やして考えることが許される。

 X~=X  X~= X1+X2   X~= X1+・・・+Xn   X~= X1+・・・+X
2 n

とは言っても,実際に同じ人に10回も20回も電話をかけ,「あんたの収入なんぼや?」と訊いたら喧嘩になるだろうが・・・。 それはさておき,nを大きくしていったときのE(X~),V(X~)の挙動についてはすでに述べたとおりなのだが,標本分布全体の形,つまり,P(X~)はどのように変化していくのであろうか

[2] 下図には抽出人数(確率変数の数)を1人から2,3,16人と増やしていったときの確率分布の変化のようすを示した。 見事な左右対称な「つり鐘型」に近づいていくことがわかるだろう。nが増加するにしたがい分布の幅が狭くなり,平均値の4億円のところに標本値が集中していくことがわかる。ばらつきの目安である標本標準偏差σが,n=16では,n=1の場合の4分1(1/√16)のσ0/4になっていることを反映しているからだ。

標本の大きさ16の場合,「平均収入が8億円」などというヘンな調査結果が得られる確率は,5の16乗分の1となり,これは152587890625分の1,約1500億分の1だ。宇宙ができてから135億年というから,その10倍以上の年数にわたって毎年調査を続けても,やっと1回起きる程度の確率だ。これならフジエダ電子出版が的外れな統計値を算出する可能性はほぼゼロで,恥をかく心配もないといえる。

だが,ジロー君のところには今年,電話が16回かかってきたらしい。かなりの落ち込みようだ。ジロー君はくっまんす王国で収入が一番少ないことを気にしていたのであった・・・・・。
閑話休題

[3] さて,上図についてはもう少し補足説明が必要である。実は,棒グラフの内部の面積に確率の意味を持たせるために,棒グラフの高さ:P(x)×n,棒グラフの幅:1×(1/n)として,確率関数を描き直している。このとき,長方形たちのつくる面積の総和はどの場合も1となっている。このようにすれば,連続確率変数上で定義される確率密度関数との対比がストーレートでわかりやすい。

また,重ね書きしてある滑らかな曲線は,n=1,2,3 および,16のときの正規分布N(4,6/n)である。先程,釣り鐘型と呼んだ分布の正式名称は正規分布という。

くっまんす王国の住民の収入調査では,標本平均のつくる分布はサンプリング数nによって,平均値μ,分散σ02/n を持つ分布となるが,その関数形はnが大きくなるにつれて,平均値μ,分散σ02/nをもつ正規分布に近づいてゆくのである。

図を見れば,n=16でその2つの分布は見分けがつかず,この事実が正しいそうだと認めざるを得ない。とくに,N=∞において,完全に「=」となることは数学的に証明されており,中心極限定理と呼ばれ,標本統計学における最重要定理である。

[4] これから統計学を学ぼうという人ならば,「正規分布」という言葉はすでに名前くらい聞いたことがあるはずだ。正規分布の確率密度関数の定義式は次のように与えられる。

正規分布 N(μ,σ2

f(x)=N(μ,σ2)= 1 exp (x−μ)2
 2πσ2
2

ここで,μはこの分布の平均値,σ2は分散である。 この関数の特徴については大変詳しく調べられているが,下にいくつかのμ,σ2の組み合わせについて具体形を示した。


この記号を使えば,nが大きいとき,標本平均X~が平均値μ,分散σ02/nをもつ正規分布に従うことを,

X~ 〜 N(μ,σ02/n)

と書くことができる。

[5] 正規分布関数と呼ばれることも多いが,これまでの説明からわかるように,この関数と横軸とで囲まれる面積は標本値たちの数に比例しており,正しくは確率密度関数と呼ぶべきものである。なお,統計力学で,標本値たちの数は「微視的状態数」と呼ばれる量に対応しており,この種の関数は状態密度関数という名前がつけられている。

中心極限定理では,標本平均の分布は標本数n=1のときの確率密度関数がどのようなものであれ,n=∞で正規分布の確率密度関数に等しくなるということだが,よくよく考えるとこの問題の設定自体がたいへんわかりにくい。先程のn=16の場合を眺めれば,確かに2つの”関数”のプロフィールが酷似してくることは明らかであるが,n=∞では分散がゼロとなるので,P(X=μ)=1,P(X≠μ)=0のような関数が極限にあると思える。だが,これだけペッチャンコにつぶしてしまって(ピークの高さは無限大)は正規分布を持ち出した意味がない。

実数列であれば,n→∞で特定の実数に近づくとは,その差が0に近づくと考えて問題ない。ところが,2つの関数どおしが近づくということを議論するためには,関数どおしの「近さ」を比較するための基準をきちんと定義してやる必要があるのだが,その定め方は唯一ではない。しかも,その定義によって関数が近づいた先にある収束の姿が違ってしまうことも知られており,初等解析学の範囲を超えた難しい問題なのである。そのようなわけで,この厳密な証明はやや難しく,ルベーグ積分の知識を必要とする。数学的厳密さをもって処理するためにはいろいろと道具立てが必要なのだ。(ルベーグ積分のところでまあまあ厳密な話を書く予定。)

しかし,正規分布については,基本中の基本なので説明しないわけにはいかない。 次回につづく。


[目次]


中心極限定理 (厳密な表現)

X1,X2,・・・ を独立同分布をもつ確率変数の族で,期待値m,分散σ2,3次のモーメントE[Xi3] が有限であるとき,

X1+・・・+Xn−nm
σ n

は,n→∞ において,N(0,1)に従う確率変数に法則収束(弱収束)する。

この内容を理解するためには多くの予備知識が必要であるし,厳密な証明はとっても長い。