5 標本分布  
f-denshi.com  最終更新日:11/06/25

1.標本分布

[1] 前ページまでの議論は集合全体についての情報を既知として,その平均や分散などの統計的な量を算出している。いわば神の目を持つことを前提としている。しかし,集合全体の情報すべてを完全に手に入れることが難しい場合や原理的に入手すること自体が不可能な場合も多い。と言うより,むしろ,統計学の存在価値はそのような場合のためにある。

一つのサンプルに対する測定を考えてみても,例えば,地球の重力定数はある実数値として,真値や有効桁数(量子論からの限界)が存在することに間違いはないだろうが,そのために必要な実験精度の向上や必要な測定回数は,おそらく永遠に人間の手には負えないだろう。現実的には有限回の測定値を加算平均するなどして,せいぜい10桁くらいの数値を算出してよしとするしかないのである。つまり,30回計測してそれらの平均をとった場合,無限個存在するであろう計測値の中からたった30個だけを選び出し,その平均を取り,それがどの程度の誤差を含むものか評価するという対応しかとれないのである。

その処理を数学的に正しく行うためには,集合全体から一部分を選び出して調べる標本統計調査の手法を理解することが必要である。統計学では対象の全体を母集団,選び出した一部分を標本と呼ぶ。集合の全体に対する統計量なのか,その一部分に対応するものかを明確に区別,強調したいときは,母集団に対する平均値(期待値),分散に対しては,母平均母分散などのように母-を頭につけて呼ぶことにする。

[2] 独立に同一の確率分布に従うn個の確率変数,(X1,・・・,Xn)を大きさnの標本という。たとえば,ある物体の重量を30回測定すれば,そのデータの集まりは大きさ30の標本である。また,その加算平均から作られる新しい確率変数,

X~= X1+・・・+Xn    標本平均
n

大きさnの標本平均と定義する。ここで,注意しておくべきことは,X~は確率変数であっていろいろな値を取るということである。具体的にX1=x1,X2=x2,・・・,Xn=xn の値をとるとき,(x1,x2,・・・,xn ) をX~の標本値とか(標本)実現値と呼ぶ。そして,各標本値に対応して,標本平均値を考えることができる。ただし,この「値」を付けるか付けないかの区別は必ずしも厳格ではなく,「値」を省略することも多い。

* X~は,ふつう教科書では X と表記されるが,web上でこの表記は煩雑なのでここでは用いない。

この定義の下で,標本平均X~の期待値,分散と母平均μ,母分散σ2との関係は,

E(X~)= μ =E(X)
V(X~)=σ2/n=V(X)/n

で与えられる。

証明は簡単で,公式1[#],公式2[#] を用いて,

E(X~)=E((X1+・・・+Xn)/n)
   =E((X1)/n+・・・+E(Xn)/n)
   =μ/n+・・・+μ/n
   =μ    標本平均の期待値
V(X~)=V((X1+・・・+Xn)/n)
   =V((X1)/n2+・・・+V(Xn)/n2)
   =σ2/n  標本平均の分散

このように標本平均の期待値E(X~)は母集団の期待値E(X)=μと一致する。また,標本平均の分散はV(X~)は母分散σ2に比べてn分の1となる。つまり,母集団からとってくるサンプル数である標本の大きさnを増やせば増やすほど,その標本値(実現値)たちは母平均の値近くに密集してくるということである。

[3] 標本分散は次のように定義する。先の「標本平均の分散」と混同しないよう注意すべし。

  S2 (X1−X~)2+・・・(Xn−X~)2    標本分散
n

標本分散S2は確率変数である。標本分散も各標本値,Xi=xi に対して,標本分散(値)を考えることができる。(この場合,(値)はつけないことが普通) また,母平均値μが既知の場合は,X~の変わりにμを用いて,

S02 (X1−μ)2+・・・(Xn−μ)2
n

を定義して用いることもある。標本分散の期待値と母分散の間には次の関係が成り立つ。

E(S2)= n−1 σ2
n

したがって,nが十分大きいときに限って,標本分散の期待値は母分散σ2に近づく。

証明は,

 nS2=(X1−X~)2+・・・(Xn−X~)2
  =(X12+・・・Xn2)−2(X1+・・・+Xn)X~+nX~2
  =(X12+・・・Xn2)−nX~2
     ∵ X1+・・・+Xn=nX~

ここで,

E(X2)=V(X)+E(X)2  =σ2+μ2
E(X~2)=V(X~)+E(X~)2=σ2/n+μ2

を用いて,nS2の期待値を計算すると,

 E(nS2)=E(X12+・・・+Xn2)−nE(X~2)
   ={E(X12)+・・・+E(Xn2)}−n(σ2/n+μ2)
   ={(σ2+μ2)+・・・+(σ2+μ2)}−n(σ2/n+μ2)
   =(n−1)σ2

∴  E(S2)= n−1 σ2
n

[4] 一方,証明抜きで,

V(S2)= (n−1)2 α~4 n−3 σ4
n3 n−1
ただし,α~4=E((X−E(X~))4)

については示しておく。計算練習。

[5] 標本分散の変わりに,不偏分散を次のように定義して用いることも多い。

s2 (X1−X~)2+・・・(Xn−X~)2
n−1

標本分散で,nで割るところを(n-1)で割っている。この統計量が不偏分散と呼ばれる理由は,

E(s2)=σ2

が成り立つためである。つまり,不偏分散の期待値はnの値に関わらず,母分散と一致する。この関係は,

 (n−1)E(s2)=E((n−1)s2)=E(nS2)=(n−1)σ2 

からすぐに示される。したがって,nが小さなときは不偏分散の期待値の方が母分散σに正しく対応しており統計量として適当であると考えることもできる。

(教科書によっては,不偏分散を標本分散と呼んでこれだけ用いることもある。)

このような関係の理由は,荒っぽく言えば,独立なn個の確率変数 X1,・・・,Xn から作られるn個の確率変数 (X1−X~)2,・・・,(Xn−X~)2 の自由度はn−1,なぜならば,

 (X1−X~)+・・・(Xn−X~)=(X1+・・・+Xn)−nX~=0

なる条件が付いているから。このあたりの事情はカイ自乗分布のところでも話題となるが,その際,もう少し厳密な取り扱いをする。

まとめ

標本から作られる分散の定義 (3種類ある)
S2 (X1−X~)2+・・・(Xn−X~)2   [標本分散]
n
s2 (X1−X~)2+・・・(Xn−X~)2   [不偏分散]
n−1
S02 (X1−μ)2+・・・(Xn−μ)2  [  ?  ]
n

統計学ではこれら3つの量が未知な母分散σの代役として活躍することになる。


[目次]