2 分布関数をもちいた点推定の仮説検定
f-denshi.com  最終更新日: 13/6/14

標本分布のところで説明したように,標本平均X~,不偏分散s2の期待値は,

E(X~)=μ
E(s2)=σ2

であり,母集団の平均値μ,分散σ2に等しい。それ故,これらは点推定(値)と呼ばれる。しかし,実際に標本平均値を母集団から無限回繰り返し採取し,期待値を求めるという作業を行うことはできない。そこで,1回の採取によって得られた1組の標本値x1,x2,・・・,xnから,母数を確率的に推定することが行われる。このページではその中の一つ,点推定値の仮説検定方法について述べる。

(E(X~),E(s2)等を計算機(腕力)を用いて求める方法も重要なテーマですが,このページでは省略します。)

1.正規母集団に基づく平均値と分散の標本統計分析

[1] このページでは,分布関数を用いた点推定とその検定方法について述べる。前ページでは,離散的な確率変数(オスグマ,メスグマ)の場合の仮説検定について述べたが,ここでは,連続変数,または連続変数とみなせる問題に対して,前ページの仮説検定の考え方を拡張する。たとえば,

問題: ジロー君の経営する牧場で養殖するサーモンが出荷可能なサイズμ0 =50cm を超えているかどうかを捕獲した何匹かのサーモンで判定したい。

というような問題を解決したい。サーモンサイズは連続変数であり,牧場全体のサーモン(サイズ)を母集団とすれば,その分布は連続関数,たとえば正規分布などに従って分布している仮定として構わないであろう。

そして,この問題の統計的解決には仮説検定を用いることができる。なお,ジロー君はくっまんす王国の国王であるが,本業はサーモン牧場の経営であり,毎年,150万匹以上のサーモンを輸出しているのだ。

仮説検定とは

仮説検定とは一種の背理法である。通常の背理法では「仮定が正しいとすると矛盾が導かれることを示し,仮定を否定する」のであるが,仮説検定では「仮説を正しいと仮定すると小さな確率α以下でしか起こりないことが実現していることを示し,仮説をほぼ否定する」ということを目指す。統計的仮説検定ともいう。クルト・ゲーデルが聞いたら怒り心頭になりそうな論理だが,凡人にとっては,「それはありえないっしょ!」と一言で片づけられるより有難みある表現手段となっており,多用される。

もっと具体的に述べよう。まず,牧場のサーモンは平均値50.0cmの正規分布を仮定する。その時の分布関数は,標準偏差1.6cmを既知とすれば上図(実線)のようになる。

ジロー君が捕獲した1匹のサーモンがもし,53.0cmであったとする。すると,それは分布において,だいぶ右隅の方に位置していることになる。仮説検定では,このように分布の中心から大きく外れた実現値が出現した場合は,もともとの仮説が間違っていると解釈する。つまり,平均値はそもそも50cmなんかではない!と結論するわけである。さらに,こんなに分布の右端の方にあるからにはサーモンの平均サイズは50cmより大きいに違いないということも推定できるでだろう。

しかしながら,たった1匹だけでは,ジロー君が偶然大きなサーモンを捕獲しただけと考えることもできる。そこで,もっとたくさんのサーモンを捕獲して平均をとった方がより正確な推定ができるに違いないと考えるのは至極当然だ。標本分布のところで学んだように大きさnの標本の分散は,もともとのn分の1になることが統計学的な背景としてある。

先ほどの図にはn=9の標本平均の正規分布を破線で重ね描きしている。もし,捕獲した9匹のサーモンの平均値が53cmとなったならば,そのようなことがこのサーモン牧場で実現する確率は図からほぼ0と考えてよい。したがって,今度こそ,ジロー君のサーモン牧場の平均サーモンサイズは50cmであることは否定され,50cmより大きいことは間違いないと結論付けることができる。これが点推定の仮説検定とよばる統計手法である。

[2] このような手法は一般化されて,次のような手順にまとめることができる。

仮説検定の手順
1.帰無仮説H0対立仮説H1を設定する。
2.推定統計量Tとそれが従う統計分布を選定する。
3.適当な数α(0以上1以下)を有意水準として設定し,推定統計量Tに対する棄却域R(境界=有意点 zα)を定める。
4.標本値を用いて,統計量の実現値 T= z を計算する。
5.zzαを比較して,仮説の棄却が妥当かどうか判定する。

(ただし,統計分布は標準化された分布(統計量)を利用する。)

αの値は危険率とも呼ばれる。その理由は,検定に基づいて仮説が棄却されたときに,その判断が誤りである確率(第1種の誤り[#])がαによって与えられるからである。

一般的には,帰無仮説H0を「平均値μ=μ0」とすれば,棄却域は対立仮説によって次の3種類に分ける。

(1)両側検定 (対立仮説μ≠μ0) :棄却域 R=(-∞,z1-α/2] ∪ [zα/2,+∞)
(2)左側検定 (対立仮説μ<μ0) :棄却域 R=(-∞,z1-α]
(3)右側検定 (対立仮説μ>μ0) :棄却域 R=[zα,+∞)

棄却域が分布のどの位置に設定するかで(1)両側検定,(2)左側検定,(3)右側検定と呼ばれる。下図には対応する密度関数と棄却域の関係を標準正規分布(全面積1)を設定したときの例として示す。左側検定と右側検定とをまとめて片側検定とも呼ばれる。

ここでは,αを右側検定の場合の棄却域,[zα,+∞)と密度関数の囲む面積に等しい(正)として定義しているが,左側検定の棄却域,または,右側検定の採択域,(-∞,z1-α]など採用する文献(数表)やソフトもあるので,注意が必要である[#]

また,片側検定に対応する推定統計量の従う累積分布関数をF(x)=P(X≦x)とすれば,

α=F(x)     左側検定
α≡1−F(x)   右側検定

である。

[3] 正規母集団N(μ,σ2)から無作為抽出されたと考えることができる大きさnの1組の標本値

x1,x2,・・・,xn

を用いて,母集団の母数(平均値,分散)を推定する場合についてまとめると以下のとおりとなる。

- 標本 母数 計算される標本平均,標本分散等 推定統計量
T
標本分布
仮説 情報
(a) N(μ,σ2)から
無作為抽出された
1組の標本値

 x1,x2,・・・,xn
μ=μ0 母分散
既知
σ2
x~
xi
n
x~−μ0
σ/√n
N(0,1)
(b) 母分散
未知
x~
xi
,s2
(xi−x~)2
n n−1
x~−μ0
s/√n
t(n-1)

n〜25以上で,
N(0,1)でもよい
注意  (xi-x~)2 = (n-1)s2=nS2  ⇔  S s
n-1
n
S:標本分散, s:不偏分散

[4] 具体例を通してこれらの検定手順を説明する。

<平均の点推定と検定の具体例>

問題1: ジロー君の養殖するサーモンが出荷可能なサイズμ0 =50cm を超えているかどうかを,9匹の捕獲したサーモンの平均サイズ50.7cmで判定したい。(ただし,標準偏差σを昨年までの実績1.6cmを既知として用いることにする。)

解答: 上表の(a)を用いる。

1.サーモンサイズの母分散σ2=1.62cmを既知として,(母)平均をμ0=50.0cmと推定する。そして,
 帰無仮説:μ=μ0, 対立仮説:μ>μ0 
として検定を行う。
2.統計推定量,
T= X~−μ0    [母分散が既知] 
σ/√n
を考えると,これが標準正規分布に従う[#]ことを利用する。
3.有意水準α=0.10と決める。(下図には0.10以外も示す)
エクセル関数や数値表などを利用して,この統計量の有意点を割り出すと, z0.1=1.282であることがわかる。すなわち,棄却域は,
[1.282,+∞)
と定められる。(エクセル関数では,”=NORM.S.INV(0.90) と入力する。)
4.捕獲した9匹のサーモンサイズを計測したところ,標本平均値は,x~=50.7cmであった。標準偏差1.6cmも用いて,統計量Tを計算すると,
z=(50.7−50.0)/(1.6/√9) =1.3125
5.したがって, 1.2821.3125+∞ と棄却域にあることが判明する。帰無仮説は棄却され,対立仮説μ>50.0cmが採択される。ジロー君はめでたくサーモンを出荷できるということになった。
なお,実際に出荷したところ,サーモンの平均値が実は50cm以下であったという危険率は0.1(10%)以下である,ということも統計的に推定される。
一方,有意水準0.05と定め,危険率を5%以下にしたいならば,有意点は1.645である(上表)ので,帰無仮説は棄却できないことになる。ジロー君は慎重を期すならば,まだ出荷は控えるべきだということになる。



[5] 問題1の設定はやや苦しいところがあった。母平均が分からないのに母分散が分かっているというのはやや無理がある。平均サーモンサイズが40cmのときと60cmのときでは母分散も違ってくるはずでだ。そこで次のような問題を考える方が実用的である。

問題2 もし,問題1でにおいて,母標準偏差σが不明であるならばどうするか?

この場合,標準正規分布を用いた分析はできない。その代り,標本から計算可能な不偏分散sと自由度n-1=8のt分布を用いた統計分析が行われる。不偏分散はサーモン実測値,x1,・・・,x9を用いて,s={(x1−x~)2+・・・+(x9−x~)2}/(9−1)と計算される。

方法

1.サーモンサイズの(母)平均値をμ0=50.0cmと推定する。そして,
帰無仮説:μ=μ0,対立仮説:μ>μ0 
として検定を行う。
2.統計推定量,
T= X~−μ0    [母分散が未知] 
s/√n
を考えると,これが自由度8のt分布に従う[#]ことを利用する。
3.有意水準(右側検定)α=0.10と決める。対応する棄却域は,エクセル関数,T.INV(0.9,8)より,t0.1=1.397とわかるので,
[1.397,+∞)      棄却域
と定められる。 (エクセル関数では分布関数を利用(左側検定)するので,1-α=0.9としてT.INV(0.9,8)を用いる[#]。また自由度は9-1=8である。)
4.捕獲した9匹のサーモンサイズを計測したところ,標本平均 x~=50.7cm,不偏分散2=1.62 であった。統計量Tを計算すると,
T= 50.7-50.0 1.3125    実現値
1.6/√9
5.したがって,t=1.31251.397=t0.1 であり,棄却域には入っていない。したがって,帰無仮説は棄却されない。有意水準0.1で,サーモンサイズの母平均(サーモン牧場全体での平均)が50.0cmより大きいと述べることはできないのである。残念ながらジロー君はもうしばらくサーモンの面倒を見なければならない。

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

- 問題1 問題2
帰無仮説 μ0=50.0
対立仮説 μ>μ0
標本数 9
標本平均 x~ 50.7
不偏分散 s2 1.62
母分散σ2 1.62 不明
分布 標準正規分布 t分布
有意点α=0.1 1.282 1.397
統計量実現値 1.3125 1.3125
検定結果 棄却 採択
問題1と2で異なる結論が導かれた原因は母分散σ2(標準偏差σ)が既知であるか,不明であるかによる。母分散が不明の場合,標本値から計算した不偏分散s2を代用するが,その値が(既知と仮定される場合の)母分散と同一であっても適用される分布が違うため,異なる結論が導かれることを上の例は示している。

同じ標本を用いていながら異なる結論になったことを,感覚的には,母分散の不明な後者の方が情報量が少なくあいまいさが増すため,帰無仮説を否定するための条件が厳しくなり,より極端に外れた統計値が実現しないと棄却できなくなるからであると理解される。
これはt分布と標準正規分とを重ね書きした図⇒[#]を見ると,t分布の裾野の方が広いことからも納得できる。

2.分散の仮説検定

[1] アザラシア帝国にサーモンを輸出するジロー君だが,来年から50cm規制だけでなく,サイズのばらつきも抑えるように要請された。

その基準は標準偏差を2.0cm以下に抑えよということである。パック詰めをした時に箱にきっちりと収納したいらしいが,非関税障壁とも噂されている。現状,9匹のサーモンを捕獲して調べたところ,s2=1.62であるが,ジロー君の牧場からこのまま輸出することは可能であろうか?

このような問題を解決するためには,正規母集団にから選び出した標本分散値が従うカイ二乗分布を用いた仮説検定が利用される。

- 標本 母数 計算される標本平均,分散 推定統計量
T
標本分布
仮説 情報
(c) N(μ,σ2)から
無作為抽出された
1組の標本値

 x1,x2,・・・,xn
σ=σ0 母平均
既知μ
S02
(xiμ)2
n
nS02
σ02
χ2(n)
(d) 母平均
未知
x~
xi
, S2
(xi−x~)2
n n
nS2
σ02
(n-1)s2
σ02
χ2(n-1)
(n-1)s2=nS2
T>χ2α(n−1)  で棄却   右側検定 =統計値はσ0より大きいと判断。
T<χ21-α(n−1) で棄却   左側検定 =統計値はσ0より小さいと判断。
T>χ2α/2(n−1) または,T<χ21-α/2(n−1)  で棄却   統計値はσ0から外れていると判断。

[2] その手順は次のとおりである。

1.サーモンサイズの母分散σ02=1.62cmと推定する。そして,

 帰無仮説:σ=σ0, 対立仮説:σ<σ0 

として左側検定を行う。

2.統計量は,

T= nS2
σ02

を考えると,これが自由度8のカイ二乗分布に従う[#]ことを利用する。 (d)のケース

3.有意水準α=0.10と決める。対応する棄却域は,エクセル関数 ”=CHISQ.INV(0.1,8)より,χ21-α(n−1)=χ20.9(8)=3.4895とわかるので,

( 0, 3.4895 ]      棄却域

と定められる。

4.捕獲した9匹のサーモンサイズを計測したところ,不偏分散2=1.62 であった。統計量Tを計算すると,

T= 8×1.62 = 5.12   実現値
22

5.したがって,χ0.93.4895<5.12=χ0.1 であり,棄却域には入っていない。つまり,対立仮説σ<σ02=1.62cmは採択できない。したがって,シロー君のサーモン牧場は,現在のところアザラシア帝国の新規格を10%以下の危険率で満たしているとは認定できない。

それでは,sがいくつ以下であれば,危険率10%以下で,基準σ<2.0cmをクリアできるのであろうか。それは不等式,

T= 8×s2 <3.4895
22

を解けばよく,

s<1.32 cm

と求まる。この値からは,ジロー君が捕獲した9匹のサーモンを調べて新基準をクリアを確認するためには,かなり余裕をもって小さなs値を得る必要があると感じられる。正規分布に従う場合,統計的なバラツキは「おおきいぞよ」としばしば感じることも多い。


[目次]

全体まとめ

- 標本 母数 計算される標本平均,分散 推定統計量
T
標本分布
仮説 情報
(a) N(μ,σ2)から
無作為抽出された
1組の標本値

 x1,x2,・・・,xn
μ=μ0 母分散
既知σ
2
x~
xi
n
x~−μ0
σ/√n
N(0,1)
(b) 母分散
未知
x~
xi
,s2
(xi−x~)2
n n−1
x~−μ0
s/√n
t(n-1)

n〜25以上で,
N(0,1)でもよい
(c) σ=σ0 母平均
既知μ
S02
(xiμ)2
n
nS02
σ02
χ2(n)
(d) 母平均
未知
x~
xi
, S2
(xi−x~)2
n n
nS2
σ02
χ2(n-1)



連続確率変数の単純仮説検定

帰無仮説H0: θ=θ0
対立仮説H1: θ=θ1