8 正規分布
f-denshi.com  最終更新日:11/07/18   (仮)


1.正規分布

[1] 正規分布はガウス分布とも呼ばれるが,この型の分布を最初に統計解析に用いたのはド・モアブルとされている。この分布はx=0に平均を持つ分布の重みが次式に従うことを特徴とする。

  f(x) 〜 e-x2 = 1− 1 ・x2 1 ・x4+・・・+(-1)n 1 ・x2n+・・・
1! 2!  n!

的(マト)に向かって何回も矢を放ち,当たった場所が的から左右どれだけハズレているかその距離xを集計する。すると,経験的に上式に従うことが見出されるということだ。この関数をテーラー展開すると,xの偶数ベキの項がすべて現れる。また,ベキ数が大きくなるほど,その重み係数はベキ数の階乗分の1に比例するようになっている。

この関数に確率の意味を持たせるため,±∞の範囲での積分値が1となるように規格化すれば,

f(x)= 1 e-x2
π

となる。しかし,一意的に関数が定まったのでは,弓の名手とヘタクソとの腕の違いを表現できず,明らかに不都合である。そこで,この関数に適当な左右の広がりを調節するためのパラメータσを,

x → x/√2・σ

として導入する。ここで,「/√2・σ」となっているのは,この確率密度関数にしたがう確率変数の標準偏差がちょうどσとなるための前もっての小細工である。規格化定数も計算しなおせば,

f(x)= 1 exp −x2
 σ
2

となる。

[2] さらに,平均値をゼロでなく任意のμとしたいときは,この関数をx軸に沿って平行移動させればよく,次のようになる。

正規分布 N(μ,σ2の確率密度関数

f(x)= 1 exp −(x−μ)2
 σ
2

これが正規分布と呼ばれる分布の確率密度関数である。この関数の特徴を調べるために,2階まで微分すると,

f'(x)=− (x−μ) exp −(x−μ)2
 σ3
2
f"(x)= 1 (x−μ)2−σ2 exp −(x−μ)2
 σ5
2

つまり,x=μ,±∞でこの関数はf'(x)=0,また,x=μ±σでこの関数はf"(x)=0となるので,

「μで最大値をとり,μ±σに変曲点がある左右対称な裾野を持つ偶関数」

ということができる。分散σ2が小さいと急峻に,大きいとなだらかになることも容易にわかる。しかし,どのようにつぶれようと,トンがろうと,この関数とx軸に囲まれる部分の面積を-∞から+∞にわたって積分すると1となることには変わりはない。

f(x)dx=1  ,または  f(x)dx=1/2

さて,平均値は定義にしたがって計算するまでもなく,

E(X)= xf(x)dx =μ

となる。一方,分散は定義に従って計算すると次のとおりとなる。(演習)

V(X)= (x−μ)2f(x)dx= ・・・ =σ2

先程の小細工がうまく効いて,一般論と整合性の取れた記号μ,σで表されているのだ。

[3] さらに,この関数とx軸とに囲まれた面積の特徴を調べていく。まず, 

y= x−μ
σ

と変数変換すると,積分範囲はkをある定数として,

x: [μ-kσ,μ+kσ]
y: [ -k , k ]

と書き直してよい。特にk=1とした区間μ±σでのf(x)の定積分は,

μ+kσ 1 exp −(x−μ)2 dx= 1 exp −y2 dy≒0.6827
μ−kσ
 σ
2
2

上図(1)に書き込まれている数字は確率変数が平均値 から±σ(標準偏差) の範囲にある面積を表している。同様に,(2)k=2の場合の0.9545とは平均から±2σで囲まれる範囲の面積,(3)k=3の0.9973とは平均から±3σで囲まれる範囲の面積を表している。正規分布と横軸とで囲まれる全面積を100%とすれば,着色した部分の面積は(1)68 .27%,(2)・・・を占めていると言い換えてもよい。

これらは平均値μ,標準偏差σの値に関わらず,つまり,グラフがどれだけトンがっていようが,つぶれていようが常に成り立つ。つまり,弓の名手であろうとヘタクソであろうと,的の左右3σの範囲に99.73%の矢は収まるというのである

[3] 上の計算においては,f(x)の-∞からxまでの積分値が必要だが,残念ながらこれは初等的ではなく,数値計算に頼るしかない。また,この積分は正規分布の累積分布関数F(x)でもある。この関数は次のように変形していくことができる。

  F(x)= x f(x)dx= μ f(x)dx+ x f(x)dx
-∞ -∞ μ
  = 1 μ exp (x−μ)2 dx+ 1 x exp (x−μ)2 dx
σ
-∞ 2
σ
μ 2

ここで,第1項の計算値は1/2,さらに,第2項については誤差関数

erf(x)≡ 2 exp(−u2)du
π

を定義して用いることにすれば,

正規分布の累積分布関数[誤差関数として]
F(x)= 1 1+erf x−μ
2
2 σ

と書くことができる。とはいっても誤差関数に問題を転嫁しただけのようではあるが。




.標準正規分布

[0] 正規分布の中で,特にμ=0,σ=1である分布を標準正規分布という。

標準正規分布 N(0,1)

f(x)≡ 1 exp −x2
 
2

正規分布の定義式にμ=0,σ=1を代入してもよいが,もう少し,一般的な変数変換と見なして議論することとする。定数をa,bとするとき,次の確率変数XからYへの変数変換,

Y=aX+b  ( ここでは,a>0 としておく。)

アフィン変換と呼ぶことにする。このとき,累積分布関数は,

FY(y)=P(Y≦y)=P(aX+b≦y)=P(X≦(y-b)/a)
    =FX((y-b)/a)

のように変換される。これをyで微分すれば,確率密度関数の変換前後の関係,

fY(y)= 1 fX y−b
a a

が得られる。正規分布(μ,σ2)について同様に,Y=aX+bと変換すると,

fX(x)= 1 exp −(x−μ)2
2πσ2  
2

に対して,

fY(y)= 1 exp −(y−(aμ+b))2
2πa2σ2
2a2σ2

となる。すなわち,

確率XがN(μ,σ2)に従うとき,確率変数Y=aX+b は正規分布N(aμ+b,a2σ2)に従う。

と述べることができる。

[1] 特に,Xの平均値E(X)=μ,分散V(X)=σを用いて,a=1/σ,b=−μ/σ,すなわち,

Y= X−μ
σ

と変換した場合は,fY(y)は標準正規分布N(0,1)となる。このとき,E(Y)=0,V(Y)=1であることは自明だが,一般に「平均が0,分散が1」となるように確率変数変換することを標準化という。

[2] 複数個の標準正規分布の確率変数変換に関する有用な定理を一つ紹介する。

定理

X1,・・・,Xnが独立に,標準正規分布N(0,1)にしたがうとき,直交行列Uによる変換,

Y Y1 UXU X1
Y2 X2
: :
Yn Xn

によって得られるY1,・・・,Ynも独立で,それぞれ,N(0,1)にしたがう。

略証

X1,・・・,Xn の同時(確率)密度関数は,各確率変数の確率密度関数を

f(xi)= 1 exp −xi2
 
2

とすると,直交行列による変換によってベクトルの大きさの2乗は不変なので[#],Xiが互いに独立なことに注意して,

f(x1,・・・,xn)≡ f(x1)・・・f(xn)= 1 n exp −(x12+・・・+xn2)
 
2
1 n exp −(y12+・・・+yn2)
 
2
=g(y1)・・・g(yn)

ただし,

g(yi)= 1 exp −yi2
 
2

とYiの確率密度関数の積で表される。これは,Y1,・・・,Ynが独立に標準正規分布N(0,1)にしたがうことを示している。




3.正規分布の再生性

[1] 正規分布の話の最後として,正規分布の再生性について述べたいのだが,その説明,証明に必要となる正規分布の積率母関数の導出を行いたい。

正規分布の積率母関数

M(t)=exp μt+ σ2t2
2

この導出は定義より,

M(t)= etxf(x)dx
1 exp −(x−μ)2 +xt dx
 σ
2

を計算すればよいのだが,ここで,exp( ) の中をxについて平方を完成させると,

exp( ) の中= −1 (x−μ−σ2t)2 1 σ2t2+μt
2 2

となる。したがって,xと無関係な項を積分から外へ出して,

M(t)=exp 1 σ2t2+μt 1 exp −1 (x−μ−σ2t)2 dx
2
 σ
2
  =exp 1 σ2t2+μt
2

ここで,最終行に至る積分は,被積分関数が正規分布N(μ,σ)をx方向にσ2t移動させただけの密度関数なので,±∞にわたって積分すると1となる。

[2] さて,以上の結果を参考にすると,X1,X2 が独立にそれぞれ正規分布N(μ112),N(μ222)に従うとき,母関数はそれぞれ,

MX1(t)=exp(μ1t+(σ12t2)/2)
MX2(t)=exp(μ2t+(σ22t2)/2)

となる。したがって,Y=X1+X2 の母関数はこれらの積で与えられ[#]

MY(t)=MX1(t)MX2(t)
    =exp(μ1t+(σ12t2)/2)・exp(μ2t+(σ22t2)/2)
    =exp((μ1+μ2)t+(σ12+σ22)t2/2)

これは,正規分布 N(μ1+μ2,σ12+σ22) の母関数である。すなわち,

「確率変数X1+X2は正規分布,N(μ1+μ2,σ12+σ22)に従う」  ・・・[*]

このような独立に正規分布に従う2つの確率変数の和も再び正規分布に従うという性質を正規分布の再生性という。この再生性についてきちんと定義しておくと次のとおりとなる。

定義:

確率密度分布の再生性とは,

確率変数X,Yが独立に同一の分布族にしたがうとき,Z=X+Y も同じ分布族に帰属する性質をいう。

ここで,分布族とは:パラメーターが異なる同一型の確率分布の集合をいう。正規分布の場合は様々なパラメーターμ,σ2で表される正規分布N(μ,σ2)のすべてから分布族が構成されている。他には,ポアソン分布,二項分布,ガンマ分布などがこの性質を持っている。

[3] これまでの説明から自明で重要な定理を一つ紹介する。

定理

X1,・・・,Xnが独立に正規分布N(μ,σ2)にしたがうとき,標本平均,

X~= X1+・・・+Xn
n

は正規分布N(μ,σ2/n)に従う。さらに,次の変数変換をおこなえば,

Y~= X~−μ
σ/ n

は標準正規分布N(0,1)に従う。

証明は分布の再生性[*]と分散に関する公式V(aX)=a2V(X) [#] から。


[目次]