Download Report

確率・統計（電子２年）
第 13 講
• 大数の強法則
• 中心極限定理と区間推定
• 後半模擬テスト配布（次回 7 月 23 日に解説．またその資料を 28 日まで，
http://netm.cse.kyutech.ac.jp/NetLab/ProbabilityTheory/ に置く）
18.大数の強法則（参考書４．２）
X1 , X2 , . . . は（分布は違うかも知れないが）同じ有限な期待値 m を持ち，無
限列として互いに独立な確率変数の列とする．そのような，X1 , X2 , . . . が
1. 同分布の場合（基本）
2. 各分散を σi2 と置き， n→∞
lim
n
1 2
σ < ∞ となる場合
2 k
k=1 k
などの場合に（他にも成り立つ条件はある），
•
n
1
Xi →a.s. m (n → ∞)
n i=1
が成り立つ．
意味：
「試行 X を無限回繰り返し行う実験」を実施すると，ある運命 ω が選択され，そ
れに基づいて定まる {X1 (ω), X2(ω), . . .} という実数列を観測する．
n
1
Xi →a.s. m (n → ∞) とは，
n i=1
• （確率 0 の例外を除く）すべての ω （具体例）において，n 回までの Xi (ω)
n
1
の算術平均
Xi (ω) は，n を増やしていくと真の期待値 m に近づく．も
n i=1
ちろん X の分布の期待値 m が有限であることが前提．
参考）大数の強法則の証明：
• X1 , X2 , . . . が独立・同分布で，かつ４次モーメントが有限（E[Xi4 ] < ∞）の
場合の大数の強法則の証明を以下に示す．なお一般の証明には，ボレルカン
テリの定理などを用いてより精密な議論が必要．
E[Xi ] = μ = 0 と仮定しても一般性を失わない．なぜなら，μ = 0 の場合は，
Xi − μ という確率変数列に適用すればよいから．
1
def
証明のためには，Sn (ω) =
n
i=1
Xi (ω) と置いて，以下の性質を持つ集合 A：
1
ω ∈ A ⇒ lim Sn (ω) = 0 」を見つければよい．まず，
n→∞ n
「P (A) = 1 かつ
n
Sn4 =
4
i=1
n
=
i=1
=
Xi
Xi4 + 6
4!
X1k1 · · · Xnkn
k
!
·
·
·
k
!
1
n
k1 +k2 +···+kn =4
n
i<j
Xi2 Xj2 + · · ·
仮定より，ある正数 M に対して，E 2 [Xi2 ] ≤ M, E[Xi4 ]) ≤ M と置ける．また，
E[Xi ] = 0 および X1 , . . . , Xn の独立性より，E[Xi Xj3 ], E[Xi Xj Xk2 ], E[Xi Xj Xk Xl ]
はすべて 0 になるので，
1
E[ Sn
n
E[
∞ 1
n=1
n
4
⎛
⎛
4
Sn
これより， A = {ω|
⎞
n
n
1 ⎝
M(1 + 3(n − 1))
≤
M
+
6
M⎠ =
4
n i=1
n3
i<j
] =
n=1
∞
E[
n=1
∞ 1
def
⎞
n
n
1 ⎝
4
] =
E[X
]
+
6
E[Xi2 ]E[Xj2 ]⎠
i
n4 i=1
i<j
n
Sn (ω)
4
1
Sn
n
4
]≤M
∞ n=1
3
2
− 3
2
n
n
<∞
< ∞} に対して，P (A) = 1 が言える（※）．
4
1
1
Sn (ω) → 0 (n → ∞), より Sn (ω) → 0 ．
（な
この時，ω ∈ A において，
n
n
ぜなら， x1/4 が連続関数なので）
1
すなわち， Sn →a.s. 0 (n → ∞) を意味する．
n
（※）
：
一般に非負確率変数 Z に対して，
「期待値 E[Z] が有限ならば，確率 1 で Z(ω) も有
def
限値である．
」すなわち，A = {ω|Z(ω) < ∞} と置くと，
E[Z] < ∞ ならば P (A) = 1
念のため証明を示す．
def
def
自然数 m に対して，Am = {ω|Z(ω) ≤ m}, Zm (ω) =
Z(ω) ≥ Zm (ω) より，E[Z] ≥ E[Zm ] = m(1 − P (Am ))．
• ここで，A1 ⊂ A2 ⊂ · · · ⊂ A, かつ A =
• 一方，P (Am ) ≥ 1 −
∞
m=1
m ω ∈ Am
0 ω ∈ Am
Am より， lim P (Am ) = P (A) ．
E[Z]
より， lim P (Am ) ≥ 1 ．
m→∞
m
よって，P (A) = 1．
2
とすれば，
m→∞
大数の強法則と推定量の強一致
• 統計的推定の言葉で言えば，
「標本平均は，強一致推定」
• 実は，
「標本分散及び不偏分散は，強一致推定である」ことも大数の強法則か
ら直接的に示せる．
同じことなので，標本分散 Wn で示す．{Xi |i = 1, 2, . . .} が独立同分布として，
n
1
その期待値と分散を m = E[X1 ], σ 2 = V [X1 ]，標本平均を Mn =
Xj と置く．
n j=1
def
Wn =
n
n
1
1
2
(Xj − Mn ) =
(Xj − m − (Mn − m))2
n j=1
n j=1
=
n
n
1
2
2
(M
(Xj − m) −
(Xj − m) + (Mn − m)2
n − m)
n j=1
n
j=1
=
n
1
(Xj − m)2 − 2(Mn − m)(Mn − m) + (Mn − m)2
n j=1
=
n
1
(Xj − m)2 − (Mn − m)2
n j=1
ここで，大数の強法則より，
•
n
1
(Xj − m)2 →a.s. E[(X1 − m)2 ] = σ 2 ，すなわち
n j=1
def
n
1
(Xj (ω) − m)2 = σ 2 } として，P (I) = 1．
n→∞ n
j=1
– I = {ω| lim
• 同様に，Mn →a.s. E[X1 ] = m ，すなわち
def
– J = {ω| lim Mn (ω) = m} として，P (J) = 1．
n→∞
なので，ω ∈ I ∩ J において，n → ∞ で Wn (ω) → σ 2 かつ P (I ∩ J) = 1．言い
換えると，Wn →a.s. σ 2 ．
例題（ヒストグラム）
確率変数列 X1 , X2 , . . . , Xn が独立で同じ分布 F に従うとする．ある区間 (a, b]
Nn
を固定し，Xi (ω) ∈ (a, b] となった i の合計個数を Nn (ω) とおく時，
を，その
n
区間での出現頻度比と呼び，以下が成り立つ．
Nn
→a.s. F (b) − F (a) = Pr[a < Xi ≤ b] (n → ∞)
n
3
1 {ω|a < Xi (ω) ≤ b}
と置くと，{Yi |i = 1, 2, . . . , n} は，
0 otherwise
独立で同分布である．ここで，Pr[Yi = 1] = F (b)−F (a) より，E[Yi ] = F (b)−F (a)．
n
1
Nn
=
一方，
Yi に大数の強法則を適用すると，右辺は，E[Yi ] へ概収束す
n
n i=1
る．すなわち，
Nn
→a.s. F (b) − F (a)
n
なぜなら，Yi (ω) =
• 確率変数 X（の従う分布）の値域を有限個の区間に分割し，多数回の独立な
X の観測値から各々の区間での出現頻度比を計算したものが「ヒストグラ
ム」である．
例えば，0 ≤ X ≤ L の場合，これを K 個の等間隔の区間：{[0, d], (d, 2d], . . . , ((K−
1)d, Kd = L]} に分割し（ただし d = L/K ），n 回の観測に対する j-番目の区間
((j − 1)d, jd] での出現回数を Nn(j) と書くと，出現頻度比の列がヒストグラムに
なる．
N (K)
N (1) N (2)
{ n , n ,..., n }
n
n
n
（参考）有限離散分布（確率関数）の最尤推定
X が有限離散分布（1, . . . , K のいずれかの値を取る）という前提で，n
def
個の X の観測データ {ξ1 , ξ2 , ..., ξn } から，分布（確率関数）pk = Pr[X =
k] (k = 1, . . . , K) を最尤推定する．
def
実はこれがヒストグラムになる．以下，p = (p1 , p2 , . . . , pK ) と書く．(X1 , . . . , Xn )
が互いに独立なら，その結合確率関数は，
hn (ξ1 , ..., ξn ) =
n
i=1
pξi =
K
(k)
Nn
k=1
pk
def
ただし，Nn(k) = |{i|ξi = k}| （値 k が観測された回数）．よって，対数尤度関数を
L と書くと，
def
L(pp ) = log hn [ξ1 , ..., ξn ] =
K
k=1
Nn(k) log pk ,
K
ただし， 0 < pk < 1，
k=1
pk = 1
簡単のために，Nn(k) ≥ 1 (k = 1, 2, . . . , K) とする．p = (p1 , . . . , pK ) に関す
る制約下での，L(pp) の最大化問題なので，ラグランジェの未定乗数法を用いる．
pk ∈ (0, 1) の開区間で，
def
f (p1 , p2 , . . . , pK , λ) = L(pp) − λ(
k
pk − 1) =
4
K
k=1
Nn(k) log pk − λ(
k
pk − 1)
この時，f (p1 , p2 , . . . , pK , λ) を最大にする，pk > 0, λ > 0 を見つけると，
n
pk = 1 を満たし，かつ，その範囲内で，
k=1
k
Nn(k) log pk を最大化する．
(k)
Nn(k)
∂f
Nn(k)
Nn(k)
(k)
=
0=
=
− λ (∀k) ⇒ Nn = λpk ⇒ n =
Nn = λ, pk =
∂pk
pk
λ
n
k
• 結局，有限離散分布（確率関数）の最尤推定は，
N (k)
pˆk = n ，つまりヒストグラムである．
n
19.中心極限定理（参考書４．４）
確率変数列 {X1 , X2 , . . .} は互いに独立で（分布は異なるかも知れない），各々
が有限な期待値と分散を持つとする．和を
def
Sn (ω) =
n
i=1
Xi (ω)
と置き，Xi の従う分布を Fi (x) と書いて，任意の ε > 0 に対して，以下の条件（リ
ンデベルグ条件）
n
1 V [Sn ] i=1
|x−E[Xi]|≥ε
√
V [Sn ]
x2 Fi (dx) → 0 (n → ∞)
Sn − E[Sn ]
n
n
i=1 E[Xi ]
=
が満される場合，Xi の和である Sn の正規化： n
V [Sn ]
i=1 V [Xi ]
が，平均 0，分散 1 の正規分布 N (0, 1) に法則収束（弱収束）する．つまり，
i=1 Xi
−
(1)
x
1 2
Sn − E[Sn ]
1
√ e− 2 t dt (n → ∞)
≤ x] →
Pr[ −∞
2π
V [Sn ]
これを中心極限定理 (CLT – Central Limit Theorem) と呼ぶ．その意味は，
「互いに独立な多数の（確率的）変動量の和の分布は，個々の分布に因らずに，正
規分布で近似できる」ということであり，
「測定誤差」を始め，自然界の様々な現
象量を正規分布で近似する根拠となっている．
• 特に，X1 , X2 , . . . で互いに独立・同分布で期待値や分散が有限の場合は，自
動的に上の条件式 (1) が満されることが知られている．この時，
E[Xi ] = μ, V [Xi ] = σ 2 ,
E[Sn ] =
n
i=1
E[Xi ] = nμ, V [Sn ] =
5
i = 1, 2, . . .
n
i=1
と置けば，
V [Xi ] = nσ 2
となるので，
Sn − nμ
n → ∞ において， √
の分布は，N (0, 1) に収束：
nσ
x
Sn − nμ
1
t2
√ e− 2 dt
≤ x] →
Pr[ √
nσ
−∞
2π
ただし，Sn =
n
i=1
Xi
2
Sn
sσ
σ
− μ の分布は，N (0, ) に収束：
積分変数変換 t = √ により，
n
n
n
√
√nx/σ
x
1 − t2
n
Sn
ns2
√ e 2 dt =
√
exp − 2 ds
Pr[
− μ ≤ x] →
n
2σ
−∞
−∞
2π
2πσ
s − nμ
また，積分変数変換 t = √
により，Sn の分布は，N (nμ, nσ 2 ) に収束：
nσ
Pr[Sn ≤ x] →
x−nμ
√
nσ
−∞
t2
1
√ e− 2 dt =
2π
x
−∞
1
(s − nμ)2
√
exp −
ds
2nσ 2
2πnσ
大数の法則との関係：
1. 任意のペアが独立で同一有限の期待値 μ と分散 σ 2 を持つ場合，大数の弱法
Sn
σ2
Sn
− μ| ≤ x] = 1 − Pr[| − μ| > x] ≥ 1 − 2 ，となり，誤差
則より， Pr[|
n
n
nx
Sn
| − μ| の分布の粗い評価ができる．
n
2. 特に独立同分布の場合は，
• 大数の強法則より，
Sn
→a.s. μ ．
n
Sn
• その場合に，中心極限定理は，誤差
− μ の分布を直接的に近似
n
Sn
− μ ≤ x] を
する．つまり，n が十分大きい場合に，Pr[
n
√
x
n
ns2
√
exp − 2 ds で近似できる．ただし，たいていの現実の
2σ
−∞
2πσ
場面では，σ は「未知」である．
「中心極限定理」の一般証明には特性関数の収束と分布の弱収束の対応を用いる
が，複素数でのフーリエ変換を用いる特性関数に関して本講義では扱っていない
ので，ここでは省略し，代わりに，具体例をグラフで見て納得してもらう：）
（具
体例毎の個別の証明も簡単ではない）．
• 正規分布に従う確率変数の和
X1 , X2 , . . . が，正規分布 N (μ, σ 2 ) に従う時，Sn は，正規分布：N (nμ, nσ 2 )
に厳密に従う（正規分布の再現性）．
x
(t−nμ)2
1
√
e− 2nσ2 dt
Pr[Sn ≤ x] =
−∞
2πnσ
6
これが，元の分布が正規分布でなくても，近似的に成り立つ．
中心極限定理によって，独立な分布の（多数個の）和として定義でき
る分布の計算において，実際の計算をせずに，正規分布の積分（数値）
計算から近似値を求めることができる．
特に，以下の例にある「二項分布」は，定義に従って「組み合わせの
数 n Ck 」を計算することは，n が大きいと極めて困難であり，正規分布
を用いた近似が利用される場合がある．
• ポアソン分布に従う確率変数の和
X1 , X2 , . . . が，パラメタ λ のポアソン分布に従う時，Sn はパラメタ nλ のポ
アソン分布に従う（ポアソン分布の再現性）．これが，n が大なら正規分布
N (nλ, nλ) で近似可．すなわち，
−nλ
Pr[Sn ≤ m] = e
m
(t−nλ)2
1
nk λk
√
e− 2nλ dt
≈
2πnλ −∞
k=0 k!
m
• コイン投げでの表の出現回数（ベルヌーイ分布の和＝二項分布）
X1 , X2 , . . . が，パラメタ p のベルヌーイ分布に従う（確率 p で表が出るコイ
ン）時，Sn はパラメタ n, p の二項分布に従う（n 回投げて表が出る回数）．
これが，n が大なら正規分布 N (np, np(1 − p)) で近似可．すなわち，
m
1
n!
pk (1 − p)n−k ≈ Pr[Sn ≤ m] =
2πnp(1 − p)
k=0 k!(n − k)!
m
−∞
(t−np)2
− 2np(1−p)
e
dt
• 指数分布に従う確率変数の和
X1 , X2 , . . . Xn が，パラメタ λ の指数分布に従う時，Sn はパラメタ (n, λ/n)
n n
のアーラン分布に従う．これが，n が大なら正規分布 N ( , 2 ) で近似可．す
λ λ
なわち，
λn
Pr[Sn ≤ x] =
(n − 1)!
x
0
n−1 −λt
t
e
dt ≈
1
2πn/λ2
x
−∞
−
e
(t−n/λ)2
2n/λ2
dt
下図（上）は，λ = 0.5 のポアソン分布に従う独立な確率変数８個の和の分布
（つまり，λ = 4 のポアソン分布）が N (4, 4) で近似され，下図 (下）は，λ = 1 の指
数分布に従う独立な確率変数８個の和の分布が N (8, 8) で近似されることを示す．
7
0.4
Poisson(0.5)
Poisson(0.5)*4
Poisson(0.5)*8
N(4,4)
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
2
4
6
0.3
8
10
12
Exp(1)
Exp(1)*4
Exp(1)*8
N(8,8)
0.25
0.2
0.15
0.1
0.05
0
0
5
10
15
20
一様乱数の和による正規分布の近似
X1 , X2 , . . . X12 が，[0, 1] 上の一様分布に従う時，E[S12 ] = 12/2 = 6, V [S12 ] =
S12 − E[S12 ]
= S12 − 6 は，N (0, 1) のよい近似になってい
12/12 = 1 なので， V [S12 ]
る．つまり，一様乱数から近似的に正規分布を発生させることができる．
例
C 言語の標準ライブラリには，
• drand48() という，[0.0, 1.0) の範囲の double 型乱数を返す関数
がある. それを使って，期待値 1，分散 1 の正規分布 N (1, 1) に従う（近似的）double
型乱数を生成するプログラム：
8
#include <math.h>
#include <stdlib.h>
#include <stdio.h>
main() {
int i, j; double s; srand48(99);
for (i=0; i<1000; i++) {
s=0; for (j=0; j<12; j++) { s+=drand48(); }
printf("%f\n", s-5); }
}
20.信頼区間および区間推定
中心極限定理を，統計的推定の立場から応用する．
X の真の平均と分散を，μ, σ 2 として，μ の推定に，n 回の試行 X1 , X2 , . . . , Xn
n
1
def Sn
=
からの標本平均 Mn =
Xi を考える：
n
n i=1
x
t2
1
Mn (ω) − μ
√ exp(− )dt (n → ∞)
√
≤ x} →
Pr {ω|
σ/ n
2
−∞
2π
√
(Mn − μ) n
つまり，
の分布は，n が大ならば，N (0, 1) で近似できる．よって，
σ
任意の c > 0 に対し，
Mn (ω) − μ
√
≤ c} ≈
Pr {ω| − c ≤
σ/ n
c
−c
t2
1
√ exp(− )dt
2
2π
書き換えると，
cσ
cσ
Pr {ω|μ − √ ≤ Mn (ω) ≤ μ + √ } ≈
n
n
c
−c
t2
1
√ exp(− )dt
2
2π
が成り立つ．この右辺の値が，約 95% になるのは c = 1.96 である．なお，右辺
の積分の値を毎回計算するのは大変なので，様々な c の値に対して，
「統計ハンド
ブック」などの標準正規分布数表として与えられている．
cσ
cσ
さて，ここで左辺は， Pr {ω|Mn (ω) − √ ≤ μ ≤ Mn (ω) + √ } とも書ける
n
n
ˆ とし
が，このことから，ある具体的な n 回の試行から得た標本平均の実現値を μ
た時，c = 1.96 を使う場合は，真の平均（期待値）μ が
1.96σ
1.96σ
ˆ+ √
μ
ˆ− √ ≤μ≤μ
n
n
の範囲にある「確度（信頼度）が 95%」と表現する．
しかし，これは「確率」ではない．なぜなら，確率は運命 ω の集合（＝事象）A
に対して P (A) として与えられる．上の例では，μ
ˆ は，ある具体的な１つの運命
9
ω = ω0 における既に出現（確定）した Mn (ω0 ) の値であり，一方，μ や σ は未知
の定数であるので，
1.96σ
1.96σ
ˆ+ √
μ
ˆ− √ ≤μ≤μ
n
n
という「状況」に対応する事象（運命の集合）A が定義できない．
注意すべき点を挙げる．
• n が小さいと，正規分布による近似が成り立たない．ここで述べたような，
n が大きい場合の理論・手法を，大標本理論と呼ぶ．
一方，n が小さい場合には，母分布に何かの仮定を置く必要があり，特に母
分布自体が「正規分布」で近似できる場合などにおいて，小標本理論と呼
ばれる理論・手法が研究されてきた（次講参照）．
• 真の σ を知らないので，真の信頼区間を計算できない．ここでは，不偏（分
散）推定 σ
ˆ 2 を σ 2 の変りに使う．結局，
「未知の期待値 μ」に対して，
– ある n 回の試行から得た標本平均の実現値 μ
ˆ と不偏分散の実現値 σ
ˆ2
1.96ˆ
σ
1.96ˆ
σ
を用いて計算した区間： μ
ˆ − √ ,μ
ˆ+ √
n
n
定の 95% 信頼区間」と呼ぶ．
を「標本平均による μ の推
また，このように区間で推定することを，１つの値として推定する点推定に
対し，区間推定と呼ぶ．
• 「標本平均による推定の 95% 信頼区間」の解釈は以下のようになる．確率変
数 X がある１つの未知の分布（未知の期待値を μ と置く）に従う時に，
– 「n 回の X の発生（試行）」という実験を行う前に，
『「実験結果から計
算する 95% 信頼区間」に真の値 μ が入る「確率」』が 0.95 である．
– しかし，実験を行った後で，
『「実験結果から計算した１つの具体的な信
頼区間」に真の値 μ が入っている「確率」』は定義できない．具体的な
実験結果から導ける「確率」は「検定」と関係する（次講）．
– 一方，
（大数の法則より）そういう「n 回の X の発生（試行）」という実
験自体を何度も繰り返した時に，
『「実験結果から計算した 95% 信頼区
間」に真の値 μ が入っている実験の回数』が，実験全体の回数の 95%
に近づく．
練習コインを 400 回投げて，表が 220 回（裏が 180 回）出た．このコインの「表の出
る確率」を標本平均で推定し，その 95% 信頼区間を求めよ．
10

確率・統計（電子2年）第13講 18.大数の強法則（参考書4．2）

Document 662961

PDF(約1.0MB)

JaDocz.com

確率・統計（電子2年） 第13講 18.大数の強法則（参考書4．2）

Document 662961

PDF(約1.0MB)

JaDocz.com

確率・統計（電子2年）第13講 18.大数の強法則（参考書4．2）