確率・統計(電子2年) 第13講 18.大数の強法則(参考書4.2)

確率・統計(電子2年)
第 13 講
• 大数の強法則
• 中心極限定理と区間推定
• 後半模擬テスト配布(次回 7 月 23 日に解説.またその資料を 28 日まで,
http://netm.cse.kyutech.ac.jp/NetLab/ProbabilityTheory/ に置く)
18.大数の強法則(参考書4.2)
X1 , X2 , . . . は(分布は違うかも知れないが)同じ有限な期待値 m を持ち,無
限列として互いに独立な確率変数の列とする.そのような,X1 , X2 , . . . が
1. 同分布の場合(基本)
2. 各分散を σi2 と置き, n→∞
lim
n
1 2
σ < ∞ となる場合
2 k
k=1 k
などの場合に(他にも成り立つ条件はある),
•
n
1
Xi →a.s. m (n → ∞)
n i=1
が成り立つ.
意味:
「試行 X を無限回繰り返し行う実験」を実施すると,ある運命 ω が選択され,そ
れに基づいて定まる {X1 (ω), X2(ω), . . .} という実数列を観測する.
n
1
Xi →a.s. m (n → ∞) とは,
n i=1
• (確率 0 の例外を除く)すべての ω (具体例)において,n 回までの Xi (ω)
n
1
の算術平均
Xi (ω) は,n を増やしていくと真の期待値 m に近づく.も
n i=1
ちろん X の分布の期待値 m が有限であることが前提.
参考)大数の強法則の証明:
• X1 , X2 , . . . が独立・同分布で,かつ4次モーメントが有限(E[Xi4 ] < ∞)の
場合の大数の強法則の証明を以下に示す.なお一般の証明には,ボレルカン
テリの定理などを用いてより精密な議論が必要.
E[Xi ] = μ = 0 と仮定しても一般性を失わない.なぜなら,μ = 0 の場合は,
Xi − μ という確率変数列に適用すればよいから.
1
def
証明のためには,Sn (ω) =
n
i=1
Xi (ω) と置いて,以下の性質を持つ集合 A:
1
ω ∈ A ⇒ lim Sn (ω) = 0 」を見つければよい.まず,
n→∞ n
「P (A) = 1 かつ
n
Sn4 =
4
i=1
n
=
i=1
=
Xi
Xi4 + 6
4!
X1k1 · · · Xnkn
k
!
·
·
·
k
!
1
n
k1 +k2 +···+kn =4
n
i<j
Xi2 Xj2 + · · ·
仮定より,ある正数 M に対して,E 2 [Xi2 ] ≤ M, E[Xi4 ]) ≤ M と置ける.また,
E[Xi ] = 0 および X1 , . . . , Xn の独立性より,E[Xi Xj3 ], E[Xi Xj Xk2 ], E[Xi Xj Xk Xl ]
はすべて 0 になるので,
1
E[ Sn
n
E[
∞ 1
n=1
n
4
⎛
⎛
4
Sn
これより, A = {ω|
⎞
n
n
1 ⎝
M(1 + 3(n − 1))
≤
M
+
6
M⎠ =
4
n i=1
n3
i<j
] =
n=1
∞
E[
n=1
∞ 1
def
⎞
n
n
1 ⎝
4
] =
E[X
]
+
6
E[Xi2 ]E[Xj2 ]⎠
i
n4 i=1
i<j
n
Sn (ω)
4
1
Sn
n
4
]≤M
∞ n=1
3
2
− 3
2
n
n
<∞
< ∞} に対して,P (A) = 1 が言える(※).
4
1
1
Sn (ω) → 0 (n → ∞), より Sn (ω) → 0 .
(な
この時,ω ∈ A において,
n
n
ぜなら, x1/4 が連続関数なので)
1
すなわち, Sn →a.s. 0 (n → ∞) を意味する.
n
(※)
:
一般に非負確率変数 Z に対して,
「期待値 E[Z] が有限ならば,確率 1 で Z(ω) も有
def
限値である.
」すなわち,A = {ω|Z(ω) < ∞} と置くと,
E[Z] < ∞ ならば P (A) = 1
念のため証明を示す.
def
def
自然数 m に対して,Am = {ω|Z(ω) ≤ m}, Zm (ω) =
Z(ω) ≥ Zm (ω) より,E[Z] ≥ E[Zm ] = m(1 − P (Am )).
• ここで,A1 ⊂ A2 ⊂ · · · ⊂ A, かつ A =
• 一方,P (Am ) ≥ 1 −
∞
m=1
m ω ∈ Am
0 ω ∈ Am
Am より, lim P (Am ) = P (A) .
E[Z]
より, lim P (Am ) ≥ 1 .
m→∞
m
よって,P (A) = 1.
2
とすれば,
m→∞
大数の強法則と推定量の強一致
• 統計的推定の言葉で言えば,
「標本平均は,強一致推定」
• 実は,
「標本分散及び不偏分散は,強一致推定である」ことも大数の強法則か
ら直接的に示せる.
同じことなので,標本分散 Wn で示す.{Xi |i = 1, 2, . . .} が独立同分布として,
n
1
その期待値と分散を m = E[X1 ], σ 2 = V [X1 ],標本平均を Mn =
Xj と置く.
n j=1
def
Wn =
n
n
1
1
2
(Xj − Mn ) =
(Xj − m − (Mn − m))2
n j=1
n j=1
=
n
n
1
2
2
(M
(Xj − m) −
(Xj − m) + (Mn − m)2
n − m)
n j=1
n
j=1
=
n
1
(Xj − m)2 − 2(Mn − m)(Mn − m) + (Mn − m)2
n j=1
=
n
1
(Xj − m)2 − (Mn − m)2
n j=1
ここで,大数の強法則より,
•
n
1
(Xj − m)2 →a.s. E[(X1 − m)2 ] = σ 2 ,すなわち
n j=1
def
n
1
(Xj (ω) − m)2 = σ 2 } として,P (I) = 1.
n→∞ n
j=1
– I = {ω| lim
• 同様に,Mn →a.s. E[X1 ] = m ,すなわち
def
– J = {ω| lim Mn (ω) = m} として,P (J) = 1.
n→∞
なので,ω ∈ I ∩ J において,n → ∞ で Wn (ω) → σ 2 かつ P (I ∩ J) = 1.言い
換えると,Wn →a.s. σ 2 .
例題(ヒストグラム)
確率変数列 X1 , X2 , . . . , Xn が 独立で同じ分布 F に従うとする.ある区間 (a, b]
Nn
を固定し,Xi (ω) ∈ (a, b] となった i の合計個数を Nn (ω) とおく時,
を,その
n
区間での出現頻度比と呼び,以下が成り立つ.
Nn
→a.s. F (b) − F (a) = Pr[a < Xi ≤ b] (n → ∞)
n
3
1 {ω|a < Xi (ω) ≤ b}
と置くと,{Yi |i = 1, 2, . . . , n} は,
0 otherwise
独立で同分布である.ここで,Pr[Yi = 1] = F (b)−F (a) より,E[Yi ] = F (b)−F (a).
n
1
Nn
=
一方,
Yi に大数の強法則を適用すると,右辺は,E[Yi ] へ概収束す
n
n i=1
る.すなわち,
Nn
→a.s. F (b) − F (a)
n
なぜなら,Yi (ω) =
• 確率変数 X(の従う分布)の値域を有限個の区間に分割し,多数回の独立な
X の観測値から各々の区間での出現頻度比を計算したものが「ヒストグラ
ム」である.
例えば,0 ≤ X ≤ L の場合,これを K 個の等間隔の区間:{[0, d], (d, 2d], . . . , ((K−
1)d, Kd = L]} に分割し(ただし d = L/K ),n 回の観測に対する j-番目の区間
((j − 1)d, jd] での出現回数を Nn(j) と書くと,出現頻度比の列がヒストグラムに
なる.
N (K)
N (1) N (2)
{ n , n ,..., n }
n
n
n
(参考)有限離散分布(確率関数)の最尤推定
X が有限離散分布(1, . . . , K のいずれかの値を取る)という前提で,n
def
個の X の観測データ {ξ1 , ξ2 , ..., ξn } から,分布(確率関数)pk = Pr[X =
k] (k = 1, . . . , K) を最尤推定する.
def
実はこれがヒストグラムになる.以下,p = (p1 , p2 , . . . , pK ) と書く.(X1 , . . . , Xn )
が互いに独立なら,その結合確率関数は,
hn (ξ1 , ..., ξn ) =
n
i=1
pξi =
K
(k)
Nn
k=1
pk
def
ただし,Nn(k) = |{i|ξi = k}| (値 k が観測された回数).よって,対数尤度関数を
L と書くと,
def
L(pp ) = log hn [ξ1 , ..., ξn ] =
K
k=1
Nn(k) log pk ,
K
ただし, 0 < pk < 1,
k=1
pk = 1
簡単のために,Nn(k) ≥ 1 (k = 1, 2, . . . , K) とする.p = (p1 , . . . , pK ) に関す
る制約下での,L(pp) の最大化問題なので,ラグランジェの未定乗数法を用いる.
pk ∈ (0, 1) の開区間で,
def
f (p1 , p2 , . . . , pK , λ) = L(pp) − λ(
k
pk − 1) =
4
K
k=1
Nn(k) log pk − λ(
k
pk − 1)
この時,f (p1 , p2 , . . . , pK , λ) を最大にする,pk > 0, λ > 0 を見つけると,
n
pk = 1 を満たし,かつ,その範囲内で,
k=1
k
Nn(k) log pk を最大化する.
(k)
Nn(k)
∂f
Nn(k)
Nn(k)
(k)
=
0=
=
− λ (∀k) ⇒ Nn = λpk ⇒ n =
Nn = λ, pk =
∂pk
pk
λ
n
k
• 結局,有限離散分布(確率関数)の最尤推定は,
N (k)
pˆk = n ,つまりヒストグラムである.
n
19.中心極限定理(参考書4.4)
確率変数列 {X1 , X2 , . . .} は互いに独立で(分布は異なるかも知れない),各々
が有限な期待値と分散を持つとする.和を
def
Sn (ω) =
n
i=1
Xi (ω)
と置き,Xi の従う分布を Fi (x) と書いて,任意の ε > 0 に対して,以下の条件(リ
ンデベルグ条件)
n
1 V [Sn ] i=1
|x−E[Xi]|≥ε
√
V [Sn ]
x2 Fi (dx) → 0 (n → ∞)
Sn − E[Sn ]
n
n
i=1 E[Xi ]
=
が満される場合,Xi の和である Sn の正規化: n
V [Sn ]
i=1 V [Xi ]
が,平均 0,分散 1 の正規分布 N (0, 1) に法則収束(弱収束)する.つまり,
i=1 Xi
−
(1)
x
1 2
Sn − E[Sn ]
1
√ e− 2 t dt (n → ∞)
≤ x] →
Pr[ −∞
2π
V [Sn ]
これを中心極限定理 (CLT – Central Limit Theorem) と呼ぶ.その意味は,
「互いに独立な多数の(確率的)変動量の和の分布は,個々の分布に因らずに,正
規分布で近似できる」ということであり,
「測定誤差」を始め,自然界の様々な現
象量を正規分布で近似する根拠となっている.
• 特に,X1 , X2 , . . . で互いに独立・同分布で期待値や分散が有限の場合は,自
動的に上の条件式 (1) が満されることが知られている.この時,
E[Xi ] = μ, V [Xi ] = σ 2 ,
E[Sn ] =
n
i=1
E[Xi ] = nμ, V [Sn ] =
5
i = 1, 2, . . .
n
i=1
と置けば,
V [Xi ] = nσ 2
となるので,
Sn − nμ
n → ∞ において, √
の分布は,N (0, 1) に収束:
nσ
x
Sn − nμ
1
t2
√ e− 2 dt
≤ x] →
Pr[ √
nσ
−∞
2π
ただし,Sn =
n
i=1
Xi
2
Sn
sσ
σ
− μ の分布は,N (0, ) に収束:
積分変数変換 t = √ により,
n
n
n
√
√nx/σ
x
1 − t2
n
Sn
ns2
√ e 2 dt =
√
exp − 2 ds
Pr[
− μ ≤ x] →
n
2σ
−∞
−∞
2π
2πσ
s − nμ
また,積分変数変換 t = √
により,Sn の分布は,N (nμ, nσ 2 ) に収束:
nσ
Pr[Sn ≤ x] →
x−nμ
√
nσ
−∞
t2
1
√ e− 2 dt =
2π
x
−∞
1
(s − nμ)2
√
exp −
ds
2nσ 2
2πnσ
大数の法則との関係:
1. 任意のペアが独立で同一有限の期待値 μ と分散 σ 2 を持つ場合,大数の弱法
Sn
σ2
Sn
− μ| ≤ x] = 1 − Pr[| − μ| > x] ≥ 1 − 2 ,となり,誤差
則より, Pr[|
n
n
nx
Sn
| − μ| の分布の粗い評価ができる.
n
2. 特に独立同分布の場合は,
• 大数の強法則より,
Sn
→a.s. μ .
n
Sn
• その場合に,中心極限定理は,誤差
− μ の分布を直接的に近似
n
Sn
− μ ≤ x] を
する.つまり,n が十分大きい場合に,Pr[
n
√
x
n
ns2
√
exp − 2 ds で近似できる.ただし,たいていの現実の
2σ
−∞
2πσ
場面では,σ は「未知」である.
「中心極限定理」の一般証明には特性関数の収束と分布の弱収束の対応を用いる
が,複素数でのフーリエ変換を用いる特性関数に関して本講義では扱っていない
ので,ここでは省略し,代わりに,具体例をグラフで見て納得してもらう:)
(具
体例毎の個別の証明も簡単ではない).
• 正規分布に従う確率変数の和
X1 , X2 , . . . が,正規分布 N (μ, σ 2 ) に従う時,Sn は,正規分布:N (nμ, nσ 2 )
に厳密に従う(正規分布の再現性).
x
(t−nμ)2
1
√
e− 2nσ2 dt
Pr[Sn ≤ x] =
−∞
2πnσ
6
これが,元の分布が正規分布でなくても,近似的に成り立つ.
中心極限定理によって,独立な分布の(多数個の)和として定義でき
る分布の計算において,実際の計算をせずに,正規分布の積分(数値)
計算から近似値を求めることができる.
特に,以下の例にある「二項分布」は,定義に従って「組み合わせの
数 n Ck 」を計算することは,n が大きいと極めて困難であり,正規分布
を用いた近似が利用される場合がある.
• ポアソン分布に従う確率変数の和
X1 , X2 , . . . が,パラメタ λ のポアソン分布に従う時,Sn はパラメタ nλ のポ
アソン分布に従う(ポアソン分布の再現性).これが,n が大なら正規分布
N (nλ, nλ) で近似可.すなわち,
−nλ
Pr[Sn ≤ m] = e
m
(t−nλ)2
1
nk λk
√
e− 2nλ dt
≈
2πnλ −∞
k=0 k!
m
• コイン投げでの表の出現回数(ベルヌーイ分布の和=二項分布)
X1 , X2 , . . . が,パラメタ p のベルヌーイ分布に従う(確率 p で表が出るコイ
ン)時,Sn はパラメタ n, p の二項分布に従う(n 回投げて表が出る回数).
これが,n が大なら正規分布 N (np, np(1 − p)) で近似可.すなわち,
m
1
n!
pk (1 − p)n−k ≈ Pr[Sn ≤ m] =
2πnp(1 − p)
k=0 k!(n − k)!
m
−∞
(t−np)2
− 2np(1−p)
e
dt
• 指数分布に従う確率変数の和
X1 , X2 , . . . Xn が,パラメタ λ の指数分布に従う時,Sn はパラメタ (n, λ/n)
n n
のアーラン分布に従う.これが,n が大なら正規分布 N ( , 2 ) で近似可.す
λ λ
なわち,
λn
Pr[Sn ≤ x] =
(n − 1)!
x
0
n−1 −λt
t
e
dt ≈
1
2πn/λ2
x
−∞
−
e
(t−n/λ)2
2n/λ2
dt
下図(上)は,λ = 0.5 のポアソン分布に従う独立な確率変数8個の和の分布
(つまり,λ = 4 のポアソン分布)が N (4, 4) で近似され,下図 (下)は,λ = 1 の指
数分布に従う独立な確率変数8個の和の分布が N (8, 8) で近似されることを示す.
7
0.4
Poisson(0.5)
Poisson(0.5)*4
Poisson(0.5)*8
N(4,4)
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
2
4
6
0.3
8
10
12
Exp(1)
Exp(1)*4
Exp(1)*8
N(8,8)
0.25
0.2
0.15
0.1
0.05
0
0
5
10
15
20
一様乱数の和による正規分布の近似
X1 , X2 , . . . X12 が,[0, 1] 上の一様分布に従う時,E[S12 ] = 12/2 = 6, V [S12 ] =
S12 − E[S12 ]
= S12 − 6 は,N (0, 1) のよい近似になってい
12/12 = 1 なので, V [S12 ]
る.つまり,一様乱数から近似的に正規分布を発生させることができる.
例
C 言語の標準ライブラリには,
• drand48() という,[0.0, 1.0) の範囲の double 型乱数を返す関数
がある. それを使って,期待値 1,分散 1 の正規分布 N (1, 1) に従う(近似的)double
型乱数を生成するプログラム:
8
#include <math.h>
#include <stdlib.h>
#include <stdio.h>
main() {
int i, j; double s; srand48(99);
for (i=0; i<1000; i++) {
s=0; for (j=0; j<12; j++) { s+=drand48(); }
printf("%f\n", s-5); }
}
20.信頼区間および区間推定
中心極限定理を,統計的推定の立場から応用する.
X の真の平均と分散を,μ, σ 2 として,μ の推定に,n 回の試行 X1 , X2 , . . . , Xn
n
1
def Sn
=
からの標本平均 Mn =
Xi を考える:
n
n i=1
x
t2
1
Mn (ω) − μ
√ exp(− )dt (n → ∞)
√
≤ x} →
Pr {ω|
σ/ n
2
−∞
2π
√
(Mn − μ) n
つまり,
の分布は,n が大ならば,N (0, 1) で近似できる.よって,
σ
任意の c > 0 に対し,
Mn (ω) − μ
√
≤ c} ≈
Pr {ω| − c ≤
σ/ n
c
−c
t2
1
√ exp(− )dt
2
2π
書き換えると,
cσ
cσ
Pr {ω|μ − √ ≤ Mn (ω) ≤ μ + √ } ≈
n
n
c
−c
t2
1
√ exp(− )dt
2
2π
が成り立つ.この右辺の値が,約 95% になるのは c = 1.96 である.なお,右辺
の積分の値を毎回計算するのは大変なので,様々な c の値に対して,
「統計ハンド
ブック」などの標準正規分布数表として与えられている.
cσ
cσ
さて,ここで左辺は, Pr {ω|Mn (ω) − √ ≤ μ ≤ Mn (ω) + √ } とも書ける
n
n
ˆ とし
が,このことから,ある具体的な n 回の試行から得た標本平均の実現値を μ
た時,c = 1.96 を使う場合は,真の平均(期待値)μ が
1.96σ
1.96σ
ˆ+ √
μ
ˆ− √ ≤μ≤μ
n
n
の範囲にある「確度(信頼度)が 95%」と表現する.
しかし,これは「確率」ではない.なぜなら,確率は運命 ω の集合(=事象)A
に対して P (A) として与えられる.上の例では,μ
ˆ は,ある具体的な1つの運命
9
ω = ω0 における既に出現(確定)した Mn (ω0 ) の値であり,一方,μ や σ は未知
の定数であるので,
1.96σ
1.96σ
ˆ+ √
μ
ˆ− √ ≤μ≤μ
n
n
という「状況」に対応する事象(運命の集合)A が定義できない.
注意すべき点を挙げる.
• n が小さいと,正規分布による近似が成り立たない.ここで述べたような,
n が大きい場合の理論・手法を,大標本理論と呼ぶ.
一方,n が小さい場合には,母分布に何かの仮定を置く必要があり,特に母
分布自体が「正規分布」で近似できる場合などにおいて,小標本理論 と呼
ばれる理論・手法が研究されてきた(次講参照).
• 真の σ を知らないので,真の信頼区間を計算できない.ここでは,不偏(分
散)推定 σ
ˆ 2 を σ 2 の変りに使う.結局,
「未知の期待値 μ」に対して,
– ある n 回の試行から得た標本平均の実現値 μ
ˆ と不偏分散の実現値 σ
ˆ2
1.96ˆ
σ
1.96ˆ
σ
を用いて計算した区間: μ
ˆ − √ ,μ
ˆ+ √
n
n
定の 95% 信頼区間」と呼ぶ.
を「標本平均による μ の推
また,このように区間で推定することを,1つの値として推定する点推定に
対し,区間推定と呼ぶ.
• 「標本平均による推定の 95% 信頼区間」の解釈は以下のようになる.確率変
数 X がある1つの未知の分布(未知の期待値を μ と置く)に従う時に,
– 「n 回の X の発生(試行)」という実験を行う前に,
『「実験結果から計
算する 95% 信頼区間」に真の値 μ が入る「確率」』が 0.95 である.
– しかし,実験を行った後で,
『「実験結果から計算した1つの具体的な信
頼区間」に真の値 μ が入っている「確率」』は定義できない.具体的な
実験結果から導ける「確率」は「検定」と関係する(次講).
– 一方,
(大数の法則より)そういう「n 回の X の発生(試行)」という実
験自体を何度も繰り返した時に,
『「実験結果から計算した 95% 信頼区
間」に真の値 μ が入っている実験の回数』が,実験全体の回数の 95%
に近づく.
練習 コインを 400 回投げて,表が 220 回(裏が 180 回)出た.このコインの「表の出
る確率」を標本平均で推定し,その 95% 信頼区間を求めよ.
10