確率・統計(電子2年) 第 13 講 • 大数の強法則 • 中心極限定理と区間推定 • 後半模擬テスト配布(次回 7 月 23 日に解説.またその資料を 28 日まで, http://netm.cse.kyutech.ac.jp/NetLab/ProbabilityTheory/ に置く) 18.大数の強法則(参考書4.2) X1 , X2 , . . . は(分布は違うかも知れないが)同じ有限な期待値 m を持ち,無 限列として互いに独立な確率変数の列とする.そのような,X1 , X2 , . . . が 1. 同分布の場合(基本) 2. 各分散を σi2 と置き, n→∞ lim n 1 2 σ < ∞ となる場合 2 k k=1 k などの場合に(他にも成り立つ条件はある), • n 1 Xi →a.s. m (n → ∞) n i=1 が成り立つ. 意味: 「試行 X を無限回繰り返し行う実験」を実施すると,ある運命 ω が選択され,そ れに基づいて定まる {X1 (ω), X2(ω), . . .} という実数列を観測する. n 1 Xi →a.s. m (n → ∞) とは, n i=1 • (確率 0 の例外を除く)すべての ω (具体例)において,n 回までの Xi (ω) n 1 の算術平均 Xi (ω) は,n を増やしていくと真の期待値 m に近づく.も n i=1 ちろん X の分布の期待値 m が有限であることが前提. 参考)大数の強法則の証明: • X1 , X2 , . . . が独立・同分布で,かつ4次モーメントが有限(E[Xi4 ] < ∞)の 場合の大数の強法則の証明を以下に示す.なお一般の証明には,ボレルカン テリの定理などを用いてより精密な議論が必要. E[Xi ] = μ = 0 と仮定しても一般性を失わない.なぜなら,μ = 0 の場合は, Xi − μ という確率変数列に適用すればよいから. 1 def 証明のためには,Sn (ω) = n i=1 Xi (ω) と置いて,以下の性質を持つ集合 A: 1 ω ∈ A ⇒ lim Sn (ω) = 0 」を見つければよい.まず, n→∞ n 「P (A) = 1 かつ n Sn4 = 4 i=1 n = i=1 = Xi Xi4 + 6 4! X1k1 · · · Xnkn k ! · · · k ! 1 n k1 +k2 +···+kn =4 n i<j Xi2 Xj2 + · · · 仮定より,ある正数 M に対して,E 2 [Xi2 ] ≤ M, E[Xi4 ]) ≤ M と置ける.また, E[Xi ] = 0 および X1 , . . . , Xn の独立性より,E[Xi Xj3 ], E[Xi Xj Xk2 ], E[Xi Xj Xk Xl ] はすべて 0 になるので, 1 E[ Sn n E[ ∞ 1 n=1 n 4 ⎛ ⎛ 4 Sn これより, A = {ω| ⎞ n n 1 ⎝ M(1 + 3(n − 1)) ≤ M + 6 M⎠ = 4 n i=1 n3 i<j ] = n=1 ∞ E[ n=1 ∞ 1 def ⎞ n n 1 ⎝ 4 ] = E[X ] + 6 E[Xi2 ]E[Xj2 ]⎠ i n4 i=1 i<j n Sn (ω) 4 1 Sn n 4 ]≤M ∞ n=1 3 2 − 3 2 n n <∞ < ∞} に対して,P (A) = 1 が言える(※). 4 1 1 Sn (ω) → 0 (n → ∞), より Sn (ω) → 0 . (な この時,ω ∈ A において, n n ぜなら, x1/4 が連続関数なので) 1 すなわち, Sn →a.s. 0 (n → ∞) を意味する. n (※) : 一般に非負確率変数 Z に対して, 「期待値 E[Z] が有限ならば,確率 1 で Z(ω) も有 def 限値である. 」すなわち,A = {ω|Z(ω) < ∞} と置くと, E[Z] < ∞ ならば P (A) = 1 念のため証明を示す. def def 自然数 m に対して,Am = {ω|Z(ω) ≤ m}, Zm (ω) = Z(ω) ≥ Zm (ω) より,E[Z] ≥ E[Zm ] = m(1 − P (Am )). • ここで,A1 ⊂ A2 ⊂ · · · ⊂ A, かつ A = • 一方,P (Am ) ≥ 1 − ∞ m=1 m ω ∈ Am 0 ω ∈ Am Am より, lim P (Am ) = P (A) . E[Z] より, lim P (Am ) ≥ 1 . m→∞ m よって,P (A) = 1. 2 とすれば, m→∞ 大数の強法則と推定量の強一致 • 統計的推定の言葉で言えば, 「標本平均は,強一致推定」 • 実は, 「標本分散及び不偏分散は,強一致推定である」ことも大数の強法則か ら直接的に示せる. 同じことなので,標本分散 Wn で示す.{Xi |i = 1, 2, . . .} が独立同分布として, n 1 その期待値と分散を m = E[X1 ], σ 2 = V [X1 ],標本平均を Mn = Xj と置く. n j=1 def Wn = n n 1 1 2 (Xj − Mn ) = (Xj − m − (Mn − m))2 n j=1 n j=1 = n n 1 2 2 (M (Xj − m) − (Xj − m) + (Mn − m)2 n − m) n j=1 n j=1 = n 1 (Xj − m)2 − 2(Mn − m)(Mn − m) + (Mn − m)2 n j=1 = n 1 (Xj − m)2 − (Mn − m)2 n j=1 ここで,大数の強法則より, • n 1 (Xj − m)2 →a.s. E[(X1 − m)2 ] = σ 2 ,すなわち n j=1 def n 1 (Xj (ω) − m)2 = σ 2 } として,P (I) = 1. n→∞ n j=1 – I = {ω| lim • 同様に,Mn →a.s. E[X1 ] = m ,すなわち def – J = {ω| lim Mn (ω) = m} として,P (J) = 1. n→∞ なので,ω ∈ I ∩ J において,n → ∞ で Wn (ω) → σ 2 かつ P (I ∩ J) = 1.言い 換えると,Wn →a.s. σ 2 . 例題(ヒストグラム) 確率変数列 X1 , X2 , . . . , Xn が 独立で同じ分布 F に従うとする.ある区間 (a, b] Nn を固定し,Xi (ω) ∈ (a, b] となった i の合計個数を Nn (ω) とおく時, を,その n 区間での出現頻度比と呼び,以下が成り立つ. Nn →a.s. F (b) − F (a) = Pr[a < Xi ≤ b] (n → ∞) n 3 1 {ω|a < Xi (ω) ≤ b} と置くと,{Yi |i = 1, 2, . . . , n} は, 0 otherwise 独立で同分布である.ここで,Pr[Yi = 1] = F (b)−F (a) より,E[Yi ] = F (b)−F (a). n 1 Nn = 一方, Yi に大数の強法則を適用すると,右辺は,E[Yi ] へ概収束す n n i=1 る.すなわち, Nn →a.s. F (b) − F (a) n なぜなら,Yi (ω) = • 確率変数 X(の従う分布)の値域を有限個の区間に分割し,多数回の独立な X の観測値から各々の区間での出現頻度比を計算したものが「ヒストグラ ム」である. 例えば,0 ≤ X ≤ L の場合,これを K 個の等間隔の区間:{[0, d], (d, 2d], . . . , ((K− 1)d, Kd = L]} に分割し(ただし d = L/K ),n 回の観測に対する j-番目の区間 ((j − 1)d, jd] での出現回数を Nn(j) と書くと,出現頻度比の列がヒストグラムに なる. N (K) N (1) N (2) { n , n ,..., n } n n n (参考)有限離散分布(確率関数)の最尤推定 X が有限離散分布(1, . . . , K のいずれかの値を取る)という前提で,n def 個の X の観測データ {ξ1 , ξ2 , ..., ξn } から,分布(確率関数)pk = Pr[X = k] (k = 1, . . . , K) を最尤推定する. def 実はこれがヒストグラムになる.以下,p = (p1 , p2 , . . . , pK ) と書く.(X1 , . . . , Xn ) が互いに独立なら,その結合確率関数は, hn (ξ1 , ..., ξn ) = n i=1 pξi = K (k) Nn k=1 pk def ただし,Nn(k) = |{i|ξi = k}| (値 k が観測された回数).よって,対数尤度関数を L と書くと, def L(pp ) = log hn [ξ1 , ..., ξn ] = K k=1 Nn(k) log pk , K ただし, 0 < pk < 1, k=1 pk = 1 簡単のために,Nn(k) ≥ 1 (k = 1, 2, . . . , K) とする.p = (p1 , . . . , pK ) に関す る制約下での,L(pp) の最大化問題なので,ラグランジェの未定乗数法を用いる. pk ∈ (0, 1) の開区間で, def f (p1 , p2 , . . . , pK , λ) = L(pp) − λ( k pk − 1) = 4 K k=1 Nn(k) log pk − λ( k pk − 1) この時,f (p1 , p2 , . . . , pK , λ) を最大にする,pk > 0, λ > 0 を見つけると, n pk = 1 を満たし,かつ,その範囲内で, k=1 k Nn(k) log pk を最大化する. (k) Nn(k) ∂f Nn(k) Nn(k) (k) = 0= = − λ (∀k) ⇒ Nn = λpk ⇒ n = Nn = λ, pk = ∂pk pk λ n k • 結局,有限離散分布(確率関数)の最尤推定は, N (k) pˆk = n ,つまりヒストグラムである. n 19.中心極限定理(参考書4.4) 確率変数列 {X1 , X2 , . . .} は互いに独立で(分布は異なるかも知れない),各々 が有限な期待値と分散を持つとする.和を def Sn (ω) = n i=1 Xi (ω) と置き,Xi の従う分布を Fi (x) と書いて,任意の ε > 0 に対して,以下の条件(リ ンデベルグ条件) n 1 V [Sn ] i=1 |x−E[Xi]|≥ε √ V [Sn ] x2 Fi (dx) → 0 (n → ∞) Sn − E[Sn ] n n i=1 E[Xi ] = が満される場合,Xi の和である Sn の正規化: n V [Sn ] i=1 V [Xi ] が,平均 0,分散 1 の正規分布 N (0, 1) に法則収束(弱収束)する.つまり, i=1 Xi − (1) x 1 2 Sn − E[Sn ] 1 √ e− 2 t dt (n → ∞) ≤ x] → Pr[ −∞ 2π V [Sn ] これを中心極限定理 (CLT – Central Limit Theorem) と呼ぶ.その意味は, 「互いに独立な多数の(確率的)変動量の和の分布は,個々の分布に因らずに,正 規分布で近似できる」ということであり, 「測定誤差」を始め,自然界の様々な現 象量を正規分布で近似する根拠となっている. • 特に,X1 , X2 , . . . で互いに独立・同分布で期待値や分散が有限の場合は,自 動的に上の条件式 (1) が満されることが知られている.この時, E[Xi ] = μ, V [Xi ] = σ 2 , E[Sn ] = n i=1 E[Xi ] = nμ, V [Sn ] = 5 i = 1, 2, . . . n i=1 と置けば, V [Xi ] = nσ 2 となるので, Sn − nμ n → ∞ において, √ の分布は,N (0, 1) に収束: nσ x Sn − nμ 1 t2 √ e− 2 dt ≤ x] → Pr[ √ nσ −∞ 2π ただし,Sn = n i=1 Xi 2 Sn sσ σ − μ の分布は,N (0, ) に収束: 積分変数変換 t = √ により, n n n √ √nx/σ x 1 − t2 n Sn ns2 √ e 2 dt = √ exp − 2 ds Pr[ − μ ≤ x] → n 2σ −∞ −∞ 2π 2πσ s − nμ また,積分変数変換 t = √ により,Sn の分布は,N (nμ, nσ 2 ) に収束: nσ Pr[Sn ≤ x] → x−nμ √ nσ −∞ t2 1 √ e− 2 dt = 2π x −∞ 1 (s − nμ)2 √ exp − ds 2nσ 2 2πnσ 大数の法則との関係: 1. 任意のペアが独立で同一有限の期待値 μ と分散 σ 2 を持つ場合,大数の弱法 Sn σ2 Sn − μ| ≤ x] = 1 − Pr[| − μ| > x] ≥ 1 − 2 ,となり,誤差 則より, Pr[| n n nx Sn | − μ| の分布の粗い評価ができる. n 2. 特に独立同分布の場合は, • 大数の強法則より, Sn →a.s. μ . n Sn • その場合に,中心極限定理は,誤差 − μ の分布を直接的に近似 n Sn − μ ≤ x] を する.つまり,n が十分大きい場合に,Pr[ n √ x n ns2 √ exp − 2 ds で近似できる.ただし,たいていの現実の 2σ −∞ 2πσ 場面では,σ は「未知」である. 「中心極限定理」の一般証明には特性関数の収束と分布の弱収束の対応を用いる が,複素数でのフーリエ変換を用いる特性関数に関して本講義では扱っていない ので,ここでは省略し,代わりに,具体例をグラフで見て納得してもらう:) (具 体例毎の個別の証明も簡単ではない). • 正規分布に従う確率変数の和 X1 , X2 , . . . が,正規分布 N (μ, σ 2 ) に従う時,Sn は,正規分布:N (nμ, nσ 2 ) に厳密に従う(正規分布の再現性). x (t−nμ)2 1 √ e− 2nσ2 dt Pr[Sn ≤ x] = −∞ 2πnσ 6 これが,元の分布が正規分布でなくても,近似的に成り立つ. 中心極限定理によって,独立な分布の(多数個の)和として定義でき る分布の計算において,実際の計算をせずに,正規分布の積分(数値) 計算から近似値を求めることができる. 特に,以下の例にある「二項分布」は,定義に従って「組み合わせの 数 n Ck 」を計算することは,n が大きいと極めて困難であり,正規分布 を用いた近似が利用される場合がある. • ポアソン分布に従う確率変数の和 X1 , X2 , . . . が,パラメタ λ のポアソン分布に従う時,Sn はパラメタ nλ のポ アソン分布に従う(ポアソン分布の再現性).これが,n が大なら正規分布 N (nλ, nλ) で近似可.すなわち, −nλ Pr[Sn ≤ m] = e m (t−nλ)2 1 nk λk √ e− 2nλ dt ≈ 2πnλ −∞ k=0 k! m • コイン投げでの表の出現回数(ベルヌーイ分布の和=二項分布) X1 , X2 , . . . が,パラメタ p のベルヌーイ分布に従う(確率 p で表が出るコイ ン)時,Sn はパラメタ n, p の二項分布に従う(n 回投げて表が出る回数). これが,n が大なら正規分布 N (np, np(1 − p)) で近似可.すなわち, m 1 n! pk (1 − p)n−k ≈ Pr[Sn ≤ m] = 2πnp(1 − p) k=0 k!(n − k)! m −∞ (t−np)2 − 2np(1−p) e dt • 指数分布に従う確率変数の和 X1 , X2 , . . . Xn が,パラメタ λ の指数分布に従う時,Sn はパラメタ (n, λ/n) n n のアーラン分布に従う.これが,n が大なら正規分布 N ( , 2 ) で近似可.す λ λ なわち, λn Pr[Sn ≤ x] = (n − 1)! x 0 n−1 −λt t e dt ≈ 1 2πn/λ2 x −∞ − e (t−n/λ)2 2n/λ2 dt 下図(上)は,λ = 0.5 のポアソン分布に従う独立な確率変数8個の和の分布 (つまり,λ = 4 のポアソン分布)が N (4, 4) で近似され,下図 (下)は,λ = 1 の指 数分布に従う独立な確率変数8個の和の分布が N (8, 8) で近似されることを示す. 7 0.4 Poisson(0.5) Poisson(0.5)*4 Poisson(0.5)*8 N(4,4) 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 2 4 6 0.3 8 10 12 Exp(1) Exp(1)*4 Exp(1)*8 N(8,8) 0.25 0.2 0.15 0.1 0.05 0 0 5 10 15 20 一様乱数の和による正規分布の近似 X1 , X2 , . . . X12 が,[0, 1] 上の一様分布に従う時,E[S12 ] = 12/2 = 6, V [S12 ] = S12 − E[S12 ] = S12 − 6 は,N (0, 1) のよい近似になってい 12/12 = 1 なので, V [S12 ] る.つまり,一様乱数から近似的に正規分布を発生させることができる. 例 C 言語の標準ライブラリには, • drand48() という,[0.0, 1.0) の範囲の double 型乱数を返す関数 がある. それを使って,期待値 1,分散 1 の正規分布 N (1, 1) に従う(近似的)double 型乱数を生成するプログラム: 8 #include <math.h> #include <stdlib.h> #include <stdio.h> main() { int i, j; double s; srand48(99); for (i=0; i<1000; i++) { s=0; for (j=0; j<12; j++) { s+=drand48(); } printf("%f\n", s-5); } } 20.信頼区間および区間推定 中心極限定理を,統計的推定の立場から応用する. X の真の平均と分散を,μ, σ 2 として,μ の推定に,n 回の試行 X1 , X2 , . . . , Xn n 1 def Sn = からの標本平均 Mn = Xi を考える: n n i=1 x t2 1 Mn (ω) − μ √ exp(− )dt (n → ∞) √ ≤ x} → Pr {ω| σ/ n 2 −∞ 2π √ (Mn − μ) n つまり, の分布は,n が大ならば,N (0, 1) で近似できる.よって, σ 任意の c > 0 に対し, Mn (ω) − μ √ ≤ c} ≈ Pr {ω| − c ≤ σ/ n c −c t2 1 √ exp(− )dt 2 2π 書き換えると, cσ cσ Pr {ω|μ − √ ≤ Mn (ω) ≤ μ + √ } ≈ n n c −c t2 1 √ exp(− )dt 2 2π が成り立つ.この右辺の値が,約 95% になるのは c = 1.96 である.なお,右辺 の積分の値を毎回計算するのは大変なので,様々な c の値に対して, 「統計ハンド ブック」などの標準正規分布数表として与えられている. cσ cσ さて,ここで左辺は, Pr {ω|Mn (ω) − √ ≤ μ ≤ Mn (ω) + √ } とも書ける n n ˆ とし が,このことから,ある具体的な n 回の試行から得た標本平均の実現値を μ た時,c = 1.96 を使う場合は,真の平均(期待値)μ が 1.96σ 1.96σ ˆ+ √ μ ˆ− √ ≤μ≤μ n n の範囲にある「確度(信頼度)が 95%」と表現する. しかし,これは「確率」ではない.なぜなら,確率は運命 ω の集合(=事象)A に対して P (A) として与えられる.上の例では,μ ˆ は,ある具体的な1つの運命 9 ω = ω0 における既に出現(確定)した Mn (ω0 ) の値であり,一方,μ や σ は未知 の定数であるので, 1.96σ 1.96σ ˆ+ √ μ ˆ− √ ≤μ≤μ n n という「状況」に対応する事象(運命の集合)A が定義できない. 注意すべき点を挙げる. • n が小さいと,正規分布による近似が成り立たない.ここで述べたような, n が大きい場合の理論・手法を,大標本理論と呼ぶ. 一方,n が小さい場合には,母分布に何かの仮定を置く必要があり,特に母 分布自体が「正規分布」で近似できる場合などにおいて,小標本理論 と呼 ばれる理論・手法が研究されてきた(次講参照). • 真の σ を知らないので,真の信頼区間を計算できない.ここでは,不偏(分 散)推定 σ ˆ 2 を σ 2 の変りに使う.結局, 「未知の期待値 μ」に対して, – ある n 回の試行から得た標本平均の実現値 μ ˆ と不偏分散の実現値 σ ˆ2 1.96ˆ σ 1.96ˆ σ を用いて計算した区間: μ ˆ − √ ,μ ˆ+ √ n n 定の 95% 信頼区間」と呼ぶ. を「標本平均による μ の推 また,このように区間で推定することを,1つの値として推定する点推定に 対し,区間推定と呼ぶ. • 「標本平均による推定の 95% 信頼区間」の解釈は以下のようになる.確率変 数 X がある1つの未知の分布(未知の期待値を μ と置く)に従う時に, – 「n 回の X の発生(試行)」という実験を行う前に, 『「実験結果から計 算する 95% 信頼区間」に真の値 μ が入る「確率」』が 0.95 である. – しかし,実験を行った後で, 『「実験結果から計算した1つの具体的な信 頼区間」に真の値 μ が入っている「確率」』は定義できない.具体的な 実験結果から導ける「確率」は「検定」と関係する(次講). – 一方, (大数の法則より)そういう「n 回の X の発生(試行)」という実 験自体を何度も繰り返した時に, 『「実験結果から計算した 95% 信頼区 間」に真の値 μ が入っている実験の回数』が,実験全体の回数の 95% に近づく. 練習 コインを 400 回投げて,表が 220 回(裏が 180 回)出た.このコインの「表の出 る確率」を標本平均で推定し,その 95% 信頼区間を求めよ. 10
© Copyright 2025