数理統計学 西 山 第3章 3.3節のポイント① サンプルの特徴は平均値と不偏分散 サンプルの平均値は「標本平均」 X N X i i 1 N サンプルの分散は「(標本)不偏分散」 X N ˆ 2 i 1 X 2 i N 1 平均値の確 率的性質、 覚えてる? 第3章 3.3節のポイント② 不偏分散の確率的な性質 サンプルの分散は「(標本)不偏分散」 X N ˆ 2 i 1 X 2 i N 1 シグマ二乗 ハット 分散はどんな出方をするか? 出やすい結果、出にくい結果? 𝜎 2 の標本分布(サンプリング分布) ポイント① -(標本)不偏分散 サンプルの分散(=平均二乗偏差)は「不 偏」ではない 誤差(サンプルの分散-母集団の分散)が、 マイナスになることが非常に多い。故に、多 分マイナス。誤差を修正したほうがいい。 標本分散と(標本)不偏分散 両方とも簡単に「分散」と呼ぶのが実情 二乗偏差計 標本分散= データ数 (10ページ) 二乗偏差計 (標本)不偏分散= データ数-1 (103ページ) 統計分析ではこちらがデフォールト サイコロの目のばらつき 真の値: 分散2.92、標準偏差1.7 • サイコロの目の出方は確率的に決まっている • 期待値は3.5 • ばらつきは、分散2.92、標準偏差1.7 16回振って、目の数の平均値、目 の数のばらつき方が分かるか? 実験結果(1万回) 平均値と分散の出方 標準誤差 > mean(jikken.m); sd(jikken.m) [1] 3.502775 真の値:3.50 [1] 0.4285975 不偏(=バイアスがない) > mean(jikken.s); sd(jikken.s) [1] 2.74469 真の値:2.92 [1] 0.6354335 誤差はマイナスであ ることが多い R: 前頁の実行方法 > varp <- function(x){mean((x-mean(x))^2)} ➡最初に実行しておく > sample(1:6,16,replace=T) [1] 1 4 3 1 5 5 5 5 5 4 2 4 2 4 3 1 > sample(1:6,16,replace=T) [1] 2 2 2 1 4 4 3 3 3 6 2 3 5 5 4 3 > mean(sample(1:6,16,replace=T)) [1] 3.625 ➡ こんな平均値が出た > varp(sample(1:6,16,replace=T)) [1] 3.609375 ➡ こんな分散が出た > > > > > jikken.s <- replicate(10000,varp(sample(1:6,16,replace=T))) jikken.m <- replicate(10000,mean(sample(1:6,16,replace=T))) par(mfrow=c(2,1)) hist(jikken.m,main="平均値のサンプリング分布",breaks="FD") hist(jikken.s,main="分散のサンプリング分布",breaks="FD" 実験結果(1万回): 体重データ 平均50Kg、標準偏差10Kg、10人 真値100 に対して 小さすぎる > mean(jikken) [1] 89.41373 標準偏差=9.5前後 偏りが とれた > mean(jikken1) [1] 99.63248 標準偏差=10前後 身長データで実験 母集団は、μ=170、σ2=102、データ数は5個で反復 標本分散の分布 標本平均の分布 データの分散の値 <= 15 2.9 815 15 6.4 6. 41 115 15 9. 9.8 85 51 6 16 3.2 3. 28 816 16 6.7 6. 72 217 17 0. 0.1 15 51 7 17 3.5 3. 59 917 17 7.0 7. 02 218 18 0. 0.4 46 61 8 18 3.8 3. 89 918 7. 33 25 -5 0 75 -1 00 12 515 0 17 520 0 22 525 0 27 530 0 32 535 0 37 540 0 42 545 0 47 550 0 700 600 500 400 300 200 100 0 0 頻度 900 800 700 600 500 400 300 200 100 0 最大値 最小値 平均値 分散 歪み度 尖り度 187.33 152.9773 169.9806 20.43845 0.007936 0.042042 最大値 最小値 平均値 分散 歪み度 尖り度 477.6252 0.448268 79.85362 3114.514 1.367639 2.805332 標本分散の偏りをまとめると サンプル数:16個 𝜎 2 =2.92 標本分散𝑆 2 =2.74前後 サンプル数:10個 𝜎 2 =100 2 標本分散𝑆 =90前後 サンプル数:5個 𝜎 2 =100 2 標本分散𝑆 =80前後 15 2.92 16 9 100 10 4 100 5 2 標本分散S のバイアスの大きさ ES 2 n 1 2 n 𝜎 2 は真の(=母集団の)分散、 𝑆 2 は標本分散、 𝑛はデータ数 母平均=170、母分散=100、データ数=5 5 X i 1 170 2 i 真の偏差二乗和 X i 1 5 X i 1 X 5 i 1 X X 170 i X 5 X 170 2 2 2 X X i 170 5 X 170 2 i i 5 5 2 2 i 1 データの偏差二乗和 2 10 E偏差二乗和 5 10 5 4 102 5 2 バイアス修正のための計算 2 𝑆 𝐸 𝑁 × 𝑁−1 × 𝑁 を使う 𝑁−1 𝑆2 𝑁 𝑁−1 2 = 𝜎 𝑁−1 𝑁 = 𝜎2 故に、『(標本)不偏分散』という 不偏分散の利用目的 不偏分散は平均二乗偏差にはなっていない 定義(分散=平均二乗偏差)どおりだと 1 2 S N X N i 1 X 2 i 母集団の分散の見当をつけたいなら N 1 2 2 ˆ X i X N 1 i 1 E ˆ 2 2 教科書127ページ 【例題1】 二つの分散の違い ランダムに5個のデータをとると 1,2,3,4,5 ★ このデータの分散は 二乗偏差の合計 10 S 2 データ数 5 2 ★ このデータはどんな分散をもつ母集団からとられたか 二乗偏差の合計 10 ˆ 2.5 データ数-1 4 2 ポイント② - カイ二乗分布 1. サンプルの分散は、サンプルによる。 2. どんなサンプル、どんな分散が出やすいか? 3. まとまったサンプルが出やすいか?バラつき の大きいサンプルが出やすいか? 4. 分散について標本分布は分かるか? 5. 期待値、標準誤差は分かるのか? 6月26日 ここから 母集団を一つ選びます データ数4個、母平均170、標準偏差10 値 X 4 i 1 μ 170 2 i この期待値は100 4 X i 170 i 1 10 2 4 標準値の二乗和 これがどう出るか この期待値が4 【例題】 標準正規分布の変数を二乗すると 分布はどう変わる? あるデータ(1000個)には標準正規分布が当てはまっている データの二乗は右図のように分布している 【発展】 標準正規分布の変数の二乗を4個合計しよう データZ1からZ4には標準正規分布が当ては まっている(各1000個)。 では、𝑍12 + 𝑍22 + 𝑍32 + 𝑍42 の値は、どんな値に なる確率が高いか? 『自由度4のカイ二乗』 自由度4のカイ二乗分布 実際にデータをとって確かめる > mean(w); var(w) [1] 3.945907 [1] 8.280892 𝑊 = 𝑍12 + 𝑍22 + 𝑍32 + 𝑍42 R: 前のページの実行方法 > > > > > > > > > > > > > > > > z1 <- rnorm(1000) 標準正規分布から1000個のデータをとる z2 <- rnorm(1000) z3 <- rnorm(1000) z4 <- rnorm(1000) 4回くりかえす par(mfrow=c(2,2)) hist(z1,prob=T) curve(dnorm(x),add=T,col="red") hist(z2,prob=T) curve(dnorm(x),add=T,col="red") hist(z3,prob=T) curve(dnorm(x),add=T,col="red") hist(z4,prob=T) curve(dnorm(x),add=T,col="red") 二乗和にする(1000個) w <- z1^2 + z2^2 + z3^2 + z4^2 hist(w,prob=T,breaks="FD") curve(dchisq(df=4,col="red",add=T) 自由度4のカイ二乗分布を当てはめる 『カイ二乗』値とは? ここから 7月1日 標準値(正規分布)を二乗したもの 𝑍 2 自由度1のカイ二乗 𝑍12 + 𝑍22 + 𝑍32 自由度3のカイ二乗 𝑍12 + 𝑍22 + 𝑍32 + 𝑍42 自由度4のカイ二乗 4 2 W で表すことが多い 『カイ二乗値』の確率分布 → カイ二乗分布 何個の𝑍 2 を足すか による。K個足す。 V 2 自由度 E 自由度 2 2 Karl Pearson カイ二乗値 Kは自由度。教科書123頁 もし歪み度、尖り度を知っていれば (1章20ページ、2章75ページ 正規分布の場合、標準値にすれば 1. 期待値: 𝐸 𝑍 = 0 2 2. 分散: 𝑉 𝑍 = 𝐸 𝑍 = 1 3 3. 歪み度: 𝐸 𝑍 = 0 4 4. 尖り度: 𝐸 𝑍 = 3 V Z EZ EZ 2 4 2 2 3 1 2 カイ二乗分布の期待値と分散 E k 2 V k 2 E Z1 Z 2 Z 3 2 2 2 E Z1 E Z 2 E Z 3 111 2 2 2 V Z1 Z 2 Z 3 2 2 2 V Z1 V Z 2 V Z 3 222 2 2 2 結論①: 母平均と母分散が分かっている場合 母平均=170、母分散=100 𝑊= 4 𝑖=1 𝑋𝑖 − 170 10 2 1 = 100 4 𝑖=1 𝑋𝑖 − 170 自由度4のカイ二乗分布 𝐸 𝑊 =4 𝑉 𝑊 =8 4 𝑖=1 𝑋𝑖 − 170 4 2 正しい分散の計算法 これはいくらくらい? 2 カイ二乗分布応用の鍵:定理14 平均値の定理8に該当 母集団 (正規) サンプル: 𝝁 = 𝟏𝟕𝟎 𝝈𝟐 = 𝟏𝟎𝟎 X1, X 2 , X 3 , X 4 自由度4 − 1の カイ二乗分布 1 2 X i X W 100 i 1 4 教科書124~125頁 平均𝜇、分散𝜎 2 、データ数𝑛個で計算しましょう n X i 1 2 i いまの例は 𝜇 = 170, 𝜎 2 = 100, 𝑛=4 データをn個とって、真の偏差二乗和 2 X i X X n i 1 2 X i X 2 X i X X nX n n i 1 2 i 1 2 ゼロになります X i X n X n 2 i 1 X 2 n i 1 i 2 X X i n X n i 1 2 これが大事 μ=170 前のつづき 1 2 X 2 n i 1 σ2=100 i X Xi 1 2 X i 1 i n 2 X 2 は標準値Zになっている X X 2 n 2 n 2 n 2 2 これも1個の標準値 Z2の個数はn個でなく、n-1個になる → 自由度n-1のカイ二乗 結論②: 母平均と母分散が分かっている場合 母平均=170、母分散=100 𝑊= 4 𝑖=1 𝑋𝑖 − 𝑋 10 2 1 = 100 4 𝑖=1 𝑋𝑖 − 𝑋 2 自由度3のカイ二乗分布 𝐸 𝑊 =3 𝑉 𝑊 =6 4 𝑖=1 𝑋𝑖 − 𝑋 4 2 これはいくらくらい? サンプル分散S2の期待値と分散は? S μ=170 2 σ2=100 1 2 X i X n i 1 n 標準値でみる 2 1 n 2 平均の分布 X i X 2 n i 1 カイ二乗値でみる 2 n 分散の分布 2 X X n i i 1 2 n n21 本当の分散の 𝑛−1 倍くらいになる 𝑛 教科書126~127頁 【問題】前のスライドを参考に次の一般 的な質問に答えなさい サンプル分散S2の期待値を求めてください。 ES 2 サンプル分散S2の分散を求めてください。 VS 2 教科書126~127ページ 【問題】不偏分散の期待値と分散・標準 偏差は? サンプル分散𝜎 2 の期待値を求めてください。 2 E ˆ サンプル分散𝜎 2 の分散・標準偏差は? V ˆ 2 SD ˆ 2 教科書126~127ページ
© Copyright 2025