Document 673667

数理統計学
西 山
第3章 3.3節のポイント①
サンプルの特徴は平均値と不偏分散
サンプルの平均値は「標本平均」

X
N
X
i
i 1
N
サンプルの分散は「(標本)不偏分散」
X


N
ˆ
2
i 1
X
2
i
N 1
平均値の確
率的性質、
覚えてる?
第3章 3.3節のポイント②
不偏分散の確率的な性質
サンプルの分散は「(標本)不偏分散」
X


N
ˆ
2
i 1
X
2
i
N 1
シグマ二乗
ハット
分散はどんな出方をするか?
出やすい結果、出にくい結果?
𝜎 2 の標本分布(サンプリング分布)
ポイント① -(標本)不偏分散
サンプルの分散(=平均二乗偏差)は「不
偏」ではない
誤差(サンプルの分散-母集団の分散)が、
マイナスになることが非常に多い。故に、多
分マイナス。誤差を修正したほうがいい。
標本分散と(標本)不偏分散
両方とも簡単に「分散」と呼ぶのが実情
二乗偏差計
標本分散=
データ数
(10ページ)
二乗偏差計
(標本)不偏分散=
データ数-1
(103ページ)
統計分析ではこちらがデフォールト
サイコロの目のばらつき
真の値: 分散2.92、標準偏差1.7
• サイコロの目の出方は確率的に決まっている
• 期待値は3.5
• ばらつきは、分散2.92、標準偏差1.7
16回振って、目の数の平均値、目
の数のばらつき方が分かるか?
実験結果(1万回)
平均値と分散の出方
標準誤差
> mean(jikken.m); sd(jikken.m)
[1] 3.502775 真の値:3.50
[1] 0.4285975
不偏(=バイアスがない)
> mean(jikken.s); sd(jikken.s)
[1] 2.74469 真の値:2.92
[1] 0.6354335
誤差はマイナスであ
ることが多い
R: 前頁の実行方法
> varp <- function(x){mean((x-mean(x))^2)} ➡最初に実行しておく
> sample(1:6,16,replace=T)
[1] 1 4 3 1 5 5 5 5 5 4 2 4 2 4 3 1
> sample(1:6,16,replace=T)
[1] 2 2 2 1 4 4 3 3 3 6 2 3 5 5 4 3
> mean(sample(1:6,16,replace=T))
[1] 3.625 ➡ こんな平均値が出た
> varp(sample(1:6,16,replace=T))
[1] 3.609375 ➡ こんな分散が出た
>
>
>
>
>
jikken.s <- replicate(10000,varp(sample(1:6,16,replace=T)))
jikken.m <- replicate(10000,mean(sample(1:6,16,replace=T)))
par(mfrow=c(2,1))
hist(jikken.m,main="平均値のサンプリング分布",breaks="FD")
hist(jikken.s,main="分散のサンプリング分布",breaks="FD"
実験結果(1万回): 体重データ
平均50Kg、標準偏差10Kg、10人
真値100
に対して
小さすぎる
> mean(jikken)
[1] 89.41373
標準偏差=9.5前後
偏りが
とれた
> mean(jikken1)
[1] 99.63248
標準偏差=10前後
身長データで実験
母集団は、μ=170、σ2=102、データ数は5個で反復
標本分散の分布
標本平均の分布
データの分散の値
<=
15
2.9
815
15
6.4 6. 41
115
15
9.
9.8
85
51
6
16
3.2 3. 28
816
16
6.7 6. 72
217
17
0.
0.1
15
51
7
17
3.5 3. 59
917
17
7.0 7. 02
218
18
0.
0.4
46
61
8
18
3.8 3. 89
918
7.
33
25
-5
0
75
-1
00
12
515
0
17
520
0
22
525
0
27
530
0
32
535
0
37
540
0
42
545
0
47
550
0
700
600
500
400
300
200
100
0
0
頻度
900
800
700
600
500
400
300
200
100
0
最大値
最小値
平均値
分散
歪み度
尖り度
187.33
152.9773
169.9806
20.43845
0.007936
0.042042
最大値
最小値
平均値
分散
歪み度
尖り度
477.6252
0.448268
79.85362
3114.514
1.367639
2.805332
標本分散の偏りをまとめると
サンプル数:16個 𝜎 2 =2.92
標本分散𝑆 2 =2.74前後
サンプル数:10個 𝜎 2 =100
2
標本分散𝑆 =90前後
サンプル数:5個 𝜎 2 =100
2
標本分散𝑆 =80前後
15
2.92 
16
9
100
10
4
100
5
2
標本分散S のバイアスの大きさ
 
ES
2
n 1 2


n
𝜎 2 は真の(=母集団の)分散、
𝑆 2 は標本分散、
𝑛はデータ数
母平均=170、母分散=100、データ数=5
5
 X
i 1
 170 

2
i
真の偏差二乗和

 X
i 1
5
 X
i 1

 X
5
i 1
 X  X  170
i
 X   5  X  170
2
2
2
 X     X i  170   5  X  170
2
i
i
5
5
2
2
i 1
データの偏差二乗和
2
10
E偏差二乗和  5 10  5 
 4 102
5
2
バイアス修正のための計算
2
𝑆
𝐸
𝑁
×
𝑁−1
×
𝑁
を使う
𝑁−1
𝑆2
𝑁 𝑁−1 2
=
𝜎
𝑁−1 𝑁
= 𝜎2
故に、『(標本)不偏分散』という
不偏分散の利用目的
不偏分散は平均二乗偏差にはなっていない
定義(分散=平均二乗偏差)どおりだと
1
2
S 
N
 X
N
i 1
 X
2
i
母集団の分散の見当をつけたいなら
N
1
2
2
ˆ
X i  X 
 

N  1 i 1
 
E ˆ 2   2
教科書127ページ
【例題1】 二つの分散の違い
ランダムに5個のデータをとると
1,2,3,4,5
★ このデータの分散は
二乗偏差の合計 10
S 

2
データ数
5
2
★ このデータはどんな分散をもつ母集団からとられたか
二乗偏差の合計 10
ˆ 

 2.5
データ数-1
4
2
ポイント② - カイ二乗分布
1. サンプルの分散は、サンプルによる。
2. どんなサンプル、どんな分散が出やすいか?
3. まとまったサンプルが出やすいか?バラつき
の大きいサンプルが出やすいか?
4. 分散について標本分布は分かるか?
5. 期待値、標準誤差は分かるのか?
6月26日
ここから
母集団を一つ選びます
データ数4個、母平均170、標準偏差10
値
 X
4
i 1
μ
 170
2
i
この期待値は100
4
 X i  170 
i 1  10 
2
4
標準値の二乗和
これがどう出るか
この期待値が4
【例題】
標準正規分布の変数を二乗すると
分布はどう変わる?
あるデータ(1000個)には標準正規分布が当てはまっている
データの二乗は右図のように分布している
【発展】
標準正規分布の変数の二乗を4個合計しよう
データZ1からZ4には標準正規分布が当ては
まっている(各1000個)。
では、𝑍12 + 𝑍22 + 𝑍32 + 𝑍42 の値は、どんな値に
なる確率が高いか?
『自由度4のカイ二乗』
自由度4のカイ二乗分布
実際にデータをとって確かめる
> mean(w); var(w)
[1] 3.945907
[1] 8.280892
𝑊 = 𝑍12 + 𝑍22 + 𝑍32 + 𝑍42
R: 前のページの実行方法
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
z1 <- rnorm(1000)
標準正規分布から1000個のデータをとる
z2 <- rnorm(1000)
z3 <- rnorm(1000)
z4 <- rnorm(1000)
4回くりかえす
par(mfrow=c(2,2))
hist(z1,prob=T)
curve(dnorm(x),add=T,col="red")
hist(z2,prob=T)
curve(dnorm(x),add=T,col="red")
hist(z3,prob=T)
curve(dnorm(x),add=T,col="red")
hist(z4,prob=T)
curve(dnorm(x),add=T,col="red")
二乗和にする(1000個)
w <- z1^2 + z2^2 + z3^2 + z4^2
hist(w,prob=T,breaks="FD")
curve(dchisq(df=4,col="red",add=T)
自由度4のカイ二乗分布を当てはめる
『カイ二乗』値とは?
ここから
7月1日
標準値(正規分布)を二乗したもの
𝑍 2 自由度1のカイ二乗
𝑍12 + 𝑍22 + 𝑍32 自由度3のカイ二乗
𝑍12 + 𝑍22 + 𝑍32 + 𝑍42 自由度4のカイ二乗
4
2
W で表すことが多い
『カイ二乗値』の確率分布 → カイ二乗分布
何個の𝑍 2 を足すか
による。K個足す。
 
V    2 自由度
E  自由度
2
2
Karl Pearson
カイ二乗値
Kは自由度。教科書123頁
もし歪み度、尖り度を知っていれば
(1章20ページ、2章75ページ
正規分布の場合、標準値にすれば
1. 期待値: 𝐸 𝑍 = 0
2
2. 分散: 𝑉 𝑍 = 𝐸 𝑍 = 1
3
3. 歪み度: 𝐸 𝑍 = 0
4
4. 尖り度: 𝐸 𝑍 = 3
      
V Z EZ  EZ
2
4
2
2
 3 1  2
カイ二乗分布の期待値と分散
 
E k
2
 
V k
2


     
 E Z1  Z 2  Z 3
2
2
2
 E Z1  E Z 2  E Z 3
 111
2
2
2


     
 V Z1  Z 2  Z 3
2
2
2
 V Z1  V Z 2  V Z 3
 222
2
2
2
結論①: 母平均と母分散が分かっている場合
母平均=170、母分散=100
𝑊=
4
𝑖=1
𝑋𝑖 − 170
10
2
1
=
100
4
𝑖=1
𝑋𝑖 − 170
自由度4のカイ二乗分布
𝐸 𝑊 =4 𝑉 𝑊 =8
4
𝑖=1
𝑋𝑖 − 170
4
2
正しい分散の計算法
これはいくらくらい?
2
カイ二乗分布応用の鍵:定理14
平均値の定理8に該当
母集団
(正規)
サンプル:
𝝁 = 𝟏𝟕𝟎
𝝈𝟐 = 𝟏𝟎𝟎
X1, X 2 , X 3 , X 4
自由度4 − 1の
カイ二乗分布
1
2
X i  X 
W

100 i 1
4
教科書124~125頁
平均𝜇、分散𝜎 2 、データ数𝑛個で計算しましょう
n
 X
i 1
 
2
i
いまの例は
𝜇 = 170,
𝜎 2 = 100,
𝑛=4
データをn個とって、真の偏差二乗和
2
  X i  X  X   
n
i 1
2
  X i  X   2 X i  X X     nX   
n
n
i 1
2
i 1
2
ゼロになります
   X i  X   n X   
n
2
i 1

 X
2
n
i 1
i
2
 X     X i     n X   
n
i 1
2
これが大事
μ=170
前のつづき
1

2
 X
2
n
i 1
σ2=100
i
X 
Xi  

1

2
 X
i 1
i
  
n

2
X   
2
は標準値Zになっている
 X  




X



 2 n 
2


n
2
n
2
2
 これも1個の標準値
Z2の個数はn個でなく、n-1個になる → 自由度n-1のカイ二乗
結論②: 母平均と母分散が分かっている場合
母平均=170、母分散=100
𝑊=
4
𝑖=1
𝑋𝑖 − 𝑋
10
2
1
=
100
4
𝑖=1
𝑋𝑖 − 𝑋
2
自由度3のカイ二乗分布
𝐸 𝑊 =3 𝑉 𝑊 =6
4
𝑖=1
𝑋𝑖 − 𝑋
4
2
これはいくらくらい?
サンプル分散S2の期待値と分散は?
S
μ=170
2
σ2=100
1
2
  X i  X 
n i 1
n
標準値でみる
2 1 n
2 平均の分布
X i  X 

2 
n  i 1
カイ二乗値でみる
2 n
分散の分布
2

X X




n
i
i 1

2
n
 n21

本当の分散の
𝑛−1
倍くらいになる
𝑛
教科書126~127頁
【問題】前のスライドを参考に次の一般
的な質問に答えなさい
サンプル分散S2の期待値を求めてください。
 
ES
2
サンプル分散S2の分散を求めてください。
 
VS
2
教科書126~127ページ
【問題】不偏分散の期待値と分散・標準
偏差は?
サンプル分散𝜎 2 の期待値を求めてください。
2
 
E ˆ
サンプル分散𝜎 2 の分散・標準偏差は?
 
V ˆ
2
 
SD ˆ
2
教科書126~127ページ