LEC9 10章カイ二乗分布

浅野
統計学 Lec 9
10章
カイ二乗分布
扱う問題
・分散の検定H0:
・サイコロは正常か?(適合度の検定、一元分類)
・試験の点数は正規分布に従うのか?(適合度の検定、一元分類)
・関東と関西で食べ物の好みに違いがあるか?(独立性の検定、二元分類)
・学歴と血液型に関係はあるか?(独立性の検定、二元分類)
10-0
カイ二乗分布とは
Zi~N(0,1)
i=1,..,n 独立
[W] WiZi2 の従う分布を自由度 n のカイ二乗分布と呼ぶ。
1)自由度は df (degrees of freedom)で略記する。
2)「W は自由度 df のカイ二乗分布に従う」を W~  (df)で表す。
2
3)カイ二乗分布の限界値を  であらわす。(P(W>  )=)
2
2
カイ二乗分布の性質
1.非負。
2.平均 n(=自由度)、分散 2n。
3.左に偏っている。
4.自由度増加とともに分布は右にシフトし広がる。
5.自由度増加とともに分布は対称に近づく。
6.自由度大なら W の分布は N(n,2n)に近づく。(CLT!)
7.W1~  (n1)、W2~  (n2) W1,W2 は独立、なら、W1+W2 ~  (n1+n2) (再生性)
2
2
2
-1-
浅野
統計学 Lec 9
分布形(p.222 図2)分布表、限界値(p.298 表 VII)
例
X~N()からの標本 X1,X2,..,Xn
Zi=(Xi-)/~
[W1]
[W2]
(Xi-)2/~  (1) 
2

W = i(Xi)2/~  2 (n)
W i(Xi X )2/(n-1)S
が未知なら計算できない
~  2 (n-1) 自由度が1個落ちる
S2=i(Xi  X )2/n不偏分散 標本分散
10-1 分散の検定 H0:
直観:分散の推定値 S2 は仮説の値に十分近いか?
基準1:S2はゼロに近いか? 
下限(マイナス)<S2<上限プラス)
基準2:S2/は1に近いか?
下限(より小)S2/上限(より大)
カイ二乗分布による検定(H1:  )
[W2]より H0 が真なら、P( 1 / 2 (n1) < W0(=i(Xi X )2/<  / 2 (n1)) = 1
2
2

検定ルール: 1 / 2 (n-1) < W0<  / 2 (n1) なら 有意度で受容。
2
2
W0 大 は小さすぎる。
W0 小 は大きすぎる。
検定ルール’:
12 / 2 (n  1)
n 1
<
下限(1 より小)
W0
2 / 2 (n  1)
S2

<
なら 有意度で受容。
n 1
n  1  02
上限(1 より大)
-2-
浅野
統計学 Lec 9
例:H0:=62、H1:  を有意度%で検定。
n=10, S2=100
 df = n-1 = 9
S
下限:  0.975 /9= 上限:  0.025 /9
2
2
 0.975
2
2
 0.025
9
自由度 9 のカイ二乗分布 期待値は 9(自由度)
右側 2.5%の限界値
9 より大
左側 2.5%の限界値
=右側 97.5%の限界値
9 より小
-3-
浅野
統計学 Lec 9
10-2
適合度の検定(一元分類)
例 1:サイコロは正常か? H0:P(1)=P(2)=..=P(6)=1/6
直観:
頻度 f
期待されるパターン ei
は
に十分近いか?
実験:60 回転がす。
結果
頻度
期待度数
1
2
3
4
5
6
fi
ei
マス目の数 k 個
[W3]
W=i(fi-ei)2/ei   2 (k-1)
例2:試験の点数は正規分布に従うか?
期待されるパターン ei
頻度 f
は
に十分近いか?
手順
1.5 から 15 程度の区間にわけて頻度を記録。(fi)
2.標本から X と S を求める。
3.N( X ,S2)の分布から期待度数(ei)を計算
4.W=i(fi-ei)2/ei から検定を行う。
・ 同じ手法は H0:血液型(A:B:O:AB)の割合は(Pa:Pb:Po:Pab)である等の検定に適用できる。
注意:
あ)fi,ei は度数を使う。割合ではない!
い)W は近似的にカイ二乗分布に従う。近似は実験数が多ければ良好となる。
う)近似が良好となる目安は、すべてのマス目で期待度数が 5 以上。
え)期待度数が 5 以下なら隣接するマス目を合併して検定を行う。
-4-
浅野
統計学 Lec 9
10-3 分割表と独立性の検定(二元分類)
例:
地域(R)と好み(T)に関係はあるか?
地域 R:関東と関西 (R=R1,R2)
好み T:天婦羅、鰻、寿司、タコ焼きのうちどれが一番すきか?(T=T1,T2,T3,T4)
データ(行数:r 列数:c)、2 つの属性(二元分類)
T1 天婦羅
T2 鰻
T3 寿司
T4 タコ焼き
計(P(Rj))
R1 関東
25 (f11)
20 (f21)
50 (f31)
5 (f41)
100(0.5)
35(e11)
15
35
15
R2 関西
45(f12)
10(f22)
20(f32)
25(f42)
100(0.5)
H0:R と T には関係がない。 R と T は独立
35
15
35
15
計(P(Ti))
70(0.35)
30(0.15)
70(0.35)
30(0.15)
200
 P(Rj,Ti)= P(Rj)xP(Ti)
期待度数: eij=nxP(Rj)xP(Ti)
e11= 200 x 0.5 x 0.35 = 35
e21= 200 x 0.5 x 0.15 = 15
..
[W4]
W=ij(fij-eij)2/eij~  2 ((r-1)(c-1))
注意
あ)自由度は(r-1)(c-1)。
い)r x c 個のマス目に入る数字のうち自由に動けるのは(r-1)(c-1)個。
う)学歴(S)と血液型(B)に関係はあるか?などの問題も学歴を高卒、大卒、大学院卒に分
ければ同様の手続きで検定できる。
え)「学歴(S)と知能(I)(低い、やや低い、普通、やや高い、高い)に関係があるか?」も
検定できる。
お)しかし、え)で知りたいのは「学歴と知能に有意にプラスの関係があるか?」であろう。こ
の問いにカイ二乗検定は答えてくれない。このような問題には回帰分析(9章)が使われる。
-5-
浅野
統計学 Lec 9
おまけ:何故 W は(近似的に)カイ二乗分布に従うのか?
一元分類k=2のケース
仮説:H0: P(1) = p0, P(2) = 1p0
適合度の検定
結果
頻度
期待度数
1
f1(x)
e1(np0)
2
f2(n-x)
e2(n(1-p0))
割合の検定(H0:p=p0)
ˆ  p0 ) /  pˆ
検定量 Z0= ( p
 2  p0 (1  p0 ) / n
pˆ
|Z0|>Za/2 なら棄却 <=>
|Z02|>Z/22 なら棄却、
は近似的ににしたがう。近似が良好となる条件は?
Z02 = n( pˆ p0)2/p0(1p0)
Z02 は近似的にカイ二乗(1)に従う。
=0.05 なら Z0.025 = 1.96 => Z0.0252 = 3.84
カイ二乗検定
Y 成功(1)の回数、成功の割合
W
pˆ = Y/n
= i(fi-ei)2/ei
= (Y-npo)2/np0 + {(n-Y)-n(1-p0)}2/n(1-p0)
= (Y-npo)2{1/np0 + 1/n(1-p0)}
= (Y-npo)2/{np0(1-p0)}
= n2(Y/n - po)2/{np0(1-p0)}
= n(Y/n - po)2/{p0(1-p0)}
= Z02 割合の検定の Z 検定量の二乗と同じ
2
 0.05
(1)  3.84 = 1.962 カイ二乗限界値の表を参照
W は H0 の下で近似的に自由度1のカイ二乗分布に従う。
-6-