浅野 統計学 Lec 9 10章 カイ二乗分布 扱う問題 ・分散の検定H0: ・サイコロは正常か?(適合度の検定、一元分類) ・試験の点数は正規分布に従うのか?(適合度の検定、一元分類) ・関東と関西で食べ物の好みに違いがあるか?(独立性の検定、二元分類) ・学歴と血液型に関係はあるか?(独立性の検定、二元分類) 10-0 カイ二乗分布とは Zi~N(0,1) i=1,..,n 独立 [W] WiZi2 の従う分布を自由度 n のカイ二乗分布と呼ぶ。 1)自由度は df (degrees of freedom)で略記する。 2)「W は自由度 df のカイ二乗分布に従う」を W~ (df)で表す。 2 3)カイ二乗分布の限界値を であらわす。(P(W> )=) 2 2 カイ二乗分布の性質 1.非負。 2.平均 n(=自由度)、分散 2n。 3.左に偏っている。 4.自由度増加とともに分布は右にシフトし広がる。 5.自由度増加とともに分布は対称に近づく。 6.自由度大なら W の分布は N(n,2n)に近づく。(CLT!) 7.W1~ (n1)、W2~ (n2) W1,W2 は独立、なら、W1+W2 ~ (n1+n2) (再生性) 2 2 2 -1- 浅野 統計学 Lec 9 分布形(p.222 図2)分布表、限界値(p.298 表 VII) 例 X~N()からの標本 X1,X2,..,Xn Zi=(Xi-)/~ [W1] [W2] (Xi-)2/~ (1) 2 W = i(Xi)2/~ 2 (n) W i(Xi X )2/(n-1)S が未知なら計算できない ~ 2 (n-1) 自由度が1個落ちる S2=i(Xi X )2/n不偏分散 標本分散 10-1 分散の検定 H0: 直観:分散の推定値 S2 は仮説の値に十分近いか? 基準1:S2はゼロに近いか? 下限(マイナス)<S2<上限プラス) 基準2:S2/は1に近いか? 下限(より小)S2/上限(より大) カイ二乗分布による検定(H1: ) [W2]より H0 が真なら、P( 1 / 2 (n1) < W0(=i(Xi X )2/< / 2 (n1)) = 1 2 2 検定ルール: 1 / 2 (n-1) < W0< / 2 (n1) なら 有意度で受容。 2 2 W0 大 は小さすぎる。 W0 小 は大きすぎる。 検定ルール’: 12 / 2 (n 1) n 1 < 下限(1 より小) W0 2 / 2 (n 1) S2 < なら 有意度で受容。 n 1 n 1 02 上限(1 より大) -2- 浅野 統計学 Lec 9 例:H0:=62、H1: を有意度%で検定。 n=10, S2=100 df = n-1 = 9 S 下限: 0.975 /9= 上限: 0.025 /9 2 2 0.975 2 2 0.025 9 自由度 9 のカイ二乗分布 期待値は 9(自由度) 右側 2.5%の限界値 9 より大 左側 2.5%の限界値 =右側 97.5%の限界値 9 より小 -3- 浅野 統計学 Lec 9 10-2 適合度の検定(一元分類) 例 1:サイコロは正常か? H0:P(1)=P(2)=..=P(6)=1/6 直観: 頻度 f 期待されるパターン ei は に十分近いか? 実験:60 回転がす。 結果 頻度 期待度数 1 2 3 4 5 6 fi ei マス目の数 k 個 [W3] W=i(fi-ei)2/ei 2 (k-1) 例2:試験の点数は正規分布に従うか? 期待されるパターン ei 頻度 f は に十分近いか? 手順 1.5 から 15 程度の区間にわけて頻度を記録。(fi) 2.標本から X と S を求める。 3.N( X ,S2)の分布から期待度数(ei)を計算 4.W=i(fi-ei)2/ei から検定を行う。 ・ 同じ手法は H0:血液型(A:B:O:AB)の割合は(Pa:Pb:Po:Pab)である等の検定に適用できる。 注意: あ)fi,ei は度数を使う。割合ではない! い)W は近似的にカイ二乗分布に従う。近似は実験数が多ければ良好となる。 う)近似が良好となる目安は、すべてのマス目で期待度数が 5 以上。 え)期待度数が 5 以下なら隣接するマス目を合併して検定を行う。 -4- 浅野 統計学 Lec 9 10-3 分割表と独立性の検定(二元分類) 例: 地域(R)と好み(T)に関係はあるか? 地域 R:関東と関西 (R=R1,R2) 好み T:天婦羅、鰻、寿司、タコ焼きのうちどれが一番すきか?(T=T1,T2,T3,T4) データ(行数:r 列数:c)、2 つの属性(二元分類) T1 天婦羅 T2 鰻 T3 寿司 T4 タコ焼き 計(P(Rj)) R1 関東 25 (f11) 20 (f21) 50 (f31) 5 (f41) 100(0.5) 35(e11) 15 35 15 R2 関西 45(f12) 10(f22) 20(f32) 25(f42) 100(0.5) H0:R と T には関係がない。 R と T は独立 35 15 35 15 計(P(Ti)) 70(0.35) 30(0.15) 70(0.35) 30(0.15) 200 P(Rj,Ti)= P(Rj)xP(Ti) 期待度数: eij=nxP(Rj)xP(Ti) e11= 200 x 0.5 x 0.35 = 35 e21= 200 x 0.5 x 0.15 = 15 .. [W4] W=ij(fij-eij)2/eij~ 2 ((r-1)(c-1)) 注意 あ)自由度は(r-1)(c-1)。 い)r x c 個のマス目に入る数字のうち自由に動けるのは(r-1)(c-1)個。 う)学歴(S)と血液型(B)に関係はあるか?などの問題も学歴を高卒、大卒、大学院卒に分 ければ同様の手続きで検定できる。 え)「学歴(S)と知能(I)(低い、やや低い、普通、やや高い、高い)に関係があるか?」も 検定できる。 お)しかし、え)で知りたいのは「学歴と知能に有意にプラスの関係があるか?」であろう。こ の問いにカイ二乗検定は答えてくれない。このような問題には回帰分析(9章)が使われる。 -5- 浅野 統計学 Lec 9 おまけ:何故 W は(近似的に)カイ二乗分布に従うのか? 一元分類k=2のケース 仮説:H0: P(1) = p0, P(2) = 1p0 適合度の検定 結果 頻度 期待度数 1 f1(x) e1(np0) 2 f2(n-x) e2(n(1-p0)) 割合の検定(H0:p=p0) ˆ p0 ) / pˆ 検定量 Z0= ( p 2 p0 (1 p0 ) / n pˆ |Z0|>Za/2 なら棄却 <=> |Z02|>Z/22 なら棄却、 は近似的ににしたがう。近似が良好となる条件は? Z02 = n( pˆ p0)2/p0(1p0) Z02 は近似的にカイ二乗(1)に従う。 =0.05 なら Z0.025 = 1.96 => Z0.0252 = 3.84 カイ二乗検定 Y 成功(1)の回数、成功の割合 W pˆ = Y/n = i(fi-ei)2/ei = (Y-npo)2/np0 + {(n-Y)-n(1-p0)}2/n(1-p0) = (Y-npo)2{1/np0 + 1/n(1-p0)} = (Y-npo)2/{np0(1-p0)} = n2(Y/n - po)2/{np0(1-p0)} = n(Y/n - po)2/{p0(1-p0)} = Z02 割合の検定の Z 検定量の二乗と同じ 2 0.05 (1) 3.84 = 1.962 カイ二乗限界値の表を参照 W は H0 の下で近似的に自由度1のカイ二乗分布に従う。 -6-
© Copyright 2024