●一般の分布に関して チェビシェフの定理(どんな度数分布についても成り立つデータの集中度を測る基準) 平均m、標準偏差σのサイズ N のデータについて m-kσ<x<m+kσ (k≧1) ・・・ (3.1) なる範囲にあるメンバーの度数は(1-1/k 2)N 以上である。 N inside 例えば m-2σ<xi<m+2σなるxi の個数は全体の3/4以上 m ks m-3σ<xi<m+3σなるxi の個数は全体の8/9以上 ks ●確率分布関数の検定への応用 分布関数を使うことで、平均値の信頼区間が得られるが、この信頼区間を使って検定を行う。 (例 1) 全国の10歳女子の身長は平均値μが 140cm、標準偏差σが 5cm の正規分布をする。 あるクラス 25 人の身長の平均値xm は 137cm であった。このクラスの身長は全国水準と違うと 言えるか。 (母集団の標準偏差が変わらないことが前提なので、正規分布関数を使う) (1) 仮説の設定: 「全国水準と違う」という仮説は、違いの程度を特定しないと検定できない。そ こで、 「全国水準と同じ」という仮説(帰無仮説 H0:μ=140)をとりあえず採用し、対立仮 説(H1:μ≠140)は伏せておく。 (2)統計量を求める:帰無仮説が正しいとすると、標本平均値xm の理論分布は平均値μ、標準偏 差σ/√n の正規分布となる。従ってこの標本平均の偏り度合を表す統計量は、標準化した変数 zを用いて z=(xm-μ)/(σ/√n)=(137-140)/(5/√25)=-3.0 すなわち、z=-3.0 となり、標準正規正規分布表からこの確率は 0.0027 となる。 これは標本平均がその期待値から 3(=140-137)cm 以上離れる確率は、P=0.0027 を意味する。 判定:このようなまれな確率が起こったと考えるよりは、帰無仮説 H0 が正しくなかったと考え る方が妥当。したがって、H0 を棄却して対立仮説 H1 を採用する。すなわち、全国水準とは違う と言える。 0.4 Excel では、normdist(z 値, 平均, 標準偏差, true)で累積面積を返す 0.3 normdist(z 値, 平均, 標準偏差, false)で密度関数値を返す 0.2 0.1 normsdist(z 値)で標準正規分布の累積面積(確率)を返す(右図) 0 -4 20 -3 -2 -1 0 1 2 3 4 (例 2) (母分散が変化せず、平均値だけが変化する場合の平均値の検定) 測定結果 ある製品製造工程の平均 CO2 排出量は 30mg と言われているが,製造工程を 26 変更したので平均排出量の変化を検討したい。16 回測定した結果の表をもとに、 33 平均排出量は 30mg と判断して良いか。従来の排出量の標準偏差の値は 2mg で、 27 工程の変化によってもこの値は変わらないものとする。 32 考え方: 33 (0)仮説設定 帰無仮説 H0:母平均μ=30、 24 対立仮説:対立仮説 H1:母平均μ≠30 32 有意水準(危険率)の設定:α=0.05 とする 29 (1)1つの母平均に関する検定は、母標準偏差σが既知の場合は標準正規分布を用い、 31 統計量 z を求める。z=(標本平均-母平均)/(母標準偏差/√(標本数)) z=(29.56-30.0)/(2/√16)=-0.875 0.4 (2)標準正規分布でその値をとるときの確率 p 値を求める。 p=(1-NORMSDIST(ABS(z)))*2=0.3816 30 併せた面積:p 27 0.3 31 0.2 25 0.1 (3)平均値は元の値と同じとみなして良いかという問題で 34 0 -4 -3 -2 -1 0 1 2 3 4 29 |z| あるので両側検定を行う。 30 (もし元の値より大きいかという問題であれば、大きい側だけを調べるので片側検定となる) 関数 NORMSINV(p) は、左側確率値が p 以下となる統計量 z を返す 0.4 NORMSDIST(z) は、統計値が z(>0)以下となる左側確率値 p を返す (面積) したがって z<0 のときは符号を変えて正にする 0.3 関数 0.2 0.1 0 →Excel 関数は ABS(z)で絶対値を得る -4 -3 -2 -1 0 1 2 3 4 z x の平方根を計算する Excel 関数は SQRT(x)である 両側検定では|z|値より大きい領域と-|z|より小さい領域の面積の和(灰色)が確率値pとなる (α以下の確率でしか発生しない) (4) p値が有意水準(危険率)αより小さいと帰無仮説 H0 は棄却される p値が有意水準(危険率)より大きいと帰無仮説 H0 は棄却されない(発生する確率が大きい) 結論:p 値=0.3816>α=0.05 なので、帰無仮説 H0 は棄却されない すなわち、危険率 5%で、母平均は 30 でないとは言えない もし、p<αならば p 値=○○<α=0.05 なので、帰無仮説 H0 は棄却される。 すなわち、危険率 5%で、母平均は 30 でないと言える H0 を受け入れる H0 を捨てる (H1 を受け入れる) H0:真(差が無い) 正しい決定 第1種の過誤 1 - α:信頼係数 H1:真(差が有る) 第2種の過誤 α:有意水準 β 正しい決定 1-β 21 (例3)母分散も変化するときに、平均値に関する検定をする (データ数が比較的少ない場合、または母分散(母標準偏差)が未知のときは t 分布を使う) 母平均が 12ppm、母標準偏差が 1ppm の濃度の有効成分をもつ薬剤の製造工程変更した。 11 変更後の濃度データ(右表)から母平均が大きくなったと言えるかを検討せよ。 12 ただし、工程変更で標準偏差も変化している可能性がある。 15 14 考え方 母標準偏差が未知のときはt分布の性質を使って検定する。 解説 手順 「母平均が大きくなったかどうか」であるから片側のt検定を行う。 17 もし、問題が「母平均が変化したかどうか」である場合は、大きい方へ変化 20 した場合と小さい方へ変化した場合があるので、この場合は両側検定を行う。 18 データから計算した検定量 t がt分布のどの位置にくるかによって、 14 その位置にくる確率がわかることを利用して検定する(推定する) 18 1.仮説設定 帰無仮説 H0:母平均は同じ 11 (対立仮説)H1:母平均は 12 より大きい 17 2.有意水準(危険率=結論が誤る確率)α=0.05 とする 14 3.自由度φの算出 φ=(データ数)-1 16 4.検定統計量t値の算出 13 t={(標本平均)-(母平均)}/{(標本標準偏差)/√(データ数)} 15 5.p値(確率値)の算出(t 値、自由度がわかっているとき(本問題) ) 、 19 片側p値を求めるときは、Excel 関数 TDIST(t値,自由度,1)を使う 0.4 0.2 (参考)自由度φ、有意水準αがわかっているときのt値(>0)の算出は 0.1 0 関数 TINV(有意水準値,自由度)を使う -3 片側検定の場合、有意水準値を倍にする 6.p値が有意水準より小さいと帰無仮説 H0 は棄却される p値が有意水準より大きいと帰無仮説 H0 は棄却されない p 値=○○<危険率α=0.05 なので有意差がある。 または、 p 値=○○>危険率α=0.05 なので有意差は無い。 結論 危険率 5%で母平均は 12 より大きいといえる(p<αの場合)。 危険率 5%で母平均は 12 より大きいといえない(p≧αの場合) 。 【演習 12】上記(例2)、 (例3)を計算し、結論まで導いてみよう。 22 -2 -1 0 1 2 t値 (ただし、TINV 関数は元々両側検定の有意水準値をとるので、 検定結果 p値 0.3 両側p値を求めるときは、Excel 関数 TDIST(t値,自由度,2)を使う または、 3 t検定(Student’s t-test) t検定は、2つのグループ間で平均の差の検定(母集団は正規分布をすると見なす) (分散分析は、正規分布に従う複数グループ間で平均の差の一括検定とみなせる) (1) 2つのグループ間で同一個体で2条件を比較する場合(対応関係がある場合) 各対応データの差:x1i-x2i がt分布をするという仮説で統計量tを求めて、 t 検定を行う。 t= x1m - x2 m sd n ここで x1m, x2m はそれぞれグループ 1,2 のデータの平均、 sd は差の標準偏差で sd = å (x 1i - x2i ) 2 n -1 x1i, x2i はそれぞれグループ 1,2 の i 番目の各データ(i=1,2,..,n)、nはデータ数 (2) 2つのグループ間のデータ個々が互いに無関係の場合(対応関係が無い場合) ・2つのグループ間のデータが等分散と見なせる場合 t= x1m - x 2 m 1 1 V( + ) n1 n2 を計算する。ここで、合成分散: V= S1 + S 2 ( n1 - 1) + ( n2 - 1) n1 ただし、 S1 = å ( x1i - x1m ) 2 i =1 n2 S 2 = å ( x2 i - x2 m ) 2 i =1 t 分布で、自由度:(n1+n2-2)、有意水準(危険率α)の t 値(tα)を調べ |t|>tα のとき、有意差あり(仮説が誤りであり、対立仮説を採用) |t|≦tα のとき、有意差は無し ・2つのグループ間のデータが等分散と見なせない場合 -> t= x1m - x2 m ,但し S V1 V2 V1 = 1 , + n n1 n2 1 -1 Welch 法でt検定を行う。 2 n1 S1 = å ( x1i - x1m ) 2 i =1 n2 S V2 = 2 , S 2 = å ( x2i - x2m ) 2 n2 - 1 i =1 R によるt検定例(対応ありの場合) æ V1 V2 ö çç + ÷÷ 自由度: d = è n1 n2 ø を使う f 2 2 æ V2 ö æ V1 ö çç ÷÷ çç ÷÷ è n1 ø + è n2 ø n1 - 1 n2 - 1 before <- c(98,88,100,96,107,114) # 条件変更前 after <- c(86,73,95,92,99,116) # 条件変更後 df <- data.frame(Before=before, After=after) # データフレーム作成 入力部分 t.test(df$Before, df$After, paired=TRUE) # 対応ありのデータの場合 ---------- 以下は出力結果 -------------Paired t-test # 対応のあるt検定 data: df$Before and df$After t = 2.8265, df = 5, p-value = 0.03683 # t値、自由度、確率値 alternative hypothesis: true difference in means is not equal to 0 # 対立仮説を採用 95 percent confidence interval: 0.6338082 13.3661918 # 母平均の差の 95%信頼区間 sample estimates: mean of the differences # 標本の差の平均値の推定 7 23 【演習 13】ある試験を2つのグループの学生集団に課した。異なる試験に対して課しても、同じ 2 組のグループに課す限り、得点の平均値は変動しても、分散は同じであることが分かっている とする。このとき、A 群の 36 名の平均得点は 82.6 点、不偏分散は 15.3、一方、B 群 43 名の平 均得点は 84.5 点、不偏分散は 16.2 であった。2 群の母平均に差があるかどうか、有意水準 5% で Excel で検定してみよう。 【演習 14】6 名の患者に脈拍を抑える Z 剤を投与し、前後の脈拍数を計測した。Z 剤の効果はあ ったと言って良いか Excel で検定してみよう。 A B C 投与前の脈拍数 98 88 100 96 投与後の脈拍数 86 73 95 92 患者名 D E F 107 114 99 116 24 ●χ2(カイ二乗)分布と母分散の推定 ○標準正規分布する変数zがあるとき、z2 の分布が自由度1の χ2 分布となる。また、変数がn個あるとき、 χ2=z12+z 22+・・+z n2 の分布が自由度nのχ 2 分布となる。 ・・,χn2 がぞれぞれ ○さらに、χ12,χ22, 自由度φ1,φ2,・・,φn の互いに独立なχ 2 分布に従う c 2 分布関数表 ときは、χ 2=χ12+χ22+・・χn2 は自由度 上側確率値 φ=φ1+φ2+・・φn のχ2 分布に従う。 P=0.10 ○正規母集団 N(μ,σ2)からランダムに取り出した 0.050 0.020 0.010 6.635 df=1 2.706 3.841 5.412 n個のデータの偏差平方和(偏差2乗和)Sx を母分散σ 2 2 4.605 5.991 7.824 9.210 で割ったものは、自由度φ=n-1 のχ2 分布に従う 3 6.251 7.815 9.837 11.345 4 7.779 9.488 11.668 13.277 5 9.236 11.071 13.388 15.086 6 10.645 12.592 15.033 16.812 7 12.017 14.067 16.622 18.475 8 13.362 15.507 18.168 20.090 9 14.684 16.919 19.679 21.666 10 15.987 18.307 21.161 23.209 11 17.275 19.675 22.618 24.725 12 18.549 21.026 24.054 26.217 13 19.812 22.362 25.472 27.688 14 21.064 23.685 26.873 29.141 【例】畑でとれた作物からランダムに n=10 個を選んで重量を 15 22.307 24.996 28.259 30.578 調べたら次のようになった。この標本データを元に正規分布 する母分散の点推定値、および 95%の信頼区間を求めよ。 xi: 57, 38, 19, 69, 39, 18, 50, 74, 52, 59 16 23.542 26.296 29.633 32.000 17 24.769 27.587 30.995 33.409 18 25.989 28.869 32.346 34.805 19 27.204 30.144 33.687 36.191 20 28.412 31.410 35.020 37.566 n Sx = s2 i =1 χ2 の期待値: < c >= f = n - 1 2 s2 (m は平均)(3.2) 自由度 2 カイ2乗統計量: c = å ( xi - m ) 2 偏差平方和:Sx の期待値:< S x >= (n - 1)V ・・ (3.3) (V は不偏分散=標本標準偏差の 2 乗) χ2 分布の分布密度関数 f ( x) = (ただし、x>0) æ xö ç ÷ n è 2ø 2G( ) 2 1 n -1 x 2 2 e 平均値:m=Σxi/n=47.5 より、 不偏分散 V=Σ(xi-m)2/(n-1)=362.1 が母分散の点推定値。 カイ2乗統計量:χ2=Σ(xi-m)2/σ 2 が自由度(n-1)=9の χ 2 分布をするから、χ12<χ2<χ22 となるχ 2 の範囲を求める。 確率分布の両端あわせて 5%を除いた部分が 95%信頼区間である ので、片側は 2.5%となるχ 2 値がそれぞれχ 12、χ22 となる (右下図参照) 。 上側確率値 P å(x i - m) c1 2 0.05 2 0 0 で信頼区間が求まる。 2 c = c 2 (1 - a / 2, 9) = 2.7 、 c 2 = c (a / 2, 9) = 19.02 より 2 1 å (x i - 47.5) 19.02 2 カイ2乗グラフ 0.15 0.1 危険率:α=0.05 ( x - m) 2 ( x - m) 2 2 2 c1 < c 2 = å i 2 < c 2 より、 å i 2 <s2 < s c2 0.2 2 5 10 c2 15 20 0.1 カイ2乗グラフ φ=9 3258.5 から <s < 2.70 2 171.3 < s < 1206.7 となる。 2 0.08 0.06 Excel 関数では、 chidist(χ2, φ)はχ2 分布の上側片側確率値 P を返す(右斜上図参照) chiinv(p, φ)は確率値pのχ2 値を返す 0.04 P=α/2 0.02 P=α/2 25 P=1-α 0 0 c1 2 10 2 c 2 20 30 【演習 15】 母平均が 12 ppm(part per million) 、母標準偏差が 1ppm の濃度の有効成分をもつ薬剤の製造工 程を変更した結果の濃度の 16 回の測定結果が以下のデータであった。 11, 12, 15, 14, 10, 12, 12, 14, 12, 11, 13, 14, 12, 13, 15, 11 以下の2つの場合において、変更後の測定結果の濃度データから母平均が大きくなったと言える かを 5%の有意水準(危険率)で求めてみよう。 (1) 工程変更でも濃度の標準偏差が変わらないと仮定した場合 (2) 工程変更で、標準偏差も変化した可能性がある場合 考え方: 標準偏差が既知の場合は、結果の母集団は正規分布をしていると仮定できる 標準偏差が未知の場合は、t分布をしていると仮定する。 母平均が大きくなったどうかだけが問題なので、上側の片側検定とする 進め方: 1.16 個の標本データから母集団の分布を仮定して統計量を求める。 2.その統計量が母集団の分布密度関数のどの位置に来るかをみる。 面積 5% 3.密度関数の上側 5%の位置での統計量を分布密度関数を使って求める。 4.計算した結果の統計量と危険率 5%の統計量と比較して、計算した結果の 値の方が大きければ、そのような場合が発生する確率が 5%以下となるので、 「平均値は大きくなった言える」(ただし、間違える確率は最大でも 5%である。) 計算した結果の方が小さければ、結論は「平均値は大きくなったとは言えない」となる。 【演習 16】 直径の標準偏差が 0.03mm の円柱を製造していた精密機器メーカーが新製法を開発した。新製品 20 個を無作為に抽出したら、標準偏差が 0.02mm であった。新製法によって、直径のばらつきは 小さくなったといえるか? 有為水準(危険率=間違える確率)5%、1%で検定せよ。 [手順] 1.χ2 統計量が自由度 n=20-1=19 のχ2 分布に従うことを利用する。 (χ2 統計量は個々のデータ値が不明でもχ2=Σ(xi-m)2/σ 2 より求まる。) 2.帰無仮説 H0: σ 2=0.032 対立仮説 H1: σ 2<0.032 を設定する。 元よりばらつきが小さくなったかどうかを検定するのであるから、統計量が分布の左側に 有意にくるかどうかを調べる。このため左側検定を行う(下図参照) 。 f (c 2 ) 3.図の色付の部分の面積(確率値を表す)が 0.05 になるχ 2 の値、0.01 になるχ 2 値と、 0.06 自由度φ=19 データから求めた統計量χ 2 との大小比較を 0.04 行って検定をする。 0.02 P(0.05 又は 0.01) χ2 0 0 26 10 20 30 【演習 17】 ある母集団から任意抽出したサイズ 10 のデータが 次のとおりであった。 データ: 27.0 22.3 23.5 26.2 24.5 26.0 20.9 25.5 24.4 24.7 (1)母分散がσ 2=3.40 と判明したとき、母平均μの 90%信頼区間を求めよ。 (2)母分散が未知のとき、母平均μの 90%信頼区間を求めよ (3)母分散σ 2 の 95%信頼区間を求めよ ● F 分布(Fisher distribution / Snedecor's F-distribution)とは 2つの確率変数χ12、χ12 があり、これらが互いに独立にそれぞれφ1、φ2 のχ2 分布に従うとき、 次の F も確率変数となり、F 分布に従う。 2 c /f F = 12 1 , c 2 / f2 F ³0 Excel 関数では、 fdist(F, φ1, φ2) 値が F より大きい確率値を返す finv(p, φ 1, φ2)上側確率がpとなる F 値を返す また、変数 F の逆数である 1 / F も自由度 f 2 , f1 で特徴づけられる F 分布をすることから、変数 F の分母子の取り方はどちらをとってもよいのであるが、通常分子が大きくなるように変数 F を選 ぶ場合が多い。2つの正規母集団の母分散が等しいならば 2 2 ( s 1 = s 2 = s )、2つの標本の不偏分散比 F0 が F 分布をすることになる。 2 F分布 φ1 1 1 3 5 ∞ 2 F0 = s1 2 s2 この関係式は2つの正規母集団の分散が等しいか どうかを検定するのに用いることができる非常に便利 でかつ重要な関係式で、分散分析で用いられている。 0.5 φ2=10 0 0 27 2 4 6 ● 統計量に関係する確率分布のまとめ 母集団分布が N(μ,σ2)の母集団からn個のデータ x1,x2,・・,xn をランダムに取るとき、 ・n 個のデータの平均値xm は正規分布 N(μ,σ2/n)に従う。 ・χ2=Sx/σ2=Σ(xi-xm)2/σ 2 は自由度φ=n-1 のχ2 分布(χ2(φ)と表現)に従う。 ・上式でσ 2 の推定値として、Vx=Sx/(n-1)を代入すると、 t=(xm-μ)/√(Vx/n)は自由度φ=n-1 のt分布(t(φ)と表現)に従う。 2つの母集団のそれぞれが正規分布 N(μ1 ,σ12),N(μ2,σ 22)の分布とし、それぞれから サンプルサイズ n1,n2 のデータ x11 ,x12,・・,x1n,x21,x22,・・,x2n を取るとき、それぞれの分散を V1,V2 としたとき、 F=(V1/σ12)/(V2/σ22)は自由度(φ1,φ2)=(n1-1,n2-1)の F 分布(F(φ 1,φ2 ))に従う。 ● 検定と推定のまとめ+α (1)1つの母平均に関して 母集団分布が正規分布のとき、n個のデータに基づいて母平均μが、指定された値 μ0 と異なるかどうかを判定する作業を母平均の検定と呼ぶ。 帰無仮説 H0:μ=μ 0、 対立仮説 H1:μ≠μ0 を設定し、検定統計量 t0 を n x - m0 t0 = m Vx / n で計算する。ここで、 V x = S x = n -1 å (x i =1 i - xm ) 2 n -1 は分散の推定値を表す。 |t0|≧t(n-1,0.05)(両側)なら有意水準5%で有意であると判定し、H0 を棄却してμとμ 0 とは異なると判断する。点推定量はxm で、μの95%信頼区間はxm±t(n-1,0.05)√(Vx/n) (両側)である。 (2)1つの母分散に関して 母集団分布が正規分布 N(μ,σ 2)のとき、n個のデータに基づいて母分散σ2 が、指定された値 σ02 と異なるかどうかを判定する作業を母分散の検定と呼ぶ。 帰無仮説 H0:σ2=σ02、 対立仮説 H1:σ2≠σ02 と設定し、検定統計量χ02 を χ02=Sx/σ02 で求める。 χ02≦χ2(n-1,0.975) または、χ 02≧χ 2(n-1,0.025)なら、有意水準 5%で有意であると n 判定し、H0 を棄却してσ2 とσ02 とは異なると判断する。点推定量は Vx で V = S x = x n -1 σ2 の 95%信頼区間は ( Sx Sx , ) となる。 c 2 ( n - 1,0.025) c 2 ( n - 1,0.975) 28 å (x i =1 i - xm ) 2 n -1 、 (3)2つの母平均に関して 正規分布 N(μ1 ,σ2)から取った n1 個のデータと、正規分布 N(μ2,σ2)から取った n2 個のデータに 基づいて、2つの母平均が異なるかどうかを検定する(2つの母分散は等しいと仮定する) 。 帰無仮説 H0:μ1=μ2、 t0 = 対立仮説 H1:μ1≠μ2 を設定し、検定統計量 t0 を S1 + S 2 , x1m - x2 m を計算する。ここで x1m,x2m は平均, V = n n ( 1 ) + ( 1 ) 1 2 1 1 V( + ) n1 n2 n1 n2 i =1 i =1 S1 = å ( x1i - x1m ) 2 , S 2 = å ( x2i - x2 m ) 2 である。 |t0|≧t(n1+n2-2,0.05)なら有意水準 5%で有意であると判定し、H0 を棄却してμ1 とμ2 とは 異なると判断する。μ1-μ2 の点推定量は平均の差:x1m-x2m で、μ1-μ2 の 95%信頼区間は x1m - x2 m ± t ( n1 + n2 - 2,0.05) V ( 1 1 + ) n1 n2 である。 (対応の無い t 検定) (4)2つの母分散に関して 正規分布 N(μ1,σ12)から取った n1 個のデータと、正規分布 N(μ2,σ22)から取った n2 個のデータに 基づいて、2つの母分散が異なるかどうかを検定する。 帰無仮説 H0:σ12=σ22、 V1=S1/(n1-1), 対立仮説 H1:σ1 2≠σ22 を設定する。 V2=S2/(n2-1)を計算する。 V1>V2 のとき F0=V1/V2≧F(n1-1,n2-1;0.025) (分子に対応する自由度が第1自由度) V1<V2 のとき F0=V2/V1≧F(n2-1,n1-1;0.025)なら、有意水準5%で有意であると判定し、H0 を棄却してσ12 とσ22 とは異なると判断する。点推定量は V1/V2 で、95%信頼区間は ( V1 1 V × , 1 × F (n2 - 1, n1 - 1;0.025)) となる。 V2 F (n1 - 1, n 2 - 1;0.025) V2 29 付録 ・二項分布(binomial distribution) さいころ振りで、1 または 2 の目の出る事象を 0.14 n=10, p=0.25 0.3 0.25 0.1 0.2 A とすると、A の起こる確率を P(A)=p とすると、 0.08 0.15 0.06 0.1 0.04 それ以外の目が出る確率は P(A)=1-p と表現できる。 0.05 n 回の試行で、事象 A が x 回起こる確率関数 Wx は、 Wx = n Cx p x (1 - p)n - x ( x = 0,1,2,, n) n=50, p=0.25 0.12 0.02 0 0 0 (ただし、 n C x = 1 2 3 4 5 6 7 8 0 9 10 10 20 30 40 50 n! ) となる。 x!×(n - x)! p=0.5 のときは左右対称の分布になる。そうでない場合でも n が大きくなると左右対称に近づく。 ・ポアソン分布(Poisson distribution) 二項分布において、n が非常に大きな数で、p が非常に小さな数で、ただし、それらの積 np=μ は有限の値であるとき確率関数 Wx は次のようになる。 0.2 æmö Wx = n C x ç ÷ ènø x æ mö ç1 - ÷ nø è n-x = n( n - 1)( n - 2) ( n - x + 1) x æ m ö m ç1 - ÷ x! n x nø è n-x 0.15 0.1 0.05 n @ 1 xæ m ö m -m m ç1 - ÷ @ e x! è nø x! x 0 0 参考:柴田文明著「確率・統計」 岩波書店、1996 2 4 6 8 10 12 μ=4 ・チェビシェフの定理の証明(概略) 標本の分散: s 2 = = 1 n ( xi - m)2 f i å N i =1 ü 1ì 2 2 íå ( xi - m) f i + å ( xi - m) f i ý N î内 外 þ N inside éåは,xi - m < ks åは,xi - m > ks ùú ê内 外 êなるi についての和 なるi についての和 úû ë ks のように二組の和に分 けて考える。そこで気 前よくå を捨てると、 内 s2 > 1 1 1 ( xi - m)2 f i > å (ks) 2 f i = k 2 s 2 å f i å N 外 N 外 N 外 ゆえに、 åf 外 i < N k2 \ å fi = N - å fi > N 内 外 N æ 1ö = ç1 - 2 ÷ N 2 k è k ø 30 m ks 14 16
© Copyright 2024