3番目の資料

●一般の分布に関して
チェビシェフの定理(どんな度数分布についても成り立つデータの集中度を測る基準)
平均m、標準偏差σのサイズ N のデータについて
m-kσ<x<m+kσ
(k≧1)
・・・
(3.1)
なる範囲にあるメンバーの度数は(1-1/k 2)N 以上である。
N inside
例えば
m-2σ<xi<m+2σなるxi の個数は全体の3/4以上
m
ks
m-3σ<xi<m+3σなるxi の個数は全体の8/9以上
ks
●確率分布関数の検定への応用
分布関数を使うことで、平均値の信頼区間が得られるが、この信頼区間を使って検定を行う。
(例 1) 全国の10歳女子の身長は平均値μが 140cm、標準偏差σが 5cm の正規分布をする。
あるクラス 25 人の身長の平均値xm は 137cm であった。このクラスの身長は全国水準と違うと
言えるか。
(母集団の標準偏差が変わらないことが前提なので、正規分布関数を使う)
(1) 仮説の設定:
「全国水準と違う」という仮説は、違いの程度を特定しないと検定できない。そ
こで、
「全国水準と同じ」という仮説(帰無仮説 H0:μ=140)をとりあえず採用し、対立仮
説(H1:μ≠140)は伏せておく。
(2)統計量を求める:帰無仮説が正しいとすると、標本平均値xm の理論分布は平均値μ、標準偏
差σ/√n の正規分布となる。従ってこの標本平均の偏り度合を表す統計量は、標準化した変数
zを用いて
z=(xm-μ)/(σ/√n)=(137-140)/(5/√25)=-3.0
すなわち、z=-3.0 となり、標準正規正規分布表からこの確率は 0.0027 となる。
これは標本平均がその期待値から 3(=140-137)cm 以上離れる確率は、P=0.0027 を意味する。
判定:このようなまれな確率が起こったと考えるよりは、帰無仮説 H0 が正しくなかったと考え
る方が妥当。したがって、H0 を棄却して対立仮説 H1 を採用する。すなわち、全国水準とは違う
と言える。
0.4
Excel では、normdist(z 値, 平均, 標準偏差, true)で累積面積を返す
0.3
normdist(z 値, 平均, 標準偏差, false)で密度関数値を返す
0.2
0.1
normsdist(z 値)で標準正規分布の累積面積(確率)を返す(右図)
0
-4
20
-3
-2
-1
0
1
2
3
4
(例 2) (母分散が変化せず、平均値だけが変化する場合の平均値の検定)
測定結果
ある製品製造工程の平均 CO2 排出量は 30mg と言われているが,製造工程を
26
変更したので平均排出量の変化を検討したい。16 回測定した結果の表をもとに、
33
平均排出量は 30mg と判断して良いか。従来の排出量の標準偏差の値は 2mg で、
27
工程の変化によってもこの値は変わらないものとする。
32
考え方:
33
(0)仮説設定
帰無仮説 H0:母平均μ=30、
24
対立仮説:対立仮説 H1:母平均μ≠30
32
有意水準(危険率)の設定:α=0.05 とする
29
(1)1つの母平均に関する検定は、母標準偏差σが既知の場合は標準正規分布を用い、
31
統計量 z を求める。z=(標本平均-母平均)/(母標準偏差/√(標本数))
z=(29.56-30.0)/(2/√16)=-0.875
0.4
(2)標準正規分布でその値をとるときの確率 p 値を求める。
p=(1-NORMSDIST(ABS(z)))*2=0.3816
30
併せた面積:p
27
0.3
31
0.2
25
0.1
(3)平均値は元の値と同じとみなして良いかという問題で
34
0
-4
-3
-2
-1
0
1
2
3
4
29
|z|
あるので両側検定を行う。
30
(もし元の値より大きいかという問題であれば、大きい側だけを調べるので片側検定となる)
関数
NORMSINV(p) は、左側確率値が p 以下となる統計量 z を返す
0.4
NORMSDIST(z) は、統計値が z(>0)以下となる左側確率値 p を返す
(面積)
したがって z<0 のときは符号を変えて正にする
0.3
関数
0.2
0.1
0
→Excel 関数は ABS(z)で絶対値を得る
-4
-3
-2
-1
0
1
2
3
4
z
x の平方根を計算する Excel 関数は SQRT(x)である
両側検定では|z|値より大きい領域と-|z|より小さい領域の面積の和(灰色)が確率値pとなる
(α以下の確率でしか発生しない)
(4) p値が有意水準(危険率)αより小さいと帰無仮説 H0 は棄却される
p値が有意水準(危険率)より大きいと帰無仮説 H0 は棄却されない(発生する確率が大きい)
結論:p 値=0.3816>α=0.05 なので、帰無仮説 H0 は棄却されない
すなわち、危険率 5%で、母平均は 30 でないとは言えない
もし、p<αならば
p 値=○○<α=0.05 なので、帰無仮説 H0 は棄却される。
すなわち、危険率 5%で、母平均は 30 でないと言える
H0 を受け入れる
H0 を捨てる
(H1 を受け入れる)
H0:真(差が無い)
正しい決定
第1種の過誤
1 - α:信頼係数
H1:真(差が有る)
第2種の過誤
α:有意水準
β
正しい決定
1-β
21
(例3)母分散も変化するときに、平均値に関する検定をする
(データ数が比較的少ない場合、または母分散(母標準偏差)が未知のときは t 分布を使う)
母平均が 12ppm、母標準偏差が 1ppm の濃度の有効成分をもつ薬剤の製造工程変更した。
11
変更後の濃度データ(右表)から母平均が大きくなったと言えるかを検討せよ。
12
ただし、工程変更で標準偏差も変化している可能性がある。
15
14
考え方 母標準偏差が未知のときはt分布の性質を使って検定する。
解説
手順
「母平均が大きくなったかどうか」であるから片側のt検定を行う。
17
もし、問題が「母平均が変化したかどうか」である場合は、大きい方へ変化
20
した場合と小さい方へ変化した場合があるので、この場合は両側検定を行う。
18
データから計算した検定量 t がt分布のどの位置にくるかによって、
14
その位置にくる確率がわかることを利用して検定する(推定する)
18
1.仮説設定
帰無仮説 H0:母平均は同じ
11
(対立仮説)H1:母平均は 12 より大きい
17
2.有意水準(危険率=結論が誤る確率)α=0.05 とする
14
3.自由度φの算出 φ=(データ数)-1
16
4.検定統計量t値の算出
13
t={(標本平均)-(母平均)}/{(標本標準偏差)/√(データ数)}
15
5.p値(確率値)の算出(t 値、自由度がわかっているとき(本問題)
)
、
19
片側p値を求めるときは、Excel 関数 TDIST(t値,自由度,1)を使う
0.4
0.2
(参考)自由度φ、有意水準αがわかっているときのt値(>0)の算出は
0.1
0
関数 TINV(有意水準値,自由度)を使う
-3
片側検定の場合、有意水準値を倍にする
6.p値が有意水準より小さいと帰無仮説 H0 は棄却される
p値が有意水準より大きいと帰無仮説 H0 は棄却されない
p 値=○○<危険率α=0.05 なので有意差がある。
または、
p 値=○○>危険率α=0.05 なので有意差は無い。
結論
危険率 5%で母平均は 12 より大きいといえる(p<αの場合)。
危険率 5%で母平均は 12 より大きいといえない(p≧αの場合)
。
【演習 12】上記(例2)、
(例3)を計算し、結論まで導いてみよう。
22
-2
-1
0
1
2
t値
(ただし、TINV 関数は元々両側検定の有意水準値をとるので、
検定結果
p値
0.3
両側p値を求めるときは、Excel 関数 TDIST(t値,自由度,2)を使う
または、
3
t検定(Student’s t-test)
t検定は、2つのグループ間で平均の差の検定(母集団は正規分布をすると見なす)
(分散分析は、正規分布に従う複数グループ間で平均の差の一括検定とみなせる)
(1) 2つのグループ間で同一個体で2条件を比較する場合(対応関係がある場合)
各対応データの差:x1i-x2i がt分布をするという仮説で統計量tを求めて、
t 検定を行う。
t=
x1m - x2 m
sd
n
ここで x1m, x2m はそれぞれグループ 1,2 のデータの平均、
sd は差の標準偏差で
sd =
å (x
1i
- x2i ) 2
n -1
x1i, x2i はそれぞれグループ 1,2 の i 番目の各データ(i=1,2,..,n)、nはデータ数
(2) 2つのグループ間のデータ個々が互いに無関係の場合(対応関係が無い場合)
・2つのグループ間のデータが等分散と見なせる場合
t=
x1m - x 2 m
1
1
V( + )
n1 n2
を計算する。ここで、合成分散:
V=
S1 + S 2
( n1 - 1) + ( n2 - 1)
n1
ただし、
S1 = å ( x1i - x1m ) 2
i =1
n2
S 2 = å ( x2 i - x2 m ) 2
i =1
t 分布で、自由度:(n1+n2-2)、有意水準(危険率α)の t 値(tα)を調べ
|t|>tα のとき、有意差あり(仮説が誤りであり、対立仮説を採用)
|t|≦tα のとき、有意差は無し
・2つのグループ間のデータが等分散と見なせない場合 ->
t=
x1m - x2 m ,但し
S
V1 V2
V1 = 1 ,
+
n
n1 n2
1 -1
Welch 法でt検定を行う。
2
n1
S1 = å ( x1i - x1m ) 2
i =1
n2
S
V2 = 2 , S 2 = å ( x2i - x2m ) 2
n2 - 1
i =1
R によるt検定例(対応ありの場合)
æ V1 V2 ö
çç + ÷÷
自由度: d = è n1 n2 ø
を使う
f
2
2
æ V2 ö
æ V1 ö
çç ÷÷
çç ÷÷
è n1 ø + è n2 ø
n1 - 1 n2 - 1
before <- c(98,88,100,96,107,114) # 条件変更前
after <- c(86,73,95,92,99,116)
# 条件変更後
df <- data.frame(Before=before, After=after) # データフレーム作成
入力部分
t.test(df$Before, df$After, paired=TRUE) # 対応ありのデータの場合
---------- 以下は出力結果 -------------Paired t-test
# 対応のあるt検定
data: df$Before and df$After
t = 2.8265, df = 5, p-value = 0.03683
# t値、自由度、確率値
alternative hypothesis: true difference in means is not equal to 0 # 対立仮説を採用
95 percent confidence interval: 0.6338082 13.3661918
# 母平均の差の 95%信頼区間
sample estimates:
mean of the differences
# 標本の差の平均値の推定
7
23
【演習 13】ある試験を2つのグループの学生集団に課した。異なる試験に対して課しても、同じ
2 組のグループに課す限り、得点の平均値は変動しても、分散は同じであることが分かっている
とする。このとき、A 群の 36 名の平均得点は 82.6 点、不偏分散は 15.3、一方、B 群 43 名の平
均得点は 84.5 点、不偏分散は 16.2 であった。2 群の母平均に差があるかどうか、有意水準 5%
で Excel で検定してみよう。
【演習 14】6 名の患者に脈拍を抑える Z 剤を投与し、前後の脈拍数を計測した。Z 剤の効果はあ
ったと言って良いか Excel で検定してみよう。
A
B
C
投与前の脈拍数
98
88
100 96
投与後の脈拍数
86
73
95 92
患者名
D
E
F
107
114
99 116
24
●χ2(カイ二乗)分布と母分散の推定
○標準正規分布する変数zがあるとき、z2 の分布が自由度1の
χ2 分布となる。また、変数がn個あるとき、
χ2=z12+z 22+・・+z n2 の分布が自由度nのχ 2 分布となる。
・・,χn2 がぞれぞれ
○さらに、χ12,χ22,
自由度φ1,φ2,・・,φn の互いに独立なχ 2 分布に従う
c 2 分布関数表
ときは、χ 2=χ12+χ22+・・χn2 は自由度
上側確率値
φ=φ1+φ2+・・φn のχ2 分布に従う。
P=0.10
○正規母集団 N(μ,σ2)からランダムに取り出した
0.050
0.020
0.010
6.635
df=1
2.706
3.841
5.412
n個のデータの偏差平方和(偏差2乗和)Sx を母分散σ 2
2
4.605
5.991
7.824
9.210
で割ったものは、自由度φ=n-1 のχ2 分布に従う
3
6.251
7.815
9.837
11.345
4
7.779
9.488
11.668
13.277
5
9.236
11.071
13.388
15.086
6
10.645
12.592
15.033
16.812
7
12.017
14.067
16.622
18.475
8
13.362
15.507
18.168
20.090
9
14.684
16.919
19.679
21.666
10
15.987
18.307
21.161
23.209
11
17.275
19.675
22.618
24.725
12
18.549
21.026
24.054
26.217
13
19.812
22.362
25.472
27.688
14
21.064
23.685
26.873
29.141
【例】畑でとれた作物からランダムに n=10 個を選んで重量を
15
22.307
24.996
28.259
30.578
調べたら次のようになった。この標本データを元に正規分布
する母分散の点推定値、および 95%の信頼区間を求めよ。
xi:
57, 38, 19, 69, 39, 18, 50, 74, 52, 59
16
23.542
26.296
29.633
32.000
17
24.769
27.587
30.995
33.409
18
25.989
28.869
32.346
34.805
19
27.204
30.144
33.687
36.191
20
28.412
31.410
35.020
37.566
n
Sx
=
s2
i =1
χ2 の期待値: < c >= f = n - 1
2
s2
(m は平均)(3.2)
自由度
2
カイ2乗統計量: c =
å ( xi - m ) 2
偏差平方和:Sx の期待値:< S x >= (n - 1)V
・・
(3.3)
(V は不偏分散=標本標準偏差の 2 乗)
χ2 分布の分布密度関数
f ( x) =
(ただし、x>0)
æ xö
ç ÷
n è 2ø
2G( )
2
1
n
-1
x
2
2
e
平均値:m=Σxi/n=47.5 より、
不偏分散 V=Σ(xi-m)2/(n-1)=362.1 が母分散の点推定値。
カイ2乗統計量:χ2=Σ(xi-m)2/σ 2 が自由度(n-1)=9の
χ 2 分布をするから、χ12<χ2<χ22 となるχ 2 の範囲を求める。
確率分布の両端あわせて 5%を除いた部分が 95%信頼区間である
ので、片側は 2.5%となるχ 2 値がそれぞれχ 12、χ22 となる
(右下図参照)
。
上側確率値 P
å(x
i
- m)
c1
2
0.05
2
0
0
で信頼区間が求まる。
2
c = c 2 (1 - a / 2, 9) = 2.7 、 c 2 = c (a / 2, 9) = 19.02 より
2
1
å (x
i
- 47.5)
19.02
2
カイ2乗グラフ
0.15
0.1
危険率:α=0.05
( x - m) 2
( x - m) 2
2
2
c1 < c 2 = å i 2
< c 2 より、 å i 2
<s2 <
s
c2
0.2
2
5
10
c2
15
20
0.1
カイ2乗グラフ φ=9
3258.5 から
<s <
2.70
2
171.3 < s < 1206.7 となる。
2
0.08
0.06
Excel 関数では、
chidist(χ2, φ)はχ2 分布の上側片側確率値 P を返す(右斜上図参照)
chiinv(p, φ)は確率値pのχ2 値を返す
0.04
P=α/2
0.02
P=α/2
25
P=1-α
0
0
c1
2
10
2
c 2 20
30
【演習 15】
母平均が 12 ppm(part per million) 、母標準偏差が 1ppm の濃度の有効成分をもつ薬剤の製造工
程を変更した結果の濃度の 16 回の測定結果が以下のデータであった。
11, 12, 15, 14, 10, 12, 12, 14, 12, 11, 13, 14, 12, 13, 15, 11
以下の2つの場合において、変更後の測定結果の濃度データから母平均が大きくなったと言える
かを 5%の有意水準(危険率)で求めてみよう。
(1) 工程変更でも濃度の標準偏差が変わらないと仮定した場合
(2) 工程変更で、標準偏差も変化した可能性がある場合
考え方:
標準偏差が既知の場合は、結果の母集団は正規分布をしていると仮定できる
標準偏差が未知の場合は、t分布をしていると仮定する。
母平均が大きくなったどうかだけが問題なので、上側の片側検定とする
進め方:
1.16 個の標本データから母集団の分布を仮定して統計量を求める。
2.その統計量が母集団の分布密度関数のどの位置に来るかをみる。
面積 5%
3.密度関数の上側 5%の位置での統計量を分布密度関数を使って求める。
4.計算した結果の統計量と危険率 5%の統計量と比較して、計算した結果の
値の方が大きければ、そのような場合が発生する確率が 5%以下となるので、
「平均値は大きくなった言える」(ただし、間違える確率は最大でも 5%である。)
計算した結果の方が小さければ、結論は「平均値は大きくなったとは言えない」となる。
【演習 16】
直径の標準偏差が 0.03mm の円柱を製造していた精密機器メーカーが新製法を開発した。新製品
20 個を無作為に抽出したら、標準偏差が 0.02mm であった。新製法によって、直径のばらつきは
小さくなったといえるか?
有為水準(危険率=間違える確率)5%、1%で検定せよ。
[手順]
1.χ2 統計量が自由度 n=20-1=19 のχ2 分布に従うことを利用する。
(χ2 統計量は個々のデータ値が不明でもχ2=Σ(xi-m)2/σ 2 より求まる。)
2.帰無仮説
H0: σ 2=0.032
対立仮説
H1: σ 2<0.032 を設定する。
元よりばらつきが小さくなったかどうかを検定するのであるから、統計量が分布の左側に
有意にくるかどうかを調べる。このため左側検定を行う(下図参照)
。
f (c 2 )
3.図の色付の部分の面積(確率値を表す)が
0.05 になるχ 2 の値、0.01 になるχ 2 値と、
0.06
自由度φ=19
データから求めた統計量χ 2 との大小比較を
0.04
行って検定をする。
0.02
P(0.05 又は 0.01)
χ2
0
0
26
10
20
30
【演習 17】
ある母集団から任意抽出したサイズ 10 のデータが
次のとおりであった。
データ: 27.0 22.3 23.5 26.2 24.5 26.0 20.9 25.5 24.4 24.7
(1)母分散がσ 2=3.40 と判明したとき、母平均μの 90%信頼区間を求めよ。
(2)母分散が未知のとき、母平均μの 90%信頼区間を求めよ
(3)母分散σ 2 の 95%信頼区間を求めよ
●
F 分布(Fisher distribution / Snedecor's F-distribution)とは
2つの確率変数χ12、χ12 があり、これらが互いに独立にそれぞれφ1、φ2 のχ2 分布に従うとき、
次の F も確率変数となり、F 分布に従う。
2
c /f
F = 12 1 ,
c 2 / f2
F ³0
Excel 関数では、
fdist(F, φ1, φ2) 値が F より大きい確率値を返す
finv(p, φ 1, φ2)上側確率がpとなる F 値を返す
また、変数 F の逆数である 1 / F も自由度 f 2 , f1 で特徴づけられる F 分布をすることから、変数 F
の分母子の取り方はどちらをとってもよいのであるが、通常分子が大きくなるように変数 F を選
ぶ場合が多い。2つの正規母集団の母分散が等しいならば
2
2
( s 1 = s 2 = s )、2つの標本の不偏分散比 F0 が
F 分布をすることになる。
2
F分布 φ1
1
1
3
5
∞
2
F0 =
s1
2
s2
この関係式は2つの正規母集団の分散が等しいか
どうかを検定するのに用いることができる非常に便利
でかつ重要な関係式で、分散分析で用いられている。
0.5
φ2=10
0
0
27
2
4
6
●
統計量に関係する確率分布のまとめ
母集団分布が N(μ,σ2)の母集団からn個のデータ x1,x2,・・,xn をランダムに取るとき、
・n 個のデータの平均値xm は正規分布 N(μ,σ2/n)に従う。
・χ2=Sx/σ2=Σ(xi-xm)2/σ 2 は自由度φ=n-1 のχ2 分布(χ2(φ)と表現)に従う。
・上式でσ 2 の推定値として、Vx=Sx/(n-1)を代入すると、
t=(xm-μ)/√(Vx/n)は自由度φ=n-1 のt分布(t(φ)と表現)に従う。
2つの母集団のそれぞれが正規分布 N(μ1 ,σ12),N(μ2,σ 22)の分布とし、それぞれから
サンプルサイズ n1,n2 のデータ x11 ,x12,・・,x1n,x21,x22,・・,x2n を取るとき、それぞれの分散を
V1,V2 としたとき、
F=(V1/σ12)/(V2/σ22)は自由度(φ1,φ2)=(n1-1,n2-1)の F 分布(F(φ 1,φ2 ))に従う。
●
検定と推定のまとめ+α
(1)1つの母平均に関して
母集団分布が正規分布のとき、n個のデータに基づいて母平均μが、指定された値
μ0 と異なるかどうかを判定する作業を母平均の検定と呼ぶ。
帰無仮説 H0:μ=μ 0、 対立仮説 H1:μ≠μ0 を設定し、検定統計量 t0 を
n
x - m0
t0 = m
Vx / n
で計算する。ここで、 V x = S x =
n -1
å (x
i =1
i
- xm ) 2
n -1
は分散の推定値を表す。
|t0|≧t(n-1,0.05)(両側)なら有意水準5%で有意であると判定し、H0 を棄却してμとμ 0
とは異なると判断する。点推定量はxm で、μの95%信頼区間はxm±t(n-1,0.05)√(Vx/n)
(両側)である。
(2)1つの母分散に関して
母集団分布が正規分布 N(μ,σ 2)のとき、n個のデータに基づいて母分散σ2 が、指定された値
σ02 と異なるかどうかを判定する作業を母分散の検定と呼ぶ。
帰無仮説 H0:σ2=σ02、
対立仮説 H1:σ2≠σ02
と設定し、検定統計量χ02 を
χ02=Sx/σ02 で求める。
χ02≦χ2(n-1,0.975)
または、χ 02≧χ 2(n-1,0.025)なら、有意水準 5%で有意であると
n
判定し、H0 を棄却してσ2 とσ02 とは異なると判断する。点推定量は Vx で V = S x =
x
n -1
σ2 の 95%信頼区間は (
Sx
Sx
,
) となる。
c 2 ( n - 1,0.025) c 2 ( n - 1,0.975)
28
å (x
i =1
i
- xm ) 2
n -1
、
(3)2つの母平均に関して
正規分布 N(μ1 ,σ2)から取った n1 個のデータと、正規分布 N(μ2,σ2)から取った n2 個のデータに
基づいて、2つの母平均が異なるかどうかを検定する(2つの母分散は等しいと仮定する)
。
帰無仮説 H0:μ1=μ2、
t0 =
対立仮説 H1:μ1≠μ2 を設定し、検定統計量 t0 を
S1 + S 2
,
x1m - x2 m を計算する。ここで x1m,x2m は平均, V =
n
n
(
1
)
+
(
1
)
1
2
1
1
V( + )
n1 n2
n1
n2
i =1
i =1
S1 = å ( x1i - x1m ) 2 , S 2 = å ( x2i - x2 m ) 2 である。
|t0|≧t(n1+n2-2,0.05)なら有意水準 5%で有意であると判定し、H0 を棄却してμ1 とμ2 とは
異なると判断する。μ1-μ2 の点推定量は平均の差:x1m-x2m で、μ1-μ2 の 95%信頼区間は
x1m - x2 m ± t ( n1 + n2 - 2,0.05) V (
1
1
+ )
n1 n2
である。
(対応の無い t 検定)
(4)2つの母分散に関して
正規分布 N(μ1,σ12)から取った n1 個のデータと、正規分布 N(μ2,σ22)から取った n2 個のデータに
基づいて、2つの母分散が異なるかどうかを検定する。
帰無仮説 H0:σ12=σ22、
V1=S1/(n1-1),
対立仮説 H1:σ1 2≠σ22 を設定する。
V2=S2/(n2-1)を計算する。
V1>V2 のとき F0=V1/V2≧F(n1-1,n2-1;0.025)
(分子に対応する自由度が第1自由度)
V1<V2 のとき F0=V2/V1≧F(n2-1,n1-1;0.025)なら、有意水準5%で有意であると判定し、H0
を棄却してσ12 とσ22 とは異なると判断する。点推定量は V1/V2 で、95%信頼区間は
(
V1
1
V
×
, 1 × F (n2 - 1, n1 - 1;0.025)) となる。
V2 F (n1 - 1, n 2 - 1;0.025) V2
29
付録
・二項分布(binomial distribution)
さいころ振りで、1 または 2 の目の出る事象を
0.14
n=10, p=0.25
0.3
0.25
0.1
0.2
A とすると、A の起こる確率を P(A)=p とすると、
0.08
0.15
0.06
0.1
0.04
それ以外の目が出る確率は P(A)=1-p と表現できる。
0.05
n 回の試行で、事象 A が x 回起こる確率関数 Wx は、
Wx = n Cx p x (1 - p)n - x
( x = 0,1,2,, n)
n=50, p=0.25
0.12
0.02
0
0
0
(ただし、 n C x =
1
2
3
4
5
6
7
8
0
9 10
10
20
30
40
50
n!
) となる。
x!×(n - x)!
p=0.5 のときは左右対称の分布になる。そうでない場合でも n が大きくなると左右対称に近づく。
・ポアソン分布(Poisson distribution)
二項分布において、n が非常に大きな数で、p が非常に小さな数で、ただし、それらの積 np=μ
は有限の値であるとき確率関数 Wx は次のようになる。
0.2
æmö
Wx = n C x ç ÷
ènø
x
æ mö
ç1 - ÷
nø
è
n-x
=
n( n - 1)( n - 2) ( n - x + 1) x æ m ö
m ç1 - ÷
x! n x
nø
è
n-x
0.15
0.1
0.05
n
@
1 xæ m ö
m -m
m ç1 - ÷ @
e
x! è
nø
x!
x
0
0
参考:柴田文明著「確率・統計」
岩波書店、1996
2
4
6
8
10
12
μ=4
・チェビシェフの定理の証明(概略)
標本の分散: s 2 =
=
1 n
( xi - m)2 f i
å
N i =1
ü
1ì
2
2
íå ( xi - m) f i + å ( xi - m) f i ý
N î内
外
þ
N inside
éåは,xi - m < ks
åは,xi - m > ks ùú
ê内
 外
êなるi についての和
なるi についての和 úû
ë
ks
のように二組の和に分 けて考える。そこで気 前よくå を捨てると、
内
s2 >
1
1
1
( xi - m)2 f i > å (ks) 2 f i = k 2 s 2 å f i
å
N 外
N 外
N 外
ゆえに、
åf
外
i
<
N
k2
\ å fi = N - å fi > N 内
外
N æ
1ö
= ç1 - 2 ÷ N
2
k
è k ø
30
m
ks
14
16