確率関連

今日の項目

第3回資料
確率分布



確率分布
ベイズの定理



ベルヌーイ実験


2項分布
ポアソン分布・幾何分布・負の2項分布
正規分布
χ2乗分布
t分布、F分布
ベイズの定理
2項確率変数
2種類の結果を持つ実験

例:コイン投げ 裏・表
成功・失敗
生存・死亡

3
複数のベルヌイ実験(n 回)を行っ
たときの、成功の回数を示す確率
変数
この確率変数の分布を2項分布
という
4
1
2項分布

成功の確率 p
実験の回数 N

成功の回数を表す変数 X


標本調査と2項分布
p は母集団での比率

たとえば、内閣支持率、視聴率など

X = k の確率
P ( X  k ) N Ck p (1  p)
k
N k

N は標本の大きさ(調査対象者の数)

X は、該当者数
5
6
2項分布の確率関数
p=0.1
2項分布の平均と分散
N=10
N=20
N
E ( X )   k P( X  k )
N=30
N p
0.50
0.40
0.40
0.40
0.40
0.30
0.30
0.30
0.30
0.20
0.20
0.20
0.10
0.10
0.10
0.00
0.00
0.00
1
2
3
4
5
X
6
7
8
9
10
0
1
2
3
4
5
X
8
9
10
0.20
0.10
0.00
0
1
2
3
4
5
X
6
7
8
9
0
10
0.30
0.30
0.30
0.25
0.20
0.25
0.25
0.20
0.20
0.20
0.15
0.15
0.15
0.10
0.10
0.10
0.05
0.05
0.05
0.00
0.00
0.00
0.25
0.25
0.25
0.20
0.20
0.20
0.15
0.15
0.15
0.10
0.10
0.05
0.05
0.05
24
28
0
4
8
12
16
20
24
28
8
12
16
20
24
0
28
0.15
0.15
0.15
0.15
0.10
0.10
0.10
0.10
0.05
0.05
0.05
0.00
0.00
0.00
16
20
24 28
X
32
36
40
44
48
0
4
8
12
16
20
24 28
X
32
36
40
44
48
9
10
8
12
16
20
24
28
X
0.20
12
4
X
X
0.20
8
8
0.00
4
0.20
4
7
0.05
0
0.20
0
6
0.10
0.00
0.00
20
5
X
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X
0.10
16
4
0.00
0.15
12
3
0.05
0.20
8
2
0.10
0.25
4
1
0.15
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X
X
7
7
0.25
0
分散: Np(1-p)
6
0.30
0.00
N=50
p=0.7
0.50
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X
k 0
p=0.5
0.50
0
平均:
p=0.3
0.50
0.05
0.00
0
4
8
12
16
20
24 28
X
32
36
40
44
48
0
4
8
12
16
20
24 28
X
32
36
40
44
48
平均 : Np
分散 : Np(1-p) , 標準偏差 : √ Np(1-p) 8
2
2項分布の特徴


p=0.5で対称な分布
pが0や1に近いと歪む
ポアソン分布



Nが大きくなると、対称な分布に近づく
発生確率が大きくない現象が発生した個
数の分布として使用される
分布のパラメータは1つ



幾何分布


ベルヌーイ試行を繰り返して初めて成功さ
せるまでの試行回数 X の分布
この場合は X=失敗の回数+1
(失敗の回数の分布の場合もあり)
平均と分散が同じ値
二項分布の極限の形であると解釈可能


emm x
P ( x) 
x!
発生確率は非常に小さい
実験回数は非常に大きい
n p = m( < ∞)が平均パラメータ
負の2項分布

ベルヌーイ試行を行ったとき、r 回成功す
るために必要な試行回数の分布
Pr( X  k ) k 1 Cr 1 p r (1  p ) k  r
Pr( X  k )  p (1  p ) k 1
E ( X )  r / p, Var ( X )  r (1  p ) / p 2
E ( X )  1 / p, Var ( X )  (1  p ) / p 2
3
正規分布(Normal Distribution)
正規分布:Normal Distribution
N(  ,  )
確率密度
2

σ
標準偏差
f ( x) 
1
2 2
e
と
分散で分布が決まる
平均 、分散2の正規分布
μ
( x )2

2 2
平均
N(, 2)
データの値
平均
パラメータ
13
14
2
N(0,0.5 )
N(0,1)
2
N(0,2 )
旧 ドイツ 10マルク紙幣
-5
15
-3
-1
1
3
5
16
4
1シグマ2シグマ3シグマの法則
シグマの法則
この区間の確率
68.3%
正規分布の場合,
 平均±(1×標準偏差)に約68%


この区間の確率
平均±(2×標準偏差)に約95%

この区間の確率
95.4%
99.7%

P (     x     )  P ( 1  z  1)  2 * P (0  z  1)  2 * 0.3413(数値表) 0.683
大半が…
ほとんどが…
平均±(3×標準偏差)に約99.7%

ほぼ全部が…
 P (1  z  1)  NORMSDIST(1)  NORMSDIST(0)  0.8423  0.1587  0.683
17
18
独立な正規分布の和の分布

χ2乗(かいにじょう)分布
XとYが独立な場合の結果


X ~ N (  X ,  X2 ), Y ~ N (  y ,  y2 ) で、Z  X  Y のとき、
Z ~ N ( X   y ,   )
2
X
2
Y

独立な標準正規分布に従う確率変数の2乗和の分布
自由度は、足しあわされた個数
適合度検定、標本分散の標本分布関連で用いられる
0.70
0.18
0.60

XとYに相関(ρ)がある場合
X ~ N (  X ,  ), Y ~ N (  y ,  ) で、Z  X  Y のとき、
2
X
2
y
Z ~ N (  X   y ,   2  X  Y   )
2
X
2
Y
0.15
自由度=1
自由度=2
0.50
自由度5
自由度7
自由度10
0.13
0.40
0.10
0.30
0.08
0.20
0.05
0.10
0.03
0.00
0.00
0.00
2.00
4.00
6.00
8.00
10.00
12.00
0.0
2.0
4.0
6.0
8.0 10.0 12.0 14.0 16.0 18.0 20.0 22.0
5
t分布


F分布
正規分布母集団からの t 統計量の標本分
布
t分布の自由度:分散の推定の自由度


正規分布母集団からの F 統計量の標本
分布
F分布:2つの自由度
1.8
1.6
自由度大きく
なると正規分布に
近づく
0.40
標準正規分布
(40,100)
1.4
自由度20
1.2
0.30
自由度5
(20,40)
1
0.8
0.20
(3,10)
(10,20)
0.6
自由度2
自由度1
0.4
0.10
0.2
0.00
-4.00
0
-3.00
-2.00
-1.00
0.00
1.00
2.00
3.00
4.00
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
条件付確率
ベイズの定理
乗法定理
P(AB) = P(A) P(B|A)
P(B|A) = P(AB) / P(A)
6
ベイズの定理

条件付確率の利用

結果から原因の推論

2つの箱AとBのどちらか
A
B
因果と逆向き
AとBのどちらか
赤玉が出る確率は?
いま、AとBいずれかの箱が
置いてある。
箱からボールを1つ取り出したら
赤玉が出てきた。
AとBどちらと考えるべきか?
4
6
2
6
7
赤玉が出たことと
赤玉が出る確率から考える
ベイズの定理
P( A1 | B)
4
6
2
6
Aである可能性は
Bである可能性より
P( A | R)
具体的な計算
P ( A) P ( R | A)
P( A) P ( R | A)  P ( B ) P ( R | B )
(1 / 2)  (4 / 6)
2


(1 / 2)  (4 / 6)  (1 / 2)  (2 / 6) 3
P( A | R) 
P ( A) P( R | A)
P( A) P( R | A)  P ( B ) P ( R | B)
A : 箱がA
B : 箱がB
R : 赤玉
P( A1) P( B | A1)
P( A1) P ( B | A1)  P( A2) P( B | A2)
2倍ほど高いのでは…
ベイズの定理


P(A)=P(B)=1/2
P(R|A)=4/6
P(R|B)=2/6
A : 箱がA
B : 箱がB
R : 赤玉
P(A)=P(B)=1/2
P(R|A)=4/6
P(R|B)=2/6
8
練習問題


例題2:集団検診の例
2個ボールを取り出した時に2個とも赤玉
だった。
このとき、箱がAである可能性はどの程度
か?
ある病気にかかっている確率は0.01
病気の人を正しく診断できる確率は0.98
病気でない人を病気であると判断してしまう
確率は0.05
病気であると診断されたときに、病気である
確率は???
例題:集団検診の例
A1 : ある病気にかかっている
A2 : ある病気にかかっていない
B : 病気である診断
病気の人が病気であると診断
P(B|A1) = 0.98
病気でない人が病気であると診断
P(B|A2) = 0.05
例題:集団検診の例
P(A1)=0.01
P(A2)=0.99
病気であると診断されたときに、
病気である確率は?
P(A1|B)
9
ベイズの定理
分かっている情報





P(A1) : 病気の割合
P(A2) : 病気でない割合
P(B|A1) : 正しく発見
P(B|A2) : 誤診
P(A1|B) : 病気と診断されたときに
病気である確率
P ( A1 | B)

P ( A1) P ( B | A1)
P( A1) P ( B | A1)  P ( A2) P ( B | A2)
ベイズの定理からの結果
P(A1|B)
= 0.01×0.98 ÷
( 0.01×0.98 + 0.99×0.05)
=0.165
10