データの相関関係

データの相関関係
数学 I・A 補完ノート
http://mhidet.web.fc2.com/text/
1 相関図
これまではある集団の 1 つの変量を考えてきたが,同じ集団の持つ 2 つの変量の関係を考えることが必要にな
ることがある.
次のデータはある学校の 20 人の物理と数学の試験の結果である.
生徒番号
数学
物理
生徒番号
数学
物理
1
52
61
11
75
70
2
63
52
12
65
59
3
34
21
13
51
56
4
48
21
14
72
79
5
56
60
15
52
48
6
66
70
16
69
73
7
35
29
17
55
57
8
53
50
18
60
68
9
46
39
19
39
42
10
79
78
20
34
36
これを下のような表にまとめると,全体の様子が掴みやすい.このような表を相関表 という.
物理
20∼30
31∼40
41∼50
51∼60
61∼70
71∼80
数学
20∼30
31∼40
1
2
1
2
41∼50
2
51∼60
3
2
61∼70
1
2
71∼80
1
3
また,各人の数学の点数を横軸に,物理の点数を縦軸にした平面座標上に点数に対応する点を記入した下のよ
うな相関図 (散布図) も利用できる.
1
この相関図では,点の全体は右上がりに分布している.これは,(実施した試験においては) 数学の点数が高い人
は物理の点数も高いという傾向が読み取れる.このようなとき,2 つの変数の間には正の相関関係があるという.
また,点の分布が右下がりの分布をしているときは,負の相関関係があるという.
2 相関係数
2 つの変量の相関関係の強さを 1 つの数値で表すことを考えよう.n 個の対象についての 2 種類の変数のデータ
(x1 , y1 ),
(x2 , y2 ),
(x3 , y3 ), · · · · · · , (xn , yn )
があり,x,y の平均を x,y とする.
このとき,偏差 xk − x と yk − y の積の平均,すなわち,
}
1{
(x1 − x)(y1 − y) + (x2 − x)(y2 − y) + · · · · · · + (xn − x)(yn − y)
n
を共分散といい,記号で sxy または cxy と書く.共分散は次のようにも計算できる.
}
1{
cxy =
(x1 − x)(y1 − y) + (x2 − x)(y2 − y) + · · · · · · + (xn − x)(yn − y)
n
}
1{
(x1 y1 − xy1 − yx1 + x y) + (x2 y2 − xy2 − yx2 + x y) + · · · · · · (xn yn − xyn − yxn + x y)
=
n
}
1{
=
(x1 y1 + x2 y2 + · · · + xn yn ) − x(y1 + y2 + · · · + yn ) − y(x1 + x2 + · · · + xn ) + nx y
n
1
= (x1 y1 + x2 y2 + · · · + xn yn ) − x y
n
共分散を x,y の標準偏差 sx ,sy の積で割った
cxy
sx sy
を変量 x,y の相関係数といい,これを r で表す. また相関係数 r は必ず,
−1 ≦ r ≦ 1
2
の範囲にあることが分かっている.
一般に,相関係数は |r| が 1 に近いければ近いほど 2 変量間の相関が強く,逆に 0 に近ければ相関は弱くなる.
データの数によるが,目安として,
1. 0.7 ≦ r ≦ 1 なら,強い正の相関がある.
2. 0.4 ≦ r ≦ 0.7 なら,かなりの正の相関がある.
3. 0.2 ≦ r ≦ 0.4 なら,弱い正の相関がある.
4. −0.2 ≦ r ≦ 0.2 なら,ほとんど相関はない.
5. −0.4 ≦ r ≦ −0.2 なら,弱い負の相関がある.
6. −0.7 ≦ r ≦ −0.4 なら,かなりの負の相関がある.
7. −1 ≦ r ≦ 0.7 なら,強い負の相関がある.
が使われる.
だたし,この解釈には例外もある.相関係数の値が同じでも異なる解釈の散布図が対応する場合もあるからで
ある.特にデータの中に外れ値があると,相関係数はその値に強く影響され,全体の傾向を示さないこともある.
2 つの変量 x,y について,それぞれの標準偏差を sx ,sy ,平均を x,y ,共分散を cxy ,相関係数を r とす
ると,
}
1{
(x1 − x)(y1 − y) + (x2 − x)(y2 − y) + · · · · · · + (xn − x)(yn − y)
n
1
= (x1 y1 + x2 y2 + · · · + xn yn ) − x y
n
cxy =
r=
cxy
sx sy
3 相関係数と因果関係
相関関係は 2 つの変量の間の関係の強さを表しているが,原因と結果のような因果関係を表しているわけでは
ない.相関が強い場合でも 2 つの変量に対して別の変量が影響して,見かけ上,相関関係が発生する場合がある.
これを偽相関という.
下の散布図は,各都道府県の交通事故の年間発生件数とゴミの年間総排出量の関係である.この相関係数は 0.90
で強い正の相関関係がある.
3
これは交通事故の年間発生件数とゴミの年間総排出量は,それぞれの都道府県の人口が異なっており,人口の数が
これらに影響を及ぼしている可能性がある.そこで,人口 1000 人当たりの交通事故発生件数と,一人あたりのゴ
ミの年間排出量の相関関係を見ると,相関係数は −0.08 で相関関係が見られない.
4 演習問題
1. 次のデータは高校 2 年生男子 15 人の身長と体重のデータである.なお,平均,標準偏差,共分散,相関係
数は小数点第 3 位で四捨五入した,小数第 2 位までの値を用いよ.
i(通し番号)
xi (身長)
yi (体重)
1
161
40
2
164
58
3
165
62
4
169
55
5
168
54
6
169
56
7
170
60
8
171
59
9
172
61
10
174
66
11
178
62
12
178
68
13
180
71
14
183
70
15
184
71
xi − x
yi − y
(xi − x)2
(yi − y)2
(xi − x)(y − y)
(a) x の標準偏差を求めよ.
(b) y の標準偏差を求めよ.
(c) x と y の共分散を求めよ.
(d) x と y の相関係数を求めよ.また,身長と体重にどのような相関関係があるか答えよ.
4
2. a,b,c,d は定数で,a > 0,c > 0 とする.2 種類の変量の組のデータ (xk , yk ) がある.ただし,k =
1, 2, 3, · · · , n とする.ここで,変量 u,v を
uk = axk + b,
vk = cyk + d
とするとき,変量 x,y の相関係数と変量 u,v の相関係数は等しいことを示せ.
5