9/30 : 記述統計(散布図,相関,回帰,変数の変換と対称化・線形化

コンピュータによる統計分析
2014 年度 美添泰人
9/30 : 記述統計(散布図,相関,回帰,変数の変換と対称化・線形化,外れ値)
Reading Assignment : 統計入門 IV 章 1 節と 2 節,3 節は概観だけ
ちらばりの尺度(復習)
(1) ちらばり:平均偏差.d = 1n ∑ |xi − x¯ |,標準偏差.s =
√
1
n
∑(xi − x¯ )2 ,意味について初等的理解
1
(xi − x¯ )2 (不偏分散)もある.
n−1 ∑
(3) 偏差平方和の別な表現:∑(xi − x¯ )2 = ∑ xi2 − n x¯ 2
(2) 分散:s2 .s2 =
1 変数の分析手法(補足)
(1) x を 1 次式で y = a + bx と変換したときの平均,分散,標準偏差:
s2y = b2 s2x ,
y¯ = a + b x¯ ,
sy = |b|sx
(2) 仮平均の利用: {x1 , x2 , x3 } = {100, 100, 101} として,仮平均 m = 100 を用いる.u = x − m につ
いて,∑ u2i − (∑ u)2 /n を計算する例で有用性を確かめる.
(3) 標準化(基準化,standardization):各観測値について z =
z¯ = 0, s2z = 1 を確かめる.
(4) 変動係数 (cv, coefficient of variation),cv =
x − x¯
と 1 次式で変換する.
s
s
.安定的な散らばりの尺度.品目別価格の変動
x¯
比較・全国物価統計調査の例
http://www.econ.aoyama.ac.jp/~yasuto_yoshizoe/econstat/stat200209.pdf
(5) モーメント, r 次のモーメント(積率)r = 1, 2, · · ·
/
原点まわりの積率:m′r = ∑ xir n.m′1 = x¯ は算術平均
/
平均まわりの積率:mr = ∑(xi − x¯ )r n.m2 = s2 は分散
(6) 歪み:歪度, skewness:b1 = m3 /s3 (s =
√
m2 は標準偏差)
(7) 尖度, kurtosis :b2 = m4 /s4 (b2 − 3 を尖度と呼ぶ流儀もあるので注意)
2 変数の分析手法
参考:教科書 IV.1-2,ips chap. 2
(1) 散布図の読み方:1 変数の視点と 2 変数の視点,関係の存在,線形性(非線形性).
統計入門 IV p. 66–74, ips 2 章 p. 123–145,データの変換(放送大学教材)
http://www.yoshizoe-stat.jp/stat/textbook/transform.pdf
(2) 集計データの散布図とミクロデータの散布図:
「全国消費実態調査の意義と特長 (pdf) 」参照.
(3) 相関の概念:正の相関・負の相関,弱い相関・強い相関
(4) 共分散の概念:sxy = ∑(xi − x¯ )(yi − y¯ )/n, (n − 1) で割る流儀もある.
(5) 分散との比較:s2x = sxx など
(6) 相関係数.簡単な定義の例:(n+ − n− )/n
(7) Pearson の相関係数: r = sxy /(sx sy ),線形性と単調性
(8) Spearman の順位相関係数: ρ (順位相関係数には Kendall の相関係数: τ もある.
)
1
(9) 注意点:(1) 因果関係,(2) 非線形性,(3) 偏った標本, (4) 方向がない, (5) 外れ値の影響
(10) 回帰分析の基本的な考え方.方向がある:説明変数と従属変数 x =⇒ y
(11) 回帰直線のあてはめ:最小二乗法 (OLS),∑(yi − a − bxi )2 = min!
(12) 回帰直線のあてはめ:最小絶対値法 (L1 ),∑ |yi − a − bxi | = min!
(13) さらに一般的な手法:∑ ρ (yi − a − bxi ) = min!,ρ (x) = x2 , ρ (x) = |x| など
(14) 外れ値の影響:対称な分布では比較的わかりやすい.歪んだ分布の場合は注意が必要.データ
の変換(放送大学教材)p. 114–122.
(15) 回帰の現象,回帰の錯誤:統計学基礎 4.6.2 (p.33–) 「参考資料(受講者のみ)」に下書きを掲
載.統計学基礎 (草稿) 第 4 章.
(16) 当てはまりの尺度:R, r
(17) 変数変換の手法(1 変数ヒストグラムの対象化,2 変数散布図の線形化)
: Web 「その他の教
材」にある「変数の変換」
コンピュータによる演習
7 時限の内容
教室:I-104
(1) ヒストグラムの描き方(R による).cars.R で利用するデータ cars.txt
(2) ヒストグラム:階級の数,階級幅の設定
(3) 箱ヒゲ図の描き方(R による)
(4) 複数のデータセットを比較するためのヒストグラムと箱ヒゲ図
(5) ヒストグラムの情報を箱ヒゲ図が表現できない例: (geyser example) geyser.R, geyser.txt
(6) 変数変換と対称性 : 経済変数(所得,資産など)
(7) 散布図の描き方
(8) 相関係数の計算と読み方
(9) 回帰直線のあてはめと解釈.外れ値についての注意
(10) 変数変換と線形性 : bacteria (bacteria.R, bacteria.txt ), cars など
2