コンピュータによる統計分析 2014 年度 美添泰人 9/30 : 記述統計(散布図,相関,回帰,変数の変換と対称化・線形化,外れ値) Reading Assignment : 統計入門 IV 章 1 節と 2 節,3 節は概観だけ ちらばりの尺度(復習) (1) ちらばり:平均偏差.d = 1n ∑ |xi − x¯ |,標準偏差.s = √ 1 n ∑(xi − x¯ )2 ,意味について初等的理解 1 (xi − x¯ )2 (不偏分散)もある. n−1 ∑ (3) 偏差平方和の別な表現:∑(xi − x¯ )2 = ∑ xi2 − n x¯ 2 (2) 分散:s2 .s2 = 1 変数の分析手法(補足) (1) x を 1 次式で y = a + bx と変換したときの平均,分散,標準偏差: s2y = b2 s2x , y¯ = a + b x¯ , sy = |b|sx (2) 仮平均の利用: {x1 , x2 , x3 } = {100, 100, 101} として,仮平均 m = 100 を用いる.u = x − m につ いて,∑ u2i − (∑ u)2 /n を計算する例で有用性を確かめる. (3) 標準化(基準化,standardization):各観測値について z = z¯ = 0, s2z = 1 を確かめる. (4) 変動係数 (cv, coefficient of variation),cv = x − x¯ と 1 次式で変換する. s s .安定的な散らばりの尺度.品目別価格の変動 x¯ 比較・全国物価統計調査の例 http://www.econ.aoyama.ac.jp/~yasuto_yoshizoe/econstat/stat200209.pdf (5) モーメント, r 次のモーメント(積率)r = 1, 2, · · · / 原点まわりの積率:m′r = ∑ xir n.m′1 = x¯ は算術平均 / 平均まわりの積率:mr = ∑(xi − x¯ )r n.m2 = s2 は分散 (6) 歪み:歪度, skewness:b1 = m3 /s3 (s = √ m2 は標準偏差) (7) 尖度, kurtosis :b2 = m4 /s4 (b2 − 3 を尖度と呼ぶ流儀もあるので注意) 2 変数の分析手法 参考:教科書 IV.1-2,ips chap. 2 (1) 散布図の読み方:1 変数の視点と 2 変数の視点,関係の存在,線形性(非線形性). 統計入門 IV p. 66–74, ips 2 章 p. 123–145,データの変換(放送大学教材) http://www.yoshizoe-stat.jp/stat/textbook/transform.pdf (2) 集計データの散布図とミクロデータの散布図: 「全国消費実態調査の意義と特長 (pdf) 」参照. (3) 相関の概念:正の相関・負の相関,弱い相関・強い相関 (4) 共分散の概念:sxy = ∑(xi − x¯ )(yi − y¯ )/n, (n − 1) で割る流儀もある. (5) 分散との比較:s2x = sxx など (6) 相関係数.簡単な定義の例:(n+ − n− )/n (7) Pearson の相関係数: r = sxy /(sx sy ),線形性と単調性 (8) Spearman の順位相関係数: ρ (順位相関係数には Kendall の相関係数: τ もある. ) 1 (9) 注意点:(1) 因果関係,(2) 非線形性,(3) 偏った標本, (4) 方向がない, (5) 外れ値の影響 (10) 回帰分析の基本的な考え方.方向がある:説明変数と従属変数 x =⇒ y (11) 回帰直線のあてはめ:最小二乗法 (OLS),∑(yi − a − bxi )2 = min! (12) 回帰直線のあてはめ:最小絶対値法 (L1 ),∑ |yi − a − bxi | = min! (13) さらに一般的な手法:∑ ρ (yi − a − bxi ) = min!,ρ (x) = x2 , ρ (x) = |x| など (14) 外れ値の影響:対称な分布では比較的わかりやすい.歪んだ分布の場合は注意が必要.データ の変換(放送大学教材)p. 114–122. (15) 回帰の現象,回帰の錯誤:統計学基礎 4.6.2 (p.33–) 「参考資料(受講者のみ)」に下書きを掲 載.統計学基礎 (草稿) 第 4 章. (16) 当てはまりの尺度:R, r (17) 変数変換の手法(1 変数ヒストグラムの対象化,2 変数散布図の線形化) : Web 「その他の教 材」にある「変数の変換」 コンピュータによる演習 7 時限の内容 教室:I-104 (1) ヒストグラムの描き方(R による).cars.R で利用するデータ cars.txt (2) ヒストグラム:階級の数,階級幅の設定 (3) 箱ヒゲ図の描き方(R による) (4) 複数のデータセットを比較するためのヒストグラムと箱ヒゲ図 (5) ヒストグラムの情報を箱ヒゲ図が表現できない例: (geyser example) geyser.R, geyser.txt (6) 変数変換と対称性 : 経済変数(所得,資産など) (7) 散布図の描き方 (8) 相関係数の計算と読み方 (9) 回帰直線のあてはめと解釈.外れ値についての注意 (10) 変数変換と線形性 : bacteria (bacteria.R, bacteria.txt ), cars など 2
© Copyright 2024