多変量解析法 Ⅱ 重回帰分析 多変量解析法 <改訂版> 奥野忠一 著 ―Ⅱ.重回帰分析 続き― 【分散分析と重相関係数】 説明変数が 2 個のときの分散分析 観測値 yα(α=1,2,…,n)の全変動(偏差平方和)Syy を“説明変数 x1,x2 に対する回帰によ る”変動と“回帰からの残差”の変動の 2 つの部分に分解することを考える。x1,x2 による 回帰推定式は、(2.3)’式(前ファイル)で求めたように Y b0 b1 x1 b2 x 2 (3.1) と書くことができ、これをαについて平均すると Y b0 b1 x1 b2 x 2 y (3.2) となる。 (前ファイルの(2.8)式参照) ※ b 0 y b1 x1 b2 x 2 (2.8) よって n n S yy y y y Y Y Y 1 2 n 1 n y Y Y Y 2 1 1 e Y n n 2 1 Y n 2 2 n 2 y Y Y Y 1 2 e Y Y 1 1 Se 2 SR (3.3) 0 と分解される。ここで右辺の第一項はαの残差 eαのα=1~n の総和であるから残差平方和 Se であることは明らか。第 2 項は回帰推定式 Yαの変動を表しているので、回帰による変動 または単に回帰平方和と呼び、SR(R は回帰 Regression の頭文字)で表す。 この第 3 項がゼロになる理由(正規方程式(2.6)を書き換えて y b0 b1 x1 b2 x 2 y Y e であるから(2.6)の 3 つの式は 1 n x 1e 0 1 n x e 0 2 1 n e 0 (3.4) と書ける。これらを用いると(3.3)式の第 3 項は n n n e Y Y e b0 b1 x1 b2 x 2 Y e 1 1 b0 Y 1 e n 1 n n 1 1 b1 e x 1 b2 e x 2 0 (3.5) と分解され、この最後の式の各項はいずれもゼロであることがわかる。 (3.3)式の分解を分散分析表にまとめると、表 3.1 のようになる。 ここで各変動因に対応する自由度は、次のようにして求められる。 全体の自由度: fT n 1(n 個のデータから総平均 y を推定したから 1 を引く) “回帰による”自由度: f R 2 (説明変数として x1,x2 の 2 つを用いたから) “回帰からの”自由度: f e n 3 (b0,b1,b2 の 3 つを推定したから 3 を引く) この自由度の考え方は“データの総数”から“推定したパラメータの数”を差し引くと いう原則によっているが「用いた偏差の総数から、それらに付与された制約条件の数を差 し引く」という考え方からも導かれる。 つまり全体の自由度では、用いた偏差 y y 1,2, , n の間に y y 0 n 1 という 1 つの制約が存在するので、その自由度は(n-1)である。一方“回帰からの”残差平 方和 Se は eα=yα-Yα(α=1,2,…,n)の 2 乗和であるが、この eα相互の間には(3.4)式に示し た 3 つの制約条件が存在するので、その自由度は(n-3)となる。なお“回帰”平方和 SR は (3.1),(3.2)式を用いると 多変量解析法 Ⅱ 重回帰分析 n S R Y Y 1 b x 2 n 1 1 1 x1 b2 x 2 x 2 2 b S b S 22 2b1b2 S12 2 1 11 2 2 37ページの脚注から b1S1 y b2 S 2 y 2.15式を用いる 3.6 S 11S12y S 22S 22y 2S 12S1 y S 2 y と書くことができ、これが自由度 2 に対応する。 本章 1.2 項「基本モデル」で学んだ仮定④の正規性が満足されるときには、この分散分析 表から分散比 F VR Ve (3.7) を計算すると、帰無仮説 H0:β1=β2=0、すなわち「x1 も x2 も y の説明になんら役立たな い」のもとでは、この F は自由度(2,n-3)の F 分布をするので、有意水準αに対する F 表の 値 F(2,n-3;α)を比較して、有意性の検定を行うことができる。 [例 3.1] [例 2.1]の問題について分散分析を行ってみる S yy 65.5, fT 6 1 5 S e 3.51, fe 6 3 3 S R 65.5 3.5 62.0, fR 2 となるから、次の表 3.2 を得る。 検定の結果は 5%水準で有意である。 一般に重回帰分析において分散分析の結果が有意にならないということは、めったに起 こらないことである。もしそのようなことが起これば、よっぽど間の抜けた説明変数を取 り上げたことになるので、まず以下の事項を検討するとよい。 1) データの間違い、異常値の混入、計算間違いはないか 2) データの数 n が十分かどうか、残差の自由度は 10 くらい必要 (上記の例ではデータが少ないので残差の自由度が少ない) 2’) 2)と関連するが、データの数 n に比べて説明変数の数 p が多すぎないか 3) 役に立たない説明変数が多く入っていないか、そのときは“回帰による”変動の分散 がうすめられて小さくなる 4) 説明変数の変化の範囲が狭すぎないか 5) 必要な説明変数が抜けていないか 6) 2 次以上の項を付け加えることが必要でないか 説明変数が p 個のときの分散分析 説明変数の数 p が 2 個ではない場合も、前項とまったく同様に取り扱うことができる。 そのときの分散分析表を表 3.3 に示す。ここで自由度の表し方に注意が必要。 †分散の期待値に関しては本章 4 節【偏回帰係数の解釈】参照 [例 3.2] ある工業織布の形状に関係ある変数(因子)として x1:原布重量 x2:副原料重量 x4:加工強度 x5:仕上げ時間 x3:副原料特性 A を取り上げ、これらの因子と製品の寸法 y との関係を調べる目的で、6 か月間の操業記録か ら 386 個のデータを取り出して、重回帰分析を行った。回帰モデルとして y 0 1 x1 2 x2 3 x3 4 x4 5 x5 を想定し、下記の結果を得た。まず各因子の平均値と偏差平方和・積和行列および相関行 列は表 3.4,表 3.5 のようになる。 多変量解析法 Ⅱ 重回帰分析 これから副原料の重量 x2 と 仕上げ時間 x5 の間にかなり高 い相関がみられるが、それ以外 の説明変数間にはあまり強い 相関がみられないこと、および 寸法 y に対しては各説明変数 が大なり小なりの相関をもっ ていることがわかる。平方和・ 積和行列を用いて、偏回帰係数 ならびに標準偏回帰係数を求 めると 82.72 b0 b1 0.4297 0.2359 b1 b 0 . 6411 2 b 0.4036 2 , b3 0.2888 b3 48.18 b4 0.0136 b4 0.00262 b5 0.0861 b 18 5 .32 となる。b1 に関して実際に計算すると bi S i1S1 y S i 2 S 2 y S ip S py p i 1,2,, p 2.28 S ii Siy i1 より b1 S 11S1 y S 12S 2 y S 15S5 y となる。回帰による変動は(3.6)式の拡張により S R b1S1 y b2 S 2 y b3 S3 y b4 S 4 y b5 S5 y 0.2359 0.3021 107 0.4036 0.3734 107 48.18 0.5957 10 4 0.00262 0.7640 107 18.32 1.0126 10 4 2.6723 106 となり、よって残差変動として Se=Syy-SR =3.1729×106-2.6723×106=0.5006×106 を得る。これを分散分析表にまとめると表 3.6 のようになり、回帰関係は高度に有意である ということがわかる。 (5 つもの有望な因子を取り上げたのだから当然といえば当然) 多変量解析法 Ⅱ 重回帰分析 【重相関係数】 実測値 yαとその回帰推定値 Yα(α=1,2…,n)との相関係数を、重相関係数(multiple correlation)と呼び、普通 R で表す。Yαは(2.29)式(前ファイル P16)で示したように ※ Y b0 b1 x 1 b2 x 2 , , bp xp (2.29)’ x 1 , x 2 , , xp の 1 次式であるから、R は y と説明変数の組(x1,x2,…,xp)との相関係数であ る、ということができる。 (説明変数と目的変数との相関関係=説明度合い) y y Y Y n R 1 (3.8) y y Y Y n n 2 1 2 1 この R の二乗 R2 を決定係数(coefficient of determination)または寄与率と呼ぶ。 この(3.8)式の分子は次のように変形することができる。 y n 1 n y Y Y y Y Y Y Y Y 1 n e Y Y Y Y 1 n n e Y Y Y Y 1 1 2 この右辺の第 1 項は(3.3)式~(3.5)式に示したようにゼロとなる。 (残差 eαの総和は 0 になる ため)それゆえ y y Y Y Y Y n n 1 1 2 (3.9) となる。 (※ここから R の定義式(3.8)の分子は必ず正であり、重相関係数 R はつねに正に なるように定義されていることがわかる。これが普通の相関係数 r と異なる点)これを用い て(3.8)式を書き換えると Y Y n R2 1 n 2 y y 2 S R "回帰による" 平方和 S yy " 全体"の平方和 1 1 Se " 残差" 平方和 3.10 1 S yy " 全体"の平方和 となる。反対に SR,Se を R で表すために(3.10)式を解くと S R R 2 S yy (3.11) S e 1 R 2 S yy をうるから、表 3.3 の分散分析表での F 検定は F VR SR p R2 p Ve Se n p 1 1 R 2 n p 1 (3.12) と書くことができ、R2 だけの関数となるので、分散分析表での F 検定が重相関係数 R2 の有 意性検定と一致する。 自由度調整済み寄与率 (3.10)式からわかるように、重相関係数の二乗は y の全変動 Syy のなかで回帰によって説 明される変動 SR の占める割合――寄与率――として定義される。この“回帰平方和”SR は 説明変数を追加するごとに必ず大きくなってしまう。 (どんなにいらない説明変数でも追加 してしまうと回帰平方和が大きくなってしまう、本節最後に簡単な例を取り扱う)そして 説明変数の数 p が p=n-1 に達すると必ず SR=Syy, Se=0, R=1 となる。これは p=1 で n=2 のときを考えても明らかである。このとき説明 変数は x1 のみで、観測値対(x1,y)はただ 2 組しかない。2 次元平面上でこの 2 点を通る回帰直線は定まり、残差はゼロとなり、R=1 となる。このこと は、ここで取り上げた x1 が y を説明するのに役立つものか否か、というこ とには関係なく、x1 がどんな変数であれこのような結果になる。データ数 n が小さいために見かけ上の重相関係数 R が大きくなるので、このように 無意味かもしれない説明変数が入ってくることに注意しなければならない。 多変量解析法 Ⅱ 重回帰分析 一般に重回帰分析を行うには n≧p+1 (3.13) でなければならない。これは(2.25)式(前ファイル P15 参照)の正規方程式が解けるための 必要条件であり、表 3.3 での“残差”の自由度 n-p-1 が負にならないための条件でもある。 そのうえ、えられた重回帰式が実用になるか否かは、その誤差分散 Ve が十分小さく、管理 状態(x1,x2,…,xp を一定にしたとき)において y にともなう誤差と同じ程度の大きさである かどうかによって決められるので、Ve を計算するときの自由度 n-p-1 が少なくとも 10、な るべく 20 以上であることが望ましい。 n が p よりかなり大きいときは、以下に述べることはほとんど必要ないが、n-p-1 があま り大きくないときは、回帰の寄与率(R2)を回帰変動(平方和)と全変動(平方和)の比とし てではなく、それらの自由度で割った分散の比として定義する方が良い。すなわち(3.10)の 第 2 式に対応して、残差分散 Ve=Se/(n-p-1)が全体での分散 VT=Syy/(n-1)より小さくなる程 度で表し、これを自由度調整ずみの重相関係数 R*と呼ぶ。 (下の式を見ればわかるが、Ve が VT に対して小さければ小さいほど R*は高くなる) Y Y n R2 2 1 n y y 2 S R "回帰による" 平方和 S yy " 全体"の平方和 1 1 Se " 残差" 平方和 3.10 1 S yy " 全体"の平方和 R2 1 Ve S n p 1 1 e VT S yy n 1 (3.14) この R*2 と R2 との関係は(3.14)式に(3.10)の第 2 式を代入すると得られる。 R2 1 n 1 1 n 1R 2 p 1 R2 n p 1 n p 1 (3.15) “自由度調整ずみ重相関係数”の第 2 の定義は、回帰の分散 VR の残差分散 Ve からの増 加分(VR-Ve)を VR のかわりに用いることによって得られる。(3.10)の第 1 式を R2 SR pVR S yy S yy (3.16) とすればこれに対応して R 2 pVR Ve S yy (3.17) と定義する。この(3.17)式もまた変形すると、(3.14)式に一致することがすぐわかる。 R 2 S R pVe S yy S yy Se p Se n p 1 S yy 1 n 1Se n p 1S yy また、(3.15)式より 1 n 1R 2 p 2 n 1R p R n p 1 n p 1 n p 1 2 R 2 R 2 n 1R 2 n p 1 p nR 2 pR 2 R 2 n p 1 n p 1 nR 2 R 2 p nR 2 pR 2 R 2 p pR 2 n p 1 n p 1 R2 R 2 p 1 R 2 0 n p 1 (3.18) が成り立つので、R2=1 でないかぎり、つねに R*2<R2 (3.19) となる。また(3.17)式からわかるように VR<Ve なら R*2<0 と、二乗の値が負になってしまう奇妙な結果になってしまうので、R*2 は VR が Ve よりも大 きいときにしか定義しないことにする。これから予想できるように、あまり有用でない変 数を説明変数にたくさん取り組むと p が大きくなっても p 個の変数の寄与分を平均した形 の VR は必ずしも大きくならず、 それが Ve より小さければ、 R*2 は定義できないことになる。 したがって R*2 が変数の増加につれて大きくなる限りは有用な変数が取り込まれたことに なり、R*2 の増加がとまるようなら、その変数の取り込みは無意味ということになる。R*2 を計算するのは以上のような目的のためである。 [例 3.3] [例 2.1](前ファイル P11 参照)で求めた回帰式について実測値 yαと予測値 Yα との相関係数を求めると、前ファイル P14 の表から Syy=65.5 SYY=62.0 SyY=61.995≒SYY を用いて R2 2 S yY S yy SYY 61.9952 0.946 65.5 62.0 が得られる。一方(3.10)指揮から R2 を求めると 多変量解析法 Ⅱ 重回帰分析 S R SYY 62.0 0.946 S yy S yy 65.5 R2 となり両者は一致する。また F R2 p 0.946 2 26.3 2 1 R n p 1 0.054 3 は表 3.2 の分散分析表で求めた F 値と一致する。 ところで同じ分散分析表から R 2 1 1.17 1.17 1 0.911 65.5 5 13.1 となり、R2=0.946 よりも小さくなる。この例では R2 が 1 に近いので(3.18)式からわかるよ うに、この差は p 2 1 R 2 1 0.946 0.036 n p 1 3 であまり大きくならない。 [例 3.4] [例 3.2](本ファイル P4 参照)の分散分析の結果(表 3.6)から重相関関係 R を 求めると 2.672 106 0.8421 3.173 106 R 0.918 R2 をうる。また、このときは n が p に比べて非常に大きいから、自由度調整ずみの重相関係 数 R*2 を求めると(3.15)式より 1 n 1R 2 p 3.15 n p 1 1 386 1 0.8421 5 0.840 386 5 1 R 2 となり R2 とほとんど変わらない。 (注) 説明変数の数を増やすと、重相関係数 R2 がどれほど大きくなるか、簡単な例を示す いま説明変数として x1 だけを取り上げ、これで y を説明する回帰式 Y=c0+c1x1 (3.20) を求めると、偏回帰係数は c1=S1y/S11 (3.21) で与えられ、その“回帰による”平方和(SR)1 は (SR)1=c1S1y=S1y2/S11 (3.22) となる。次に説明変数として x1 のほかに x2 を加え、x1,x2 に対する偏回帰係数を b1,b2 とす ると(2.12)式(前ファイル P10)から b1S11+b2S12=S1y をうるから c1=S1y/S11=b1+b2(S12/S11) (3.23) (扱う変数が 2 つに増えても S1y は x2 によらないので S1y も C1 も変わらず) と書ける。これは x2 を無視して x1 だけを用いたときの回帰係数 c1 と x2 をも考慮したとき の x1 に対する偏回帰係数 b1 との食い違いの部分が b2(S12/S11)だけあることを示している。 もし S12=0 なら c1=b1 となり、S12 が大きければ、それだけ食い違いは大きくなる。 このときの“回帰”平方和を(SR)2 と書くと (SR)2=b1S1y+b2S2y (3.24) であるから、回帰平方和の増加分は S R 2 S R 1 b1S1 y b2 S 2 y c1S1 y S 3.23式より b2 S 2 y S1 y 12 S11 2.14, 2.16式より 3.25 b22 S11 b22 S 22 となる。ここで Δ=S11S22-S122=S11S22(1-r122)≧0 (3.26) であり、S11 は x1 の偏差平方和であるから、S22 もつねに正またはゼロである。よって、説 明変数を x1 から(x1,x2)の 2 つに増すと、x2 がどんな変数であっても回帰平方和 SR は大きく なることが分かる。 同様にして説明変数を x1,x2,…,xp-1 の(p-1)個から、これに xp を加えて p 個にすると回帰 平方和 SR は bp2/Spp≧0 (3.27) だけ増加することが容易に証明される。ただし bp は p 個の説明変数を用いたときの xp に対 する偏回帰係数、Spp は x1,x2,…,xp の平方和・積和行列[p×p]の逆行列の(p,p)要素で、つね に正であることが証明できる。 多変量解析法 Ⅱ 重回帰分析 【偏回帰係数の解釈】 前節までで、重回帰分析において必要とされる計算の主要な部分の説明は終わり。ここ からはその計算結果の解釈について、説明をすることになる。 重相関係数というのは、説明変数の 1 組(x1,x2,…,x3)をひとかたまりとすれば、目的変数 y をどこまで説明できるかを示す値であって、そのひとかたまりとなった予測式が重回帰式 Y で表される。それゆえ重回帰式は、個々の説明変数(因子)が目的変数 y をどのくらいよ く説明するかを調べることを目的とはしていない。しかし個々の説明変数に対する偏回帰 係数が、それぞれ変数の y に対する寄与の程度を示していると考えがちである。 (前ファイ ル P13 参照)そこで本節において偏回帰係数はなにを意味するのか、を学ぶ。 もし説明変数 x1,x2,…,xp 相互の間になんの相関もなければ、偏回帰係数 bi は、y のそれぞ れの変数 xi に対する単回帰係数と一致し、標準偏回帰係数 bi’は y と xi との単相関係数 riy に一致する。すなわち bi Siy Sii bi riy (4.1) となる。 ((2.15)式,(2.21)式参照)しかし通常は説明変数間になんらかの相関があるので、 解釈は複雑になってくる。 種々の数値例 [例 4.1] あるガラス加工工程で、投入材料 x1、使用工数 x2 と生産量yの関係を調べたと ころ、表 4.1 のようなデータが得られたとする。 x1,x2 を説明変数、y を目的変数として重回帰分析を行ってみる。まず偏差平方和・積和 行列 S と相関行列 R は次のようになる。 S11 S12 S S 22 1 r12 R 1 S1 y 4,218.55 3,009.00 3,499.15 S 2 y 2,856.95 1,860.55 S 3 y 3,504.50 r1 y 1 0.867 0.910 r2 y 1 0.588 1 1 以上から、(2.14)式を用いて 1 S1y S 22 S 2 y S12 2.14 1 b2 S 2 y S11 S1 y S12 b1 b1 1.47 b2 0.89 および b0 2.42 をうる。したがって重回帰式は Y=-2.42+1.47x1-0.89x2 となる。また重相関係数 R は次のようになる。 R2=(b1S1y+b2S2y)/Syy=0.9953 R=0.9976 この式で奇妙なことは、x2 の係数がマイナスになっていることである・これをそのまま 解釈すれば、工数を減らせば生産量(絶対量)が増加するということだから、おかしな話 となる。 Y の x2 に対する単回帰係数を c2 とすると c2 S2 y S 22 1,860.55 0.65 2,856.95 となるから、この結果からは工数を 1 時間増加するごとに、生産量は 0.65m2 だけ増加する ことになる。図 4.1 からもわかるように x2 と y の間には明らかに正の相関がある。 ところが投入材料 x1 という説明変数を回帰式に加えると、 x2 の回帰係数がマイナスになってしまう。この理由はなんな のだろうか?(次節参照) 多変量解析法 Ⅱ 重回帰分析 [例 4.2] 偏回帰係数の意味を浮き彫りにするために表 4.2 に示すような人為的な数値例 にもとづいて重回帰分析を行う。またこのデータについて表 4.3 に平方和・積和行列、表 4.4 に単相関行列を示す。 表 4.3 にもとづいて、偏回帰係数は次のように計算される。(2.13)式,(2.14)式より b1 b2 S1 y S 22 S 2 y S12 S11S 22 S12 2 S 2 y S11 S1 y S12 S11S 22 S12 2 16,000 5.0 3,200 1,600 0.5 3,200 以上から、回帰式 Y は(2.17)をから Y y b1 x1 x1 b2 x2 x 2 9.5 5.0x1 2 0.5x2 6 2.5 5.0 x1 0.5 x2 となる。ここで注目すべきことは、表 4.4 に示したように x1,x2 はともに y と正の高い単相 関(普通の意味の 2 変数の間の相関)を持つにもかかわらず、上に求めた回帰式では偏回 帰係数 b2 は負、すなわち x2 が大きくなるにしたがって y は小さくなるようにみえることで ある。この間の事情を明らかにするために x1 と x2、x1 と y、x2 と y の散布図を描いてみる。 (図 4.2~4.4) これより明らかに x1 と x2 は 0.82 の相関を、x1 と y は 0.98 の相関を、また x2 と y も全 体としてみればかなり高い 0.70 という正の相関を示している。しかし、図 4.4 をさらに細 かく観察すると、x1 が同じ値をとる 4 点ずつの 4 組に分けられ、その各組では負の相関を 示していることがわかる。このことが上記の重回帰式で x2 の係数が負であったことに対応 する。実際 x1 の値の 5 組について、それぞれ y の x2 に対する回帰係数を計算すると、いず れも-0.5 となることが容易に確かめられる 1)。ついでながら、このデータ全体についての y の x2 に対する単回帰式を求めると、表 4.3 の数字から Y 9.5 280 x2 6 2.5 7 x2 240 6 となる。 これらの結果が図 4.4 に書き込まれている。 1) x1=0 と固定して考えるとデータ(x2,y)は(0,3),(0,2),(4,1),(4,0)の 4 つ x1=1 と固定して…とそれ以降も同様に考える。 相関係数と偏相関係数の違いと一緒、他の変数を固定して考える。 今回なぜこのようなことが起こるかというと y と x1 の関係 →x1 と x2 の関係 →x2 が変わったとき、x1 も変わるので結果 y が変わる →それを x2 の影響だと勘違いしている →じゃあ x1 固定で x2 を動かしたら…逆だった! ということ 偏回帰係数の数学的性質 前項の 2 つの例によって、偏回帰係数のもつ意味がかなりはっきりした。ここで数式に よっての整理も行い学んでみる。 いま p=2 とし、y の x1,x2 に対する重回帰式を(2.3)式およb(2.8)式を用いて Y y b1 x1 x1 b2 x2 x 2 (4.2) と書く。ここで偏回帰係数 b2 は(2.14)式によれば(分子の書き方は少し違うが b2 S 2 y S11 S1 y S12 S11S 22 S12 2 (4.3) であった。またこの b2 を説明するために y の x1 に対する単回帰式 Y |1 ,x2 の x1 に対する単 回帰式 X 2|1 を求め、その回帰残差をそれぞれ vα,uαで表す。 多変量解析法 Ⅱ 重回帰分析 すなわち X 2|1 Y |1 y c1 x 1 x1 , v y Y |1 X 2|1 x 2 d1 x 1 x1 , u x 2 (4.4) ここで Y |1 , X 2|1 はそれぞれ x1 を説明変数としたときの y および x2 の回帰推定値を表し、 c1 S1 y S11 , d1 S12 S11 (4.5) で与えられる。この vα,uαはそれぞれ yαおよび xα2 から x1 で説明できる部分を除去したと きの残差である。 このとき残差 vαの残差 uαに対する回帰式を求めると n n 1 1 v u 0 (4.6) であるので v b2u 2 b v u u 2 S 2 y S1 y S12 S11 1 S 22 S122 S11 S 2 y S11 S1 y S12 S11S 22 S122 4.3式より 4.7 b2 をうる。すなわち 「y の x1,x2 に対する重回帰式における偏回帰係数 b2 は y および x2 から x1 の影響を除去 した後における y の x2 に対する単回帰係数 b2*に等しい」 ことがわかった。同様にして 「y の x1,x2 に対する重回帰式における偏回帰係数 b1 は y および x1 から x2 の影響を除去 した後における y の x1 に対する単回帰係数 b1*に等しい」 (イメージ)y も x2 もどちらも x1 の影響が少なからず含まれる。x1 も x2 もどちらも考えた 上での x2 の偏回帰係数 b2 と、y と x2 のそれぞれ x1 の影響が出ない部分 y’と x2’を考え、そ れら 2 つだけで出した回帰係数 b2’において b2=b2’となる。 逆もまた然り。 以上では偏回帰係数 b2 を説明するのに、y 及び x2 の双方から x1 の影響を除いて、その残 差 vαの uαに対する回帰係数と同じであるとした。いま x1 の影響は x2 だけから除き、その 残差 uαを用いての yαの uαに対する単回帰式を求めてみる。yαと uαの共変動(偏差積和) は(4.4)式より y n 1 uは4.4式より y u y y x 2 x 2 d1 x 1 x1 n 1 4.5式より S 2 y d1S1 y S 2 y S12 S1 y S11 脚注4.8式より 4.9 u v n 1 ※1 行目→2 行目 ∑(y の偏差)(x2 の偏差)=S2y ∑(y の偏差)だけでは平方和になってない となるので(4.7)式よりわかるように、この yαの uαに対する回帰係数もまた、偏回帰係数 b2 に等しい。それゆえ、次のようにいうことができる。 「y の x1,x2 に対する重回帰式における偏回帰係数 b2 は x2 から x1 の影響を除いた後での (x1 の値を一定としたときの)y の x2 に対する単回帰係数に等しい」 「y の x1,x2 に対する重回帰式における偏回帰係数 b1 は x1 から x2 の影響を除いた後での (x2 の値を一定としたときの)y の x1 に対する単回帰係数に等しい」 脚注 1) uαは x2,x1 に対する回帰残差であるから、その残差平方和 u S 2 22 S122 S11 で ある。 u S 2 22 Se S yy S R d1 S12 S 22 S12 4.5より S12 S 22 S122 S11 S11 一方 vαと uαは(4.4)式を用いながら v u y y c x x x d x x y y x x c x x x x d y y x x c d x x x n 1 1 2 1 1 x1 2 1 2 2 1 1 1 1 1 1 2 1 1 1 2 1 1 1 S2 y S1 y S2 y S12 4.8 S1 y S11 S11 S12 S1 y S12 S12 S1 y S11 S11 S11 S11 x1 多変量解析法 Ⅱ 重回帰分析 これらの叙述から、偏回帰係数 b1,b2 はそれぞれ相手方の説明変数 x2,x1 の値を意識した うえでの、x1,x2 の y に与える影響を示すので、これらを同時に考えることはできないこと が示唆される。たとえば「b1,b2 がともに非常に小さくゼロに近い値のとき、x1,x2 はともに y を説明するのに役立たない」と考えることは大きな間違いとなる。1 つずつ考えていくと b1 がゼロに近いのは x1 から x2 の影響を除いた後では、すなわち x2 がほぼ一定のときには x1 は y の変動を説明する能力がないことを示し、b2 がほぼゼロであるということは x1 をほ ぼ一定にしたときには x2 は y を説明する能力がないことを示すにすぎない。x1 と x2 の相関 係数 r12 が 0.9 以上もあるときはこのような現象が起こり、b1,b2 が小さいにも関らず、重相 関係数 R はかなり高くなることがある。 (本章 4.3 項【標準偏回帰係数と単相関係数の関係】 参照)例えば…y=2x1 で x2 は x1+ε、というとき、y と x2 だけ見れば関係性がありそうだが x1 を一定にした場合は x2 がどんな値であれ y に影響は与えない。 ここまでは説明変数の数が 2 個の場合を用いて学んだが、説明変数の数 p が一般の場合 に、以上の結果を容易に拡張することができる。y の(x1,x2,…,xp)に対する重回帰式は Y y b1 x1 x1 b2 x2 x 2 b p x p x p (4.10) と書くことができる。 ここで y と x1 それぞれについて(x2,x3,…,xp)に対する重回帰式を求め、 その回帰推定値の残差を vα,uα1 とすると v y y c2 x 2 x 2 c3 x 3 x 3 c p xp x p u 1 x 1 x1 d 2 x 2 x 2 d 3 x 3 x 3 d p xp x p (4.11) (4.12) と書ける。これから vαと uα1 に対する単回帰係数を求めると、それは(4.10)式における偏 回帰係数 b1 と一致する。 さらに上記 p=2 の場合からの類推によれば「y の uα1(xα1 から x2,x3,…,xp の影響を除去 したときの残差)に対する単回帰係数が偏回帰係数 b1 に一致する」ことがわかる。 偏回帰係数の数学的性質については上記のとおりだが、ここで本節 4.1 項の[例 4.1](本フ ァイル P13 参照)でえられた重回帰式 Y=-2.42+1.47x1-0.89x2 を振り返って構造を考えてみる。ここで x1 は投入材料、x2 は使用工数、y は生産量であり、 このガラス加工工程でつねに良品ばかり生産されたとすると、y=x1 になるべきものである とする。 (表 4.1 のデータでは、常に y≦x1 である)いま使用材料 x1 のうち、u1 は良品に、 u2 は不良品になるとし、各 1 個を生産するのに必要な加工工数をそれぞれ k1,k2 とすると理 論的には次の関係式が成り立つ。 x1 u1 u 2 y u1 x2 k1u1 k 2u 2 (4.13) これから u1 と u2 を消去すると k2x1-x2=(k2-k1)y よって k2≠k1 なら、 y k2 1 x1 x2 k 2 k1 k 2 k1 k2=k1=k なら、 x2=kx1 で y は解けない (4.14) (4.15) をうる。(4.14)式で 1) 不良品を生産するほうが、余計に工数がかかる(k2>k1)とすれば、x2 の係数は負にな る。―――これがこのデータの説明になる。 2) 反対に、k2<k1 なら、x1 の係数が負になるはずである。 また(4.15)式では「良品も不良品もその 1 個をつくるに要する工数は等しい(k2=k1)」と家 庭されることになるが、このとき工数は投入材料に比例し(x2=kx1)、x2 と x1 は+1.0 の相関 を持つことになり、この重回帰式は一義的には定まらない。 標準偏回帰係数と単相関係数の関係 前項で述べたようなことを、さらに検討する。ここでは簡単のため p=2 とする。 Y の x1,x2 に対する重回帰式における標準偏回帰係数 b1’,b2’は(2.14)式と(2.12)式を結合す れば求められるが、ここでは(2.12)式に戻って考える。 b1S11 b2 S12 S1 y 2.12 b1S12 b2 S 22 S 2 y 標準偏回帰係数を求める正規方程式は(2.12)式から予想できる(また実際に計算してみれ ばわかる)ように b1 r12b2 r1 y r12b1 b2 r2 y (4.16) である。これを解いて 1 r r12r2 y 2 1y 1 r12 1 r2 y r12r1 y b2 1 r122 b 1 (4.17) 多変量解析法 Ⅱ 重回帰分析 をうる 1)。 1) (2.14)式を変形し、(2.21)式を用いると b1 S1 y S 22 S 2 y S12 S11S 22 S 2 12 S11 S1 y S yy S11S yy S 2 y S12 1 r 2 12 2 S11S yy S 22 r1 y r12r2 y 1 r122 まず(4.17)式から r12=0 なら、 b1 r1 y b2 r2 y (4.19) が得られる。このことは r12>0 なら、2 つの標準偏回帰係数の和の絶対値は単相関係数の 和の絶対値より小さくなり、差の絶対値は大きくなることを示す、r12<0 ならこの傾向は逆 となる。 本節 4.1 項の[例 4.2](本ファイル P15 参照)についてこれを考えると表 4.4 より r1y=0.98, r2y=0.70, r12=0.82>0 であり、一方表 4.3 の数字を用いると 240 0.5 0.30 665 b1 b1 S11 40 5.0 1.23 S yy 665 b2 b2 S 22 S yy をうる。よって b1 b2 0.93, r1 y r2 y 1.68 b1 b2 1.53, r1 y r2 y 0.30 となり、上の叙述が正しいことが確かめられる。 (4.18)式でみたように、r12=0 なら標準偏回帰係数は単相関係数と等しくなるが、この例 のように、r12=0.82>0 と非常に大きいときには、b2’=-0.30 は r2y=0.70 と比べて符号まで 変わってしまう。現実のデータの解釈をするとき、このような事態が一番困惑するので、 以下では r12 が一定の値をとるとき、r2y の変化にともなって b1’と r1y との符号関係がどのよ うに変わるかを吟味する。 1) r12≒0 のとき、r2y のいかんにかかわらず、b1’は r1y とほぼ同じである。 2) r12>0 でかなり大きく、r2y=0 のとき、 b1’はつねに r1y と同符号で絶対値は大きくなる。 (1/(1-r122)倍になる)このとき(4.17)式より b2 r12r1 y 1 r122 , b1 r1 y 1 r122 (4.20) となり、r2y=0 であるにも関らず b2’は r1y(したがって b1’)と反対の符号のゼロではない値 をとる。すなわち、r2y=0 であっても r12>0 であれば b1’が r1y より(絶対値で)大きくなり、 x1 の説明する部分が少し増えるのに対し、その過剰分を x2 が帳消しにするという格好にな る。 2’) r12<0 で r2y=0 のとき、やはり b1’は r1y と同符号でその絶対値は大きくなり、b2’と b1’は同符号となる。 3) r12<0 でかなり大きく r1y,r2y が異符号のとき、b1',b2’の符号はそれぞれ r1y,r2y と等し く、その絶対値はともに大きくなる。なぜなら、(4.17)式の右辺で r1y と r2y が異符号、 r12>0 ならば、分子は r1y(または r2y)より大きくなり、分母は 1 より小さくなるか ら明らかに |b1’|>|r1y|, |b2’|>|r2y| (4.21) が言える。この結果は r1y と r2y が異符号であったことに注意すれば(4.19)式から導い た結論と矛盾しない。 3’) r12<0 で r1y と r2y が同符号のときも 3)と同じく b1’,b2’の符号はそれぞれ r1y,r2y と等 しく、かつ絶対値は大きい。この結果は r12<0 であることに注意すれば(4.19)式に矛 盾しない。 4) r12>0 で、かつ r1y と r2y が同符号のとき、もし |r1y|<r12|r2y| (4.22) が成り立つなら、b1’の符号は r1y と異なる。同様に |r2y|<r12|r1y| (4.22)’ なら b2’の符号は r2y と異なる。(4.22)式を言葉で言えば次のようになる。いま r12>0 で r1y と r2y が同符号のときの b1’の符号を考える。 「|r1y|が|r2y|より大きければ問題 なく、b1’の符号は r1y と等しい。いや、|r1y|が r12|r2y|より大きければ良い。|r1y| が小さく(4.22)式が成り立つなら b1’の符号は r1y の符号と逆になる。 」ということ。 本節 4.1 項の[例 4.2]では b2’の符号が r2y と反対となったが、それは r2y=0.70<r12r1y=0.82×0.98=0.80 が成り立ったからである。 r1y を横軸 x,r2y を縦軸 y にとり、それぞれを-1.0~+1.0 の範囲に設定した正方形の中で r12=c(一定)とすると(4.17)式の第 1 式は b1 1 x cy 1 c2 となるから b1’=const.は、この平面上で勾配 1/c=1/r12 の直線となる。これを図 4.5 に示す。 そこでは r12=0,0.5,0.7,0.9 の 4 つの場合を与えた。 多変量解析法 Ⅱ 重回帰分析 図からわかるように、r12 が大きくなるに つれて、b1’が一定の直線は右に傾き、図で 斜線を入れた部分が、b1’の符号が r1y と異 なる領域を表す。また、図中の長円は次の 条件から得られる。すなわち 3 つの変数 x1,x2,y の間の相関係数 r12,r1y,r2y は互いに 無関係ではありえず、 「分散はつねに正であ る」という条件に対して、相関係数行列 1 R r12 r 1y r1 y r2 y 1 r12 1 r2 y (4.23) が非負定符号(行列式が正またはゼロ)で なければならないという制約がある。よって 1 r12 R r12 1 r2 y 1 r22y r12 r12 r1 y r2 y r1 y r12r2 y r1 y 0 r1 y r2 y 1 r1 y 4.24 r12y 2r12r1 y r2 y r22y 1 r122 をうる。これをさらに基準化すると r 1y r2 y 2 21 r12 r 1y r2 y 2 21 r12 1 (4.24)’ をうる。これはまさに図 4.5 に示した長円となる。 偏相関係数 偏回帰係数の解釈を述べたついでに偏相関係数(partial correlation coefficient)を学ぶ。 (x2,x3,…,xp)の影響を除いたときの y と x1 との偏相関係数 ry1・2,3,…,p とは(4.11)式,(4.12)式 に定義した 2 つの残差 v と u1 との単相関係数のことである。v と u1 は、それぞれ y と x1 の(x2,x3,…,xp)に対する重回帰式の残差であった。 説明変数の数 p=2 のときについて詳しく検討すると、このときは x1,x2y の 3 変数を考え る。(4.4)式では y の x2 に対する偏回帰係数を問題にしたが、ここでは y と x1 との偏相関係 数を明確に表したいので次のように定義する。y と x1 のそれぞれの x2 に対する回帰残差と を v,u1 と書くと、α=1,2,…,n の標本に対しては以下のようになる。 S 22 S u 1 x 1 x1 d x 2 x 2 , d 12 S 22 v y y c x 2 x 2 , c S2 y (4.25) ここで残差平方和・積和は次のように計算される。 1 1 n v2 S yy 2cS 2 y c 2 S 22 S yy S 22y S 22 S yy 1 r22y 1 n u21 S11 2dS12 d 2 S 22 S11 S122 S 22 S11 1 r122 1 n v u S cS dS cdS 1 1y 12 2y 22 1 S1 y S12S 2 y S 22 S yy S11 r1 y r12r2 y n n v u 1 0 (4.26) これより x2 の影響を除いたときの y と x1 との偏相関係数 ry1・2 は次式で与えられる v u ry12 1 v u 2 2 1 r1 y r12r2 y 1 r 1 r 2 2y 2 12 (4.27) また x1,x2,y の相関係数行列 R を(4.23)式のように表わし、その逆行列を R-1 とし、(4.24) 式よりその行列式を r 11 r 12 r 1 y r1 y 1 r2 y , R 1 r 12 r 22 r 2 y r 1 y r 2 y r yy r2 y 1 2 2 2 4.28 R 1 r12 r1 y r2 y 2r12r1 y r2 y 1 R r12 r 1y r12 とおくと R 1 r R r r r r11 1 r22y r yy r1 y 2 12 12 2 y 1y R (4.29) と書けるから(4.27)式は以下のように表わせる。 ry12 r1y r 11 r yy (4.30) 多変量解析法 Ⅱ 重回帰分析 本節 4.1 項の[例 4.2]でこれらの値を計算すると ry1・2=0.9993, ry2・1=-0.894 をえ、その絶対値はともに単相関より大きく、符号は標準偏回帰係数 b1’,b2’と同じになる。 符号の同一性は(4.17)式と(4.27)式を比べれば、一般的に言える。 以上の結果を、一般の p 変数の場合に拡張すると、(4.27)式に対応しては、右辺の各相関 係数を x3,x4,…,xp の影響をも除去した偏相関係数に置き換えればよい。 ry1・2,3,, p r1 y・3,, p r12・3,, p r2 y・3,, p 1 r 2 2 y・3,, p 1 r 2 12・3,, p (4.31) この式では x2 と特別扱いしているが、これが x3,…,xp のいずれでも構わない。また(4.30) 式を拡張する場合は、もっと直接的で、x1,x2,…,xp,y の(p+1)変数の相関行列 R とし、その 逆行列 R-1 の要素を前と同様の記号を用いて表すと、y と x1 との偏相関係数は(4.30)式とま ったく同じ形で ry1・2,3,, p r1 y r11・r yy S1y (4.32) S 11・S yy と書くことができる。 (1) 偏回帰係数との関係 p=2 のとき、y の x1,x2 に対する重回帰式での x1 の係数を by1・2(これまで y の x1 に対す る偏回帰係数 b1 と書いてきたものと同じ)とし、一方 x1 の y と x2 に対する重回帰式を求 め、そこでの y の係数(x1 の y に対する偏回帰係数)を b1y・2 と書くと、これらは(4.25)式 における vαの uα1 に対する回帰係数および uα1 の vαに対する回帰係数として計算できるか ら by1・2 v u u 2 1 , b1 y・2 1 v u v 1 2 (4.33) となり v u r u v 2 by1・・ 2 b1 y・2 1 2 1 2 2 y1・2 (4.34) をうる。すなわち次のようにいうことができる: 「y と x1 との(x2 の影響を除いたときの)偏相関係数 ry1・2 は、y の x1 に対する(x2 の影 響を除いたときの)偏回帰係数 by1・2 と、x1 の y に対する(x2 の影響を除いたときの)偏回 帰係数 b1y・2 との幾何平均に等しい」 (=相乗平均=全部かけて、かけた個数でルート) p≧3 の一般の場合にも、(4.34)式はただちに拡張されて ry1・2,3,…,p2=by1・2,3,…,p・b1y・2,3,…,p (4.35) の関係が成り立つ。 p=1、すなわち x と y の 2 変量の単相関係数 rxy についても同じ関係が成立する。すなわ ち rxy2=byx・bxy、ここに byx は y の x に対する、bxy は x の y に対する単回帰係数である。 重回帰分析を適用するときには、目的変数と説明変数との役割がはっきりしていること が多いから、x1 の y および x2,x3,…,xp に対する重回帰式を求めること自体がナンセンス。 この意味からは「偏相関係数のもつ実用上の役割はほとんどない」といってよい。ただ重 回帰分析とは離れて、2 つの変数の間の(第 3 以下の変数の影響を除いた)真の相関という 意味では、偏相関係数の利用価値がある場合もある。 (2) 重相関係数との関係 x1,x2,…,xp の p 個の変数について、まず x1 の変動から x2 の影響を除いた残りの変動(残 差平方和)を考え、これを S11・2 で表すと S11・2 S122 S11 S11 1 r122 S 22 (4.36) と書けた。次にこの S11・2 から x3 の影響を除いた残りの変動を S11・2,3 で表すと S11・2,3 S11・2 S132・2 S132・2 S11・2 1 S33・2 S11・2 S33・2 4.37 S11・2 1 r132・2 S11 1 r122 1 r132・2 となる。この関係を順次適用していくと S11・2,3,, p S11 1 r122 1 r132・2 1 r124・2,3 1 r12p・2,3,, p12 (4.38) がえられる。一方、この残差平方和 S11・2,3,…,p を用いると、x1 と(x2,x3,…,xp)との重相関係 数 R1(2,3,…,p)(従来単に R と書いていたもの)は次式で与えられる。 R122,3,, p 1 S11・2,3,, p (4.39) S11 (4.38),(4.39)式とから 1 R122,3,, p 1 r122 1 r132・2 1 r124・2,3 1 r12p・2,3,, p12 が成り立つことがわかる。 (4.40)
© Copyright 2024