2 値型代表点によるクラスタリングを組み込んだ 回帰分析モデル

2 値型代表点によるクラスタリングを組み込んだ
回帰分析モデル
慶應義塾大 日本学術振興会特別研究員 DC 山下 遥
慶應義塾大 鈴木 秀男
実際のデータ解析において,連続値データとカテゴリカルデータが混在している説明変数を持つデータの
回帰式を求める場合は数多く存在する.このようなデータに対して山下ら [1] は,カテゴリカルデータを用
いて「回帰モデルとデータの当てはまりの度合いを最大化」するような 2 値型代表点 [2] を求め,データを
クラスタリングして回帰式を求める方法を提案した.このモデルは,カテゴリカルデータの属するクラスタ
によって切片を変化させるモデルと解釈ができ,実際のデータ解析からもその妥当性が示された.しかしな
がら,代表点とカテゴリカルデータとの距離の計り方に対して課題が残されていた.
本研究では,まず,代表点とカテゴリカルデータの間の距離の計り方に分散共分散行列の逆行列を導入す
るというアプローチを提案する.さらに,連続値に対する回帰係数についても,回帰モデルとデータの当て
はまりの度合いを最大化するような 2 値型代表点によって分けられたクラスごとに決定するモデルを提案す
る.これにより,データ対してより当てはまりのよい回帰モデルを構築することが可能になる.
本研究では,山下ら [1] のモデルを基に,クラスタごとに変回帰係数を変化させる以下のようなモデルを
提案する.まず,目的変数 z と,連続値の説明変数 xj (j = 1, . . . , q),さらに,lj 水準のカテゴリカル変数
xj (j = q + 1, …, p) を 2 値のダミー変数化し,djv (v = 1, . . . , lj , j = q + 1, . . . , p) で表した N 個のデータ
を想定する.これに対して,カテゴリカル変数で表される変数を,2 値の要素 yjv で表される k 個の代表点
ベクトル [2] yh (h = 1, . . . , k), を用いて目的変数データへの当てはまりが最大になるような k 個のクラス
タへと分割し, それぞれのサンプルが k 個のグループへと分類される際のグループを表すダミー指示変数を
d′c , (c = 1, . . . , k) とする.この際,ダミー変数と代表点ベクトルの間の距離は (4) 式のように,ユークリッ
ド距離をダミー変数の分散で除した値を用いることにする.


min
N
∑
min
yhjv ,1≤h≤k α
ˆ 0 ,α
ˆ jc ,1≤j≤q,
i=1
1≤c≤k
zˆi = α0 +
q
k ∑
∑
∥zi − zˆic ∥2



,
α
ˆ cj xij d′ic .
(1)
(2)
c=1 j=1
{
d′ic
=
)
(
∑p
∑l
∑p
∑ lj
2
2
1
min1≤h≤k j=q+1 v=1
(dijv − yhjv )2 /σjv
= j=q+1 vj (dijv − yjvc )2 /σjv
,
0 (上記以外)
2
σjv
=
N
∑
i
(
dijv −
N
∑
(3)
)2
dijv /N
/N.
(4)
i
この問題は,取りうる yh の値の組み合わせを以下のように全探索することで最適解を求めることができ
る.
STEP1 2 値ベクトル yh (h = 1, . . . , k) を設定する.
STEP2 STEP1 で定めた代表点をもとに,(3) 式によってデータをクラスタリングし、(2) 式のパラメータ
を求め,データと回帰式の当てはまりを計算する.
STEP3 STEP1 と STEP2 を全ての代表点のパターンにおいて繰り返し,最適な代表点およびそのときの
パラメータを決定する.
これにより、回帰モデルとデータの当てはまりの度合いを最大化するような 2 値型代表点によって分けられ
たクラスごとに決定するモデルを求めることができる。当日の発表では解析例を示す.
【参考文献】
[1] 山下遥, Shane Schvaneveldt, 鈴木秀男 (2014). “多変量カテゴリカルデータのクラスタリングを考慮した重回帰分
析モデル”, 品質管理学会第 104 回研究発表会研究発表要旨集, pp. 111-114.
[2] Haruka Yamashita and Hideo Suzuki (2014). “Heuristic Approximation Methods for Principal Points for
Binary Distributions”, Journal of Japan Industrial Management Association 65, in press.