カテゴリー変数をもつ集約的シンボリックデータの非類似度

カテゴリー変数をもつ集約的シンボリックデータの非類似度
統計数理研究所 清水
統計数理研究所 中野
徳島文理大学 山本
東京情報大学 藤原
1
信夫
純司
由和
丈史
はじめに
大量の多変量データが自然なグループに分かれている場合、オリジナルデータそのものではなく、それ
らのグループに関しての推論に興味がある場合が考えられる。このとき、そのようなグループを表すため
のいくつかの記述統計量の集合をデータと考えたものを集約的シンボリックデータ (Aggregated Symbolic
Data, ASD) と呼ぶ。 その簡単な例として、実数変数値のデータにより記述された各グループの平均およ
び分散共分散行列を用いることが考えられるが、実際の多変量データにおいては実数変数値だけでなくカ
テゴリー変数値も含まれている場合が多数ある。このような状況において、実数変数・カテゴリー変数いず
れに対しても 2 次のモーメントまでを考えた上で、様々な変数の組み合わせによる尤度比検定量を用いて
非類似度を構成する。
2
集約的シンボリックデータ間の非類似度
データ集合全体を表す行列を X としてその中におけるグループ(またはシンボリックデータ)g の個々
のデータを表す行列 X (g) を
 (g)
x11
···

.
(g)
..
X
= 

(g)
xn(g) 1
(g)
とする。ここで X1
部分であり、n
···
(g)
x1p
..
.
(g)
xn(g) p
(g,1)
x11
..
.
(g,1)
xn(g) 1
···
(g,1)
···
x1m1
..
.
(g,1)
· · · xn(g) m1
(g)
は p 個の実数変数に対する部分、X2
···
(g,q)
x11
..
.
(g,q)
xn(g) 1
···
···
(g,q) 
x1mq

..
 = [X (g) X (g) ]
.
2
1

(g,q)
xn(g) mq
は q 個のカテゴリー変数のダミー変数に対する
(g)
は g におけるデータの総数である。グループ g 内における変数同士の 2 次モーメント
]
] [ (g)
[ (g)′ (g)
(g)
(g)′ (g)
S11 S12
X1 X1
X1 X2
(g) (g) ′
(g) (g)
(g)′ (g)
≡
X X = [X1 X2 ] [X1 X2 ] =
(g)
(g)
(g)′ (g)
(g)′ (g)
S21 S22
X2 X1
X2 X2
(g)
(g)
(g)
を考えると、S11 ,S22 ,S21 はそれぞれ実数変数間、カテゴリー変数間、実数変数とカテゴリー変数間の 2
次モーメントである。
ここで異なるグループ g1 , g2 が共通の実数変数およびカテゴリー変数をもつ場合、g1 と g2 の間の非類似
度 d(g1 ,g2 ) を考えたい。g1 と g2 の分布が同じ正規分布に従うという帰無仮説を、それぞれ別の正規分布に
(g ,g2 )
1
従うという対立仮説に対して検定する尤度比検定統計量を d(rr)
な尤度比検定統計量を
とする。また、カテゴリー変数部の同様
(g1 ,g2 )
d(cc)
、実数変数部とカテゴリー変数部の同様な尤度比検定統計量を
ると、これらを用いて
(g ,g2 )
1
d(g1 ,g2 ) = d(rr)
(g ,g2 )
1
+ d(cc)
と定義することができる。詳細および適用例は当日に示す。
(g ,g2 )
1
+ d(rc)
(g ,g2 )
1
d(rc)
とす