カテゴリー変数をもつ集約的シンボリックデータの非類似度 統計数理研究所 清水 統計数理研究所 中野 徳島文理大学 山本 東京情報大学 藤原 1 信夫 純司 由和 丈史 はじめに 大量の多変量データが自然なグループに分かれている場合、オリジナルデータそのものではなく、それ らのグループに関しての推論に興味がある場合が考えられる。このとき、そのようなグループを表すため のいくつかの記述統計量の集合をデータと考えたものを集約的シンボリックデータ (Aggregated Symbolic Data, ASD) と呼ぶ。 その簡単な例として、実数変数値のデータにより記述された各グループの平均およ び分散共分散行列を用いることが考えられるが、実際の多変量データにおいては実数変数値だけでなくカ テゴリー変数値も含まれている場合が多数ある。このような状況において、実数変数・カテゴリー変数いず れに対しても 2 次のモーメントまでを考えた上で、様々な変数の組み合わせによる尤度比検定量を用いて 非類似度を構成する。 2 集約的シンボリックデータ間の非類似度 データ集合全体を表す行列を X としてその中におけるグループ(またはシンボリックデータ)g の個々 のデータを表す行列 X (g) を (g) x11 ··· . (g) .. X = (g) xn(g) 1 (g) とする。ここで X1 部分であり、n ··· (g) x1p .. . (g) xn(g) p (g,1) x11 .. . (g,1) xn(g) 1 ··· (g,1) ··· x1m1 .. . (g,1) · · · xn(g) m1 (g) は p 個の実数変数に対する部分、X2 ··· (g,q) x11 .. . (g,q) xn(g) 1 ··· ··· (g,q) x1mq .. = [X (g) X (g) ] . 2 1 (g,q) xn(g) mq は q 個のカテゴリー変数のダミー変数に対する (g) は g におけるデータの総数である。グループ g 内における変数同士の 2 次モーメント ] ] [ (g) [ (g)′ (g) (g) (g)′ (g) S11 S12 X1 X1 X1 X2 (g) (g) ′ (g) (g) (g)′ (g) ≡ X X = [X1 X2 ] [X1 X2 ] = (g) (g) (g)′ (g) (g)′ (g) S21 S22 X2 X1 X2 X2 (g) (g) (g) を考えると、S11 ,S22 ,S21 はそれぞれ実数変数間、カテゴリー変数間、実数変数とカテゴリー変数間の 2 次モーメントである。 ここで異なるグループ g1 , g2 が共通の実数変数およびカテゴリー変数をもつ場合、g1 と g2 の間の非類似 度 d(g1 ,g2 ) を考えたい。g1 と g2 の分布が同じ正規分布に従うという帰無仮説を、それぞれ別の正規分布に (g ,g2 ) 1 従うという対立仮説に対して検定する尤度比検定統計量を d(rr) な尤度比検定統計量を とする。また、カテゴリー変数部の同様 (g1 ,g2 ) d(cc) 、実数変数部とカテゴリー変数部の同様な尤度比検定統計量を ると、これらを用いて (g ,g2 ) 1 d(g1 ,g2 ) = d(rr) (g ,g2 ) 1 + d(cc) と定義することができる。詳細および適用例は当日に示す。 (g ,g2 ) 1 + d(rc) (g ,g2 ) 1 d(rc) とす
© Copyright 2025