多数話者の音声データを事前知識として利用可能な因子分析に基づく

平成 25 年度創成シミュレーション工学専攻修士論文梗概集
計算システム工学分野
多数話者の音声データを事前知識として利用可能な因子分析に基づく声質変換
学籍番号 24413563 氏名 豊田 麻奈美
指導教員名 南角 吉彦
1
はじめに
声質変換とは,ある話者の音声を別の話者の音声に変換す
る技術である.統計的な手法ではガウス混合モデル (Gaussian
Mixture Model; GMM) に基づく声質変換法 [1], [2] が広く用
いられている.この手法では,学習データが極少量の場合モデ
ルの推定精度が低下し,変換音声の品質が劣化する可能性があ
る.この問題に対し,固有声に基づく声質変換法 (Eigenvoice
Conversion; EVC) [3] が提案されている.この手法では,予め
収録された多数の話者のパラレルデータから話者毎の GMM
を学習し,GMM のモデルパラメータに対し主成分分析を行
うことで,人の声の主な声質成分を表す基底を求める.この
基底に対する重みを推定することで,任意の話者の声質を表
すモデルパラメータを得ることができる.しかし,この手法
では,音響特徴量を一度 GMM でモデル化することにより,
話者固有の特徴がモデルパラメータに含まれず,声質成分を
適切に抽出することができない可能性がある.そこで本研究
では,因子分析を用いた手法を提案する.因子分析を用いる
ことで,可変長の特徴量を入力として用いることができるた
め,音響特徴量そのものを用いて基底を推定することが可能
となる.そのため,主成分分析を用いる手法と比べ,変換精
度の向上が期待される.
2
GMM に基づく声質変換
GMM に基づく声質変換では,元話者と目標話者のパラレ
ルデータを用いて声質の相関を GMM で学習する.元話者の
特徴量系列 X と目標話者の特徴量系列 Y を結合した結合ベ
⊤
⊤
⊤ ⊤
クトル [X ⊤
を用いて,結合確率密度
1 , Y 1 ], . . . , [X T , Y T ]
P (X t , Y t | λ) を表す GMM を学習する.
T
∏
λ = arg max
P (X t , Y t | λ)
(1)
λ
t=1
ここで,λ はモデルパラメータであり,結合確率密度は以下
の式でモデル化される.
M
∑
P (X t , Y t | λ) =
ωi N (X t , Y t ; µi , Σi )
(2)
λ = {ωi , µi , Σi | i = 1, . . . , M }
[ (X) ]
[ (XX)
µi
Σi
µi =
, Σi =
(Y )
(Y X)
µi
Σi
a(r)
x
n(x)
(r)
x1
(r)
x2
+
(r)
x3
=
N (G1 a + µn1 , Σn1 )
(r)
xT
a(r)
y
G(y)
Y (r)
n(y)
N (G2 a + µn2 , Σn2 )
(r)
y1
(r)
y2
(r)
y3
+
=
N (GM a + µnM , ΣnM )
(r)
yT
図 1: 因子分析を用いた固有声のモデル構造
次に,元話者と s 番目の事前学習用話者のパラレルデー
(Y )
タを用いて λ(0) の出力話者の平均ベクトル µi のみを更
(s)
新することで,話者依存 GMM λ を学習する.λ(s) が s
番目の事前学習用話者の特徴を含むと考え,出力話者の平均
(Y )
ベクトル µi (s) を結合した,スーパーベクトル SV (s) =
(Y )
(Y )
[µ1 (s)⊤ , . . . , µM (s)⊤ ]⊤ を特徴量として使用する.事前学
習用話者 S 人分のスーパーベクトルに対し主成分分析を行う
ことで Q(< S) 本の固有声ベクトルからなる基底行列 B i と
(0)
スーパーベクトルの平均ベクトルである bi を得ることが出
来る.
目標話者 r のスーパーベクトル SV (r) は以下のように表す
ことができる.ここで M は GMM の混合数である.
⊤ ⊤ (r)
SV (r) = [B ⊤
+ [b1
1 , . . . , BM ] w
(0)⊤
i=1
(XY )
Σi
(Y Y )
Σi
]
(X)
, . . . , bM ]⊤ (4)
(0)⊤
このように,基底行列 B i に対する Q 次元の重み w(r) を与
えることで,任意の話者の声質を表現するモデルを構築する
ことが可能である.
(Y )
ここで,i は混合要素番号であり,ωi は混合重み,µi , µi
(XX)
(Y Y )
は元話者,目標話者の平均ベクトル,Σi
, Σi
は共分
(XY )
(Y X)
散行列,Σi
, Σi
は相互共分散行列を表す.また,M
は GMM の混合数である.
変換時には,元話者の特徴量 X が与えられたとき,次式
の尤度関数を最大化することで適切な特徴量 Y が得られる.
ただし,m = {m1 , . . . , mT } は混合要素系列を表す.
∑
P (m | X, λ)P (Y | X, m, λ) (3)
P (Y | X, λ) =
m
3
G(x)
X (r)
固有声法に基づく声質変換
固有声に基づく声質変換法では,まず予め収録された元話
者と事前学習用話者 S 人のパラレルデータから不特定話者
GMM λ(0) を学習する.
4
因子分析に基づく声質変換
因子分析に基づく声質変換では,話者対 r の特徴量系列
O (r) = [X (r)⊤ , Y (r)⊤ ]⊤ を,基底行列 G, 混合要素系列 m(r) ,
話者対 r を表す因子 a(r) , ノイズベクトル n を用いて以下の
ように表す.
O (r) = Gm(r) a(r) + nm(r)
(5)
声質変換では,元話者と目標話者の 2 つの異なる話者性を表
現する必要がある.そこで,図 1 のように入力 x と出力 y で
異なる基底行列 G,因子 a(r) ,ノイズベクトル n を保持し,
それぞれ以下のように定義する.

Gi =

(x)
Gi
0

0
(y)
Gi

,

a
(r)

=
(r)
ax
(r)
ay


,

ni =

(x)
ni
(y)
ni



(6)
平成 25 年度創成シミュレーション工学専攻修士論文梗概集
計算システム工学分野
ここで,i は混合要素番号であり,因子 a(r) とノイズベクト
ル nm(r) は次のようなガウス分布に従うとする.
a(r) ∼ N (0, I), nm(r) ∼ N (µm(r) , Σm(r) )
5.5
5.4
5.34
(7)
5.3
5.20
r m(r)
(r)
P (O
|a
(r)
,m
(r)
5.2
5.12
5.1
5.5
4.9
4.8
GMM
PCA
FA
図 2: 各手法のメルケプストラム歪み
3.2
95% confidence interval
|m
(r)
)P (m
(r)
| λ)da
(r)
(8)
2.64
2.8
, λ) =
N (O (r) | Gm(r) a(r) + µm(r) , Σm(r) )
2.77
3.0
(9)
MOS / DMOS
× P (a
(r)
MelCD [db]
ただし音韻性を表す m(r) は入出力側で共有する.
i 番目の混合要素は Gi を保持しており,Gm(r) は混合要
素系列に従ってそれらの要素を連結したものである.また,
µm(r) , Σm(r) も同様にノイズベクトルの平均 µi ,分散 Σi を
連結したものである.このように,Gm(r) と µm(r) は混合要
素系列に合わせて変動するため,可変長の音響特徴量を直接
表現することが可能である.また,話者ごとに因子を用意し
ているため,因子が話者性を表現するモデルとなっている.
全話者の発話データ O = {O (1) , O (2) , . . . , O (R) } に対する
尤度関数は以下のように表される.
∏∑∫
P (O | a) =
P (O (r) | a(r) , m(r) , λ)
ここで λ はモデルパラメータを表す.式 (8) を最大化するこ
とで混合要素系列と基底行列を同時に最適化する.
2.37
2.6
2.27
2.4
1.98
2.2
1.88
2.0
5
評価実験
1.8
提案法の有効性を検証するために,以下の 3 手法の声質変
換実験を行い比較した.
· GMM : GMM に基づく声質変換
1.6
GMM
· PCA : 固有声に基づく声質変換
· FA
: 因子分析に基づく声質変換
ATR 日本語音声データベース b-set の男性話者 (mtk) を
元話者,別の男性話者 (mht) を目標話者とし,事前学習用話
者の学習データとして JNAS データベースの 160 名(男女各
80 名)の音声を使用した.各事前学習用話者のデータは 50
文,目標話者の学習データは 2 文,評価用に 53 文使用した.
GMM では,元話者と目標話者のパラレルデータを用いて変
換モデルを学習し,PCA, FA では目標話者のデータのみを用
いて重み(因子)の推定を行い変換モデルを構築した.実験
はメルケプストラム歪みによる客観評価実験と,5 段階 MOS,
DMOS 試験による主観評価実験を行った.
PCA
MOS
FA
GMM
PCA
FA
DMOS
図 3: MOS, DMOS 試験結果
改善が見られなかった原因の一つとして,今回学習データと
して使用した膨大なデータに対し,モデルの混合数が不足し
たことが挙げられる.混合数や学習の制約など適切に設定す
ることで更なる改善が期待される.
6
むすび
本研究では,因子分析に基づく声質変換手法を提案した.
目標話者の話者性を表現する際に推定するパラメータが重み
のみであるため,目標話者の学習データが極少量の場合でも
高精度な変換が可能である.また,因子分析を用いることで,
音響特徴量そのものを用いて基底行列を学習することが可能
となり,従来に比べ更に変換精度が向上することが期待され
る.客観評価実験の結果から,因子分析を用いた手法の有効
性が確認されたが,主観評価実験において,音質,話者性の
改善は見られなかった.これは GMM の混合数が不足したた
めだと考えられ,適切に設定することで改善が期待される.
5.1 客観評価実験
客観評価では目標話者の音声と変換音声のスペクトルの距
離をメルケプストラム歪みとして計算する.歪みが小さいほ
ど目標話者の声質との類似度が高いことを表す.各種法にお
けるメルケプストラム歪みを図 2 に示す.GMM と比較する
と PCA, FA のどちらも歪みが小さく,学習データが極少量
の場合,ある話者間のパラレルデータが他の話者間の変換に
有用な事前知識となることが確認された.また,PCA と比 参考文献
[1] Y. Stylianou, O. Cappe, and E. Moulines, “Continuous
べ FA の歪みが小さいことから,基底行列を確率的にモデル
Probabilistic Transform for Voice Conversion,” Proc. of
化することで,変換精度が向上することが確認された.
IEEE Trans. Speech Audio Process., vol.6, pp. 131–142,
1998.
5.2 主観評価実験
[2] T. Toda,Alan W.black, and K. Tokuda, “Voice Conversion
主観評価では音質の評価として MOS 試験,声質の類似度
Based on Maximum-Likelihood Estimation of Spectral Paの評価として DMOS 試験を行った.試験結果を図 3 に示す.
rameter Trajectory,” Proc. of IEEE Trans. Audio, Speech,
MOS, DMOS 試験ともに GMM が最も値が大きく,PCA が
And Language Process., vol.15, pp. 2222–2235, 2007.
最も小さいという結果となった.PCA と比較すると,FA の
[3] T. Toda,“Eigenvoice conversion based on Gaussian mixture
値が大きいことからも,基底行列を確率的にモデル化するこ
model,” Proc. of INTERSPEECH, pp. 2446–2449, 2006.
とで,変換精度が向上することが確認された.GMM に対し,