Download Report

平成 25 年度創成シミュレーション工学専攻修士論文梗概集
計算システム工学分野
多数話者の音声データを事前知識として利用可能な因子分析に基づく声質変換
学籍番号２４４１３５６３氏名豊田麻奈美
指導教員名南角吉彦
1
はじめに
声質変換とは，ある話者の音声を別の話者の音声に変換す
る技術である．統計的な手法ではガウス混合モデル (Gaussian
Mixture Model; GMM) に基づく声質変換法 [1], [2] が広く用
いられている．この手法では，学習データが極少量の場合モデ
ルの推定精度が低下し，変換音声の品質が劣化する可能性があ
る．この問題に対し，固有声に基づく声質変換法 (Eigenvoice
Conversion; EVC) [3] が提案されている．この手法では，予め
収録された多数の話者のパラレルデータから話者毎の GMM
を学習し，GMM のモデルパラメータに対し主成分分析を行
うことで，人の声の主な声質成分を表す基底を求める．この
基底に対する重みを推定することで，任意の話者の声質を表
すモデルパラメータを得ることができる．しかし，この手法
では，音響特徴量を一度 GMM でモデル化することにより，
話者固有の特徴がモデルパラメータに含まれず，声質成分を
適切に抽出することができない可能性がある．そこで本研究
では，因子分析を用いた手法を提案する．因子分析を用いる
ことで，可変長の特徴量を入力として用いることができるた
め，音響特徴量そのものを用いて基底を推定することが可能
となる．そのため，主成分分析を用いる手法と比べ，変換精
度の向上が期待される．
2
GMM に基づく声質変換
GMM に基づく声質変換では，元話者と目標話者のパラレ
ルデータを用いて声質の相関を GMM で学習する．元話者の
特徴量系列 X と目標話者の特徴量系列 Y を結合した結合ベ
⊤
⊤
⊤ ⊤
クトル [X ⊤
を用いて，結合確率密度
1 , Y 1 ], . . . , [X T , Y T ]
P (X t , Y t | λ) を表す GMM を学習する．
T
∏
λ = arg max
P (X t , Y t | λ)
(1)
λ
t=1
ここで，λ はモデルパラメータであり，結合確率密度は以下
の式でモデル化される．
M
∑
P (X t , Y t | λ) =
ωi N (X t , Y t ; µi , Σi )
(2)
λ = {ωi , µi , Σi | i = 1, . . . , M }
[ (X) ]
[ (XX)
µi
Σi
µi =
, Σi =
(Y )
(Y X)
µi
Σi
a(r)
x
n(x)
(r)
x1
(r)
x2
+
(r)
x3
=
N (G1 a + µn1 , Σn1 )
(r)
xT
a(r)
y
G(y)
Y (r)
n(y)
N (G2 a + µn2 , Σn2 )
(r)
y1
(r)
y2
(r)
y3
+
=
N (GM a + µnM , ΣnM )
(r)
yT
図 1: 因子分析を用いた固有声のモデル構造
次に，元話者と s 番目の事前学習用話者のパラレルデー
(Y )
タを用いて λ(0) の出力話者の平均ベクトル µi のみを更
(s)
新することで，話者依存 GMM λ を学習する．λ(s) が s
番目の事前学習用話者の特徴を含むと考え，出力話者の平均
(Y )
ベクトル µi (s) を結合した，スーパーベクトル SV (s) =
(Y )
(Y )
[µ1 (s)⊤ , . . . , µM (s)⊤ ]⊤ を特徴量として使用する．事前学
習用話者 S 人分のスーパーベクトルに対し主成分分析を行う
ことで Q(< S) 本の固有声ベクトルからなる基底行列 B i と
(0)
スーパーベクトルの平均ベクトルである bi を得ることが出
来る．
目標話者 r のスーパーベクトル SV (r) は以下のように表す
ことができる．ここで M は GMM の混合数である．
⊤ ⊤ (r)
SV (r) = [B ⊤
+ [b1
1 , . . . , BM ] w
(0)⊤
i=1
(XY )
Σi
(Y Y )
Σi
]
(X)
, . . . , bM ]⊤ (4)
(0)⊤
このように，基底行列 B i に対する Q 次元の重み w(r) を与
えることで，任意の話者の声質を表現するモデルを構築する
ことが可能である．
(Y )
ここで，i は混合要素番号であり，ωi は混合重み，µi , µi
(XX)
(Y Y )
は元話者，目標話者の平均ベクトル，Σi
, Σi
は共分
(XY )
(Y X)
散行列，Σi
, Σi
は相互共分散行列を表す．また，M
は GMM の混合数である．
変換時には，元話者の特徴量 X が与えられたとき，次式
の尤度関数を最大化することで適切な特徴量 Y が得られる．
ただし，m = {m1 , . . . , mT } は混合要素系列を表す．
∑
P (m | X, λ)P (Y | X, m, λ) (3)
P (Y | X, λ) =
m
3
G(x)
X (r)
固有声法に基づく声質変換
固有声に基づく声質変換法では，まず予め収録された元話
者と事前学習用話者 S 人のパラレルデータから不特定話者
GMM λ(0) を学習する．
4
因子分析に基づく声質変換
因子分析に基づく声質変換では，話者対 r の特徴量系列
O (r) = [X (r)⊤ , Y (r)⊤ ]⊤ を，基底行列 G, 混合要素系列 m(r) ,
話者対 r を表す因子 a(r) , ノイズベクトル n を用いて以下の
ように表す．
O (r) = Gm(r) a(r) + nm(r)
(5)
声質変換では，元話者と目標話者の 2 つの異なる話者性を表
現する必要がある．そこで，図 1 のように入力 x と出力 y で
異なる基底行列 G，因子 a(r) ，ノイズベクトル n を保持し，
それぞれ以下のように定義する．

Gi =

(x)
Gi
0

0
(y)
Gi

,

a
(r)

=
(r)
ax
(r)
ay


,

ni =

(x)
ni
(y)
ni



(6)
平成 25 年度創成シミュレーション工学専攻修士論文梗概集
計算システム工学分野
ここで，i は混合要素番号であり，因子 a(r) とノイズベクト
ル nm(r) は次のようなガウス分布に従うとする．
a(r) ∼ N (0, I), nm(r) ∼ N (µm(r) , Σm(r) )
5.5
5.4
5.34
(7)
5.3
5.20
r m(r)
(r)
P (O
|a
(r)
,m
(r)
5.2
5.12
5.1
5.5
4.9
4.8
GMM
PCA
FA
図 2: 各手法のメルケプストラム歪み
3.2
95% confidence interval
|m
(r)
)P (m
(r)
| λ)da
(r)
(8)
2.64
2.8
, λ) =
N (O (r) | Gm(r) a(r) + µm(r) , Σm(r) )
2.77
3.0
(9)
MOS / DMOS
× P (a
(r)
MelCD [db]
ただし音韻性を表す m(r) は入出力側で共有する．
i 番目の混合要素は Gi を保持しており，Gm(r) は混合要
素系列に従ってそれらの要素を連結したものである．また，
µm(r) , Σm(r) も同様にノイズベクトルの平均 µi ，分散 Σi を
連結したものである．このように，Gm(r) と µm(r) は混合要
素系列に合わせて変動するため，可変長の音響特徴量を直接
表現することが可能である．また，話者ごとに因子を用意し
ているため，因子が話者性を表現するモデルとなっている．
全話者の発話データ O = {O (1) , O (2) , . . . , O (R) } に対する
尤度関数は以下のように表される．
∏∑∫
P (O | a) =
P (O (r) | a(r) , m(r) , λ)
ここで λ はモデルパラメータを表す．式 (8) を最大化するこ
とで混合要素系列と基底行列を同時に最適化する．
2.37
2.6
2.27
2.4
1.98
2.2
1.88
2.0
5
評価実験
1.8
提案法の有効性を検証するために，以下の 3 手法の声質変
換実験を行い比較した．
· GMM : GMM に基づく声質変換
1.6
GMM
· PCA : 固有声に基づく声質変換
· FA
: 因子分析に基づく声質変換
ATR 日本語音声データベース b-set の男性話者 (mtk) を
元話者，別の男性話者 (mht) を目標話者とし，事前学習用話
者の学習データとして JNAS データベースの 160 名（男女各
80 名）の音声を使用した．各事前学習用話者のデータは 50
文，目標話者の学習データは 2 文，評価用に 53 文使用した．
GMM では，元話者と目標話者のパラレルデータを用いて変
換モデルを学習し，PCA, FA では目標話者のデータのみを用
いて重み（因子）の推定を行い変換モデルを構築した．実験
はメルケプストラム歪みによる客観評価実験と，5 段階 MOS,
DMOS 試験による主観評価実験を行った．
PCA
MOS
FA
GMM
PCA
FA
DMOS
図 3: MOS, DMOS 試験結果
改善が見られなかった原因の一つとして，今回学習データと
して使用した膨大なデータに対し，モデルの混合数が不足し
たことが挙げられる．混合数や学習の制約など適切に設定す
ることで更なる改善が期待される．
6
むすび
本研究では，因子分析に基づく声質変換手法を提案した．
目標話者の話者性を表現する際に推定するパラメータが重み
のみであるため，目標話者の学習データが極少量の場合でも
高精度な変換が可能である．また，因子分析を用いることで，
音響特徴量そのものを用いて基底行列を学習することが可能
となり，従来に比べ更に変換精度が向上することが期待され
る．客観評価実験の結果から，因子分析を用いた手法の有効
性が確認されたが，主観評価実験において，音質，話者性の
改善は見られなかった．これは GMM の混合数が不足したた
めだと考えられ，適切に設定することで改善が期待される．
5.1 客観評価実験
客観評価では目標話者の音声と変換音声のスペクトルの距
離をメルケプストラム歪みとして計算する．歪みが小さいほ
ど目標話者の声質との類似度が高いことを表す．各種法にお
けるメルケプストラム歪みを図 2 に示す．GMM と比較する
と PCA, FA のどちらも歪みが小さく，学習データが極少量
の場合，ある話者間のパラレルデータが他の話者間の変換に
有用な事前知識となることが確認された．また，PCA と比参考文献
[1] Y. Stylianou, O. Cappe, and E. Moulines, “Continuous
べ FA の歪みが小さいことから，基底行列を確率的にモデル
Probabilistic Transform for Voice Conversion,” Proc. of
化することで，変換精度が向上することが確認された．
IEEE Trans. Speech Audio Process., vol.6, pp. 131–142,
1998.
5.2 主観評価実験
[2] T. Toda，Alan W.black, and K. Tokuda, “Voice Conversion
主観評価では音質の評価として MOS 試験，声質の類似度
Based on Maximum-Likelihood Estimation of Spectral Paの評価として DMOS 試験を行った．試験結果を図 3 に示す．
rameter Trajectory,” Proc. of IEEE Trans. Audio, Speech,
MOS, DMOS 試験ともに GMM が最も値が大きく，PCA が
And Language Process., vol.15, pp. 2222–2235, 2007.
最も小さいという結果となった．PCA と比較すると，FA の
[3] T. Toda，“Eigenvoice conversion based on Gaussian mixture
値が大きいことからも，基底行列を確率的にモデル化するこ
model,” Proc. of INTERSPEECH, pp. 2446–2449, 2006.
とで，変換精度が向上することが確認された．GMM に対し，

Consistent estimation for the full-fledged fixed effects

多数話者の音声データを事前知識として利用可能な因子分析に基づく

Consistent estimation for the full-fledged fixed effects

差分スペクトル補正に基づく統計的歌声声質変換 ∗

Document 648674

JaDocz.com