平成 25 年度創成シミュレーション工学専攻修士論文梗概集 計算システム工学分野 多数話者の音声データを事前知識として利用可能な因子分析に基づく声質変換 学籍番号 24413563 氏名 豊田 麻奈美 指導教員名 南角 吉彦 1 はじめに 声質変換とは,ある話者の音声を別の話者の音声に変換す る技術である.統計的な手法ではガウス混合モデル (Gaussian Mixture Model; GMM) に基づく声質変換法 [1], [2] が広く用 いられている.この手法では,学習データが極少量の場合モデ ルの推定精度が低下し,変換音声の品質が劣化する可能性があ る.この問題に対し,固有声に基づく声質変換法 (Eigenvoice Conversion; EVC) [3] が提案されている.この手法では,予め 収録された多数の話者のパラレルデータから話者毎の GMM を学習し,GMM のモデルパラメータに対し主成分分析を行 うことで,人の声の主な声質成分を表す基底を求める.この 基底に対する重みを推定することで,任意の話者の声質を表 すモデルパラメータを得ることができる.しかし,この手法 では,音響特徴量を一度 GMM でモデル化することにより, 話者固有の特徴がモデルパラメータに含まれず,声質成分を 適切に抽出することができない可能性がある.そこで本研究 では,因子分析を用いた手法を提案する.因子分析を用いる ことで,可変長の特徴量を入力として用いることができるた め,音響特徴量そのものを用いて基底を推定することが可能 となる.そのため,主成分分析を用いる手法と比べ,変換精 度の向上が期待される. 2 GMM に基づく声質変換 GMM に基づく声質変換では,元話者と目標話者のパラレ ルデータを用いて声質の相関を GMM で学習する.元話者の 特徴量系列 X と目標話者の特徴量系列 Y を結合した結合ベ ⊤ ⊤ ⊤ ⊤ クトル [X ⊤ を用いて,結合確率密度 1 , Y 1 ], . . . , [X T , Y T ] P (X t , Y t | λ) を表す GMM を学習する. T ∏ λ = arg max P (X t , Y t | λ) (1) λ t=1 ここで,λ はモデルパラメータであり,結合確率密度は以下 の式でモデル化される. M ∑ P (X t , Y t | λ) = ωi N (X t , Y t ; µi , Σi ) (2) λ = {ωi , µi , Σi | i = 1, . . . , M } [ (X) ] [ (XX) µi Σi µi = , Σi = (Y ) (Y X) µi Σi a(r) x n(x) (r) x1 (r) x2 + (r) x3 = N (G1 a + µn1 , Σn1 ) (r) xT a(r) y G(y) Y (r) n(y) N (G2 a + µn2 , Σn2 ) (r) y1 (r) y2 (r) y3 + = N (GM a + µnM , ΣnM ) (r) yT 図 1: 因子分析を用いた固有声のモデル構造 次に,元話者と s 番目の事前学習用話者のパラレルデー (Y ) タを用いて λ(0) の出力話者の平均ベクトル µi のみを更 (s) 新することで,話者依存 GMM λ を学習する.λ(s) が s 番目の事前学習用話者の特徴を含むと考え,出力話者の平均 (Y ) ベクトル µi (s) を結合した,スーパーベクトル SV (s) = (Y ) (Y ) [µ1 (s)⊤ , . . . , µM (s)⊤ ]⊤ を特徴量として使用する.事前学 習用話者 S 人分のスーパーベクトルに対し主成分分析を行う ことで Q(< S) 本の固有声ベクトルからなる基底行列 B i と (0) スーパーベクトルの平均ベクトルである bi を得ることが出 来る. 目標話者 r のスーパーベクトル SV (r) は以下のように表す ことができる.ここで M は GMM の混合数である. ⊤ ⊤ (r) SV (r) = [B ⊤ + [b1 1 , . . . , BM ] w (0)⊤ i=1 (XY ) Σi (Y Y ) Σi ] (X) , . . . , bM ]⊤ (4) (0)⊤ このように,基底行列 B i に対する Q 次元の重み w(r) を与 えることで,任意の話者の声質を表現するモデルを構築する ことが可能である. (Y ) ここで,i は混合要素番号であり,ωi は混合重み,µi , µi (XX) (Y Y ) は元話者,目標話者の平均ベクトル,Σi , Σi は共分 (XY ) (Y X) 散行列,Σi , Σi は相互共分散行列を表す.また,M は GMM の混合数である. 変換時には,元話者の特徴量 X が与えられたとき,次式 の尤度関数を最大化することで適切な特徴量 Y が得られる. ただし,m = {m1 , . . . , mT } は混合要素系列を表す. ∑ P (m | X, λ)P (Y | X, m, λ) (3) P (Y | X, λ) = m 3 G(x) X (r) 固有声法に基づく声質変換 固有声に基づく声質変換法では,まず予め収録された元話 者と事前学習用話者 S 人のパラレルデータから不特定話者 GMM λ(0) を学習する. 4 因子分析に基づく声質変換 因子分析に基づく声質変換では,話者対 r の特徴量系列 O (r) = [X (r)⊤ , Y (r)⊤ ]⊤ を,基底行列 G, 混合要素系列 m(r) , 話者対 r を表す因子 a(r) , ノイズベクトル n を用いて以下の ように表す. O (r) = Gm(r) a(r) + nm(r) (5) 声質変換では,元話者と目標話者の 2 つの異なる話者性を表 現する必要がある.そこで,図 1 のように入力 x と出力 y で 異なる基底行列 G,因子 a(r) ,ノイズベクトル n を保持し, それぞれ以下のように定義する. Gi = (x) Gi 0 0 (y) Gi , a (r) = (r) ax (r) ay , ni = (x) ni (y) ni (6) 平成 25 年度創成シミュレーション工学専攻修士論文梗概集 計算システム工学分野 ここで,i は混合要素番号であり,因子 a(r) とノイズベクト ル nm(r) は次のようなガウス分布に従うとする. a(r) ∼ N (0, I), nm(r) ∼ N (µm(r) , Σm(r) ) 5.5 5.4 5.34 (7) 5.3 5.20 r m(r) (r) P (O |a (r) ,m (r) 5.2 5.12 5.1 5.5 4.9 4.8 GMM PCA FA 図 2: 各手法のメルケプストラム歪み 3.2 95% confidence interval |m (r) )P (m (r) | λ)da (r) (8) 2.64 2.8 , λ) = N (O (r) | Gm(r) a(r) + µm(r) , Σm(r) ) 2.77 3.0 (9) MOS / DMOS × P (a (r) MelCD [db] ただし音韻性を表す m(r) は入出力側で共有する. i 番目の混合要素は Gi を保持しており,Gm(r) は混合要 素系列に従ってそれらの要素を連結したものである.また, µm(r) , Σm(r) も同様にノイズベクトルの平均 µi ,分散 Σi を 連結したものである.このように,Gm(r) と µm(r) は混合要 素系列に合わせて変動するため,可変長の音響特徴量を直接 表現することが可能である.また,話者ごとに因子を用意し ているため,因子が話者性を表現するモデルとなっている. 全話者の発話データ O = {O (1) , O (2) , . . . , O (R) } に対する 尤度関数は以下のように表される. ∏∑∫ P (O | a) = P (O (r) | a(r) , m(r) , λ) ここで λ はモデルパラメータを表す.式 (8) を最大化するこ とで混合要素系列と基底行列を同時に最適化する. 2.37 2.6 2.27 2.4 1.98 2.2 1.88 2.0 5 評価実験 1.8 提案法の有効性を検証するために,以下の 3 手法の声質変 換実験を行い比較した. · GMM : GMM に基づく声質変換 1.6 GMM · PCA : 固有声に基づく声質変換 · FA : 因子分析に基づく声質変換 ATR 日本語音声データベース b-set の男性話者 (mtk) を 元話者,別の男性話者 (mht) を目標話者とし,事前学習用話 者の学習データとして JNAS データベースの 160 名(男女各 80 名)の音声を使用した.各事前学習用話者のデータは 50 文,目標話者の学習データは 2 文,評価用に 53 文使用した. GMM では,元話者と目標話者のパラレルデータを用いて変 換モデルを学習し,PCA, FA では目標話者のデータのみを用 いて重み(因子)の推定を行い変換モデルを構築した.実験 はメルケプストラム歪みによる客観評価実験と,5 段階 MOS, DMOS 試験による主観評価実験を行った. PCA MOS FA GMM PCA FA DMOS 図 3: MOS, DMOS 試験結果 改善が見られなかった原因の一つとして,今回学習データと して使用した膨大なデータに対し,モデルの混合数が不足し たことが挙げられる.混合数や学習の制約など適切に設定す ることで更なる改善が期待される. 6 むすび 本研究では,因子分析に基づく声質変換手法を提案した. 目標話者の話者性を表現する際に推定するパラメータが重み のみであるため,目標話者の学習データが極少量の場合でも 高精度な変換が可能である.また,因子分析を用いることで, 音響特徴量そのものを用いて基底行列を学習することが可能 となり,従来に比べ更に変換精度が向上することが期待され る.客観評価実験の結果から,因子分析を用いた手法の有効 性が確認されたが,主観評価実験において,音質,話者性の 改善は見られなかった.これは GMM の混合数が不足したた めだと考えられ,適切に設定することで改善が期待される. 5.1 客観評価実験 客観評価では目標話者の音声と変換音声のスペクトルの距 離をメルケプストラム歪みとして計算する.歪みが小さいほ ど目標話者の声質との類似度が高いことを表す.各種法にお けるメルケプストラム歪みを図 2 に示す.GMM と比較する と PCA, FA のどちらも歪みが小さく,学習データが極少量 の場合,ある話者間のパラレルデータが他の話者間の変換に 有用な事前知識となることが確認された.また,PCA と比 参考文献 [1] Y. Stylianou, O. Cappe, and E. Moulines, “Continuous べ FA の歪みが小さいことから,基底行列を確率的にモデル Probabilistic Transform for Voice Conversion,” Proc. of 化することで,変換精度が向上することが確認された. IEEE Trans. Speech Audio Process., vol.6, pp. 131–142, 1998. 5.2 主観評価実験 [2] T. Toda,Alan W.black, and K. Tokuda, “Voice Conversion 主観評価では音質の評価として MOS 試験,声質の類似度 Based on Maximum-Likelihood Estimation of Spectral Paの評価として DMOS 試験を行った.試験結果を図 3 に示す. rameter Trajectory,” Proc. of IEEE Trans. Audio, Speech, MOS, DMOS 試験ともに GMM が最も値が大きく,PCA が And Language Process., vol.15, pp. 2222–2235, 2007. 最も小さいという結果となった.PCA と比較すると,FA の [3] T. Toda,“Eigenvoice conversion based on Gaussian mixture 値が大きいことからも,基底行列を確率的にモデル化するこ model,” Proc. of INTERSPEECH, pp. 2446–2449, 2006. とで,変換精度が向上することが確認された.GMM に対し,
© Copyright 2024