音声情報処理技術 メディアプロジェクト演習2 目的 山下研究室(音声言語研究室) http://www.slp.is.ritsumei.ac.jp 音声(などの音情報)をコンピュータで処理して,もっと便利に/もっと 楽しく コンピュータが話せるように/人の声を聞き取れるように 音声などの音情報に対する検索 応用 1.研究紹介 (音声情報処理研究の現状) 車内でのカーナビ操作,検索キーワードの音声入力(voice search), 自動受け付け,音声翻訳,個人認証,ゲーム,音声データ検索,語 学学習支援,障害者向けインタフェース,,, 研究分野 2.作品制作のヒント 2014年4月22日 音声認識,音声合成,音声対話,音声符号化,音響信号処理,情報 検索,音楽情報処理,,, 支える技術・理論 山下 洋一 ・ 新妻雅弘 確率・統計,情報理論,ディジタル信号処理,パターン認識,プログラ ミング,,, 2 山下研究室での研究 1. 音声認識の現状と課題 音声認識 研究内容 音声・音を対象とした研究 計算機による人間の声の認識 音声は,表現力豊かで人に優しいメディア 「大量のデータに基づい た統計的手法を用いる ことによって,,,, 研究テーマ 1. 2. 3. 4. 5. 音声認識: 意図・態度・感情の認識 音声合成: 多様な音声の合成 音声ドキュメント処理: 音声データの検索 情報埋め込み: 音を使った情報伝達 音楽情報処理: 音声波形 音声認識研究の現状 今後の研究課題 3 読み上げ音声で95%以上,自由発話で80%程度 大量データを利用する統計的手法 認識率の向上 意図・態度・感情などパラ言語情報の認識 頑健性(robustness)の向上 - 伝えたいことは何? 雑音下での認識 4 1. 音声認識 1. 音声認識 音声が伝える情報 言語情報: 発話の内容 音声におけるパラ言語情報の認識 「カレーかー」 パラ言語情報: 意図,態度,感情,など ユーザの“気持ちを察する”音声対話の実現 不満? 同意,喜び,… 非言語情報: 性別,年齢,など 女性,20歳代,… 時間波形,スペクトログラム,基本周波数 パラ言語情報による多様な表現 このあたりでは,カレーがおすすめです 「そうですか」 納得した? 質問している? 「わかりました」 喜んでくれた? しぶしぶ了解した? カレーかぁ 5 2. 音声合成の現状と課題 すぐ近くにカレーお 店があります 「不満」あり それではうどんはど うですか? 6 2. 音声合成 音声合成に関して 「不満」なし 音声の分析 計算機による人間の声の生成 多様な声質での音声合成を目指して 声の違いはどこ にあるの? 声の特徴を明らかにしたい 「私は音声合成器です。」 個人性 方言 歌唱法 ・・・ 合成音声波形 音声合成研究の現状 テーマとしては,,, 現在では,かなり高い品質 今後の研究課題 品質向上 音質と自然性 - 表現力豊かな合成音声を 多様な声質での合成 声質 (話者性),感情,… 7 大阪方言のイントネーションの特徴は? 韻律情報における個人性は? 聞き取りやすい声とは? 多様な歌唱法での歌声合成 アニメ声での音声合成 8 2. 音声合成 2. 音声合成 大阪方言のイントネーション 韻律情報における個人性 ほんまの話や ほんまの話や 韻律情報を保存し音韻性を/a/に置換した合成音 誰の声か判断できるか? ナイヤロ ナイヤロ 1.明石屋さんま,2.所ジョージ,3.今田耕治,4.東野幸治,5.桂小枝,6.桂歌丸,7.高瀬耕造 (NHKアナウンサー),8.小谷真生子(WBSキャスター),9.浦川泰幸,10.水谷豊,11.竹中直人, 12.黒柳徹子,13.上沼恵美子,14.橋下徹,15.石原慎太郎,16.該当なし,17.わからない 1.アナウンサー,2.俳優(女優),3. タレント,4.お笑い芸人,5.落語家,6.該当なし,7.わからな い 1 スコア 0.9 5 0.8 4.5 0.7 4 0.6 3.5 0.5 3 0.4 2.5 0.3 2 調整 (手修正) 0.1 1 N01 N02 N03 N04 N05 V01 V02 V03 V04 V05 A01 A02 A03 A04 A05 アクセント未調整 平均 9 A03 A04 A05 A06 A07 A08 A09 A10 AVG 10 元音声 3. 音声ドキュメント検索の現状と課題 音声ドキュメント検索では 声の聞き取りやすさ 低親密度の(なじみのない)単語 蓄積された大量の音声メディア情報に対する検索 音声認識による文字化 例: アイバン,イリガタ,ウブスナ,… 雑音を重畳した音声の聞き取り実験 約 73% A02 刺激音 2. 音声合成 0 A01 大阪アクセント 図: 調整の効果 どちらがアナ ウンサーか? 0.2 1.5 文章 性別 職業 ジャンル 人物名 図: モーラ位置ごとの誤答占有率 11 - 音声データを検索でき るようにする 例) 「絶対音感」 内容検索 (content retrieval) /アドホック検索(ad hoc retrieval) 図: モーラ単位での正答率 音声認識誤りへの対処 検索語(キーワード)検出 (spoken term detection) 約 61% 対象: 講演音声,講義のビデオ,,, 例) 「音声認識の性能改善について知りたい」 12 3. 音声ドキュメント検索 3. 音声ドキュメント検索 連続音声認識+テキスト照合での STD では 精度を改善するために (新たに提案した手法) 誤認識が避けられない 未知語(音声認識の辞書に入っていない語)は検索できない 未知語を検出するために (既存の手法) サブワード単位での音声認識結果を利用 音声ドキュメント 柑橘系果物の日本… サブワード認識 大語彙連続音声認識 音声ドキュメント 柑橘系果物の日本… 音響情報 (MFCC) | 完結 | 型 | 果物 | の | 日本 | … 認識結果 音響的な特徴を残したVQ(ベクトル量子化)コードで音声ドキュ メントを表現 音素(34種類)に比べ1024種類など細かい表現が可能 k a N k e ts u k e i k u d a m VQコード列 同じ文字列を探す キーワード 未知語 類似した系列を探す 話者情報が既知 話者ごとにベクトル量子化 3. 音声ドキュメント検索 キーワード さらなる性能の改善を 177講演 サブワード間照合 0.9 提案手法(半音素) 0.8 14 高次情報を利用した検索語検出の 性能を向上を 人間ならどんな 情報を使う? 文脈,意味などの利用 提案手法(音素) 0.7 人間が正しい検出かどうかを判断する実験 0.6 再現率 1 50キーワード 石川島造船所 キラウエア火山 名犬ラッシー 屈斜路湖 … k a N k i ts u 3. 音声ドキュメント検索 性能評価 連続DPマッチング k a N k i ts u 柑橘 13 △ △ △ ▲ ○ ○ ● ● □ □ □ ● ● ● ● ▽ ▽ ▽ ▽ ▽ ▽ 0.5 例) 「ノーベル賞」を検出してみると,,, 例えば数学オリンピックとかの成績がと日本はかなり 上位に中高生んの数学のテストかなり世界的音プ レー見るにあるとですけれどもそのでしょうですがと女 性は とアメリカの方が格段にこういった えーとその 原因は 小大学で同じようにあるじゃないかなという 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 適合率 0.7 0.8 0.9 1 検索語検出における適合率と再現率 15 高次情報を利用した性能改善の可能性は? 単語の共起情報の利用 16 4. 情報埋め込み 5.音楽情報処理:通奏低音の自動リアライズによる伴奏生成 • 通奏低音(Basso Continuo) 音信号への有用な情報の埋め込み • バロック音楽に多く見られる数字付き低音 • 和音を即興演奏する(リアライズ)手掛かり • 例) 数字 6 のとき3、6、8度の音を加える • リアライズには高度な音楽的知識が必要 聞いてもわからないように,音信号に文字情報を埋め込み伝 達する。 • 通奏低音の自動リアライズ http://www.slp.is.ritsumei.ac.jp 音信号 • 時刻 t の和音を xt とする • 局所コスト: L(xt) デコード • 和音の構成音に対する 音楽信号への歌詞データの埋め込み ルール(20種類) リアライズ 局所コストのfactor Factor (抜粋) N/P クローズポジション P オープンポジション N 導音がダブルシャープ N • 隣接コスト: T(xt , xt+1) 音楽信号 • 隣接する2和音に対する ルール(20種類) 埋め込み信号 モスキート 帯域 17.5kHz 情報が埋め込まれた音楽 非可聴帯域 17 5.音楽情報処理:ランニングペースに基づく自動楽曲推薦 N 直行 8 度 N 低音部のみ • 古楽演奏者の独習支援(IPA:2006年度下期未踏ユースプロジェクト、新妻雅弘) Masahiro Niitsuma, Masaki Matsubara, Masaki Oono and Hiroaki Saito: "Development of a Method for Automatic Basso Continuo Playing", Information Processing and Management , Vol. 47, No. 3, pp. 440-451 (2011). 18 研究のすすめかた • 運動しながら音楽を聴く 研究スタイル • Nike + iPod Sport Kit • au Smart Sports 無線加速度センサ:WAA‐001 • Walkman Type S • ユーザの状況は音楽再生に無関係 プログラミング ( C, Perl, Java, … ) ツールの利用 • ランニングペースの検出 • 腰に小型無線加速度センサ(WAA‐001)を装着 • Step Per Minite = SMA(Δt, 10) acceleration(G) N 連続 5 度 • 提案システムの応用 周波数 20.0kHz 情報が埋め込まれた信号のスペクトル 自動楽曲推薦システム Acceleration sensor Step frequency estimation module Δt t+1 Music selection module • ランニングペースに合った楽曲の再生 • 楽曲のBPMはMIR Toolbox::mirtempoで推定 • SPMの変化に応じて再生曲を切り替える Play 音声認識(julius),HTK,MATLAB,,, パターン認識,信号処理,,, 統計的手法 time(s) t 提案手法 N/P 連続 8 度 • 和声コスト: P(xt , xt+1) = L(xt) + k・T(xt , xt+1) • 和声コストが最小になる系列をDPで算出 デコード 可聴帯域 Factor (抜粋) T(xt , xt+1) プロ作曲家 隣接コストのfactor 強度 L(xt) データの収録・収集・利用 HMM,主成分分析,クラスタリング,数量化理論,決定 木,,, 手法の提案とシステムの開発 Music playing module Masahiro Niitsuma, Hiroshi Takaesu, Hazuki Demachi, Masaki Oono and Hiroaki Saito: “Development of an Automatic Music Selection System Based on the Runner’s Step Frequency”, International Conference on Music Information Retrieval 2008 (ISMIR2008), Philadelphia, Pennsylvania, USA, Sep. 14-18, 2008. 19 20 研究・教育指導について 問題意識を持つ 解決すべき問題は何か? 幅広い興味 他の研究グループの内容も理解する。 作品制作のヒント コミュニケーション能力を磨く プレゼンテーション力 質問力 議論する力 わからないことをわからないと言える/質問できる。 自分の考えを持つ。 (他人から/自分からの)問いかけに答えられるように 何がやりたいのか/何ができるのか/何をすべきなのか なぜするのか/なぜしないのか 人として成長する。 21 作品 作品制作のヒント (1) 調査研究 (1) 調査研究 教員の講義の中で特に興味を持った分野をさらに掘 り下げ,同級生たちにその面白さを伝えるための「調 査研究」 教員の講義の中で特に興味を持った分野における 「ソフトウェア」 方式の比較,なぜ圧縮できるのか (2) 未来創造 教員の講義の中で示された今後の課題や,自分が 重要であると考える情報社会の諸問題の解決策,さ らには情報技術を使った望ましい社会のあり方など について提言を行う「未来創造」 音声認識の新しい使い道は? より便利に or より楽しく (3) ソフトウェア (3) ソフトウェア カーナビ,ゲーム,個人認証,スマートホンでのサービス,,, 音データの圧縮方式 (2) 未来創造 音声情報処理技術の実用化について 音声認識を利用したアプリケーションの作成 23 Google音声認識の利用 (Andoroid上で) 24
© Copyright 2024