1.研究紹介 2.作品制作のヒント

音声情報処理技術
メディアプロジェクト演習2
目的

山下研究室(音声言語研究室)
http://www.slp.is.ritsumei.ac.jp
音声(などの音情報)をコンピュータで処理して,もっと便利に/もっと
楽しく
 コンピュータが話せるように/人の声を聞き取れるように
 音声などの音情報に対する検索
応用
1.研究紹介

(音声情報処理研究の現状)
車内でのカーナビ操作,検索キーワードの音声入力(voice search),
自動受け付け,音声翻訳,個人認証,ゲーム,音声データ検索,語
学学習支援,障害者向けインタフェース,,,
研究分野
2.作品制作のヒント

2014年4月22日
音声認識,音声合成,音声対話,音声符号化,音響信号処理,情報
検索,音楽情報処理,,,
支える技術・理論
山下 洋一 ・ 新妻雅弘

確率・統計,情報理論,ディジタル信号処理,パターン認識,プログラ
ミング,,,
2
山下研究室での研究
1. 音声認識の現状と課題
音声認識
研究内容


音声・音を対象とした研究

計算機による人間の声の認識
音声は,表現力豊かで人に優しいメディア
「大量のデータに基づい
た統計的手法を用いる
ことによって,,,,
研究テーマ
1.
2.
3.
4.
5.
音声認識: 意図・態度・感情の認識
音声合成: 多様な音声の合成
音声ドキュメント処理: 音声データの検索
情報埋め込み: 音を使った情報伝達
音楽情報処理:
音声波形

音声認識研究の現状


今後の研究課題



3
読み上げ音声で95%以上,自由発話で80%程度
 大量データを利用する統計的手法
認識率の向上
意図・態度・感情などパラ言語情報の認識
頑健性(robustness)の向上
- 伝えたいことは何?
 雑音下での認識
4
1. 音声認識
1. 音声認識
音声が伝える情報

言語情報: 発話の内容



音声におけるパラ言語情報の認識
「カレーかー」
パラ言語情報: 意図,態度,感情,など


ユーザの“気持ちを察する”音声対話の実現
不満?
同意,喜び,…
非言語情報: 性別,年齢,など

女性,20歳代,…
時間波形,スペクトログラム,基本周波数
パラ言語情報による多様な表現


このあたりでは,カレーがおすすめです
「そうですか」
 納得した?
質問している?
「わかりました」
 喜んでくれた?
しぶしぶ了解した?
カレーかぁ
5
2. 音声合成の現状と課題
すぐ近くにカレーお
店があります
「不満」あり
それではうどんはど
うですか?
6
2. 音声合成
音声合成に関して

「不満」なし
音声の分析
計算機による人間の声の生成


多様な声質での音声合成を目指して 声の違いはどこ
にあるの?
声の特徴を明らかにしたい
「私は音声合成器です。」
個人性
方言
歌唱法
・・・
合成音声波形

音声合成研究の現状


テーマとしては,,,
現在では,かなり高い品質

今後の研究課題



品質向上
 音質と自然性
- 表現力豊かな合成音声を
多様な声質での合成
 声質 (話者性),感情,…



7
大阪方言のイントネーションの特徴は?
韻律情報における個人性は?
聞き取りやすい声とは?
多様な歌唱法での歌声合成
アニメ声での音声合成
8
2. 音声合成
2. 音声合成
大阪方言のイントネーション
韻律情報における個人性

ほんまの話や

ほんまの話や
韻律情報を保存し音韻性を/a/に置換した合成音
誰の声か判断できるか?


ナイヤロ
ナイヤロ
1.明石屋さんま,2.所ジョージ,3.今田耕治,4.東野幸治,5.桂小枝,6.桂歌丸,7.高瀬耕造
(NHKアナウンサー),8.小谷真生子(WBSキャスター),9.浦川泰幸,10.水谷豊,11.竹中直人,
12.黒柳徹子,13.上沼恵美子,14.橋下徹,15.石原慎太郎,16.該当なし,17.わからない
1.アナウンサー,2.俳優(女優),3. タレント,4.お笑い芸人,5.落語家,6.該当なし,7.わからな
い
1
スコア
0.9
5
0.8
4.5
0.7
4
0.6
3.5
0.5
3
0.4
2.5
0.3
2
調整
(手修正)
0.1
1
N01 N02 N03 N04 N05 V01 V02 V03 V04 V05 A01 A02 A03 A04 A05
アクセント未調整
平均
9
A03
A04
A05
A06
A07
A08
A09
A10
AVG
10
元音声
3. 音声ドキュメント検索の現状と課題
音声ドキュメント検索では
声の聞き取りやすさ
低親密度の(なじみのない)単語

蓄積された大量の音声メディア情報に対する検索

音声認識による文字化

例: アイバン,イリガタ,ウブスナ,…
雑音を重畳した音声の聞き取り実験


約
73%
A02
刺激音
2. 音声合成

0
A01
大阪アクセント
図: 調整の効果

どちらがアナ
ウンサーか?
0.2
1.5
文章

性別
職業
ジャンル
人物名

図: モーラ位置ごとの誤答占有率
11
- 音声データを検索でき
るようにする
例)
「絶対音感」
内容検索 (content retrieval)
/アドホック検索(ad hoc retrieval)

図: モーラ単位での正答率
音声認識誤りへの対処
検索語(キーワード)検出
(spoken term detection)

約
61%
対象: 講演音声,講義のビデオ,,,
例)
「音声認識の性能改善について知りたい」
12
3. 音声ドキュメント検索
3. 音声ドキュメント検索
連続音声認識+テキスト照合での STD では


精度を改善するために (新たに提案した手法)
誤認識が避けられない
未知語(音声認識の辞書に入っていない語)は検索できない


未知語を検出するために (既存の手法)

サブワード単位での音声認識結果を利用
音声ドキュメント
柑橘系果物の日本…
サブワード認識
大語彙連続音声認識
音声ドキュメント
柑橘系果物の日本…
音響情報
(MFCC)
| 完結 | 型 | 果物 | の | 日本 | …
認識結果
音響的な特徴を残したVQ(ベクトル量子化)コードで音声ドキュ
メントを表現
音素(34種類)に比べ1024種類など細かい表現が可能
k a N k e ts u k e i k u d a m
VQコード列
同じ文字列を探す
キーワード
未知語
類似した系列を探す
話者情報が既知
話者ごとにベクトル量子化
3. 音声ドキュメント検索
キーワード
さらなる性能の改善を



177講演

サブワード間照合
0.9
提案手法(半音素)
0.8
14
高次情報を利用した検索語検出の
性能を向上を
人間ならどんな
情報を使う?
 文脈,意味などの利用
提案手法(音素)
0.7
人間が正しい検出かどうかを判断する実験
0.6
再現率


1
50キーワード
石川島造船所
キラウエア火山
名犬ラッシー
屈斜路湖
…
k a N k i ts u
3. 音声ドキュメント検索
性能評価

連続DPマッチング
k a N k i ts u
柑橘
13

△ △ △ ▲ ○ ○ ● ● □ □ □ ● ● ● ● ▽ ▽ ▽ ▽ ▽ ▽

0.5
例) 「ノーベル賞」を検出してみると,,,
例えば数学オリンピックとかの成績がと日本はかなり
上位に中高生んの数学のテストかなり世界的音プ
レー見るにあるとですけれどもそのでしょうですがと女
性は とアメリカの方が格段にこういった えーとその
原因は 小大学で同じようにあるじゃないかなという
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5 0.6
適合率
0.7
0.8
0.9
1

検索語検出における適合率と再現率
15
高次情報を利用した性能改善の可能性は?
単語の共起情報の利用
16
4. 情報埋め込み
5.音楽情報処理:通奏低音の自動リアライズによる伴奏生成
• 通奏低音(Basso Continuo)
音信号への有用な情報の埋め込み
• バロック音楽に多く見られる数字付き低音
• 和音を即興演奏する(リアライズ)手掛かり
• 例) 数字 6 のとき3、6、8度の音を加える
• リアライズには高度な音楽的知識が必要
聞いてもわからないように,音信号に文字情報を埋め込み伝
達する。
• 通奏低音の自動リアライズ
http://www.slp.is.ritsumei.ac.jp
音信号
• 時刻 t の和音を xt とする
• 局所コスト: L(xt)
デコード
• 和音の構成音に対する
音楽信号への歌詞データの埋め込み
ルール(20種類)
リアライズ

局所コストのfactor
Factor (抜粋)
N/P
クローズポジション
P
オープンポジション
N
導音がダブルシャープ
N
• 隣接コスト: T(xt , xt+1)
音楽信号
• 隣接する2和音に対する
ルール(20種類)
埋め込み信号
モスキート
帯域
17.5kHz
情報が埋め込まれた音楽
非可聴帯域
17
5.音楽情報処理:ランニングペースに基づく自動楽曲推薦
N
直行 8 度
N
低音部のみ
• 古楽演奏者の独習支援(IPA:2006年度下期未踏ユースプロジェクト、新妻雅弘)
Masahiro Niitsuma, Masaki Matsubara, Masaki Oono and Hiroaki Saito: "Development of a Method for Automatic Basso Continuo Playing",
Information Processing and Management , Vol. 47, No. 3, pp. 440-451 (2011).
18
研究のすすめかた
• 運動しながら音楽を聴く
研究スタイル
• Nike + iPod Sport Kit

• au Smart Sports
無線加速度センサ:WAA‐001
• Walkman Type S
• ユーザの状況は音楽再生に無関係

プログラミング ( C, Perl, Java, … )
ツールの利用

• ランニングペースの検出

• 腰に小型無線加速度センサ(WAA‐001)を装着
• Step Per Minite = SMA(Δt, 10) acceleration(G)
N
連続 5 度
• 提案システムの応用
周波数
20.0kHz
情報が埋め込まれた信号のスペクトル
自動楽曲推薦システム

Acceleration
sensor
Step frequency estimation
module

Δt
t+1
Music selection
module
• ランニングペースに合った楽曲の再生
• 楽曲のBPMはMIR Toolbox::mirtempoで推定
• SPMの変化に応じて再生曲を切り替える
Play

音声認識(julius),HTK,MATLAB,,,
パターン認識,信号処理,,,
統計的手法

time(s)
t
提案手法
N/P
連続 8 度
• 和声コスト: P(xt , xt+1) = L(xt) + k・T(xt , xt+1)
• 和声コストが最小になる系列をDPで算出
デコード
可聴帯域
Factor (抜粋)
T(xt , xt+1)
プロ作曲家
隣接コストのfactor
強度
L(xt)
データの収録・収集・利用
HMM,主成分分析,クラスタリング,数量化理論,決定
木,,,
手法の提案とシステムの開発
Music playing
module
Masahiro Niitsuma, Hiroshi Takaesu, Hazuki Demachi, Masaki Oono and Hiroaki Saito: “Development of an Automatic Music Selection System Based on the Runner’s Step Frequency”,
International Conference on Music Information Retrieval 2008 (ISMIR2008), Philadelphia, Pennsylvania, USA, Sep. 14-18, 2008.
19
20
研究・教育指導について
問題意識を持つ


解決すべき問題は何か?
幅広い興味

他の研究グループの内容も理解する。
作品制作のヒント
コミュニケーション能力を磨く

プレゼンテーション力
質問力

議論する力



わからないことをわからないと言える/質問できる。
自分の考えを持つ。
(他人から/自分からの)問いかけに答えられるように


何がやりたいのか/何ができるのか/何をすべきなのか
なぜするのか/なぜしないのか

人として成長する。
21
作品
作品制作のヒント
(1) 調査研究
(1) 調査研究


教員の講義の中で特に興味を持った分野をさらに掘
り下げ,同級生たちにその面白さを伝えるための「調
査研究」


教員の講義の中で特に興味を持った分野における
「ソフトウェア」
方式の比較,なぜ圧縮できるのか
(2) 未来創造
教員の講義の中で示された今後の課題や,自分が
重要であると考える情報社会の諸問題の解決策,さ
らには情報技術を使った望ましい社会のあり方など
について提言を行う「未来創造」

音声認識の新しい使い道は?

より便利に or より楽しく
(3) ソフトウェア

(3) ソフトウェア

カーナビ,ゲーム,個人認証,スマートホンでのサービス,,,
音データの圧縮方式

(2) 未来創造

音声情報処理技術の実用化について
音声認識を利用したアプリケーションの作成

23
Google音声認識の利用 (Andoroid上で)
24