ポピュラー楽曲の音楽音響信号を対象とした サビメドレー自動生成システム Automatic production of chorus medley using popular music audio 宮本 真治 1 Shinji MIYAMOTO1 1 小野 祐平 2 Yuhei ONO2 三浦 雅展 1 and Masanobu MIURA1 龍谷大学理工学部情報メディア学科 2 龍谷大学大学院理工学研究科 1 2 Faculty of Science and Technology, Ryukoku University Graduate School of Science and Technology, Ryukoku University 概要 音楽音響信号のサビメドレーを自動生成する手法を提案している.提案するサビ抽出法 は, 「サビの先頭及び終端時刻は曲調の変化が大きい」「サビは楽曲中で繰り返される」「サビは 音響パワーが高い」といった 3 つの特徴に基づきサビを抽出している.提案されたメドレーの生 成法は,得られたサビに対しテンポソートを行ない,拍時刻にクロスフェードを行なっている. 提案手法により推定したポップスにおけるサビの先頭時刻及び終端時刻の適合率は,それぞれ 0.80,0.60 といった比較的高い結果が得られている.また,メドレー生成手法の評価の結果,提 案手法によるメドレーは他の手法に比べ,サビへの切り替わりが滑らかであることが確認されて いる. キーワード サビメドレー,サビ抽出,音響信号,Flux,ポピュラー音楽 1. はじめに 近年,CD や音楽配信サイトなどを通じて 大量の楽曲が配信されている.しかし,大 量の楽曲の中からユーザが好みの楽曲を見 つけるためには,大量の楽曲をひとつ一つ 聴取する必要があり,そのためには膨大な 時間を必要とする.ユーザの聴取時間を短 縮するためには,楽曲の冒頭や楽曲中にお いて最も主題となる部分(以降,サビ)と いった楽曲の一部分のみを連続的に聴取す るといった方法が挙げられる.これに対し, 過去にサビを抽出する研究[1]が行なわれて いる.この研究では, 「サビは楽曲中で最も 繰り返される区間」という特徴のみに基づ き,音楽音響信号を対象にサビの抽出を行 なっている.しかし,この研究では対象と している楽曲が一般に販売または配信され ているものと異なるため,先行研究の手法 によって一般の楽曲からサビが正確に抽出 できない可能性があった.また,この研究 で用いられているサビの特徴は 1 種類のみ であるため,サビの特徴を十分に捉えられ ているとは言えない.そのため,先行研究 で用いられている楽曲以外のサビの特徴を 調査し,より多くのサビの特徴に基づき, サビ抽出を行なう必要がある.そこで本研 究では,現在公開されているポピュラー楽 曲の音響信号を対象にサビの自動抽出手法 及びメドレーの自動生成手法を提案し,サ ビメドレー自動生成システムを構築する. 2. サビの特徴に関する調査 2.1. サビの特徴に関するアンケート調査 1 において,先行研究の楽曲以外のサビ の特徴を調査すると述べた.その方法とし て,サビの音響信号に見られる物理パラメ タの特徴を調査する方法が考えられる.し かし,音響信号の物理パラメタのみによる 調査では,使用する楽器やボーカルの声域 など,サビ以外の特徴に影響を受けてしま う可能性があり,実際に影響を受けている かを判断することは難しい.これに対し, 一般的にサビの判断基準については明確に 定義されていないが,サビの判別は人間で あれば感覚的に行なうことができるため, 人間がサビをサビと判断する要因を調査す ることで,サビを判断するための特徴のみ を求めることができると考えられる.そこ で本研究では,サビの判断基準と特徴に関 するアンケート調査を,本学大学生 4 名に 対して行なった.調査の方法は被験者に楽 曲を聴取させ,サビの開始,終了を判断し た理由及び被験者が思いつくサビの特徴を 列挙させた.使用した楽曲はポピュラー楽 曲 3 曲を用いた. 2.2. 調査から得られたサビの特徴 2.1 の調査の結果,サビの開始と判断した 理由として「曲中の雰囲気が大きく変わっ た」 「メロと比べボーカルが力強く歌い始め た」などの回答が得られた.また,サビの 終了と判断した理由として「曲中の雰囲気 が大きく変わった」 「楽器演奏が比較的静か になった」などの回答が得られた.さらに, サビの特徴として「ボーカルの歌唱や楽器 演奏が激しい」「演奏楽器の数が最も多い」 「楽曲中に 2~3 回繰り返される」などの回 答が得られた.これらのアンケート結果を まとめると,サビの特徴は以下の 3 つにま とめられる.1 つ目は,「サビの先頭時刻, 及び終端時刻に曲調が大きく変化する」で ある.ここでの曲調の変化とは,楽器の演 奏法の変化やボーカルの歌い方の変化によ って認識される楽曲の雰囲気の変化と考え られる.2 つ目は, 「サビは楽曲中に何度か 繰り返される」である.これは先行研究に おいても用いられている特徴である.本研 究では,サビ,メロを問わず,楽曲中で何 度か繰り返されている区間を時間軸上の領 域として表現し,それらを「繰り返し区間」 と呼ぶこととする.3 つ目は, 「サビにおい ては楽器演奏やボーカルの歌唱が激しい」 である.楽器演奏やボーカルの歌唱が激し いということは音響パワーが高いと予測す ることができる.そこで,実際に楽曲中の 音響パワーの遷移を調査した結果,サビに 該当する区間は音響パワーが高くなる傾向 が確認された. 3. サビ抽出手法の概要 提案するサビ抽出の処理の流れを図 1 に 示す.まず,複数楽曲の音響信号を入力す る.次に, 「サビの先頭時刻,及び終端時刻 には曲調が大きく変化する」という特徴に 基づき,音響信号から曲調が大きく変化し た時刻を,メロ,サビ,または間奏の先頭 時刻,及び終端時刻として抽出する(メロ, サビ,間奏の特定はこの段階では行なわな い).さらに,「サビは楽曲中に何度か繰り 返される」という特徴から,繰り返し区間 として認められた短時間波形の先頭,また は終端以外の曲調が大きく変化した時刻を, 突発的にスペクトルが変動した時刻と解釈 し,除外する.この処理によって,楽曲中 で繰り返されない前奏や間奏の区間を取り 除くことができる.最後に, 「サビの音響パ ワーは高い傾向にある」という特徴に基づ き,繰り返し区間として認められた短時間 波形のパワーの平均値を比較することによ って,多数の繰り返し区間からサビを 1 つ だけ特定する.最後に特定されたサビの音 響信号を出力する.各処理の具体的な内容 については,3.1~3.3 で述べる. START Input 音響波形 曲調が大きく変化した時刻の抽出 繰り返し区間の特定 パワーの平均値に基づくサビの特定 Output サビの音響波形 HALT 図 1 提案するサビ抽出の処理の流れ 3.1. 曲調が大きく変化した時刻の抽出 曲調が大きく変化した時刻では,楽器の増 減やテンポ,ボーカルの歌い方が変化してい る可能性が高いため,周波数帯域において各 周波数のパワーが増減していると考えられ る.従って,曲調が大きく変化した時刻では, スペクトルが大きく変動していると考えら れる.そこで,スペクトル変動の指標として 知られる「Flux」を用いて,曲調が大きく変 化した時刻の推定を行なう.曲調が大きく 変化した時刻を推定する処理の流れを図 2 に示す.具体的な処理としては,シフト幅 L(ここでは L=11.6msec)の STFT を用いて, 入力された音響信号 X に対して周波数解析 を行ない,各時刻 h(h 1,2,..., H ) の周波数 帯域 f におけるパワー S h [ f ] を得る.各時 刻 h において,周波数帯域ごとに前の時刻に おけるパワーの差分を算出し,差分の絶対値 を得る.そして,各時刻の差分を総和するこ とにより Flux の時間関数 Fh を算出する.Fh の算出式を式(1)に示す. F h = || Sh [ f ] - Sh -1[ f ] || (1) 次 に , Fh に 対 し て 長 さ M( こ こ で は M=696.6msec)の移動平均フィルタを用いて 振幅包絡 Fh を算出する.その後, Fh におけ る傾きの時間関数を得るために, Fh から最 小 二 乗 法 に 基 づ い て 長 さ N( こ こ で は N=1161.0msec)の回帰直線を求める.求めた 回帰直線から Fh における傾きの時間関数 K h を算出する.さらに,Flux の高い値から 低い値へ変化した時刻も,曲調が変化した時 刻として考えられることから, K h を全波整 流し, K h を算出する.最後に, K h の値が 高い順に I 個のピーク時刻 (ここでは I=150) を,曲調が大きく変化した時刻 Pi (i 1,2,..., I ) として列挙する. START 音響波形 X Fluxの時間関数の抽出 Fh 移動平均処理 Fh 最小二乗法による傾きK h の算出 K h 全波整流 K h P2 K hの高い Pi の列挙 Pi (1 i I ) K h P1 P3 P4 P5 P6 P1 P2 P3 P4 P5 P6 出し,類似度を算出することで,繰り返し 区間の特定を行なっている.しかし,サビ が最も繰り返している楽曲でなければ正し く推定できないため,適切な方法とは言え ない.そこで本研究では, Pi から固定長の 音響信号を抽出し, (抽出された音響信号を i と呼ぶ.)抽出された全ての i の組み合 わせについて相関係数を算出する.その後, 相関係数の上位から一定個数(ここでは R 個,R < I) だけ Pi を列挙する.この処理に より列挙された Pi (すなわち Pr )は,繰り返 し区間の先頭時刻,または終端時刻の可能 性が高いと考えられる. 具体的には,まず, i を抽出する前処理 として,K h の値が高い順に,Pi から前後 T 秒間(ここでは T=15)以内に存在する全ての Pj を除外し,残った Pi を Pq (0 q I ) と して列挙する(図 3 中の①).これは, Pi と Pj が近接している場合に,抽出した i と j は, 多くの区間がオーバーラップするため, i と j の組み合わせについて相関係数 Cij を 算出した場合,相関係数 Cij が高くなってし まう問題を防ぐためである.次に,列挙し た 全 て の Pq か ら 長 さ N( こ こ で は N= 23.7sec)の音響信号を抽出し, q を得る(図 3 中の②).次に, q と j ( j q) の相関係 数 Cqj を算出する(図 3 中の③).この処理を 全ての q , j に対して行なう.最後に,Cqj の値の高い順に列挙し,Cqj の算出に用いた q と j に該当する Pq と Pj を合計 R 個(こ こでは R=10)だけ,q1 , j1 , q2 , j2 ,... の順に Pr (r 1,2,..., R) として列挙する(図 3 中の④). START X HALT 図 2 曲調が大きく変化した時刻を 抽出する処理の流れ 3.2. 繰り返し区間の特定 3.1 の処理において,Flux を用いて楽曲中 から I 個の Pi を抽出した.ここで,Pi には, サビの先頭時刻,及び終端時刻以外にも, メロや間奏の先頭時刻,及び終端時刻が含 まれている.そこで, 「サビは楽曲中に何度 か繰り返される」という特徴に基づき,Pi の 中から繰り返し区間として認められた短時 間波形の先頭時刻,または終端時刻にあた る Pi (ここでは Pr )のみを取り出す処理を 行なう.繰り返し区間を特定する処理の流 れを図 3 に示す.先行研究ではパワースペ クトルより 12 次元のクロマベクトルを抽 P1 P2 P3 P3 P3 P3 Pi(1<i<I) P1 ① ② Pq' から長さN(23.7sec)の ③ 相関係数Cqjを算出 ④ P3 P2 Pi から時間差が前後T(15sec) 未満の Pj を除外 波形 q を抽出 Cqj の高い Pq' を列挙 P1' T sec T sec :波形 1 N sec :繰り返し区間 繰り返し区間 " " P1" P2"P3 P4" P5"P6"P7 P8" HALT 図 3 繰り返し区間を特定する処理の流れ 3.3. パワーの平均値に基づくサビの特定 ことが確認された.また,すべてのジャン 3.2 の処理では, Cqj に基づき, Pi の数を ルにおいて,終端時刻の精度は先頭時刻と 絞り込み, Pr を抽出した.この処理によっ 比較して低いことが確認された. て抽出された Pr は,繰り返し区間における これらの結果の考察として,サビが正し 先頭時刻,及び終端時刻に該当すると考え く推定できなかった楽曲について調査した られる.そこで, 「サビはパワーが高い傾向 ところ,サビの先頭時刻,及び終端時刻に, にある」という特徴に基づき,繰り返し区 Flux の時間関数における傾きの変化が乏し 間からサビの特定を行なう.まず, Pr から いことが確認できた.このことから,サビ Pr1 までの区間におけるパワーの平均値を の先頭時刻,及び終端時刻において,スペ 算出する.その後,パワーの平均値が最大 クトルの変動が少ない楽曲に対しては,提 となる区間をサビとして抽出する. 案手法によるサビ抽出が困難であると考え 4. サビ抽出の精度に関する評価実験 られる.フォーク,R&B,及びヒップホッ 4.1. サビ抽出の精度に関する実験の概要 プに対して,高い精度でサビ抽出が行なえ 提案手法を用いて抽出されたサビが,楽 なかった原因として,サビの先頭時刻,及 曲中の適切な位置から抽出されているかを び終端時刻におけるスペクトルの変動が少 評価した.精度評価には,本学大学生 1 名 ない楽曲が,フォークや,R&B,ヒップホ にサビの区間をハンドラベリングさせたポ ップにおいて多く含まれていたことが挙げ ピュラー楽曲 50 曲を用いた.ここで用いた られる.また,サビの終端時刻は先頭時刻 楽曲は,演奏歴 2 年のギター奏者によって, と比較し,K h の変化量が,少ない傾向にあ ポップス,ロック,フォーク,R&B,ヒッ ることが確認できる.従って,サビの終端 プホップにジャンル分けされた各 10 曲で 時刻は,曲調が大きく変化した時刻として ある.提案手法によって抽出されたサビ区 推定されにくい傾向があると考えられ,サ 間の先頭時刻,及び終端時刻と正解データ ビの終端時刻の推定精度が低くなったと考 を比較することで,正しくサビ区間が抽出 えられる.これらのことから,サビの先頭 できた楽曲の数を求め,適合率を算出し評 時刻や終端時刻に生じている「曲調の変化」 価を行なう.また,判断されるサビ区間の を推定するために Flux 以外の指標も用いる 時刻誤差の影響,及びテンポが異なる楽曲 ことで推定精度の向上が期待できる. における音価の時間長が異なる問題を考慮 5. メドレーの自動生成手法 するために,許容する時刻誤差を拍間隔で 提案するサビメドレーの処理の流れを図 段階的に拡大し,精度評価を行なった.本 4 に示す.サビメドレー生成には,サビ同 実験では,1 拍~4 拍まで時刻誤差を段階的 士の切り替わり時における違和感を抑える に拡大させ,精度評価を行なった. ための処理が必要となる.聴取者がサビ同 4.2. 評価実験の結果及び考察 士の切り替わり時に知覚する違和感は,2 サビの推定精度に関する評価実験の結果 種類の要因によって発生するものと考えら を表 1 に示す.表 1 に示すように,提案手 れる.1 つ目は,サビとサビの切り替わり 法によるサビの推定精度は,ポップスやロ 時におけるテンポの急激な変化である.例 ックにおいては比較的高く,フォークや えば,テンポの遅い楽曲のサビとテンポの R&B,ヒップホップにおいては比較的低い 速い楽曲のサビが連続して再生された場合, 表 1 サビの推定精度に関する評価実験の結果 ジャンル ポップス ロック フォーク R&B ヒップホップ 平均 1拍 0.30 0.40 0.30 0.40 0.20 0.32 R (先頭時刻) 2拍 3拍 0.60 0.70 0.60 0.70 0.50 0.60 0.40 0.40 0.40 0.50 0.50 0.58 4拍 0.80 0.70 0.60 0.40 0.60 0.62 1拍 0.30 0.20 0.10 0.10 0.30 0.20 R (終端時刻) 2拍 3拍 0.40 0.40 0.30 0.50 0.10 0.20 0.20 0.20 0.30 0.30 0.26 0.32 4拍 0.60 0.60 0.20 0.20 0.40 0.40 サビの切り替わり時における急激なテンポ の変化に違和感を覚える.そこで,接続さ れるサビ同士におけるテンポの差を小さく 抑えることにより,違和感の軽減を図る. テンポの推定には既存手法[2]を用いる.2 つ目は,ジャンルやアーティスト,楽器構 成などの異なるサビ同士が,瞬間的に切り 替わることである.例えば,ロック調の楽 曲の男性ボーカルによる曲調が激しいサビ から,ポップスの楽曲の女性ボーカルによ る曲調が静かなサビへ瞬間的に切り替わる と,2 曲の楽曲構成の違いから違和感を覚 える.また,サビが切り替わる際には,接 続するサビ間の音圧レベルに顕著な差異が 生じるためノイズが発生すると考えられる. そのため,楽曲の異なるサビ同士を接続に おける,2 曲の繋がりの違和感の低減とノ イズを解消するために,ミキシングの技術 として知られているクロスフェード処理を 用いる. :サビ区間 START Input 複数の音楽音響波形 楽曲A 楽曲C 楽曲B サビの抽出 テンポソート テンポ 100 160 60 拍時刻に基づいた クロスフェード処理 + サビB サビメドレーの音響波形 曲名 楽曲B 楽曲A 楽曲C サビA t サビ Y + :同期させる拍時刻 a サビC :Ya の拍時刻 = Output テンポ 160 100 60 曲名 楽曲A 楽曲B 楽曲C 総数を表す.次に,拍時刻 Bea から,抽出さ れたサビ区間 Ya に含まれる拍時刻のみを 残 し , サ ビ 区 間 Ya の 拍 時 刻 Bea (e 1,2,..., E; a 1,2,..., A) を求める. E はサビ Ya における拍時刻の総数である. その後,サビ区間 Ya の終端時刻 U a からユ ーザが任意に指定した時間長 G(sec)を減算 した時刻より早く,かつ最も近い拍時刻を Wz とし,接続するサビ区間 Ya1 における先 頭の拍時刻 Bea11 を Wz 1 とする.ここで得ら れた Wz ,及び Wz 1 を「同期させる拍時刻」 と定義する.さらに,サビ区間 Ya の終端時 刻 U a から同期させる拍時刻 Wz を減算した 後,同期させる拍時刻 Wz 1 を加算して, Oa (a 1,2,..., A 1) を算出する.ここで算 出された Oa を「オーバーラップ区間長」と 定義し,算出式を式(2)に示す.ただし,全 てのサビの開始時刻は 0 とする. Oa U a Wz Wz 1 (2) 最後にサビ区間 Ya の終端 U a からオーバー ラップ区間長 Oa だけフェードアウトさせ, 同時にサビ区間 Ya 1 をオーバーラップ区間 長 Oa だけフェードインさせることで,サビ 同士の拍時刻が同期したクロスフェードに よるサビの接続を行なうことができる. Y HALT : a 1 の拍時刻 サビメドレーの音響信号 図 4 提案するサビメドレーの処理の流れ 5.1. 拍時刻に基づくクロスフェード サビの拍時刻に基づいたクロスフェード 処理の詳細について述べる.拍時刻を同期 させるにあたり,サビの拍時刻の推定が必 要であるが,既存手法[3]では時間長の短い サビに対して,拍時刻の推定を行なうこと ができない.そこで,入力された音響信号 から拍時刻の推定を行ない,そこからサビ の拍時刻を求める.拍時刻に基づくクロス フェードの処理を図 5 に示す.まず,入力 された複数の音響信号 Xa から拍時刻 Bea (e 1,2,..., E; a 1,2,..., A) の推定と,2 で述べたサビ抽出を行ない,サビ区間 Ya (a 1,2,..., A) を得る.E は推定された拍 の総数を表し, A は入力された音響信号の Bea Bea1 t サビ Y a 1 :オーバーラップ区間長 Oa 図 5 拍時刻に基づくクロスフェードの処理 5.2. メドレーの自動生成手法の評価実験 提案手法はサビの切り替わり時に生じる 違和感を抑えるために,テンポソート処理, 及び拍時刻の同期に基づいたクロスフェー ド処理を行ない,サビメドレーを生成して いる.そのため,これら 2 つの処理がサビ の切り替わり時に生じる違和感を抑えてい るかを評価する必要がある.そこで, 「テン ポソート処理,及び拍時刻の同期に基づい たクロスフェード処理を行なう提案手法」 「テンポソート処理に基づいたクロスフェ ード処理」 「拍時刻の同期に基づいたクロス *:p<.05 30 * 25 評価スコア フェード処理」及び「クロスフェード処理 のみ」について,それぞれの処理を用いて サビメドレーを生成し,サビの切り替わり 時の滑らかさを評価させた. 使用した楽曲はテンポが 80~170bpm の ポピュラー楽曲 20 曲から,テンポが 80~ 90bpm,100~110bpm,120~130bpm,140 ~150bpm,160~170bpm の楽曲をそれぞれ 1 曲ずつを用いてサビメドレー1 曲を構成 する.被験者には本学に在籍する学生 8 名 とした. 「クロスフェード処理のみ」「拍時 刻の同期に基づいたクロスフェード処理」 「テンポソート処理に基づいたクロスフェ ード処理」及び「提案手法」によって生成 した 4 パターンのサビメドレーを評価対象 とする.生成した 4 パターンのサビメドレ ーを 1 セットとし,構成する楽曲を替えて 生成した計 4 セットの計 16 曲を評価実験に 用いる.生成したサビメドレーをそれぞれ 聴取させ,サビの切り替わり時に感じる滑 らかさを 7 段階のスコアによって評価させ た.また,同じセット内のサビメドレーで あれば何度でも繰り返し聴取することを許 可した. 5.3. 実験の結果及び考察 評価実験の結果を図 6 に示す.T はテン ポソート処理,C はクロスフェード処理,B は拍時刻を同期させる処理を表している. 項目ごとに Steel-Dwass 法による多重比較 を行なった結果,提案手法とそれ以外の手 法の間に,有意水準 5%で有意な差が確認で きたことから,全ての処理を行なう提案手 法を用いてサビメドレーを生成した場合, 聴取者にサビ同士が最も滑らかに切り替わ っている印象を与えられることが確認でき た.また,テンポソート処理に基づいたク ロスフェード処理は,単純にクロスフェー ド処理だけを行なった場合と比較し,有意 な差は確認できなかった. これらの結果を考察すると,本研究で提 案したテンポソートと拍時刻の同期を行な い,クロスフェード処理によってサビ同士 を接続する手法は,単純にクロスフェード 処理のみを用いてサビ同士を接続する手法 より,サビ同士の接続を滑らかに接続でき ることが確認された.このことから,提案 手法は,サビの切り替わり時に生じる違和 感を抑える処理として妥当であることが確 認された. * * 20 15 10 5 * 0 TCB TCB TCB TCB 図 6 評価実験の結果 6. おわりに 本研究ではサビ抽出手法及びメドレー生 成手法によって,サビメドレーを自動生成 するシステムを構築した.提案したサビ抽 出の精度を適合率に基づいた精度評価を行 なった結果,ポップスに関して先頭時刻 0.80 終端時刻 0.60 という高い適合率が得ら れた.また,ジャンルによってサビ抽出の 精度に差があること,及び先頭時刻と比較 し終端時刻の精度が低いことが確認された. また,サビの先頭時刻,及び終端時刻にお いてスペクトルの変動が少ない楽曲に対し ては,適切な位置からサビ抽出が行なうこ とができないことを確認した.また,提案 したサビメドレー生成手法の妥当性に関す る評価実験を行なった.その結果,提案手 法によって生成されたサビメドレーが,有 意水準 5%で最もサビの切り替わりにおい て滑らかに聴取できることが確認できた. 今後の課題としては,サビの推定精度の 低かったジャンルにおける推定精度の向上 と,終端時刻の推定精度の向上が挙げられ る.Flux だけではサビの先頭時刻,及び終 端時刻を推定することが困難な楽曲に対し ては,Flux 以外の音楽的指標も用いること で精度の向上が図れると考えられる.具体 的には,小節の区切り目を基準に Flux の変 化量によって,曲調が大きく変化した時刻 を推定すれば,より正しくサビの先頭時刻, 及び終端時刻を推定できると考えられる. 謝辞 本研究の一部は,科研費(25580080)の援助を受けた. 参考文献 [1] 後藤 真孝,“SmartMusicKIOSK:サビ出し機 能 付 き 音 楽 試 聴 機 ” , 情 報 処 理 学 会 論 文 誌 , 44, 11, pp.2739-2743 (2003). [2] 特願 2010-029567 号 三浦雅展,山梶雄一郎, 榎孝平,阪上淳一,井草雅幸 「テンポ値検出装置およ びテンポ値検出方法」(2010,2,13) . [3] 特願 2010-161346 号 三浦雅展,庄司正「拍 時刻推定装置および拍時刻推定方法」(2010,7,16).
© Copyright 2024