声の高さを測る
2017年7月11日 (火) 投稿者: メディア技術コース
みなさん、こんにちは、
みなさんはカラオケ好きですか?カラオケに行くと機械が歌のうまさを採点してくれます。うたのうまさの中では、まず、メロディの音の高さがちゃんと歌えていないといけません。ということは、カラオケ採点機は声の高さを測る仕組みがあるということです。
メディア学部の特徴的な演習である「メディア専門演習」の1つ「音・音声インタフェース」第11回目は「ピッチ抽出」で、簡単なカラオケ採点機を作りました。ピッチとは声の高さの周波数のことです。ここで使った声の高さを測る方法はケプストラム法というものです。
母音「あ」の周波数分布であるスペクトルを見てみると、図1のようになっています。
図1 母音「あ」のスペクトル
細かいギザギザは倍音と言って、声の高さのピッチ周波数に関係があり、ピッチ周波数の整数倍の周波数に規則正しく並んでいるのです。この図では1000Hzまでで細かいギザギザは10個ほどありますので、ピッチ周波数はだいたい100Hzです。
このギザギザが規則正しく並んでいるとすると、図1で周波数分析ができそうです。図1の横軸は周波数ですから、通常の周波数分析とはちょっと異なります。周波数軸上でのスペクトル分析をケプストラムと言います。図1の横軸の最大値は6000Hzです。ディジタル音のサンプルが1秒にいくつあるかをサンプリング周波数と呼びますが、この最高周波数はサンプリング周波数の半分です。この図1の音声はサンプリング周波数は12000Hzだったということです。
さて、図1に含まれるさまざまな振動成分のうち、最大のものがピッチ周波数に関係した細かいギザギザになります。次の図は最高周波数のなかに8個波がはいったもので、ピッチ周波数はサンプリング周波数の2分の1の8分の1、つまり、サンプリング周波数の16分の1ということになります。
専門的に言うと、マイナスの最高周波数からプラスの最高周波数までの幅はサンプリング周波数に相当しますが、そのなかに波は16個入っているのです。
図2 ケプストラム法によるピッチ周波数算出
さて、最大のケプストラムを調べると16次が最大になっています。ということは、最大ケプストラムの次数でサンプリング周波数を割ってあげれば、声の高さの周波数が求まるということになります。「音・音声インタフェース」では、音の出る鍵盤と算出した声のピッチ周波数を表示できるように作り、自分の発声の高さがただしかったかどうか判定できるようにしました。
相川 清明
「在学生向け」カテゴリの記事
- チュラロンコン大学からのインターン学生との再会(2019年03月14日)
- あにめたまご2019「文化庁若手アニメータ等人材育成事業」(2019年03月12日)
- タイの提携校、キンモンクット大学トンブリに短期訪問しませんか?(2019年03月11日)
- 学会紹介:ADADA Japan学術大会と情報処理学会EC2019(2019年03月09日)
- 大学院授業:プロシージャルアニメーション特論の紹介(2019年03月08日)
「授業紹介」カテゴリの記事
- トップレベルの論文を読み込む「CG技術特論」(大学院授業紹介)(2019年03月13日)
- 大学院授業:プロシージャルアニメーション特論の紹介(2019年03月08日)
- 専門演習「空間インタラクティブコンテンツ」2018後期(3)(2019年02月22日)
- タンジブルインタラクションデザイン最終発表(2019年02月13日)
- 専門演習「空間インタラクティブコンテンツ」2018後期(2)(2019年02月12日)
「高校生向け」カテゴリの記事
- チュラロンコン大学からのインターン学生との再会(2019年03月14日)
- 大学院授業:プロシージャルアニメーション特論の紹介(2019年03月08日)
- ゲームの学会?!(2019年03月07日)
- 香港理工大学デザイン学部の紹介(2019年03月04日)
- 香港理工大学デザイン学部を訪問し、学部長Lee先生にお会いしました!(2019年03月03日)
CALENDARカレンダー
RECENT ENTRY最新の投稿
- メディア学部の情報はこちら
- メディアコンテンツコースの情報はこちら
- メディア技術コースの情報はこちら
- メディア社会コースの情報はこちら
- 入試情報はこちら
- 資料請求はこちら(大学案内、募集要項等)
- 東京工科大学の情報はこちら