大学の演習で「歌うボコーダ」を作る : 東京工科大学メディア学部ブログ

« いざ!プレゼン大会!-2年次「CG制作の基礎」課題作品発表会の紹介- | トップページ | 第1回大学院特別講義報告:ミラノ万博速報:万博に見る最新の映像展示技法 »

大学の演習で「歌うボコーダ」を作る

2015年6月 4日 (木) 投稿者: メディア技術コース

みなさん、こんにちは、

メディア学部には「メディア専門演習」という演習があります。メディアの分野を広くカバーする20種もの演習の中から、好みの演習を2つ選んで学修します。「音・音声インタフェース」はそのうちの1つ。楽器音シンセサイザを作ったり、効果音を作ったりします。

第8回目はボコーダの作成でした。ボコーダとはボイス(声)とコーダー(符号化)を組み合わせた言葉です。声を符号にして送り、受け側で人の声に合成するもので、携帯電話などのディジタル通信機器の通信方式です。声は符号化されていますから、声を合成するときには、任意の声の高さで再生することができます。

「音・音声インタフェース」では、ボコーダを線形予測分析という音声の中身を調べる方法を使って作成します。そのしくみを図解したものが、図1です。

Photo

図1 線形予測分析のしくみと、それを使ったボコーダ

線形予測フィルタというのは、人の声の中から予測できるものをすべて取り除くしくみです。もし、特定の周波数(振動数)の音声の成分が多く含まれていれば一定周期で変化しますから予測できてしまいます。ですから、予測誤差と呼ばれる予測できずに残ってくる成分は、含まれる音の周波数に偏りがありません。具体的には、声帯が開いた瞬間に流れ出す急激な気流に相当するパルス状の信号です。実はパルスはすべての周波数を均等に含むのです。

さて、こんなことで、どうして人の声が合成できるのでしょう?

音声から予測誤差である声帯のパルス列が求まる過程を説明しましたが、その逆過程は、声帯から瞬間的に流れ出す気流が口の中や鼻の中を通ることにより人の声になる仕組みそのものになっているのです。つまり、線形予測フィルタの逆特性のフィルタ「逆フィルタ」は、口や鼻の音響特性に相当するのです。

それで、図2のように人工的なパルスをこの「逆フィルタ」に与えると、口や鼻の一種の「響き」のようなものが出てきます。この声帯パルスによる口や鼻の「響き」を一定周期で並べれば、繰り返される声帯の開閉によって音声が生じるのと全く同じ仕組みとなり、その周期に応じた周波数の音声になるわけです。例えば、百分の一秒間隔で繰り返し振動を作れば、1秒間に100回振動する音声になります。

Photo_2

図2 パルスで発生する振動を並べると音声になる

学生のみなさんは演習でどんなことをするのかを紹介しましょう。

1.自分の声を複数個録音する。「め」でも「にゃー」でも何でもいいです。

2.線形予測分析で「逆フィルタ」を作ります。

3.歌わせたいメロディの音の周波数に応じたパルス列を用意します。

4.パルス列を「逆フィルタ」に入れれば1音符相当の声ができます。

5.音符をつなげれば歌になります。

演習で学生のみなさんに作ってもらったプログラムで発生させた歌声の例を紹介しましょう。ここでは「ま」という音声を使っています。「め」とか「ま」は日本語では101種類あります。すべて収録しておけば、歌詞をつけて歌わせることもできます!

ボコーダ音声の例

相川清明