音声信号処理の基礎理論(前編) ―― 音声圧縮,ノイズ除去,音源分離で用いられる理論

川村 新,尾知 博

ここでは,音声圧縮,ノイズ除去,音源分離などの音声処理で用いられる理論について説明します.規格に従った処理を実際にハードウェアやソフトウェアで実現するためには,理論についての知識も必須です.数式を用いた理論の学習はやや退屈な面もありますが,あらかじめ実際の処理がイメージできていると,理解度が上がるはずです. (編集部)

※ 本記事は,ディジタル・デザイン・テクノロジ No.6から転載いたしました.同誌はこちらから購入できます.

 

 音声信号処理に必要な基礎理論を図1にまとめます.


図1 音声信号処理で必要となる基礎理論
音声信号処理で必要な理論について詳細を示している.

 

1.確率信号

 音声信号を考えたとき,ある時刻における値は実際に発話してからでなければ特定できません.従って,音声信号は,「確率的に生じる信号」として扱うべきです.ここでは,確率的に生じる信号の取り扱い方について説明します.

● 確定信号と確率信号

 信号には確定信号と確率信号があります.

 確定信号は,時刻や位置の関数として表される信号です.従って,時刻あるいは位置だけを指定すると,特定の数値として表現できます.

 一方,確率信号は,時刻や位置だけの関数として表現できない信号です.従って,実際に信号が生じるまでは何の値をとるかが特定できません.図2は,確定信号と確率信号を表したものです.わたしたちが日常的に使用する音声は確率信号です.


図2 確定信号と確率信号
確定信号は,時刻や位置の関数として表される信号.確率信号は,時刻や位置だけの関数として表現できない信号.音声は確率信号である.

 

 図3は,「ゆたかな」という同じ言葉を2名の女性がそれぞれ発話したときの信号波形です.図から分かるように,現実の音声がとる値は発話内容が同じでも異なっています.例えば,「ゆたかな」と発話するときの1秒後の音声の振幅値は,実際に発話してみなければ分かりません.


図3 「ゆたかな」と発話したときの音声信号波形
現実の音声がとる値は発話内容が同じでも異なっている.

 

 同様に,空調機やパソコンなどに付いているファン,ドライヤなどの各種機器から発生する音や,虫の声,落雷,風の音など自然界に存在するほとんどの音は,ある時刻における値を特定できないため,確率信号と考えることができます.また,株式市場における株価の変動なども確率信号です.

● 実現値

 確率信号は時刻を指定しても値を特定できず,実際に生じた値のみを数値として表現できます.このように実際に生じた確率信号の値を実現値と呼びます.実現値は,その確率信号の性質を知る上で重要な手がかりとなります.

 図4を用いて実現値を説明します.今,何種類かの数がそれぞれある割合でたくさん入っている袋xを考えてみます.袋xが確率信号に相当します.そして,この袋から一つの数を取り出して観測し,また袋の中に戻すという作業を繰り返すことにします.ただし,作業の前後で袋の中の状態はまったく変わらないものとします.


図4 実現値の実際
何種類かの数がそれぞれある割合でたくさん入っている袋がある.この袋から一つの数を取り出して観測し,また袋の中に戻す.k回目に袋から実際に取り出した値が5だったとすると,確率信号xk番目の実現値は,xk=5となる.

 

 さて,どの数が現れるかは実際に取り出してみないと分かりません.もし,k回目に袋から実際に取り出した値が5だったとすると,確率信号xk番目の実現値は,xk=5となります.

 今回のように,袋xの状態が試行回数kに依存しない場合には,実現値を多くの回数観測することで,袋の中の数字の割合を知ることができます.

組み込みキャッチアップ

お知らせ 一覧を見る

電子書籍の最新刊! FPGAマガジン No.12『ARMコアFPGA×Linux初体験』好評発売中

FPGAマガジン No.11『性能UP! アルゴリズム×手仕上げHDL』好評発売中! PDF版もあります

PICK UP用語

EV(電気自動車)

関連記事

EnOcean

関連記事

Android

関連記事

ニュース 一覧を見る
Tech Villageブログ

渡辺のぼるのロボコン・プロモータ日記

2年ぶりのブログ更新w

2016年10月 9日

Hamana Project

Hamana-8最終打ち上げ報告(その2)

2012年6月26日