音声認識・声質変換などの音声情報処理

研究の概要

音声信号には単語間の明確な区切りがなく、同じ内容の音声であっても様々な条件によって変動するため、コンピュータで音声信号を扱うことは簡単ではありません。このような変動を多く含む信号を扱う場合統計的な手法が用いられます。また近年ではDeep Learning (深層学習)と呼ばれる最新のニューラルネットワークの技術も使用されています。本研究室では、このような様々な技術を駆使して、音声情報処理の問題に取り組んでいます。現在は以下に示す分野の検討を行なっていますが、これ以外の音声や音響信号に関する研究も積極的に取り組んでいく予定です。

研究課題

話し言葉の音声認識

自然な話し言葉の音声認識を研究します.テキストの読み上げ音声や検索語のような短いフレーズは、現在かなりの精度で認識できます。 現在の課題は、講演音声・会議音声・対話音声のような自然な話し言葉の認識です。本研究室ではDeep Learning技術を利用して認識の高精度化に取り組んでいます。 右図は音声認識を利用した動画検索システムで、キーワードを入力すると、 そのキーワードを発声した部分にジャンプすることができます。即ち音声が検索対象となっています。

マルチモーダル対話システム

コンピュータの中のキャラクターと音声対話ができるシステムを開発しています。キャラクターに話しかけると、内容に応じていろいろ応答してくれます。単に音声対話ができるだけでなく、人間の表情や視線、動作も認識して、それに見合った応答を返すシステムを目指しています。また関連して、感情認識の研究も行なっています。音声から感情を認識することによって、より豊かなコミュニケーションを実現することができます。
デモとしてはヘッドマウントディスプレイによりVR空間にキャラクターを投影するシステムと、スクリーン上に投影するシステムの2種類を開発しました。

※画像をクリックすると動画が表示されます

水中トランシーバー

ダイビングを行う場合レギュレータと呼ばれる呼吸装置を咥えるため、正しい発音が困難となる場合がありますが、これを正しい発音に自動変換する手法を検討しました。山形カシオ(株)と共同研究を行ない「ロゴシーズ」として製品化されています。 レジャーのほか,消防や警察のレスキュー,またテレビ番組などにも使用されています。

山形カシオ(株) ロゴシーズ

音声合成

音声認識は音声を文字列に変換する技術ですが、音声合成は逆に文字列を音声に変換する技術で、単純に言うとコンピュータに喋らせるという研究です。 近年流行しているボーカロイドも音声合成の一種です。単に喋らせることは既に技術として確立していますが、 抑揚を正しく付与したり、感情豊かな音声を生成することが今後の研究目標となります。以下の2つの音声は片方が人間の声で片方がコンピュータの音声(TTS)です。 どちらがコンピュータの音声か分かりますか?(答えは「研究課題」の一番下)

音声1 spkr         音声2 spkr

声質変換

音声合成の技術を利用した声質変換についても検討しています。ある人の声を特定の人物の声に変換できます。ボイスチェンジャーと違うところは,単に変換するのではなく,特定の人物の音声を生成できる点です。以下は歌声を変換した例で女性の歌声を男性の歌声に変換しています。

変換前の歌声 spkr         変換後の歌声 spkr

英語発音の自動評定

日本人の英語発音の自動評定が可能になれば、英語教育支援に役立ちます。音声情報処理を利用した発音評定法を研究します。これにより、発音に対する点数を与えたり、発音誤りの箇所を自動的に示すことができます。さらにリエゾンの自動検出システムの検討も行なっています。

pronun

図: 発音評定システム

マルチモーダル対話コーパス

東北工業大学井上研究室に協力して、マルチモーダル対話コーパスの構築を行ないました。現在自由に利用可能なマルチモーダル対話コーパスはほどんど存在しません。そこで約1,700の長編映画にタグづけしコーパスを整備しました。本研究室では音声区間検出部を担当し、音声部の自動タグづけを行ないました。

マルチモーダル対話コーパス

音声合成の答え:「音声1」がコンピュータによる合成音声,「音声2」が人間の声

研究室の設備


       

各種LinuxワークステーションおよびPC.GPGPU専用機.

研究室を希望される方へ

音声処理・言語処理に関する基礎知識、プログラミングの基礎知識、コンピュータの組み立て方法(大部分のコンピュータは自作です)、輪講の文献発表、卒研の進め方について、夏休み迄に教員、大学院生が懇切丁寧に指導します。
卒研では、Pythonなどの言語で計算機をかなり使いこなすことになります。 研究室には多数のワークステーションの他、大規模な確率モデル学習のための計算サーバ、大容量の音声データベースを格納するためのファイルサーバなどが完備されています。このような計算機を使用しても、何週間もかかる計算が必要になることもあります。このためGPGPU(General-purpose computing on graphics processing units)を利用し、多数のプロセスを並列実行することにより、1/50〜1/100の計算時間で実行するなどの工夫をこらしています。 特に近年目覚ましい成果を挙げているディープ・ニューラルネットの利用には欠かせない技術となっています。
研究を楽しみながら進める学生を歓迎します。また海外に興味がある学生(国際学会に派遣します)を歓迎します。