音声認識・声質変換などの音声情報処理

研究の概要

音声信号には単語間の明確な区切りがなく、同じ内容の音声であっても様々な条件によって変動するため、コンピュータで音声信号を扱うことは簡単ではありません。このような変動を多く含む信号を扱う場合統計的な手法が用いられます。また近年ではDeep Learning (深層学習)と呼ばれる最新のニューラルネットワークの技術も使用されています。本研究室では、このような様々な技術を駆使して、音声情報処理の問題に取り組んでいます。現在は以下に示す分野の検討を行なっていますが、これ以外の音声や音響信号に関する研究も積極的に取り組んでいく予定です。

研究課題

話し言葉の音声認識

自然な話し言葉の音声認識を研究します.テキストの読み上げ音声や検索語のような短いフレーズは、現在かなりの精度で認識できます。 現在の課題は、講演音声・会議音声・対話音声のような自然な話し言葉の認識です。本研究室ではDeep Learning技術を利用して認識の高精度化に取り組んでいます。 右図は音声認識を利用した動画検索システムで、キーワードを入力すると、 そのキーワードを発声した部分にジャンプすることができます。即ち音声が検索対象となっています。

マルチモーダル対話システム

音声対話 コンピュータの中のキャラクターと音声対話ができるシステムを開発しています。キャラクターに話しかけると、 内容に応じていろいろ応答してくれます。単に音声対話ができるだけでなく、人間の動作も認識して、 動作に見合った応答を返すシステムを目指しています。名古屋工業大で開発されたMMDAgent をベースに、身体動作認識を追加しています。また関連して、感情認識の研究も行なっています。音声から感情を認識することによって、 より豊かなコミュニケーションを実現することができます。

  Copyright 2009-2013 Nagoya Institute of Technology (MMDAgent Model “Mei”)

声質変換

ある人の声を他人の声に変えたり、品質の悪い声を良い声に変えたりする技術を声質変換と呼びます。本研究室ではこの技術の水中会話装置への応用を検討しています。ダイビングを行う場合レギュレータと呼ばれる呼吸装置を咥えるため、正しい発音が困難となる場合がありますが、これを正しい発音に自動変換するのが目標です。山形カシオ(株)と共同研究を行っています。

山形カシオ(株) ロゴシーズ

音声合成

音声認識は音声を文字列に変換する技術ですが、音声合成は逆に文字列を音声に変換する技術で、単純に言うとコンピュータに喋らせるという研究です。近年流行しているボーカロイドも音声合成の一種です。単に喋らせることは既に技術として確立していますが、抑揚を正しく付与したり、感情豊かな音声を生成することが今後の研究目標となります。

通常の音声合成 spkr         韻律制御音声合成 spkr

英語発音の自動評定

日本人の英語発音の自動評定が可能になれば、英語教育支援に役立ちます。音声情報処理を利用した発音評定法を研究します。これにより、発音に対する点数を与えたり、発音誤りの箇所を自動的に示すことができます。さらにリエゾンの自動検出システムの検討も行なっています。

pronun

図: 発音評定システム

マルチモーダル対話コーパス

井上研究室と共同でマルチモーダル対話コーパスの構築を行なっています。現在自由に利用可能なマルチモーダル対話コーパスはほどんど存在しません。そこで約1,700の長編映画にタグづけしコーパスを整備しました。本研究室では音声区間検出部を担当しています。

マルチモーダル対話コーパス

研究室の設備


       

各種LinuxワークステーションおよびPC.GPGPU専用機.

研究室を希望される方へ

音声処理・言語処理に関する基礎知識、プログラミングの基礎知識、コンピュータの組み立て方法(大部分のコンピュータは自作です)、輪講の文献発表、卒研の進め方について、夏休み迄に教員、大学院生が懇切丁寧に指導します。
卒研では、C言語で計算機をかなり使いこなすことになります。 研究室には多数のワークステーションの他、大規模な確率モデル学習のための計算サーバ、大容量の音声データベースを格納するためのファイルサーバなどが完備されています。このような計算機を使用しても、何週間もかかる計算が必要になることもあります。このためGPGPU(General-purpose computing on graphics processing units)を利用し、多数のプロセスを並列実行することにより、1/50〜1/100の計算時間で実行するなどの工夫をこらしています。 特に近年目覚ましい成果を挙げているディープ・ニューラルネットの利用には欠かせない技術となっています。
研究を楽しみながら進める学生を歓迎します。また大学院進学の学生、海外に興味がある学生(国際学会に派遣します)を歓迎します。