about this lab

話し言葉の音声認識

自然な話し言葉の音声認識を研究します．テキストの読み上げ音声や検索語のような短いフレーズは、現在かなりの精度で認識できます。現在の課題は、講演音声・会議音声・対話音声のような自然な話し言葉の認識です。本研究室ではDeep Learning技術を利用して認識の高精度化に取り組んでいます。右図は音声認識を利用した動画検索システムで、キーワードを入力すると、そのキーワードを発声した部分にジャンプすることができます。即ち音声が検索対象となっています。

マルチモーダル対話システム

コンピュータの中のキャラクターと音声対話ができるシステムを開発しています。キャラクターに話しかけると、内容に応じていろいろ応答してくれます。単に音声対話ができるだけでなく、人間の表情や視線、動作も認識して、それに見合った応答を返すシステムを目指しています。また関連して、感情認識の研究も行なっています。音声から感情を認識することによって、より豊かなコミュニケーションを実現することができます。
デモとしてはヘッドマウントディスプレイによりVR空間にキャラクターを投影するシステムと、スクリーン上に投影するシステムの２種類を開発しました。

VRによる対話システム
2Dスクリーンよる対話システム
Copyright Nagoya Institute of Technology (MMDAgent Model “Mei”)

※画像をクリックすると動画が表示されます

※VRシステムをgithub上で公開しています．

※VRシステムはNTTのRemdis，2Dシステムは名古屋工業大のMMDAgentをベースに開発しています．

水中トランシーバー

ダイビングを行う場合レギュレータと呼ばれる呼吸装置を咥えるため、正しい発音が困難となる場合がありますが、これを正しい発音に自動変換する手法を検討しました。山形カシオ(株)と共同研究を行ない「ロゴシーズ」として製品化されています。レジャーのほか，消防や警察のレスキュー，またテレビ番組などにも使用されています。

山形カシオ(株) ロゴシーズ

音声合成

音声認識は音声を文字列に変換する技術ですが、音声合成は逆に文字列を音声に変換する技術で、単純に言うとコンピュータに喋らせるという研究です。近年流行しているボーカロイドも音声合成の一種です。単に喋らせることは既に技術として確立していますが、抑揚を正しく付与したり、感情豊かな音声を生成することが今後の研究目標となります。以下の2つの音声は片方が人間の声で片方がコンピュータの音声(TTS)です。どちらがコンピュータの音声か分かりますか？(答えは「研究課題」の一番下)

音声1　音声2　

声質変換

音声合成の技術を利用した声質変換についても検討しています。ある人の声を特定の人物の声に変換できます。ボイスチェンジャーと違うところは，単に変換するのではなく，特定の人物の音声を生成できる点です。以下は歌声を変換した例で女性の歌声を男性の歌声に変換しています。

変換前の歌声　変換後の歌声　

音楽情報処理

現在ピアノなど単一楽器音の自動採譜は高い精度で可能となっています。一方歌声の自動採譜は人によって声質や歌い方が多様なため困難な課題です。また実用面を考えるとバンドのボーカルなど楽器音と混合した音源からの採譜が必要となります。本研究室では音源分離と自動採譜の技術を組み合わせ、ボーカルつきバンド演奏からの歌声採譜の研究を行っています。さらにはコード（和音）も認識しメロディーとコード認識によるピアノの両手弾きの楽譜の自動生成を目指しています。

マルチモーダル対話コーパス

東北工業大学井上研究室に協力して、マルチモーダル対話コーパスの構築を行ないました。現在自由に利用可能なマルチモーダル対話コーパスはほどんど存在しません。そこで約1,700の長編映画にタグづけしコーパスを整備しました。本研究室では音声区間検出部を担当し、音声部の自動タグづけを行ないました。

マルチモーダル対話コーパス

音声合成の答え：「音声1」がコンピュータによる合成音声，「音声2」が人間の声

音声処理・言語処理に関する基礎知識、プログラミングの基礎知識、コンピュータの組み立て方法（大部分のコンピュータは自作です）、輪講の文献発表、卒研の進め方について、夏休み迄に教員、大学院生が懇切丁寧に指導します。
卒研では、Pythonなどの言語で計算機をかなり使いこなすことになります。研究室には多数のワークステーションの他、大規模な確率モデル学習のための計算サーバ、大容量の音声データベースを格納するためのファイルサーバなどが完備されています。このような計算機を使用しても、何週間もかかる計算が必要になることもあります。このためGPGPU（General-purpose computing on graphics processing units)を利用し、多数のプロセスを並列実行することにより、1/50～1/100の計算時間で実行するなどの工夫をこらしています。特に近年目覚ましい成果を挙げている深層学習モデルの利用には欠かせない技術となっています。
研究を楽しみながら進める学生を歓迎します。また海外に興味がある学生（国際学会に派遣します）を歓迎します。

音声認識・声質変換などの音声情報処理

研究の概要

研究課題

話し言葉の音声認識

マルチモーダル対話システム

水中トランシーバー

音声合成

声質変換

音楽情報処理

マルチモーダル対話コーパス

研究室の設備

研究室を希望される方へ