音声とコンピュータ
人間の音声をデータとして扱い,コンピュータで処理する技術を総称
して音声情報処理と呼びます.人間の言葉を文字へ変換する音声認識,
逆に文字を人間の言葉に変換する音声合成など様々な技術が含まれます.
音声検索や歌声の合成など徐々に身近な技術となってきていますが,
まだまだ未解決な問題が多くあります.本研究室では,このような音声に関わるさまざまな研究を行なっています.
人工知能(AI)と音声情報処理

数年前よりニュースなどで人工知能という言葉を頻繁に聞くようになりました.最近ではChatGPTのような言語生成AIをはじめとする生成系AIが注目を集めています.人工知能が注目されるようになったのは,機械学習の一手法であるディープラーニングの成功によるところが大きいと言えます.この機械学習と音声認識は,切っても切れない深い関係にあります.音声には様々な変動要因があり,これを認識するためには多数話者の大量データの分析が必要となります.このため古くから機械学習を利用してきました.ディープラーニングも,まず音声・画像認識分野で成功を収めました.現在では音声認識のみならず,音声合成,声質変換など,さまざまな音声情報処理技術に応用されています.ディープラーニングは一般的に計算量が多く時間がかかりますが,本研究室では科学技術計算用GPUを装備した計算サーバを多数揃え,高速計算を行なっています.
最新情報
2025.10.23
APSIPA-ASC 2025においてM2の坂田一成さんが音声合成に関する発表を行いました..[デモ]
2025.9.25
IEEE GCCE2025において小林清流さん(25年3月修士修了)がニューラルフォルマントボコーダについて口頭発表,M2の関戸陽士さん,B4の畑中秀一郎さんがマルチモーダル対話についてデモ発表しました.なお小林さんはExcellent
Paper Award Bronze Prizeを受賞しました.おめでとうございます[賞状・メダル].
2025.9.10
日本音響学会秋季研究発表会においてM2の田崎晃基さんが楽曲の自動採譜に関する発表を行いました.[デモ]
2025.4.12
「進化するヒトと機械の音声コミュニケーション Vol.2」が発刊されました.小坂は3章第1節「音声による感情認識の開発」を担当しています[参照].
2025.4.9
VRを用いたマルチモーダル対話システムVRAIMのプロジェクトを公開します[参照].
内容については下記を参照してください.
細谷,関戸,小坂,「生成AIを用いたVR空間内3Dエージェントとのマルチモーダル対話システムの開発」日本音響学会春季講演論文集,2-2-5 (2025.3).
研究
小坂研究室では,音声認識を中心とした音声情報処理の研究を行っています.また機械学習応用の研究も行っています.主な研究テーマは以下の通りです. [詳細]
- 話し言葉の音声認識
- マルチモーダル対話システム
- 声質変換
- 音声合成
- 音楽情報処理
- 機械学習応用