イマコト

最新の記事から注目のキーワードをピックアップ!

Article Detail

NTTなど、高品質な通話や高精度な音声認識が可能な「小型インテリジェントマイク」を開発

2014-09-29

100dBの騒音下でも高品質な通話や音声認識を可能とする小型インテリジェントマイクを開発
〜様々な利用シーン向けの音響信号処理技術を取り揃え、NTT−ATより展開〜


 日本電信電話株式会社(以下NTT、本社:東京都千代田区、代表取締役社長:鵜浦博夫)は、100dBの騒音下(工場内や電車通過中のガード下など)でも、高品質な通話や高精度な音声認識を可能とする「小型インテリジェントマイク」を開発しました。
 小型インテリジェントマイクとは、安価な汎用のマイク素子2〜3個と、目的とする音声とそれ以外の雑音を高精度に推定して分離する「音響信号処理技術」を組み合わせることで、高騒音環境下でも、話者の音声を明瞭に集音できるものです。(図1)
 本マイクを活用することで、これまで実現が困難であった大きな騒音下、例えば、工場内や工事現場等の機械騒音下や、高速道路を走行中の自動車内などにおいても、高品質な通話(明瞭なハンズフリー通話)や高精度な音声認識が可能になります。
 これまで、NTTでは、“単一マイク”で構成されるスマートフォンや音声会議装置、録音機器でも、高品質な通話・録音、音声認識を可能とする「背景雑音抑圧技術」(※)や、カメラでズームするように遠く離れた場所(約20m)で話す人々の声から指定した人の声のみをクリアに集音可能な「ズームアップマイク技術」(*1)などを開発してまいりました。
 今後NTTでは、新開発の「小型インテリジェントマイク」によって、従来技術では困難であった音声サービスを実現し、様々な端末と音声を利用したサービスの飛躍的な発展に貢献してまいります。(図2)
 ※「モバイル音声認識向け背景雑音抑圧技術(*2)」、「音声会議・録音機器向け背景雑音抑圧技術(*3)」


<販売について>
 エヌ・ティ・ティ・アドバンステクノロジ株式会社(以下:NTT−AT、本社:神奈川県川崎市、代表取締役社長:花澤 隆(◇))は、今回NTTが開発した「小型インテリジェントマイク技術」をもとにした、ソフトウェアライブラリ「インテリジェントマイクライブラリ(仮称)」の販売を2014年10月より開始します。また、その他、音響処理技術も取得し、本ライブラリを、これら各種技術と組み合わせ、様々な利用シーン・ハードウェア構成における音声を利用した商品/サービス/ソリューションとして提供していく予定です。

 ◇社長名の正式表記は添付の関連資料を参照

 ・図1〜図2は添付の関連資料を参照


 *1 凹型反射板の前に準最適に配置された多数のマイク素子と、それぞれのマイク間に生じる位相/振幅の差を利用することで、任意の位置の目的音を強調して集音する技術(2014年4月16日ニュースリリースhttp://www.ntt.co.jp/news2014/1404/140416a.html
 *2 音声らしさを表す統計音声モデルとユーザーの発話の経過に応じて変化する特徴量を用い、雑音下での音声認識精度を大きく改善する技術
 *3 通話向け用途に、比較的長時間(数秒〜10秒程度)の雑音データからその雑音のスペクトルの時間変化推定することで、雑音の時間変化にも対応した雑音除去技術


<【NTT】インテリジェントマイク技術の開発について>
1.開発の背景
 これまで、工場内や工事現場等の機械騒音下や高速道路で走行中の自動車内など高騒音下において、音声認識やハンズフリー通話を行った場合、音声認識率の著しい低下や通話音声の劣化が生じ、実用が困難でした。

2.NTTが開発した技術のポイント(3点)
 「小型インテリジェントマイク」は、音の到来方向、周波数特性、時間的な変動特性を最大限に活用し、目的とする音声とそれ以外の雑音を高精度に推定して分離することを可能とするものです。
 これにより、従来の技術では実現が困難であった“小型”かつ“2〜3個のマイクロホン素子”でも、目的音声をほとんど劣化させることなく、周囲雑音のパワーを約1/10000まで低減させることが可能となり、100dBといった超高騒音下において、高精度な音声認識や高品質な通話を実現します。


<ポイント1>ビームフォーミングとスペクトルフィルタ処理のハイブリッド構成
 目的音声の到来方向に指向性を向け、その音を強調するビームフォーミング処理に加え、雑音成分を推定して、周波数スペクトル領域で抑圧するスペクトルフィルタ処理を組み合わせる構成としました。
 少数のマイクで形成するビームフォーミングでは鋭い指向性を形成することができず、十分に目的音声を強調することができませんが、後段のスペクトルフィルタ処理で補うことにより、多数のマイクを利用するビームフォーミングに匹敵する性能が得られます。

<ポイント2>雑音の空間分布推定
  ビームフォーミングは、目的とする音声を狙うだけでなく、レーダーのようにそれ以外のあらゆる方向に指向性を形成し、方向ごとの雑音の空間分布を推定します。目的音と雑音の空間分布が異なっていれば、雑音成分を従来よりも正確に推定することができます。

<ポイント3>雑音の時間変動特性を利用
 雑音には、エアコンの音のように定常的な雑音、BGMや他者の話し声のように時間変動する雑音があります。推定した雑音の空間分布と時間変動特性に応じた方法で、雑音の周波数スペクトルを高精度に推定します。

 ・参考画像・リリース詳細は添付の関連資料を参照





Related Contents

関連書籍

  • 死ぬまでに行きたい! 世界の絶景

    死ぬまでに行きたい! 世界の絶景

    詩歩2013-07-31

    Amazon Kindle版
  • 星空風景 (SKYSCAPE PHOTOBOOK)

    星空風景 (SKYSCAPE PHOTOBOOK)

    前田 徳彦2014-09-02

    Amazon Kindle版
  • ロンドン写真集 (撮影数100):ヨーロッパシリーズ1

    ロンドン写真集 (撮影数100):ヨーロッパシリーズ1

    大久保 明2014-08-12

    Amazon Kindle版
  • BLUE MOMENT

    BLUE MOMENT

    吉村 和敏2007-12-13

    Amazon Kindle版