最近、音声をコマンドとして動作するスマートスピーカーが話題になっています。このような機器は、話しかけるだけで簡単に動作しますが、皆さんは機械がどのように音声を認識しているかご存知でしょうか。
今回は音声認識システムの仕組みと、入力部分での誤認識の対処方法、3rd Partyから提供されているIPを用いた音声認識技術や、開発期間やコストを抑えたい方におすすめの音声認識ソリューションを紹介します。
音声認識システムの概要
音声認識システムは、主に以下の処理によって動作しています。

1. オーディオの入力と信号処理
マイクアレイで音をキャプチャして、ノイズキャンセルなど信号処理を行い、品質の高い音データを生成します。これによって、音声認識エンジンでの精度を向上させます。
2. 初期音声認識処理(ボイストリガー、ローカルコマンド)
組み込み機器での音声認識エンジンは常時起動されています。このエンジンで入力音声データを捕捉し、入力データに“キーワード”があった際に一連のアクションを発生させます。また、キーワードを複数持つことで、様々な命令を実行させることも可能です。
3. クラウドによる認識処理
ネットワーク接続を介したクラウドの自然対話認識を実行することで、より複雑な文脈を解釈でき、クラウドベースのサービスを実行できます。
入力側で誤認識が起きてしまう理由と対処方法
音声入力からクラウドによる認識処理まで長いルートのため、誤認識が起きてしまう原因は様々なことが考えられます。ここでは、先ほど紹介した一般的な構成図でいうと「オーディオの入力と信号処理」と「初期音声認識処理」の部分に絞って説明します。この部分で音声の誤認識が発生してしまう理由は、主に以下の3点があります。
- 音声認識の精度が不足している
- ノイズの多い環境での使用
- 機械と話者の位置や距離が遠すぎる。または、近すぎるため
これらの原因から、技術的に対処するポイントは「音声が入力された際にきれいに受け取れていること」と「音声認識のエンジン自体の性能」が重要といえます。
もし誤認識が起きてしまった場合、まずは単純に機械の設置場所を変えたり、機械と話者の位置を変更して対処できるか試してください。それでも解決できない場合は、以下に挙げた技術や機器で対処する方法があります。
マイクアレイ
マイクアレイとは、マイクロホンを複数設置したものです。
1つのマイクロホンでは空間的に音の情報を取得できませんが、複数設置することによって、音の指向性や、音がどこから来ているか割り出すことができます。

ビームフォーミング
ビームフォーミングとは、電波を絞り込んで特定の方向へ発する技術です。また、音響機器だけではなくスマホや無線LANなどの電波の分野でも使用されている技術です。
下図の場合、全体の音声からノイズとなる灰色の箇所を引き算して、必要な方向の音声(赤枠)だけ抽出します。

ノイズリダクション

ノイズリダクションとは、音声や映像などの信号に含まれるノイズを抑制し、信号を認識しやすくさせる技術です。
具体的にイメージしやすい処理で説明すると、音声入力レベルの高い音を信号通過させ、入力レベルの低い音をノイズとして減衰させるフィルタのことを指します。
エコーキャンセル

機器にスピーカーのような音声出力装置も付属している場合、マイクにはスピーカからの音も拾ってしまうため、エコーやハウリングが発生します。
エコーキャンセルはこれを抑制する技術のことを言い、電話や電話会議システムなどで使われる技術です。
Texas Instruments社が提供する3つの音声認識ソリューション
Texas Instruments社(以降TI社)には、先ほど紹介した誤認識を減らすためのアルゴリズムが実装可能なハードウェアと、音声トリガーを組み合わせたソリューションを提供しております。
また、一部のソリューションには、スマートフォンやAIスピーカーなどで既に実績のある3rd Party "Sensroy社" が提供している組み込み向け音声認識エンジンを搭載しています。
それぞれ特長と、活用できるアプリケーションの例をまとめたので紹介します。
各ソリューション共通の特長
- PCM1864(Audio ADC)にマイクを複数(最大4ch)を接続
- 4chのマイクや、8chのサークル(円状)マイクのデザインも提供
→オーディオの入力と信号処理の精度を向上
- Audio ADCからDSP(C5000、C6000シリーズ)に生のオーディオデータを転送
- DSPでエコーキャンセル、ビームフォーミング、ASNR(Adaptive Spectral Noise Reduction per microphone)など実行
- 最適化されたオーディオデータをDSPや外部プロセッサで動作する認識エンジンにデータを渡す
→初期音声認識処理の精度を向上

1. マイクアレイによるビームフォーミングを使用したボイストリガー
こちらは、TIのリファレンス・デザインを活用した3rd Partyの音声認識ソリューションです。
TrulyHandsfree™ という音声認識エンジンを使用したキーワード認識や、複数マイクによるビームフォーミングが可能です。また、高品質な信号の選択ができるマルチソース選択に対応しています。これにより、ノイズの多い環境での性能向上や、広範囲の音が取得できます。

特長
- 単一のデジタル信号プロセッサ(DSP)と一連のマイクロフォンを使用して、ノイズの多い環境から明瞭な音声を抽出
- オーディオ・ソースから背景ノイズを除去
- 音声認識エンジンへ明瞭な音声を送り、より優れた音声認識を実現
アプリケーション例
- 音声起動デジタル・アシスタント・アプリケーション向けのクラウド・インターフェース・ベースの音声認識
- スマート・ホーム・アプリケーション向けのクラウド・インターフェース・ベースの音声認識
- 音声ベースの家電機器制御用のローカル音声認識
- 音声および会話アプリケーション
本リファレンスデザインの詳細はこちら
TIDEP-0077 Audio Pre-processing System Reference Design for Voice-based Applications Using C5517
TrulyHandsfreeとは?

米国Sensory社が開発した組み込み向け音声認識エンジンです。
モバイル、ウェアラブル機器などの組み込み機器に搭載するとコマンド・トリガーを用いた音声認識による機器の制御などが可能です。
また、プロセッサの低消費電力モード状態での音声認識による起動が可能で、省メモリ設計、ノイズ環境下での認識、速いレスポンスなど、組み込み機器に特化した特長を備えています。
2. IBM Watson(R) へのクラウド接続を持つ音声トリガおよび処理のリファレンス・デザイン
この信号処理ベースのリファレンス・デザインは、デジタル信号プロセッサ(DSP)へ複数のマイクロフォン入力を使用して、高品質の音声信号の取得、トリガ単語の認識、および音声コマンドの記録と IBM Watson® クラウド・ベース・サービスへの送信を行います。Watson™ は、ローカルに記録された、文章化された音声(音声コマンド)を返します。

特長
- 複数のマイクロフォンのサポート(2つまたは4つ)
- オーディオのプリプロセッシング機能
- IBM Watsonクラウドへの接続
- Sensory™ TrulyHandsFree™ キーワード認識
- キーワードのトリガ後にオーディオを自動録音
- 音声からテキストへの変換
アプリケーション例
- 音声起動のデジタル・アシスタント製品
- 音声起動のビルディング・オートメーション
- ビデオ・ドアベル
- 消費者向けオーディオ製品
本リファレンスデザインの詳細はこちら
IBM Watson へのクラウド接続を採用した音声トリガと音声処理のリファレンス・デザイン
3. ノイズや他の散乱要因からクリアな音声とオーディオを抽出するリファレンス・デザイン
最近はノイズの多い環境からクリアな音声を抽出するシステムの需要が生じています。
このデザインは、複数のマイク、1 個のビーム・フォーミング・アルゴリズム、他の複数のプロセスを使用しています。これらを搭載することで、ノイズや他の散乱要因からクリアな音声とオーディオを抽出できるリファレンス・デザインです。

特長
- 単一のデジタル信号プロセッサ(DSP)と円形のマイクロフォン基板(CMB)を使用して、ノイズの多い環境から音声を抽出
- オーディオ・ソースから背景ノイズを除去
- CMBによりオーディオ・ソースを360°受信可能
アプリケーション例
- 音声起動デジタル・アシスタント・アプリケーション向けのクラウド・インターフェース・ベースの音声認識
- スマート・ホーム・アプリケーション向けのクラウド・インターフェース・ベースの音声認識
- 音声ベースの家電機器制御用のローカル音声認識
- 音声および会話アプリケーション
本リファレンスデザインの詳細はこちら
66AK2G02 を使用する音声ベース・アプリケーション用のオーディオ・プリプロセッシング・システムのリファレンス・デザイン
ソリューションの要となる製品・技術
フロントエンド処理向けDSP C5000&C6000シリーズ
この2種類のDSPは、フロントエンド処理向けのDSPです。
C5000はバッテリーで動くようなポータブル機器向けの製品です。また、C6000は据え置きの機器や、ネットワークの接続が必要な機器向けの製品です。

C5000 DSP(ポータブル機器向け)
- メインプロダクト:TMS320C5515、C5517、C5535、C5545
- 製品特長:低消費電力、小型、低価格
- パフォーマンス:50MHz から200MHzの固定小数点DSP
- インターフェース:I2S、オーディオシリアルポート、UART、USBなど

C6000 DSP(据え置き機器向け)
- メインプロダクト:TMS320C674x DSP、66AK2G0x
- 製品特長:低消費電力、浮動小数点演算DSP、高性能
- パフォーマンス:最大456MHz(C674x)、最大600MHz(66AK2G0x)
- インターフェース:I2S、オーディオシリアルポート、イーサネット、USB
使用されているAudio ADCの特長
PCM186xファミリのオーディオフロントエンドデバイスは、オーディオ機能の統合に対する新しいアプローチを採用しております。また、欧州のエコデザイン法への準拠を容易にし、高性能の最終製品を実現します。
更に、5V電源や外部プログラマブル・ゲイン・アンプが不要なため、小型でスマートな製品を低コストで実現できます。

特長
- 小型サイズ
- レコード品質がとても高い
- 複数のチップが接続できるようTDM(Time Division Multiplexing)モードをサポート
- アナログとデジタルマイクどちらもサポート
仕様
- 103db SNR
- ~128-mW stereo record @48kHz
- 4chのステレオアナログ入力
PCM1864を使ったマイクロフォンのリファレンス・デザイン
TI社では、開発の時短に繋がるリファレンス・デザインをご用意しています。
下記2つのリファレンス・デザインは、どちらも音声トリガーや音声認識などの明確な音声を必要とするアプリケーション向けの物です。
このデザインを使用すれば、DSPシステムがノイズの多い環境からクリアな音声を抽出してデジタルストリームに変換します。
Circular Microphone Array Board (CMB)
- 7つのマイクと中央に1つのマイクが実装され、2つのPCM1864 Audio ADC搭載
- DSPとのI/FはI2Sを使用
リファレンス・デザインはこちら
PCM1864-Based Circular Microphone Board (CMB) Reference Design
Linear Microphone Board (LMB)
- 4つのマイクが実装され、PCM1864 Audio ADCが搭載
- DSPとのI/FはI2Sを使用
リファレンス・デザインはこちら
PCM1864-Based Linear Microphone Board (LMB) Reference Design

TI社のソリューションで簡単に音声操作
いかがでしたでしょうか。
現在、音声による機器の操作が注目されてきており、身の回りにある様々なものが音声操作になるかと思われます。
TI社のハードウェアと3rd Partyのソリューションを使用することで、より簡単にコマンド操作を組み込むことができます。
お問い合わせはこちら
今回ご紹介した製品について、ご興味のある方はお気軽にお問い合わせください。
関連情報
おすすめ記事/資料はこちら
フレーズに応答する音声認識デモを作ってみよう
マイコンとはここが違う!デジタル信号処理に特化したDSPとは
センサとは何か?電子化、IoT化のための基礎知識
商品の購入はこちら
メーカーサイト/その他関連リンクはこちら
DSP(デジタル・シグナル・プロセッサ)概要
C5000™ 超低消費電力 DSP
C6000 電力最適化 DSP
C6000 マルチコア DSP+ARM SoC
センサリ社( Sensory Inc. )