はじめに
近年、音声認識を活用したデバイスやアプリケーションが急速に拡大しています。しかし、現実環境では周囲の雑音や反響が多く、音声ノイズ抑制が認識精度のボトルネックとなっていました。
従来は、ノイズの逆位相を生成して音声信号を相殺する方式が一般的でしたが、この方法は目的の音声信号が既知である場合にしか有効ではないという課題がありました。
Infineon社のPSOC™ Edgeは、この課題をAI(機械学習)で解決します。
学習モデルを用いて「必要な音声」と「ノイズ」を自動的に識別・分離することで、これまで困難だった状況下でも高精度なノイズ抑制を実現します。
また、AIモデルはサンプルとして提供可能ですので、ModusToolbox®を用いた開発環境で簡単に評価・実装することができます。
これにより、従来よりも短期間で高精度な音声ノイズ抑制システムを開発でき、音声認識率を飛躍的に向上させることが可能です。
Audio Front Endとは
Audio Front End(AFE)とは、Infineon社が提供する音声信号処理向けのソフトウェアコンポーネント群の総称です。
音声入力デバイスや音声認識アプリケーションにおいて、マイクから取得した音声をよりクリアに、認識しやすい状態へと整えるための前処理を担います。
Infineon社では、これらのAFEコンポーネントを簡単に構築・最適化できる専用ツールとして、Audio Front-End Configuratorを提供しています。
このツールのGUIを使うことで、個々の処理ブロックを視覚的に組み合わせたり、パラメータを調整して最適な音声処理パイプラインを設計することが可能です。
PSOC™ Edgeとの組み合わせにより、エッジAIによるノイズ抑制やビームフォーミングを実現できます。
主な機能ブロック
Audio Front Endでは、以下のような機能ブロックを有効化/無効化して構成を自由に設計できます。
|
機能ブロック |
概要 |
|---|---|
|
Equalizer |
周波数特性を調整し、特定帯域の音を強調・減衰させます。 |
|
Acoustic Echo Canceller (AEC) |
スピーカからの自発生音を検出し、エコーを除去します。ハンズフリー通話などで効果を発揮します。 |
|
Beamforming |
指定方向からの音声を強調し、それ以外の方向の音を抑制します。複数マイク入力を活用します。 |
|
Dereverb |
室内などで発生する残響成分を低減し、明瞭な音声を抽出します。 |
|
Noise Suppression |
AIモデルを用いた演算によって、周囲の環境ノイズをリアルタイムで低減します。 |
これらのブロックを自由に組み合わせることで、アプリケーションの用途に応じた柔軟な音声処理パイプラインを構築できます。
また、各ブロックのパラメータはGUI上で直感的に設定できるため、専門的なDSP知識がなくても音声処理をカスタマイズ可能です。
Audio Front End 概要
Audio Front End 構築用ツール
Audio Front End構築用ツールはInfineon社の開発ツールModusToolbox™から使用することができます。ModusToolbox™のAudio Front-End Configurator のGUI を使用して、各機能ブロックを構成することができます。
GUIでできることの一例として
・機能ブロックの有効化/無効化
・各種パラメータ設定
が可能です。
サンプルイメージ:Audio Front-End Configurator GUI
左図:パラメータおよび機能ブロック設定 右図:Beamforming 設定
デモ音声で聴くノイズ抑制の効果
PSOC™ Edgeによるノイズ抑制の効果を、実際の音声でご確認いただけます。
同じ音源を「処理前」と「AIによるノイズ除去後」で比較しています。
音の違いを体感いただくため、イヤホンまたはヘッドホンの使用を推奨します。
AI処理後では、背景ノイズが大幅に抑制され、話者の声がより明瞭に聞き取れるようになっています。
この技術は、音声認識精度の向上や多様なアプリケーションで効果を発揮します。
関連リンク
お問い合わせ
本キットや開発ツールModusToolbox™、Audio Front-End Configuratorについてご興味いただけましたら以下よりお問い合わせください。