AI 音声技術の進化

※本記事は、DSP Concepts社のエンジニアが作成したブログをマクニカで和訳したものになります。

はじめに

本記事では、DSP Concepts Fluent.ai が提供するテクノロジーの連携で、より優れた音声対応製品を開発する方法について詳しく説明します。現在および将来の製品にどのような意味を持つのか、人工知能 (AI) の進歩は、近い将来の音声製品開発にどのような影響を与えるのか、機械学習のその他の進歩と、音声対応製品におけるAIの今後の機会についても併せて説明します。

現在の音声対応製品に必要なソリューション

Market Research Futureのレポートによると、音声アシスタントの世界市場は2025年までに73億米ドルの市場価値に達すると予想されており、これは24%以上のCAGRに相当します。地域とデバイスの種類別に見ると、音声対応製品は、それぞれの市場セグメントで最大限の成果を上げるために、パフォーマンスにおいて競争力があり、さまざまな言語や地域に適応できる必要があります。


開発および製造コストの高さや、時には困難な音声技術の統合といった市場のさらなる制約は、製品メーカーにとって問題となる可能性があります。製品メーカーは、競争力のある音声認識機能を開発して展開するために、異なる言語や地域のアクセントに合わせて設計を調整しながら、開発に多くの時間を使う必要があります。

消費者の立場から見ると、音声対応製品で予想される主な障害は、音響環境の問題、コマンドの解釈と処理に伴う遅延、および不正確な音声認識です。これらの問題は、ノイズに強く、複数の地域に展開できる柔軟なコマンドセットを提供し、物理的またはコストの制約に合わせて拡張できる入力信号処理機能(オーディオ・フロントエンドと呼ばれる)の組み合わせた音声製品の必要性につながります。

DSP ConceptsとFluent.aiのソリューション

音声製品開発の要求を満たすために、DSP Conceptsは、Audio WeaverプラットフォームとTalkToオーディオフロントエンドという柔軟なソリューションを提供しています。これらのソリューションは、エッジベースのFluent.ai Air自動意図認識エンジンと組合わせることで、製品メーカーが多言語サポート、低遅延、柔軟なコマンドセットを備えたノイズに強いシステムを提供できるツール セットを構成し、開発コストを削減し、市場投入までの時間を短縮します。

Audio Weaver

Audio Weaverは、ローコードでハードウェアに依存しないオーディオプラットフォームであり、プロトタイピングから製造までの開発ワークフローを合理化するツールを提供します。Audio Weaverには、AWE DesignerとAWE Coreの2つの部分が含まれています。AWE Designerアプリケーションを使用すると、ドラッグアンドドロップインターフェースを利用して迅速に設計することができます。最終テスト、チューニング、製造のために、AWE Designerで設計されたものは、AWE Coreランタイムライブラリーが埋め込まれたターゲット製品(MCU、専用DSP、またはSoC)にデプロイされます。オーディオ処理機能のこの動的なインスタンス化により、迅速なイテレーションが可能になり、完成した設計をデプロイする前に、各機能を並行して開発できます。設計の各側面がデバイスにすでに存在する特定のライブラリーを対象としているため、最終製品との統合が簡単になります。

TalkTo

TalkToは、高度な信号処理技術を組み合わせて、音声アシスタントや音声認識エンジンにクリーンなオーディオ信号を提供するカスタマイズ可能なオーディオフロントエンド (AFE) です。TalkToが提供する広範囲にわたる信号処理は、さまざまなユースケースや必要なパフォーマンスフットプリントを満たすように調整できます。また、多数のデバイスフォームファクターの要求や制約を満たすために、複数のマイクアレイトポロジーを使用できます。TalkToの機能は、さまざまなシステムの処理能力に合わせて選択できます。機能豊富なマルチマイク設計の要求を満たすためにスケールアップしたり、低電力でプロセッサー効率の高い設計の要求を満たすためにスケールダウンしたりできます。

Fluent.ai Air

Fluent.ai Airは、音声から意図までを直接理解する音声言語理解システムです。エッジベースのユニバーサル言語サポートを特長とするFluent.ai Airは、複数の言語とアクセントを同時に、非常に正確に理解するデバイス上のコマンドセットを提供し、クラウドに接続したり、音声をテキストに変換したりすることなく意図を検出します。TalkToと同様に、Fluent.ai Airはスケーラブルなテクノロジーです。最も自然な音声ユーザーエクスペリエンスを実現するために、定義済みのコマンドは、構文が分解され、アクション/オブジェクト/場所のスロットにフィルター処理され、コマンドセットに対してマップされる「スロット」モデルを使用して、可変または同義の言い回しでトリガーできます。「ダイレクトインテント」モデルは、より小さな語彙とより可変性の少ないコマンド フレーズを使用する低電力デバイスに採用できます。

現在と将来のAIへのアプローチ

Fluent.aiの組み込みAIへのアプローチは、従来のクラウドベースのシステムとは異なります。クラウドへの接続は、音声でWeb検索を実行するような特定のユースケースに役立ちますが、エッジベースのAIは、オフラインの性質上、プライベートで設計するため、はるかに低いレイテンシーを提供します。クラウドはより多くの情報へのアクセスと潜在的な処理能力を提供しますが、Fluent.ai Airはプライバシーと低いレイテンシーの利点を活用しながら、占有する処理フットプリントを小さくし、ユーザーに直感的な音声UIを提供するシステムです。

Fluent.ai Airのようなテクノロジーは、AIデバイス自体がインテリジェントになり、インターネット接続に依存する必要がなくなる未来を示しています。スマートなマシンリスナーとのより自然な対話の魅力に加えて、組み込みAIは、より広範囲な採用を促進する現実的な利点を示しています。処理がローカルで実行されるため、この種のテクノロジーを利用するデバイスは、ネットワークインフラストラクチャーやISPを必要としないため、地理的な障害が少なく展開できます。GoogleやAlexa Voiceなどのサードパーティーのサービスに依存しないため、デバイスの統合が簡素化され、デバイスの使用には、より応答性の高いフィードバックが含まれ、音声デバイスの所有者も独自のデータを保持します。

機械学習の進歩は、将来の音声AI開発にも道を開いています。機械学習は、音声対応の支援製品の将来にとって重要です。複数のソースやセンサーからのデータ収集を改善し、より有用なアクションを可能にし、ユーザーによる意識的な介入を減らすことができます。つまり、製品はより強力になり、よりユーザーフレンドリーになります。

Tiny Machine Learning (TinyML) は、ソフトウェア、組み込み機械学習、デバイス上のデータ分析を組込んだディープラーニングの新興分野です。この分野の進歩により、将来的には、できるだけ小さなスペースを必要とするAIモデルが縮小され、より小さなデバイスがこれまで以上にスマートになることが可能になります。

Automated Machine Learning (AutoML) は、データの前処理や特徴量の選択といった機械学習のプロセスを自動化しようとする分野です。AutoMLはAIを構築するAIと考えることができます。機械学習プロセスを自動化することができ、機械学習モデルを利用するために高度な専門知識は必要ありません。これにより、将来的にはAIシステムを迅速にトレーニングし、異なるテクノロジーやユースケースに適応させることが可能になります。

よりスマートで未来的な音声アシスタントのビジョンには、いくつかの共通点があるように思います。未来のマシーンリスナーは、ほとんどの場合、人間同士の会話のペースとトーンに近いクエリと応答で、より会話的でインテリジェントなものとして想像されています。私たちが思い描く未来は、鋭敏に反応するAIを使用して生体認証データを解釈し、それに基づいて動作するデバイスがあり、声の抑揚やストレスを検出し、ユーザーの傾向に基づいて推奨やクエリを実行することです。このようなデバイスは、機械のクエリを使用して、会話を模倣した応答を提供します。これは、以前の対話を思い出し、それに応じて適応する能力によって裏付けられており、ユーザーとの信頼関係を構築しているように見えます。合図に応答し、実際の対話を実行する能力は、未来のバーチャルアシスタントでは一般的になると考えられています。

将来の音声アシスタントは、さまざまなソースから情報を取得し、それに合わせて動作や推奨事項を調整する、より積極的なものになると予想されています。たとえば、ユーザーのスケジュールを学習し、そのデータを使用時間に応じた電力料金と組合わせることで、ユーザーの日常的な活動の範囲内で可能な限り低いコストで機能を実行するスマート家電などです。これは、多数のソースからの情報を処理し、そのデータを使用してタスクの実行を改善するという、機械学習の核心です。

未来との出会い

これらの分野の進歩を考え、これから何が起こるかを想像するとき、Audio Weaver、TalkTo、Fluent.ai Airのような技術はどのように製品メーカーの前進に役立つのでしょうか?

Audio Weaverの機能は、製品メーカーの迅速なイノベーションとリスク軽減を支援することで、製品メーカーが未来に近づくのを支援します。仮想キャンバス上にモジュールと呼ばれる信号処理ビルディングブロックを配置し、それらを仮想ワイヤーで接続し、モジュールプロパティーを調整して設計を調整することで設計できます。PCのサウンドカードを使用してAWE Designer内から試聴もできます。複数のチームメンバーが同時に異なる部分の設計と調整にアプローチし、機能を並行して開発し、後でそれらを最終的な設計に結合することができます。このコラボレーションと、反復と新しい設計を迅速かつシームレスにテストする機能により、プロセス全体が合理化されます。

サードパーティーによって開発されたIPを含める機能により、Audio Weaverは追加のカスタマイズされたモジュールの形で新しい技術を統合することもできます。没入型3Dオーディオレンダリングやアクティブノイズキャンセリングソリューションなど、数十のサードパーティーアルゴリズムが含まれており、開発者に高度で専門的なシステムを提供します。

同様に、TalkToオーディオフロントエンドのカスタマイズ性は、将来の音声UIユースケースに対応するために必要なパフォーマンスと柔軟性を提供します。TalkToは、ノイズリダクションを備えた単一マイク設計から、音響エコーキャンセレーション、ビームフォーミング、適応型干渉キャンセレーションなどを備えた8マイクアレイを使用する設計まで、さまざまな製品の要求に応じて拡張できます。

最後に、Fluent.ai Airには言語的な柔軟性があり、1つの製品バージョンを広い地域の市場に展開できるため、開発オーバーヘッドが軽減されます。また、このソリューションは、動作フットプリントが小さいため、小型で低電力のデバイスに組み込むことができます。この効率的なリソース使用により、Airはデバイス上の機械学習モデルなど、よりリソースを消費する他のテクノロジーと共存することもできます。さらに、Fluent.aiの独自の音響のみのアプローチとスロットモデルアーキテクチャーにより、Fluent.ai Airはさまざまな言い回しで音声コマンドを正確に理解することができ、エンドユーザーに柔軟性と音声対応デバイスの使いやすさを提供して、最も自然なユーザーエクスペリエンスを実現します。

結論

DSP ConceptsとFluent.aiが提供するテクノロジーの柔軟性とパワーは、AIの今後の進歩の軌跡と一致しており、成長する音声市場のほとんどを獲得したい開発者が採用できます。

おすすめ関連記事

お問い合わせ

本記事に関して、ご質問などありましたら以下よりお問い合わせください。

DSP Concepts メーカー情報Topへ

DSP Conceptsメーカー情報Topページへ戻りたい方は、以下をクリックください。