サイト内検索

機械学習 (ML) へのステップアップ

※本記事は、DSP Concepts社のエンジニアが作成したブログをマクニカで和訳したものになります。

DSP Concepts Machine Learning イネーブルメントプログラムは、拡大を続けています。組込みオーディオ DSP のための機械学習 (Machine learning:ML)の目的、機能、利点について、お客様やパートナーコミュニティーが、理解を深める中で浮上してきたいくつかの疑問を明確にしたいと考えました。ML エンジニアリングマネージャーのJosh Morris氏(以下 JM)に話を聞ききました。

機械学習のイメージ図

ーー ML は、入力データに基づいてパターン認識をおこなうアルゴリズムに関連するコンピューターサイエンスの一分野であり、トレーニング経験によって自動的に改善されるモデルに採用されていると仮に説明できます。この文脈における「経験」が何を意味するかについては、多くの微妙な違いがあります。この説明をさらに洗練するにはどうすればよいでしょうか。

JM:教師あり学習は、おそらく現在の運用環境で最も一般的な ML の形式です。大まかに言えば、教師あり学習を使用してトレーニングされたモデルは、経験から学習しています。教師あり学習を成功させるには、損失関数とデータセットの2つが必要です。データセットは、入力機能と目的の望ましい真実の出力の間のマッピングを提供します。損失関数は、モデルの予測出力が真実とどの程度正確に一致するかを推定する微分可能な方程式です。バックプロパゲーションを使用すると、予測の正確さに基づいてモデルの重みを更新できます。モデルにデータセットを何度も表示し、そのたびに重みを更新することで、モデルは経験から徐々に学習します。

ーー MLアルゴリズムとMLモデルの2つの概念の主な違いは何ですか?

JM:アルゴリズムは、機械学習以外の多くのものを含む、かなり広い用語です。モデルについて話すとき、私たちは通常、ニューラルネットワークのような学習アルゴリズムの訓練されたインスタンスについて話します。モデル自体はアルゴリズムではなく、むしろアルゴリズムであるトレーニングプロセスの成果物です。トレーニングプロセスの結果を保存したファイル形式と考えることができます。

ーー 機械学習モデルのトレーニングに関して、最も重要な考慮事項は何ですか?

JM:データとプロセスです。すでに多くのアルゴリズムがフレームワークで定義されています。モデルの品質に関しては、組織とデータのプラクティスが真の差別化要因です。使用しているデータを十分に理解し、再現性を確保するプラクティスを持つ必要があります。

ーー トレーニングデータの質と量は、機械学習モデルの最終的なパフォーマンスにとって非常に重要です。機能とラベル付けについて、もう少し詳しく教えてください。

JM:はい、量よりも質が重要です。ただし、大量のデータは常にあるに越したことはありません。

ラベル付けにはさまざまな形式があります。私はこれを、モデルに解決させたいタスクに対する入力と出力のマッピングだと考えています。分類の場合は、「犬」や「猫」などのラベルです。ノイズ除去アルゴリズムの場合、ターゲットはクリーンな音声記録です。

特徴エンジニアリングとは、入力データを受け取り、モデルに適した形式に変換することです。多くのオーディオアプリケーションでは、時間領域のオーディオを取り込み、FFTを介して周波数領域に変換します。オーディオを周波数領域に変換することで、データはY軸を周波数、X軸を時間とする固有の2次元構造を持つようになります。ニューラルネットワークの畳み込み層は、入力データに2次元フィルターを渡すため、この構造情報を利用できます。この変換をスキップすることもできますが、関連する情報を抽出するためにより多くの作業をおこなう必要があるため、はるかに大規模なモデルのコストがかかります。これが、特徴エンジニアリングとドメインの専門知識が依然として機械学習に非常に重要である理由です。

ーー 人間の直感と呼ばれるものと、機械がパターンを学習する方法を区別することができます。タスクに ML を適用する際に考慮すべき主な違いは何でしょうか。

JM:人間は、自分がやっていることをはるかに深く理解しています。また、現在の ML 手法よりもはるかに迅速に新しいタスクを学習することもできます。私は、ML モデルを、トレーニングに使用したデータに基づいて入力と出力を強力にマッピングする相関マシンと考える傾向があります。一般に、モデルは、トレーニングに使用したデータとは異なるデータを推定したり一般化したりするのが得意ではありません。


ーー 与えられたタスクや問題に対して、機械学習が適切に機能するかどうかをどのように判断すればよいのでしょうか?

JM:面白いことに、多くの場合、直感的なチェックは、与えられた入力データから人間がパターンを識別できるかどうかです。また、持っているデータの種類と解決しようとしているタスクに適切な種類のモデルを一致させることによって、多くの直感が得られます。

ーー 機械学習のオーディオアプリケーションにはどのようなものがありますか?

JM:認識、文字起こし、ノイズ除去はすべて、音声領域における機械学習の一般的なアプリケーションです。

ーー 最後に、DSP Conceptsが近い将来 ML でアプローチしたいと考えているオーディオ関連のタスクについて教えてください。

JM:現在、私たちは、開発とプロトタイピングのプラットフォームとして Audio Weaver を使用するオーディオアプリケーション開発者のエクスペリエンスに非常に重点を置いています。私のチームの目標の1つは、ML ライフサイクルの重要なポイントで Audio Weaver を活用することによって、モデルをプロダクションに移行するのにかかる時間を短縮することです。1月(※2022年時点)に Audio Weaver ML Module Pack をリリースできることを嬉しく思います。Audio Weaver ML Module Pack は、プラットフォームでの特徴抽出、モデルの実行、モデルチューニングに必要なサポートを提供します。

おすすめ関連記事

お問い合わせ

本記事に関して、ご質問などありましたら以下よりお問い合わせください。

DSP Concepts メーカー情報Topへ

DSP Conceptsメーカー情報Topページへ戻りたい方は、以下をクリックください。