マルチモーダルAIとは？活用事例と今後の展望をサクッと解説！ - AI事業

AI事業メニュー

AI事業
HOME

macnica.aiとは

AIで実現できること

製品・サービス

セミナー

資料一覧

macnica.aiとは

macnica.aiの強み

業種・テーマ・ライブラリ別から探す

導入事例

ブログ

用語集

● こんな方におすすめ ●

・今話題のマルチモーダルAIについて知りたい方
・マルチモーダルAIの活用事例を知りたい方

この記事を読み終えるのに必要な時間

10分

はじめに

こんにちは！今回は、「マルチモーダルAI」についてです。

近年、深層学習の中で一際話題となっている「マルチモーダルAI」について解説していきます。
この記事では、「マルチモーダルAI」という言葉を初めて聞いた方や、AIの知識にはそれほど詳しくないが、話題のAI動向について知りたい方を想定しています。

この記事を読んでいただくことによって、今後のAI業界がどのように動いていくのか、先駆けを考えていただくきっかけになると幸いです。
それでは早速解説していきましょう！！

マルチモーダルAIとは

マルチモーダルAIとは、複数種類のデータを入力し、統合的に処理する深層学習の手法のことです。
従来の畳み込みニュートラルネットワーク(CNN)では単一種類の情報入力から判定機の作成や、データの加工を行っていました。
一方、マルチモーダルAIは、複数種類のデータを入力とし、統合的に処理する深層学習の手法のことを指します。

人間は情報を処理する際、「五感」に代表される視覚情報、嗅覚、触覚、味覚、聴覚など外部から入ってくる複数の感覚情報を組み合わせて処理しています。
マルチモーダルAIでは、このような人間の脳が行っている情報処理に近い複数のデータから深層学習モデルの作成を行い、判定器を作るという手法をとります。

モーダルとは入力情報の種類

例えば、ある画像に写っている動物が「犬である」ことを判定する場合、画像（視覚情報）のみを学習させ、AIモデルを作るケースがほとんどです。
このような、一つの情報のみを学習させて、判定することを「シングルモーダル」と言います。
一方で、マルチモーダルAIの場合、人間の五感である「視覚情報」「聴覚情報」「嗅覚情報」といった複数のモーダルから「犬である」ことを判定することができるようになります。
これは、人間に近い「五感センサー」を持ったロボットのような判定器が目の前にいることをイメージすると分かりやすいと思います。

しかし、これは将来的に実現されるかもしれないマルチモーダルAIの未来像であり、実際に利用されているマルチモーダル学習はその域に達していません。
では、どのような情報を利用しているのでしょうか。
「犬の画像」の例でいえば、その画像のメタ情報（どこで撮影されたものか、いつ撮影されたか、なんのカメラで撮影されたかなど）を利用したり、そのユーザーが他にどんな写真を撮影しているかや、そのユーザーの年齢や性別といった情報も利用したりし、判別の精度を上げていくといったことが可能性として考えられます。

ディープラーニングの発展によりマルチモーダルが注目される

昨今のディープラーニング研究の飛躍的な向上によって、より人間に近い感覚での判定を行うための手法として、「マルチモーダルAI」に注目集まっています。
マルチモーダル学習が進むと、一つのAIモデルで複数の因数を判別できるようになります。そうすることで、予想のつかない異常パターンについても対処できるようになる可能性が高まります。
異常パターンの分かりやすい例としては、フリマアプリでのニセの出品や、マッチングアプリでのニセのプロフィールの発見などが考えられます。

マルチモーダルAIの歴史

では、マルチモーダル学習がどのように発展を遂げてきたのか、マルチモーダルAIの歴史について見ていきましょう。

「音声」や「画像」から言語を認識したり、テキストに変換したりするマルチモーダル学習の走りとなる研究は1986年から行われました。
実は、人間は雑音や周囲の音が大きく、聞き取りづらい環境では口の動きと音声を同時に読み取ることによって、言語をより正確に処理しています。
こうした研究は1986年から行われており、同時に「複雑な音声」と「画像」から音声を認識したり、テキストに変換する技術も研究されてきました。
これが、マルチモダール学習の走りです。

その後、2013年にユーザーが任意のテキストを入力すると、楽しそうな表情から、怒ったものまで様々な気分の表情で話させることを可能にする研究が始まりました。
音声と画像の両方の情報を使って人の感情（喜び・悲しみ・怒り）を認識するという研究がなされたり、画像に対して説明文を自動生成するものや、テキストやキャプションを条件に、マッチする画像を自動生成するものが登場したりしました。
他にも、画像に対する質問をテキストで行うとAIが回答してくれるものや、画像情報から自動的に音声を生成するものも登場しました。

現在も様々な進化を続けながら、データ収集、情報処理などの資源コストが劇的に下がってきたことや、アルゴリズムが発展して精度が向上してきたことで、様々なビジネス用途にマルチモーダルAIの技術が使われ始めています。

マルチモーダルAIで広がるビジネス

では、実際にどのようなシーンでマルチモーダーAIは活用されているのでしょうか。２つのケースから解説してきます。

▼フリマアプリA社
フリマアプリを運営するA社では、24時間商品の出品が可能になっています。そのため、新規で出品されたものが、正しい出品であるかを判断するのにAIを活用した監視を行っています。
新規出品情報が登録されると、出品された品物の写真や説明文章、品物につけられたタグ（ブランド情報など）から、偽物である可能性が高い出品物を検出することができます。こうすることで、人間のオペレーターが偽物の可能性がある出品物をいち早くチェックすることができ、アプリ全体の安全性向上に繋がるわけです。

▼スポーツの試合データ分析
サッカーなどのチームスポーツにおいて、選手ごとのパフォーマンスを多角的に分析する用途にもマルチモーダルAIシステムは使用されます。
カメラやレーザー、選手の腕につけたウェアラブルセンサーなどを使用して選手ごとの計測データをリアルタイムに収集・分析し、選手やコーチにリアルタムにフィードバックを行います。今まで監督や選手の経験や勘だけに頼っていた戦略の立案や選手の起用など、データを用いて客観的に行うことができるため、より選手のパフォーマンスを安定して引き出すことができると期待されています。

マルチモーダルAIの今後の可能性

マルチモーダルAIは、今後はどういった方向に発展していくのでしょうか？

▼インプットの進化
これまでは画像やテキストなど、扱いやすい情報が入力によく使われてきましたが、今後はロボットに搭載された触覚センサーや嗅覚センサーなどから、より人間同士のやり取りに近いコミュニケーションがとれるAIが生まれてくるかもしれません。
音声認識AIひとつとっても、発話者の声色を読み取って感情に寄り添った対話ができるようになれば、介護や医療の現場をはじめとする多くのシチュエーションでマルチモーダルAIが活躍する可能性があります。

▼アウトプットの進化
文章を入力すると、それが自動で映像化されるなど、画像生成AIが画像や音声、人間の動きや背景で流れる音楽なども生成できるようになるかもしれません。また、誰もが家にいながら映画監督となり、すばらしい芸術を一瞬で作り上げ、共有できる世の中も夢ではありません。
今までは、「画像入力→画像出力」など単一のモーダル間の情報生成だったものが、より人間の知的生産活動に近いことができるAIが生み出されるようになり、ビジネス分野やスポーツ、エンターテイメントなど、あらゆる分野に新たな革新が起こることでしょう。

今後もマルチモーダルAI技術には注目が集まっていくことが予想されます。