サイト内検索

フィジカルAIを支えるVLA(Vision-Language-Action)とは?  ロボット制御デモで仕組みと活用例を解説

なぜ今、フィジカルAIが注目されているの?

近年、製造業や物流、サービス業を中心にロボット活用が急速に拡大しています。

実際、国際ロボット連盟(IFR)が公開した「World Robotics 2025 report」(※)によると、2024年の産業用ロボットの新規導入台数は54.2万台に達し、年間導入台数は10年前と比較して2倍以上に増加しています。こうした背景には、人手不足への対応や生産性向上、自動化ニーズの高まりがあります。

※出典:IFR「World Robotics 2025 report – INDUSTRIAL ROBOTS – released by IFR」

 

しかし、多くのロボットは事前に定義されたプログラムに従って動作する仕組みであり、環境や作業内容の変化に柔軟に対応することは容易ではありません。例えば、工場内で対象物の位置が少し変わったり、新しい部品を扱う必要が生じたりした場合、認識モデルや動作プログラムの調整が必要になるケースがあります。

 

こうした課題を解決する技術として注目されているのが「フィジカルAI」です。

フィジカルAIとは、AIが現実世界の状況を認識し、人の指示や周囲の環境を理解しながら、自律的に行動する技術のことを指します。

従来のAIが画像認識やチャットなどデジタル空間での処理を中心としていたのに対し、フィジカルAIロボットや自律移動機器などの実世界での行動まで担うことが特徴です。

その実現を支える技術の一つとして、近年注目を集めているのがVLA(Vision-Language-Action)モデルです。VLAは、画像認識・言語理解・行動生成を統合し、人の指示を理解してロボットの動作を自律的に生成するAIモデルとして期待されています。

 

本記事では、SiMa.aiMLSoC™ Modalix上で動作するVLAデモ動画をもとに、フィジカルAIを支えるVLAの仕組みと、ロボティクス分野における活用可能性について解説します。

VLA(Vision-Language-Action)とは?

VLAは、Vision(画像認識)、Language(言語理解)とAction(行動生成)を統合したAIモデルです。

カメラから取得した映像をもとに周囲の状況を理解し、人から与えられた自然言語の指示を解釈し、その結果としてロボットの行動を直接生成します。

 

従来のロボットシステムでは、カメラで対象物を認識する機能、移動経路や作業手順を決定する機能、ロボットアームやモーターを制御する機能などを、それぞれ個別に設計・実装するのが一般的でした。

例えば「マーカーをペン立てに入れる」という作業を行う場合でも、まず対象物を認識し、その位置を特定した上で、どの位置からマーカーを掴み、どのような経路でアームを動かすかを個別に計算する必要があります。そのため、対象物や作業内容が変わるたびに、認識モデルや制御ロジックの調整が必要になるケースも少なくありませんでした。

 

一方、VLAはカメラ映像と自然言語による指示を入力として受け取り、実行すべき行動を直接生成します。これにより、従来のように詳細な手順やルールをあらかじめ定義しなくても、状況や指示内容に応じた柔軟なタスク実行が可能になります。

ロボット基盤モデルの代表例 ― NVIDIA GR00T

VLAの代表的な実装例として注目されているのが、NVIDIA社が開発するロボット向け基盤モデル「GR00T(Generalist Robot 00 Technology)」です。

GR00Tは、視覚情報と言語指示を理解し、ロボットの行動を生成するVLAモデルとして設計されています。人間が自然言語で与えた指示を理解し、周囲の状況を認識しながら適切な動作を生成できることが特徴です。

従来のロボットのように個別のタスクごとにプログラムを作り込むのではなく、多様なタスクへ柔軟に対応できるロボット基盤モデルとして期待されています。

 

今回のデモでは、GR00T 1.5相当のVLA構成をSiMa.aiMLSoC™ Modalix上で動作させています。通常、高度な画像認識や行動生成を行うロボット基盤モデルには高い演算性能が求められますが、デモではそれを低消費電力なエッジ環境で実現している点も特徴の一つです。

VLAデモ動画で見るフィジカルAIの動作

それでは実際に、SiMa.aiMLSoC™ Modalix上で動作するVLAデモを見てみましょう。

本デモでは、GR00T 1.5相当の構成をModalix上で実装し、人からの指示を理解しながらロボットアームを制御する様子をご覧いただけます(英語の動画になります)。

デモでは、作業エリア内にマーカーやペン、ペン立てが配置されています。ロボットは手首に搭載されたカメラと上部カメラから映像を取得し、周囲の状況を認識します。

 

① カメラ映像から周囲の状況を認識

まず、VLAモデルは手首カメラと上部カメラから取得した映像をもとに、作業エリア内に存在する物体を認識します。

今回のデモでは、マーカーやペン、ペン立てなど複数の物体が存在しており、それぞれの位置関係も把握しています。

 

② 自然言語による指示を理解

次に、「マーカーをペン立てに入れてください」という自然言語の指示を入力します。

VLAモデルは単に物体を認識するだけでなく、どの物体を対象にすべきか、何を達成するべきか、といった指示の意図を理解します。

 

③ 行動を生成してタスクを実行

認識した周囲の状況と指示内容をもとに、VLAモデルは実行すべき行動を生成します。

どの物体を選択するか、どのような順序でアームを動かすかを判断し、マーカーを掴んでペン立てへ移動させる一連の動作を自律的に実行します。最終的にマーカーをペン立てへ収納し、タスクを完了します。

GR00Tデモから考えられる活用想定例

今回のデモは「マーカーをペン立てに入れる」というシンプルなタスクですが、その本質は人の指示を理解し、対象物を認識しながら自律的に行動を生成する点にあります。

そのため、製造業や物流業界を中心に様々な用途への応用が期待できます。

 

*製造現場での部品供給支援

製造現場では、多品種少量生産の拡大に伴い、扱う部品や生産品目が頻繁に変化しています。

従来のロボットでは、対象部品や搬送ルートごとに事前設定やプログラムの変更が必要になる場合がありますが、VLAを活用することで、

 「次の工程に使用する部品Xを持ってきてください」
 「青色のケースに入っている部品Xを搬送してください」

といった指示を理解し、対象部品を選択して搬送することが期待できます。今回のデモでマーカーを識別して選択していたように、複数の部品の中から必要な部品を判断しながら作業を実行できる点が活かせます。

  

*工具・治具の受け渡し支援

製造現場や設備保守の現場では、多数の工具や治具が使用されています。VLAを搭載したロボットであれば、

 「工具Xを持ってきてください」
 「赤いケースの中にある工具Xを渡してください」

といった自然な指示を理解し、目的の工具を選択して作業者へ受け渡すことができます。

特に、作業内容によって必要な工具が変わる現場では、固定的なルールベース制御ではなく、状況に応じて対象物を判断できる点が有用です。

  

*物流倉庫でのピッキング支援

物流現場では、取り扱う商品の種類や保管場所が日々変化しています。VLAを活用することで、

 「商品Xの箱を出荷エリアへ運んでください」
 「右側の棚にある赤いラベルの商品Xをピッキングしてください」

といった指示を理解し、対象商品を選択して作業を実行するロボットの実現が期待できます。

従来のように商品ごとに細かなルールを設定するだけでなく、自然言語による柔軟な作業指示への対応も可能になります。

まとめ:フィジカルAIを支えるVLAとエッジで動く生成AI

今回ご紹介した事例では、NVIDIA社のロボット基盤モデル・GR00T 1.5で採用されているVLAアーキテクチャを参考に、カメラ映像から周囲の状況を認識するとともに、人からの自然言語による指示を理解し、自律的に行動を生成するフィジカルAIを実現しています。

従来のロボットでは、対象物の認識や動作手順の決定、制御ロジックなどを個別に設計する必要がありました。一方、VLAモデルは認識・理解・行動生成を統合的に処理することで、人の指示に応じた柔軟なタスク実行を可能にします。

  

また、本デモではこのようなロボット基盤モデルを、SiMa.aiMLSoC™ Modalix上で動作させています。小型・低消費電力でありながら最大50TOPSの高効率推論を実現し、フィジカルAI・生成AIなどの高度なAI処理を、エッジで即時実行します。Arm Cortex-A65搭載による柔軟な開発環境も、大きな導入メリットとなります。

 

ぜひ、現場でのAI活用検討に本記事をお役立てください。

お問い合わせ

製品の詳細・技術的なご質問・サンプル依頼・お見積りなど、まずはお気軽にご相談ください。

SiMa.ai メーカー情報 Top へ

エッジAIユースケース集(デモ動画付き)

エッジAI導入のアイデアをお探しの方に、SiMa.aiのMLSoCを活用したデモを紹介しています