はじめに
監視・製造・物流・店舗など、今この瞬間にも現場のカメラは増え続けています。世界的には動画が全データトラフィックの50%以上を占めるにもかかわらず、実際に分析されるのは1%未満と言われます。この記事をご覧になっている皆様の企業内でも、「録画した動画や監視カメラ映像が活用しきれていない」という課題はございませんでしょうか。
NVIDIAが提供するNVIDIA AI Blueprint for Video Search and Summarization(以下、VSS)は、これら未活用の映像資産を、AIの力で“分析・要約・検索”できるようにする新しいプラットフォームです。
本記事では、VSSの入門記事として、「VSSとは何か」、「VSSはどのような価値をもたらすのか」、「VSSの具体的なユースケースは何か」を中心にわかりやすく解説します。
この記事のゴールと対象
ゴール
VSSの概要、もたらす価値、ユースケースを知ることで、ご自身の企業でどのような活用ができるかをイメージする。
対象
- ご自身の企業の映像資産(録画した動画や監視カメラ映像)を活用しきれていないと考えている方
- VSSの導入に興味のある方
- 完全ローカルで動作するAIビデオ分析ソリューションに興味のある方
本記事で扱う範囲
- VSSの概要
- VSSのコア技術:VLM(Vision Language Model)について
- 従来のビデオ分析ソリューションとの違い
- VSSがもたらす価値
- 導入事例/ユースケースの紹介
- VSSの試し方
VSSとは?:概要とできること
概要
VSSは、動画入力(ライブストリーム / 録画)、生成AI(VLM/LLM/RAG)、CVメタデータ(オプション)、音声データ(オプション)を統合し、動画の検索・要約・Q&A・アラートといった機能を実現する、ビデオ分析AIエージェントの開発・運用プラットフォームです。
主要機能
動画の要約:ユーザーが設定したプロンプトを基に、関心イベント(危険行動・異常・手順逸脱など)を抽出し、要約テキストや重要クリップを生成。
チャット形式でQ&Aが可能:チャット形式で動画の内容に質問。長時間動画から、対象・行動・時刻・状況で絞り込みも可能。
アラート:リアルタイムで異常検知を行い、アラートを生成。
高い運用性:オンプレ / クラウド でのデプロイに対応。既存カメラ・録画資産をそのまま利用可能。API連携も用意。
NVIDIA公式ドキュメント
本記事で網羅できない詳細な部分については、NVIDIAが提供する公式ドキュメントを参照ください。
このページでは、VSSの概要、アーキテクチャ、プラットフォーム毎の導入手順、API仕様などの情報が網羅されています。
対応ハードウェア
NVIDIAで動作確認済みのハードウェアに関しては、公式ドキュメント内こちらのページをご覧ください。:Supported Platforms — Video Search and Summarization Agent
VSSのコア技術:VLM(Vision Language Model)とは
VLMの概要
画像、動画、ライブストリームなどの入力に対して、見て・理解して・説明するAIモデルのことです。VSSの中では、動画やライブストリームからキャプション(字幕)を生成する部分を担っています。
Cosmos-Reason1
NVIDIAが開発した「オープンでカスタマイズ可能な推論型VLM」です。
このモデルは、物理的な常識や知識を理解し、人間のような“考え方”をして説明するように設計されており、「多様な現場シナリオに強い」、「人の手による細かいラベル付けが不要」などの特徴があります。
VSSではデフォルト設定でCosmos-Reason1をVLMとして使用できます。
Cosmos-Reason1についての詳細は、以下のWebページをご覧ください。
Cosmos-Reason1 — Cosmos ... NVIDIA公式ドキュメント
Cosmos Cookbook ... Cosmos-Reason1を目的に合わせてカスタマイズするための手順が載っているガイド
従来のビデオ分析ソリューションとの違い
VSSは、従来のビデオ分析ソリューションと比べてどのような優位性があるのでしょうか。
以下の画像は、従来のビデオ分析ソリューション(左側・紫)とVSS(右側・緑)の比較を示しています。
以下、画像内の項目について上から順に解説していきます。
①従来は、動画の内容を確認するのに膨大な時間と工数がかかることがありました。
VSSは動画から重要なポイント・指定した関心イベントを自動でまとめてくれるため、内容確認のための時間と工数を大幅に削減できます。
②従来は、専用UIやタグ検索でアプリケーションを運用する場合があり、現場オペレーターが使い方を覚えるための負担が大きいことがありました。
VSSではチャット形式での動画内容について質問できるという機能があり、使い方を覚えるための負担は大きくありません。
③従来は導入に長い時間と工数がかかる場合がありました。
VSSはオンプレ/クラウド両対応で、箱から出してすぐ使えるような導入の簡単さを備えており、API連携も用意されていることにより素早い導入が可能です。
④従来はビデオ分析ソリューションの導入に、専用機器を用意する必要があるケースがありました。
VSSでは、既にある映像資産・カメラをVSSに入力するだけで、AIビデオ分析ソリューションを実現できます。
VSSがもたらす価値
これらの特徴によって、VSSはビジネスにどのような価値をもたらすのでしょうか。
以下の画像は、中央部分がVSSの特徴、その周りにVSSがもたらす価値としてご紹介したい4つを表しています。
以下、画像にある「VSSがビジネスにもたらす価値」4つについて解説します。
市場投入までの時間を短縮:素早いデプロイが可能であることや、既存カメラ・映像資産の活用によって、サービスの市場投入までの時間を短縮できます。
新しいソリューションの提供:VLM×LLMの強力な組み合わせにより、新しいビデオ分析ソリューションの提供に貢献します。
お客様の多様なニーズへの対応:高いカスタマイズ性も持ち合わせており、オンプレ/クラウド、さらにはNVIDIA Jetson™ といったエッジデバイスでも展開可能なことから、多様なニーズへの対応を実現します。
コスト削減や高い費用対効果:人的レビューコストの削減や自然言語で運用可能なことによって、コスト削減や高い費用対効果をもたらします。
導入事例/ユースケースの紹介
この章では、VSSの導入事例とユースケースを紹介します。
まずはじめに、以下の動画をご覧ください。
ご覧いただいた通り、AIビデオ分析ソリューションは、幅広い産業、幅広い場面で活用のチャンスがあるソリューションであるということがわかります。
続いて、以下はNVIDIAから公開されているVSSのユースケースになります。
Pegatron Corporation(エレクトロニクス製造):ケース スタディ: Pegatron、ビジュアル AI エージェントとデジタルツインを活用してファクトリ運用を拡張 | NVIDIA
VSSを活用した「Assembly Guiding Agent (組立指導エージェント)」を開発し、組立工程における逸脱やミス(例:ネジの付け忘れ)をリアルタイムで検知してアラートを上げることで、エラーの是正に貢献。
清水建設株式会社(建設業界):建設現場における「Video Search and Summarization」の活用 | AI Day Tokyo 2025 | NVIDIA On-Demand
建築現場映像をAIが自動で検索・要約し、作業レポートを作成。管理業務の負担を軽減。
VSSを試したい場合
| Build a Video Search and Summarization (VSS) Agent Blueprint by NVIDIA | NVIDIA NIM | 無料でサンプル動画・サンプルプロンプトを用いたVSSをお試しいただけます。 |
| Console | Brev |
NVIDIAのクラウド環境を用いて、ハードウェアの用意をすることなく、お手持ちの動画を用いたVSSのお試しができます(時間課金の必要がございます)。 詳しくは、公式ドキュメント(NVIDIA Brev Launchable — Video Search and Summarization Agent)をご覧ください。 |
| VSS Githubページ | Githubで公開されているので、VSSを動かす環境が既に揃っている場合は、こちらから試すことができます。 |
| Cloud — Video Search and Summarization Agent |
Amazon Web Services (AWS) 、 Google Cloud Platform (GCP) でもデプロイが可能です。 詳しくはリンクの公式ドキュメントをご覧ください。 |
終わりに
本記事が、VSS理解への一助となれば幸いです。
マクニカでは、VSSの導入支援、ハードウェアのNVIDIA GPUカードやGPUワークステーションの選定やサポートが可能です。
VSS導入を検討される際は、下部のお問い合わせボタンよりお問い合わせください。