
※本記事は、2024 年 10 月開催の「Macnica Data・AI Forum 2024 秋」の講演を基に制作したものです。
はじめに
近年、生成AI (Generative AI) 技術の進展により、多くの企業が生成AIを利用してさまざまなビジネス課題を解決しようとしています。特に、ChatGPTの登場以降、生成AIは広く注目を集めてきました。しかし、企業が生成AIを導入する際には、データ保護とプライバシーの問題が大きな壁となります。クラウドサービスを利用することが難しい企業にとって、オンプレミス環境でのローカルLLM (Large Language Model) の構築が一つの解決策となります。本記事では、生成AIの歴史や基礎知識、クラウドとオンプレミス環境の比較、そしてローカルLLMの構築ポイントについて解説します。
生成AIの歴史
生成AIの発展は、1950年代のルールベースのAIに始まり、1980年代の機械学習、1990年代から2000年代のニューラルネットワーク、そして2017年に登場したトランスフォーマーモデルへと続いています。トランスフォーマーモデルの出現により、生成AIは大きな飛躍を遂げ、現在ではGPTやBERTなどの高度なモデルが開発されています。これらのモデルは、チャットボットのような応答システムや文章生成、画像生成など多岐にわたるタスクに応用されています。
生成AIとは?
生成AIは、既存のデータや情報を基に新たなデータや情報を生成する機械学習アルゴリズムの一種です。例えば、文章や画像、プログラムコードなど様々な形式のデータを生成することが可能です。生成AIを企業で利用する際には、ドメイン固有の知識を持つAIが求められます。しかし、一般的なLLMは公開データを基に学習しているため、特定の業界や企業の業務に関する知識は不足しています。そのため、企業独自のユースケースに特化するためには、カスタマイズが必要です。
クラウド vs オンプレミス
生成AIを導入する際、クラウド環境とオンプレミス環境のどちらを選択するかは大きな課題です。それぞれにメリットとデメリットが存在します。
カスタマイズ性
クラウドサービスでは、提供されるモデルやツールの範囲内でしかカスタマイズができない場合があります。一方、オンプレミス環境では、自社のニーズに合わせた高度なカスタマイズが可能です。これは、各企業が独自のデータや仕様に基づいて生成AIを最適化するために非常に重要です。
セキュリティ
クラウド環境では、データが外部サーバーにアップロードされるため、セキュリティリスクが高まります。特に機密情報や個人情報を扱う場合、このリスクは無視できません。オンプレミス環境では、データが自社のネットワーク内で管理されるため、セキュリティ面での安心感があります。AzureやAWSなどのクラウドプロバイダも高度なセキュリティ機能を提供していますが、オンプレミスの完全なコントロールには及びません。
費用
クラウドサービスは一般的に初期費用が低く、重量課金制で利用した分だけ料金が発生します。しかし、利用が増えるとコストが予測しにくくなるというデメリットがあります。一方で、オンプレミス環境では高額な初期投資が必要ですが、運用コストは安定しやすく、長期的には費用の見積もりがしやすいです。
運用までの時間
クラウドサービスは、契約後すぐに利用を開始できるため、迅速な導入が可能です。一方、オンプレミス環境ではハードウェアの購入や設定などに時間がかかる場合があります。しかし、一度構築すれば高い自由度と制御性が得られます。
連携のしやすさ
クラウドサービスはインターネットを通じて利用されるため、社内規定による制約が少ない環境では便利です。一方で、オンプレミス環境は自社ネットワーク内に構築されるため、内部システムやアプリケーションとの連携がしやすく、データの一元管理が可能です。

クラウドとオンプレミスはそれぞれ一長一短があります。企業のニーズやデータの性質に応じて最適な環境を選択することが重要です。特に機密データを扱う場合、オンプレミス環境のセキュリティとカスタマイズ性の高さは大きなメリットとなります。
オンプレミスでのローカルLLM構築のポイント
ファインチューニング vs RAG
生成AIの利用において、ファインチューニングとRAG (Retrieval Augmented Generation) の2つのアプローチがあります。ファインチューニングは、既存のモデルを特定のタスクやドメインに適合させるために再学習する手法で、回答の精度が高いというメリットがあります。一方、RAGは既存のデータベースを検索し、必要な情報を組み合わせて回答を生成する手法で、最新情報の更新が容易という利点があります。多くの企業では、これらを組み合わせて利用することで柔軟なシステムを実現しています。

見落としがちなポイント
LLMをローカルで構築する際には、モデルのパラメーター数や推論エンジン、推論サーバーの選定が重要です。パラメーター数が多いほどモデルの精度が向上しますが、その分必要なGPUメモリも増加します。また、推論エンジンは高速化とメモリ最適化のために必要であり、推論サーバーは多数のユーザーが同時に利用する際のスループットやレイテンシを考慮する必要があります。これらのポイントを踏まえた上で、適切なシステムを構築することが求められます。
オンプレミスでのローカルLLM構築方法
大量のOSSを利用して構築
オープンソースソフトウェア(OSS)の利用は、低コストで自由度の高いシステム構築を可能にします。しかし、OSSの利用には高度な技術力と時間が求められます。特に推論パイプラインの構築やモデルのカスタマイズは専門知識が必要となり、適切なサポートが得られない場合にはプロジェクトが遅延するリスクもあります。
NVIDIAのSDKを活用したローカルLLMの構築方法
一方で、NVIDIA社のGPUに最適化されている生成AI関連のSDKであるNeMo,NIMを活用することで、NVIDIA社からのサポートを受けながら、すぐに使用できるコンテナを組み合わせて、効率の良い開発が可能になります。

LLM開発から展開までのプラットフォーム:NVIDIA NeMo
NVIDIA NeMoは、LLMの開発から展開までを包括的にサポートするプラットフォームです。NeMoは複数のマイクロサービスで構成されており、データのキュレーションからファインチューニング、評価、埋め込みモデルの展開、そして望ましくない回答を抑制するためのガードレールまで幅広い機能を提供します。これにより、企業は効率的且つ安全に生成AIを活用することができます。
企業における生成AIの展開を加速する推論用SDK:NVIDIA NIM
NVIDIA NIMは、生成AIの推論に特化したSDKで、基盤モデルやRAGモデルのコンテナを簡単に利用できるように設計されています。TensorRT LLMやTriton Inference Serverなどの推論エンジンを活用することで、高効率でスケーラブルな推論環境を提供します。また、業界標準のAPIに対応しているため、既存システムとの統合も容易です。
LLM開発/推論に求められるシステムとは?
理想的なシステムは、開発から推論まで一貫して実施できることです。そのためには、Kubernetesをベースとしたスケーラブルなインフラや、Run AIのような高機能なジョブスケジューラの導入が効率的です。また、GPUリソースの適切な割り当てや、負荷に応じたオートスケーリング機能も重要です。これにより、企業はROIの高い開発環境を実現し、柔軟に生成AIを展開することが可能になります。
まとめ
企業が生成AIを活用するためには、高度なカスタマイズとセキュリティが求められます。オンプレミス環境でのローカルLLMの構築は、そのための有効な手段です。NVIDIAのSDKを活用することで、効率よく開発から推論までをサポートし、企業の生成AI導入を加速させることができます。今後も技術の進展とともに、より使いやすいソリューションが提供されることが期待されます。

株式会社マクニカ クラビスカンパニー
第一技術統括部技術第4部第1課
川辺 空雅
2023年に株式会社マクニカへ入社。NVIDIA社の組み込む向けGPUであるJetsonや、生成AI関連のソフトウェア開発ツールを中心にお客様の課題解決するべく企業への普及活動を行っている。