こんな方におすすめの記事です

  • AI活用に向けて学習環境構築を検討している方
  • AIインフラ構築にお悩みの方
  • Kubernetesに興味をお持ちの方

この記事を読み終えるのに必要な時間

5分

はじめに

はじめまして、マクニカAI女子部のSambaです。

2か月前にAIチームのマーケターとしてデビューしました。
今回はAIビギナーの私が全3回にわたり、これから本格的にAIを活用していきたいと考えている方々のヒントとなるようにお伝えできたらと思います。

マクニカ×コンサルティング

私たちは製造業を中心としたお客様の競争力強化をサポートするため、お客様が直面している「人材不足の解消」や「生産効率の向上」といった課題に対して、コンサルティングをしています。

最近ではお客様の課題に対し、AIを活用すべき案件が増えてきました。
そこで重要となるのが、AI用の高速かつ柔軟なインフラを整備・統合し、大量のデータを使った膨大な計算を高速に実施すること。
これを実現するためマクニカではAI学習環境として、2019年3月にNVIDIA DGX-2™を導入し運用を開始しています。

今回、DGX-2導入プロジェクトに尽力したエンジニアの生の声をお届けすべく、インタビューを実施しました。
第一回目はプロジェクトリーダーである AIリサーチセンター センター長の楠が語る「導入編」をお届けします。

01  最先端の深層学習には、最先端の技術を。

ー 初めに、DGX-2導入プロジェクトが発足したきっかけについて教えてください。

楠:新規事業として約3年前にこのビジネスを始めてから、これまで約150件のAI/IoT導入をサポートさせていただきました。
はじめのころは「ある設備における異常検知をしたい」といった機械単体の課題解決を進めるケースが多かったのですが、最近では

「工場全体の稼働率向上のために工程全体を最適化したい」
「品質を安定させるために歩留まりを改善したい」
など、

解決したい課題が複雑になり、それと共に扱うデータ量が急速に増えています。
1PoCにかけられる時間も、数か月だったところから1か月程度まで短縮したいというご要望をいただくようになりました。

そのような状況下でデータ分析を請け負う私たちとしては、とにかく計算を早く回す必要があるんです。
いま手持ちのワークステーションで運用していくには限界があると感じ、大規模なシステムを導入しようと決めた、というのがきっかけです。

ー 環境構築に向けて、具体的には何が必要だったのでしょうか?

楠:まずはシステムの基盤となるハードウェアシステムについてはNVIDIA製 のDGX-2を採用し、管理サーバーやストレージは既存の基幹システムの一部を利用しています。
他社製品との比較や、既存システムへGPUカードを追加することも検討しましたが、より大容量かつ高性能な専用のインフラを導入すべきと考え、DGX-2を採用しました。

また今回、コンテナ型の仮想化を実現するためにKubernetesを導入 する必要があったので、仮想環境に特化しているTwistlockのコンテナセキュリティを選択しました。

ー すべてマクニカで扱っている商材になりますね。

楠:はい。競合製品との比較もしましたが、マクニカに最先端の技術が集結していたことと、やはり社内で一気通貫してバックアップ体制があるというのは大きな要素でした。

システムを使用するユーザー側とインフラを構築する側、双方の目線から取り組むことでノウハウの蓄積にも繋がったので、今後ソリューションの一環として、環境構築サービスも提供していけたらと考えています。

ー クラウドという選択肢もあったと思うのですが、オンプレミスを選んだ理由はあったのでしょうか?

楠:オンプレミスを選択するにあたって、費用対効果はしっかりと見極める必要がありました。
クラウドを利用した場合、一番の懸念は料金が決まらないこと。
従量課金制なので使った分だけお金がかかってしまう、これは実際に開発している現場担当者からすると怖くて仕方がないことなんです。

さまざまな条件を組み合わせて学習を回していくためにはオンプレミスで減価償却していくほうが現実的だったということです。コストが固定されるので自由にトライができますから。
実運用に移行した際には、学習頻度もそこまで高くないので、クラウドの方がメンテナンス性を考えても運用しやすいかもしれません。そこは使い分けだと考えています。

02  インフラがAI活用を阻害している現実

ー 運用開始まで、どのくらい時間がかかりましたか?

楠:実は最初は1か月くらいでできるかな、と思っていたんです。ハードウェア購入して配線繋いでOS搭載したら動くだろうと。でもそれなりに時間はかかりましたね。

本格的に統合環境を構築しようとされているお客様からも、同じように苦労しているという話をよく耳にしますし、
実際にAIを活用しようとしている企業の40%でインフラ整備が課題となっている、というデータもあります。
データセンターにGPUサーバーを入れた後どうやって使いこなしていくのか、ここが最大のハードルになっているんです。

ー 具体的に何が予想外のハードルだったのでしょうか?

楠:まず一つに、企業業務を支える既存システムとの連携ですね。

AI向けのシステムは、これまでIT部門が構築・運用してきた基幹システムとは大きく異なるんです。技術的な要素も全く違うので、新たな知識も必要になる訳です。
全体的な構成図を検討するところから実際の運用まで、IT部門の協力なしには進められなかったと思います。

もう一点は先ほどの知識にも関わる部分ですが、Kubernetesの使いこなしですね。最近注目を集めている技術ですが、使いこなす上ではまだまだ情報が十分ではありません。
ここに関しては担当エンジニアチームが非常に頑張ってくれました。

ー なるほど。そのあたりは実際に構築作業にあたったエンジニアの方々に次回詳しく聞いてみたいと思います。
楠さん、ありがとうございました!

まとめ

今回はAIインフラを構築することになったきっかけや進め方についてインタビューを実施しました。
同じような悩みを持って共感いただいた方も多いのではないでしょうか。
次回は「ベンチマークによる既存システムとの比較」および、実際に現場で奮闘したエンジニア達に聞いた
「構築を進めていく中で分かった3つのポイント」をお届けします。お楽しみに!!

学習環境構築サービスを含めたAIソリューションは、下記ページでご紹介しております。