
近年は海外でもAI、特に生成AIへの注目が非常に高まっています。本記事では生成AIにおける海外のトレンドや最新の技術動向、ユースケースのほか、AIがビジネス・テクノロジー・社会にもたらす影響についても解説します。
※:本記事は、2024 年 2 月開催の「Macnica Data・AI Forum 2024 冬」の講演を基に制作したものです。

生成AIを構成する5つのモデル
2022年にOpenAI社がChatGPTをリリースする前の機械学習は、基本的に分類や予測に使われていたものでした。しかし、最近では新しいものを生み出すことができる生成AIに注目が集まっています。その手法にはさまざまなものがありますが、今回はその中から5つをご紹介します。

1つ目は、画像生成によく使われるLatent Diffusionです。この手法ではデータに多くのノイズを足し、そこからノイズを除去することベースに似てはいるが若干異なるものを作ります。Stable Diffusionは、いかに安定性高くこれを実現できるかを目指したモデルです。
2つ目は、Variational Autoencoderです。この手法において重要となるのは、日本語で「潜在空間」を意味するLatent Spaceです。Latent Spaceとは、データからデータを見たときに、AIがそのデータの本質的な特徴や構造を捉えた、より低次元で圧縮された空間のことを指します。つまり、AIが与えられたデータの本質を理解し、それに近いものをクリエイトするというものです。
3つ目は、Generative Adversarial Networksです。こちらも画像生成によく使われます。Adversarialはサイバーセキュリティの分野でよく使われる言葉「攻撃者」のような意味合いです。この手法では、生成AIネットワークとGenerator,Discriminatorが矛と盾のように戦うことによって、高品質なデータを生成することが特徴です。前者はより説得力のあるデータを生成する後者はより精度高く本物か偽物かを分類することがミッションとなっています。
4つ目は、Autoregressive Generative Modelsです。こちらは皆さまにもっとも身近なものChatGPT・Gemini・LLaMaなどに使われています。このモデルは文章の前にある文言からその後ろに入る文言を予測し、確率が高いものを選んで文章を作ります。そのため、人間が書いたようなリアルな文章が作れます。
5つ目は、Multiagent Generative Systemsです。これは複数のエージェントが協力してお互いに影響を及ぼしながら学び合うこと新しいデータや行動予測を生成する技術です。ゲーム・社会行動学・経済・天気・交通の予測などに使われます。
現在登場している新しいスタートアップやアプリケーションは、これら5つを組み合わせたもの、もしくは1つに特化したものとなります。
企業の生成AIの活用種類
次に、皆さまがこの生成AIの技術を活用する方法を分類しました。この表は左側が消費者側に近く、右側が開発側に近い構図になっています。

一番左のConsumeでは、あらかじめファインチューニングされたファウンデーションモデルが実装されたアプリ―ケーションを買って使うというもので、多くの企業が採用しています。
その右のEmbedは、アプリケーションは自社のものを使います。ただし、生成AIについてはOpenAI社などのAPIを借り、それを搭載します。一般的にSaaSベンダーが使っている手法でもあり、私の愛用しているNotionでも、ユーザーのメモやインターネット上の情報をうまく要約しながら、Q&Aができるようになっています。
さらにその次のExtend1と2は、一般的に提供されているモデルの精度が若干低い、もしくは自らが使いたい用途に特化していない場合に採用されます。Data RetrievalやFine-Tuningを行うことで、より高品質な自社に特化したモデルやアプリケーションを作ります。
一番右のBuildは、ファンデーションモデルから自分たちで作ろうという考え方です。自分たちが持っているデータを多く学習させた独自のモデルを使い、独自のアプリケーションを作ります。
つまり、表の右に進むほど膨大な費用・時間・データが必要であり、価値を出せるまでの時間もかかりますが、より差別化されたことができます。そして、こうした取り組みを進める際にどういったテクノロジースタックがあるのかを整理したのが下図です。

中でも注目を集めているのは、図の中央にある生成AIモデルです。その中でもFoundation Modelsは146Billionの市場があるとも言われており、最近ではドメインモデルという金融・ヘルスケア・リーガルに特化したものも登場しています。また、企業がDatabricksのような製品やAWSを活用して、より業種に特化したモデルを作る傾向もあります。現在は世の中に存在するさまざまなモデルをうまくまとめるハブが必要になってきており、Hugging Face社のようなベンダーが参入しています。
そのうえで、生成モデルを使って価値を出す生成AIエンジアリングも必要です。この領域にはPrompt Engineering・Vector DB・Fine-Tuning・API Orchestration・AI TRiSMなどがあります。一般的にはこの市場の規模は16Billionと言われており、生成AIを買うのではなく作るという行為が民主化されるたびに市場が大きくなり、それを助長するための道具がスタートアップとしてどんどん出てきている状況です。
図の一番下にあるインフラストラクチャーにおいては、MicrosoftやAWSやGCPなどのクラウドベンダーが大規模に提供をしており、このAIブームによってGAFAの成長も著しく起こっていくでしょう。また、NVIDIAのようなチップベンダーもここに含まれていることから、AIを動かすためのインフラは今後より大きくなっていくと思います。
スタートアップにおいては、たとえばGPU入手までのリードタイムが長かったり、高額になったりしているのが現状です。そのため、クラウドから借り入れてコンピューティングするモデルや、生成AIに特化したチップを製造して提供するベンダーも出てきています。
図の上部にある生成AIアプリケーションについては、特に企業向けのアプリケーションの場合、HorizontalとVerticalの2種類に大別できます。まずVerticalでは、業種に特化したアプリケーションが多く出ています。一方、Horizontalではマーケティングやカスタマーサービスなど、業種を問わないさまざまな部門向けのものが出てきています。
アプリケーションのタイプ
こちらの図はHorizontalで分けられたアプリケーションをさらに4つのタイプに分類し、これまでと今後の使われ方を示したものです。色が薄い部分はデモやX(旧Twitter)の投稿ではうまくいくものの実際に使うとうまくいかない品質レベル、色が濃い部分は一般のユーザーが使える品質であることを示しています。

テキストとコードは2020年よりも前から色々と試行錯誤されており、翻訳やオートコンプリートなどに使われていました。ChatGPTがリリースされた2022年からはドラフトや簡単なコピーライティングや、複数ラインの自動変換も可能になりました。そして、ここでDALL・Eが登場し、簡単なアートやロゴ、写真なども作られるようになりました。その反面、ビデオやゲーム、3Dにはさほど使われていませんでした。
そこから2年後の2024年、テキストに関してはドラフトではなく、少し手を加えれば最終段階に進める2~3校を作れるようになりました。さらには長文の作成や、業種に特化した内容にも対応しています。コードも複数言語を扱え、変換もうまくでき、テキストから色々なプロダクトのコードをドラフトレベルで書けます。イメージやビデオについては、建築業が最初のインスピレーションを得るための材料を生成AIに作ってもらい、そこに3Dのレンダリングなどモデルをかけるなどの使われ方をされています。
ここからさらに6年が経過して2030年になると、テキストとコードはプロの開発やコピーライターの手がけるレベルのものを、生成AIが作ってくれるようになっていると思います。また、イメージも同様で、ビデオやゲームに関しては、よりパーソナライズ化された体験を各ユーザーに作れる時代がくるのではないでしょうか。
今回はこのテキストとコードに焦点を当て、スタートアップにおけるユースケースを掘り下げていきます。下図はテキスト型の生成AIのアプリケーションを、3つに分類したものです。

まず一般会話に関しては、たとえばミーティングや展示会のプレゼンの音声をテキスト化してくれるOtter社というスタートアップがあります。Grammarly社はもともとスペルチェックや文法をするスタートアップでしたが、生成AIを取り入れたことで、ユーザーの文章を編集してプロが書いたような内容に近づけられるようになりました。Writer社やCohere社は、マーケティングのコンテンツ・製品のディスクリプション・契約書などの文章を自社のトーンを反映した状態に書き換えてくれます。
どのベンダーも、これまでの事業で培ってきたデータを基にAIをうまく学習させ、自社のサービスをより使いやすく、価値のあるモデルにしています。これが業種特化型になると、さらにデータが重要になります。たとえばBloomreach社はマーケティングのキャンペーンにおいて、自動化とパーソナライズ化に特化したサービスを提供しています。具体的にはECでの購買履歴・ユーザーがクリックした箇所・いつ買われたか・などを見ることで、どのタイミングで、どんなメッセージを自動で送ればよいかを生成AIが作ってくれるサービスを提供しています。
ヘルスケアでは、患者が病院行った際の診察メモを自動的に取ることで、医者の負荷を下げるだけでなく、その後のレコードのアップデートをうまく自動化しています。これがNabla社の取り組みです。
Hippocratic AI社は色々な病院と医者の協力を促すことで、ヘルスケア領域でGPT4以上のFoundation Modelsを作ることに特化したスタートアップです。同社はアメリカのヘルスケア認定試験において、114個ある項目のうち105個でGPT4を上回るベンチマークを出しています。これはインターネットにはないデータを学習させることで、ヘルスケア専属のモデルを作っているケースだと言えます。
そしてリーガルの分野で挙げられるのが、Case Text社やEven Up社です。たとえば、弁護士は多くの文章を調べて過去の類似案件を基にどう説明するかを考えるのですが、その際のドキュメントのレビューや準備に必要な調べ物や漏れがないかのチェックなどをAIに任せています。また、モックトライアルで「自分がこう発言すればこう返ってくるだろう」というシミュレーションを行うこともできます。色々な弁護士のスタイルを設定することで、法廷に立った際にサプライズがないようにヘルプをしてくれるというわけです。
これらはいずれも、各分野の特化したデータを持っていることが高品質でリアルな提供を可能にしています。特にヘルスケアやリーガルに関しては、セキュリティとプライバシーが漏れることなく、自社内ですべて完結するところが差別化の要因になっています。
一般会話の部分には、注意が必要な点もあります。これまで、企業では自社内のコンテンツにこれを使う傾向がありましたが、外部に発信するコンテンツには使われていませんでした。加えて、使える品質にするにはチューニングも必要です。業種特化の場合は作り手がそこまで担当してくれるケースもありますが、少しでも想定していないシチュエーションになると使い物にならないこともあるので、自分で試すことが非常に重要です。
コードについては皆さまもGithubのCopilotをよく使われていると思いますが、それ以外にも色々なスタートアップが 出てきています。ただオートコンプリートしてくれるだけではなく、過去のコードの再利用や言語をまたいだコードの変換のほか、テストケースまで出してくれるものもあります。ほかにもコミュニティやマーケットプレイスを充実させ、他のユーザーのアクションをサジェスチョンしてくれたり、フロントエンドの開発やチューニングのしやすさで差別化を図っているというものが多くなっています。
アメリカ企業の取り組み
このようなスタートアップや生成AIの技術を活用し、アメリカの企業がどのようなことをしているのか、3つほど例をご紹介します。
1つ目は、小売店のWalmartです。私は学生の頃からアメリカにいるのですが、Walmartは10年前は安さと品ぞろえが売りの会社でした。しかし現在では、DXをもっとも進めている企業のひとつに変革しています 。

同社では従業員にAIの利用を促し、トレーニングを楽にするために、AIのアシスタントのツールをさまざまなところで提供しています。たとえば社内ポリシーや福利厚生を調べやすくしたり、忙しい上司ではなくAIに質問をできるようにしたりしています。これによって業務は効率化し、自立心が高まることで、各自がより色々なことをできるようにしようと考えているわけです。
ここで重要なのは誰が何を調べ、どういったことを訊き、それがちゃんと解決できたかというデータを同社が集めていることです。その結果「あなたにはこのアプリケーションが適しているから使ってみて」というサジェスチョンができ、効率化と自立化のサイクルを回せるようになったのだと言えます。また、安全に新しいツールを試せる環境を用意することでも、従業員のDX化を促しています。
顧客側の視点では、AIのサーチ機能が非常に優れていることが良い点として挙げられます。アメリカではよくホームパーティーが開かれるのですが、他のベンダーの場合は、たとえば「3歳の誕生日」と検索しても、誕生日用のTシャツが表示される程度です。しかし、実際にはデコレーションの為の風船にテーブルクロス、招待状にプレゼント、お菓子なども必要です。Walmartで同じように検索した場合には、そうしたカテゴリの異なるもの同士がすべて1列で表示されるため、非常に使いやすくなっています。そうした仕組みを実現できる理由は、やはり「誰が何を何と一緒に買っているか」という購買データがあるからでしょう。
それ以外にも、自分の写真をアップロードするとアバターのようなものが出現し、それを介して試着ができたりもします。プラットフォーム上に友達やパートナーを呼び、意見を交換できるようにしているのは面白い取り組みです。これもユーザーの声を反映して実現したのではないかと思います。
教育については、私はKhan Academyという会社の取り組みが私は好きです。同社はKhanmigoというAIを使ったサービスを提供しているのですが、こちらはソクラテス問答用を積極的に採用しています。つまり、問題の答えを教えるのではなく、学び方を教えることが重要だと考えているわけです。

創設者のKhan氏は、従兄弟に数学を教えていました。家庭教師というマンツーマンの体系は人に何かを教えるには適していますが、そこからスケールすることはなく、その内容を大衆に届けることはできません。そこで彼は、e-Learningでそれを提供していきたいと考えました。とはいえ、e-Learningはパーソナライズ体験が難しく、どうしても答えを学ぶ体験になりがちです。
そこでKhan Academy ではAIを使うことで、たとえば数学の問題が分からない場合にどの部分をどのように分解すればよいかを生徒のレベルに合わせて教えることで、少しずつステップアップし、色々な学び方を体験させています。また、生徒だけでなく先生側もカリキュラムを作るときにAIを活用しています。
3つ目は、私が2023年10月の自社イベントで共に講演をさせていただいたNASAの例です。NASAでは製造工程にAIを使って変革するという取り組みをしており、その一環として写真にある「エイリアンが作ったかのような部品」をAIでデザインし、実際に製造して宇宙に送っています。

図の左下にもある通り、AIがデザインした部品は人が作るよりも頑丈であり、しかも安く早く完成することが特徴です。具体的には、従来はデザインから宇宙に送るまでに半年から1年ほどかかっていたところが、2週間まで縮まりました。講演のとき、NASAの方は「何を変えてよくて、何を変えてはいけないのか」というAIの環境を整え、定義することが非常に重要だとおっしゃいました。その与えられた範囲の中では最適なものを作れますが、指定する範囲を間違えると、役に立たないものが完成します。
NASAは経験上、宇宙に何かを送ることが毎回はできないため、範囲の知見とデータを非常に多く有しています。そのため、完成物に対してテストする方法も多く、結果としてAIが出してきたものを実際にテストすることで、信頼性が高まったという事例です。AIはこのように製造工程を大幅に短縮できることから、単なる効率化にとどまらず、変革を起こすものだと私は考えています。
2024年のCESでもソフトウェアだけでなく、これをフィジカルの世界と繋げていくのだという講評が多く、Cyber Physical System(CPS)の時代は結構身近にきていると思います。

モビリティにおいては安全性だけではなく、パーソナル体験を向上することにも繋がっています。たとえばベンツ社は、渋滞状況を確認したうえで目的地までの所要時間に適した動画や音楽を提案してくれる機能や、ドライバーのストレスレベルに応じたルート検索などの機能を提供しています。
SONY社の場合はARの怪獣が襲ってきたり、水族館に訪れているかのような体験ができるなど、ゲーム機のような機能を取り入れることで、よりパーソナルで楽しく安全な空間を実現しています。LGやSamsungはスマート家電によって色々なものを自動化しつつ、消費電力を減らすなどの取り組みをしています。
また、ロボットアーム とAIは相性がよくロジスティックとかアグリカルチャーだけではなく、料理ロボット・写真撮影ロボット・美容ロボットなども出てくると思います。従来のロボットは与えられた特定の環境でなければうまく動作しませんでしたが、AIを活用することで、より認識とその後の判断が多様化され、高い精度で色々なものを自動化できる時代がすぐに訪れるのではないでしょうか。
生成AIのこれから

最後に生成AIの今後について、いくつかの観点で考察します。まずモデルについてはどんどん軽量化されてくるのではないかと思っています。そして、それが繋がることにより、皆さんがやりたいことをよりコストパフォーマンスよくできるようになるのではないでしょうか。
なぜなら、現在のようなChatGPTを使った文章要約は非常にコストパフォーマンスが悪く、使いにくいものだからです。したがって、それぞれのタスクに適したLLMが軽量で出てきていて、それをうまく繋ぎ合わせることが重要になってきます。そのためにオープンソースでより可視性のあるモデルが登場し、それをまとめるHUBが登場し、最終的にはサービスとして提供される時代がくると思います。
データに関してはテキストだけではなく、目や耳という感性がAIにつくことにより、音声・画像・ビデオ・3Dモデルまでもが理解できるようになってきます。そして、足りないデータとコーナーケースのデータを合成データで作成し、うまく関係性を整理して使える状態にするためのVector Databaseがより主流になります。そして、最終的には自社の持っているデータをAIに効率よく学習させ、それをうまくコーディングするエンジニアリングツールがより一般化され、AIが民主化されていく時代がくると予想されます。
このモデルとデータを組み合わせたアプリケーションが、様々な形式Virtual Assistanceから現在のソフトウェアにAIが入ったEmbeddedのもの、そしてAI Nativeなアプリケーションに変わり、デジタルツインの時代がきます。
最後は、これらを支えるためのセキュリティです。これには攻撃者によるプロントインジェクションや情報漏洩をブロックするためのFire Wall、AIがあり得ない情報を出さないようにするためのHallucination Managementなどがあります。これらが登場したうえで、AIが作ったものと人が作ったものを分類できるようなDetectionがあり、最終的には人が判断のループに入る仕組みが重要になってくると思います。
マクニカではさまざまなトレンドとスタートアップを追いながら、日本の皆さまに適切なものを継続的に提供していきたいと考えています。AIのデータ関連でご相談・ご質問がございましたら、ぜひお問い合わせいただけますと幸いです。