サイト内検索

データ及び生成AIの利用に関する法的問題点

※本記事は、2024 年 10 月開催の「Macnica Data・AI Forum 2024 秋」の講演を基に制作したものです。

ITの著しい発展にともなってデータを扱う機会が飛躍的に増加した一方、その管理には今まで以上の慎重さが求められるようになりました。

本記事では、前半でデータがもつ法的性質や契約時に設けるべき条項や注意点を、後半で生成AIを用いたサービス利用時の注意点や法的な問題を、iCraft法律事務所で弁護士・弁理士を務める内田誠氏が解説します。

データの利用に関する法的問題点

今回は大きく分けて、2つのテーマがあります。まずは、1つ目の「データの利用に関する法的問題点」についてご説明します。

「私のデータ」という概念はない

ある人が財布を盗られたケースを例にとってお話をします。このケースでは元々財布を持っていた人に財布の所有権がありますので、財布を盗った人に対して、財布の所有権に基づいた返還請求権や「そんな使い方をしないで」と要求する妨害排除請求権を行使できます。所有権は有体物にのみ成立するものなので、無体物であるデータは対象外となります。そのため所有権に基づいて「データを返して」という主張や、「そういうデータの使い方はしないで」という主張はできません。これが、民法の正しい理解に基づくデータの法的性質です。

たとえば、自社サーバーにデータを保存しているA社に対し、「そのデータを使わせてください」とB社から申し出があったとします。サーバーにアクセスしてきたB社がA社の想定していないデータの利用を行なったとしても、A社にデータの所有権はないため、「そんな使い方は許可していないので困る」とB社に対して言えないのです。

ただし、想定していないデータの利用を契約などで制限している場合は例外です。逆に言えば、A社は契約によって制限をするしかないとも言えます。「(自分には所有権があると思い込み)私のデータを勝手に使うのをやめてほしい」と当然のように言えると思っていても、実際にはその主張が通らず大きな失敗を招くおそれがある点は、非常に重要なポイントです。

一方で、「法律上独占権がある知的財産法によりデータを保護できれば、差止め請求なども可能では」という見方もあります。しかし、著作権などは創作性のあるものしか保護されません。創作性の有無は、コンテンツを作成した人の個性が現れているかが判断基準となるため、たとえば単なる数字の羅列にすぎないデータなどは、創作性がないとされます。

次に特許権です。データそのものは発明ではないので、特許権による保護は原則できません。ただし、1つの指令に対して1つの結果を出すような、データ構造と呼ばれるものは準プログラムとして保護できます。ただし、データ構造は、「準プログラム」という名のとおり、みなさんが想定しているようなデータは対象になりません。また、デザインが対象となる意匠権によるデータそのものの保護はできません。

唯一の例外としては、不正競争防止法に基づく営業秘密と限定提供データが挙げられます。ただ、A社がB社に営業秘密を開示している場合、2社間で秘密保持義務を内容に含む契約を結んでいなければ営業秘密にはあたりません。なぜなら、営業秘密には秘密管理性・非公知性・有用性の3つの要件があり、第三者提供や目的外利用を禁止しなければ、秘密管理性がなく、非公知性の要件もみたさなくなるからです。つまり、「不正競争防止法でデータを保護できるから、契約は不要」というのは誤った解釈になります。

著作権でデータを保護できるケースは非常に稀ですが、データに創作性がある場合は例外です。創作性があるとされるデータには、音楽・短くないテキスト・写真・絵画などが該当しますが、音楽だから創作性があるというわけではなく、個別に創作性の有無を判断する必要があります。

次に「データベースは著作物として成立するのでは?」という質問がよくあがります。「データベースの著作権と、その中に入っている個々のデータの著作権は別物」であるため、「データベースに著作物があるから個々のデータが保護されるわけではない」ことは、よく理解しておくべきでしょう。

ライセンスの意味の違い

知的財産権の扱いに慣れた方が陥りがちな誤解について解説します。まず、知的財産権は、法律に基づいて包括的な禁止権が定められています。たとえば特許権の場合、その権利が成立する発明に対する実施行為は、特許権者のみが行うことができ、特許権者以外の第三者による実施行為は禁止されています。そのため、知的財産権のライセンスは、この包括的な禁止行為を解除するイメージです。包括的な禁止権が及んでいる部分に穴を開ける行為が、知的財産権のライセンスになります。

データの場合は所有権がないため、知的財産権とは異なり、法律に基づく包括的な禁止権がありません。そのため、データにアクセスできる人に対して「自由に使ってください」という状態です。そうすると、データに関するライセンスというのは、知的財産権のライセンスとは逆の内容になり、包括的な禁止行為の解除ではなく、データ提供者が禁止した行為について、契約の中で禁止行為を「作る」ことになります。具体的には、複製禁止、第三者提供禁止、目的外利用禁止といった禁止行為を定め、利用を制限することになります。

設定すべきデータの使用条件の内容

ここからは、データの使用条件や禁止をどのように定めていくべきかを見ていきます。まずデータに関する契約において定める条件として、一般的には対象データと、そこに加工などを加えた派生データを分けて契約条項を作るケースが多いと思います。

契約条項においては、目的外利用禁止、第三者提供禁止などの規定を定めますが、1つ注意点を申し上げます。

データ提供者が、データ使用者に対して、対象データを加工して、データ使用者が派生データを作るわけですが、データ提供者は、契約の中で規定しなければ、派生データを当然には開示を受けられません。
これもデータに所有権がないことからくる帰結です。

ここで、誤解が起きやすい例をもうひとつご紹介します。A社がB社との契約に基づいて、データを提供しました。B社はそのデータを使って、独自の学習モデルを作りました。するとA社は「私たちのデータを使ったのだから、その学習モデルの権利(著作権等)の全部又は一部は、私たちに帰属するはずだ」と言いました。しかし、契約内容にはそのことについて記載はありません。

この場合、A社は学習モデルの権利を持つことはできません。学習用のデータを渡したからといって、例えば、学習モデルのプログラム著作物の創出に創作的な寄与をしていることにはならないからです。とはいえ、A社が、法律上当然に学習モデルに関する権利の主張ができないだけであって、契約書に権利のことを書くのはまったく問題ありません。法的には、一旦B社に帰属した著作権などの権利が、契約によりその全部又は一部がA社に移転するという意味になります。

生成AIに関する法的問題点

ここからは2つ目のテーマである生成AIについて、著作権に関する内容を中心にお話していきます。

生成AIによる著作権侵害

世間で問題になっているケースを取り上げます。まず、作家Aさんが絵画Aを描いたとします。この絵画Aは、創作性があれば当然ながら作家Aさんの著作物になります。ところが、作家Aさんが絵画Aをインターネットで公開している場合、AI開発者はそのデータを収集し、無断で複製等のうえモデルに学習させる可能性があります。その学習段階で複製等する行為が著作権侵害となるのかどうかが、1つ目の論点です。

AI開発者や別の事業者は、学習したモデルを使ってサービスを提供します。そして、そのサービスを利用するユーザーXが「作家A風の絵を描いて」というプロンプトを送り、モデルがそれに従って絵画Bを描きます。この利用(出力)段階で絵画Aと絵画Bの内容が似ている場合にも、著作権侵害になる可能性があります。これが2つ目の論点です。

その後、絵画Bについて、著作権侵害が認められたとします。その責任主体は誰になるのでしょうか。確かに、プロンプトによって出力行為をさせているのはユーザーXです。しかし、「このモデルが存在するから著作権侵害が起こる」と捉えることもでき、そうなれば侵害者はAI開発者、もしくはサービス事業者です。つまり、「利用(出力)段階の著作権侵害行為者は誰なのか?」というのが、3つ目の論点になります。

以降は、この3つの論点を個別に解説します。

学習段階の著作権侵害(論点1)

美術や音楽といった作品に基づいて学習用データセットを作成し、モデルに学習させる過程での複製や翻案が、著作権侵害になるか否かは、著作権法30条の4に基づいて判断されます。3つの要件(1.思想感情の非享受目的、2.必要と認められる限度、3.著作権者の利益を不当に害しない)を満たせば、著作権侵害にはならないということです。

要件1に書かれている「非享受目的」は、著作物等の視聴等を通じて視聴者等の知的・精神的欲求を満たすという効用を得ることに向けられた行為であるか否かで判断します。

モデル学習の場合、コンピューターは特徴量を抽出してパラメータ化しますが、その際に「この著作物の中身は素晴らしい」などの感情は当然ながら介在しません。つまり、著作物を学習させる行為そのものは、非享受目的である(著作権侵害ではないと認められる要件1を満たしている)と言える可能性があります。

また、著作権法30条の4では非享受目的の例示として情報解析を挙げています。学習用データの作成は原則として情報解析にあたるため、通常であれば要件1に該当するはずです。

一方で、要件1には該当しない(享受目的ありと判断される)場合もいくつかあります。

そのひとつが、「意図的に学習データに含まれる著作物の創作的表現を出力させることを目的とした追加学習」です。たとえば、学習データに作家Aさんの絵が入っており、その特定の絵を出力させるためにパラメータを操作したり、その目的のためにデータを学習させたりする行為は、享受目的があって、著作権侵害になる可能性があるということです。

もうひとつは、「特定の著作物の創作的表現を直接感得できる生成物を出力することを目的とする学習」です。人気キャラクターの絵を出力させたい場合に、そのキャラクターの絵ばかりを学習させるような行為などがこの場合にあたります。

総じて、汎用的に使われているモデル、かつ特定の作家の絵を狙って出力できないものは非享受目的であり、著作権侵害にはあたらないと判断される可能性が高まります。なお、要件2は必要性の有無のみなので今回は割愛します。

要件3の「著作権者の利益を不当に害しない」について解説します。例えば、AI開発者が作家Aの絵を使ってモデルに学習をさせました。その後、ユーザーがこのモデルにプロンプトを入力し、作家Aが描きそうな絵が出力されました。これは将来的に作家Aの絵が出力されうる行為を、学習段階で行なっていることになります。作家Aからすれば自分の絵が売れなくなるおそれもあるため、その学習行為が著作権者(作家A)の利益を不当に害しているのではないか、という考え方があります。研究者の方はこの考え方をおっしゃられる方が比較的におられます。

こうしたケースに関してはさまざまな議論がありますが、作家Aの絵が出力されるかどうかはプロンプト次第であり、将来的に著作権者の権利が侵害されるどうかは学習段階では分からないはずです。よって、学習段階での複製・翻案行為自体は、将来の利用段階で著作権侵害が起きうる可能性があるという理由で要件3を満たさないという判断にはならないと考えています。もし作家Aが著作権の侵害を訴えるのであれば、プロンプトの入力後に自分の絵と似たものが出力された段階あるいはその出力されたコンテンツが利用された段階ですべきではないか、というのが私の見解です。

利用(出力)段階の著作権侵害(論点2)

ここまでが学習段階で、以降は利用段階の内容です。著作権侵害が成立するのは、以下の要件が満たされている場合です。

  • ①原告が著作権者であること
  • ②著作物性
  • ③同一性又は類似性
  • ④法定の利用行為(複製又は翻訳)が行われたこと
    • (1)依拠性
    • (2)再製

このうち生成AIにおける著作権侵害の問題で非常に重要なのが、④の(1)に書かれた「依拠性」です。依拠とは「他人の著作物に接し、それを自己の作品の中に用いること」をいいます。一般の方にわかるようにいえば、見てマネをすることを指します。

ただ「見たかどうか」は判断が難しいため、実際にはアクセスした可能性があるかどうかが判断基準になることが多いです。学習データに対象の著作物が含まれている場合は、アクセスした(依拠性あり)と見なされる可能性があります。また、プロンプトを入力するユーザーが著作物の存在を認識していたかどうかも、ひとつの基準になります。

しかし、現在の文化庁の考え方では、ユーザーが著作物の存在を認識しており、学習用データにそれが含まれなくとも依拠性ありとなります。もちろん、裁判所の考えではないので、確定した考えではありませんが、私は違和感をおぼえています。なぜなら、ユーザーが「作家A風の絵を描いて」というプロンプトを入力したとしても、モデルが作家Aの絵を学習していなければ、出力には全く影響しないからです。

ただし、ユーザーが作家Aの絵をモデルに与えた場合(例えば、プロンプトに作家Aの絵を入力した場合や、インターネットで作家Aの絵を探してくるように指示した場合)や、プロンプトに「作家Aの○○という作品と似た絵を描いて」などと、具体的なタイトルなどを含む指示をした場合は依拠性ありとすべきでしょう。

なお、仮に学習用データに著作物が含まれていたとしても、「その画像は生成できません」と生成AIから返されるなど、生成段階で特定の画像と同一又は類似する画像が出力されないような措置が講じられている場合は依拠性なしと考えられています。

利用(出力)段階の著作権侵害行為者(論点3)

「侵害行為を行なったのは誰か」という3つ目の論点は、ユーザーかAIサービス提供事業者(AI開発者)かで意見が2つに分かれています。

モデルからの出力はプロンプトの内容次第で大きく変わります。そして、そのプロンプトを書くのはユーザーであるため、原則としてはユーザーが侵害行為者とすべきではないかと私は考えています。しかし、権利を侵害するような出力を高頻度で行うことを知りつつ、特に措置を講じていないサービスを提供している事業者には、同様に侵害の責任を追わせるべきでしょう。一方で、過去に起きたロクラクⅡ事件などに基づき、侵害行為者を評価的に見たうえで、AIサービス提供事業者を著作権の侵害行為主体とすべきという考え方もあります。

生成AIの利用に関する社内ルール

社内で生成AI利用のルールを作る際は、絵に描いた餅にならないようにすることが非常に大切です。「権利を侵害しないようによく確認しましょう」などと言うのは簡単ですが、権利侵害の成否を現場のいち従業員の判断に任せるでもまったく実効性がありません。

また、内容の正確性の確認や、生成AIを利用した旨の表示の義務付けも大切です。業務に生成AIを使った社員がそれを上司に報告できず、生成AIを使って作ったものかどうかが不明な成果物が増えると、チェック者に過度な慎重さが求められるなど、チェック機構が適切に機能しなくなるからです。

生成AIの利用をめぐっては、プロンプトの内容によって権利侵害になったりならなかったりします。そのため、「将来の紛争時に備えたプロンプト内容と出力の保存(ログ保存)」も忘れてはなりません。色々な会社と話した結果、簡単なことではないと感じていますが、やはり今後徹底していくべき部分だと思っています。

内田 誠 氏

iCraft法律事務所 弁護士・弁理士
内田 誠 氏

AI、IT関連における知財戦略構築、個人情報及びデータビジネスの法務戦略構築等を専門とする。経済産業省「AI・データ契約ガイドライン検討会」作業部会委員。週刊東洋経済が実施した弁護士ランキングの知的財産部門で二度選出。