学習データ訴訟の現在地——NYT対OpenAI、Getty対Stability AI、生成AI著作権問題の法的争点

知財ニュースバナー 知財ニュース

Getty Images対Stability AI訴訟

事件の概要

Getty Imagesは英国においては2023年1月にStability AI(画像生成AIモデルStable Diffusionの開発元)を提訴し、続いて米国デラウェア州連邦地方裁判所(Case No. 1:23-cv-00135-UNA)においても2023年2月に提訴した。原告は、Stability AIが12億点以上のGettyの有料素材画像を無断で学習データとして使用したと主張する。

本訴訟が示す特有の争点

Getty訴訟はNYT訴訟と比較して、いくつかの異なる法的争点を含んでいる。第一に、Stable Diffusionが出力する画像にGettyのウォーターマーク(透かし)の変形が含まれていることが確認されており、これはNYTの逐語再現問題に類似しながらも視覚的要素という独自の問題を提起している。第二に、Getty Imagesは著作権侵害に加えて、商標法違反(ウォーターマーク改ざん)およびデジタルミレニアム著作権法(DMCA)第1202条(著作権管理情報の改ざん禁止)違反も主張しており、請求の根拠が多層的である。

英国訴訟(High Court of Justice, IP and Enterprise Court)では、2025年に証拠開示が進み、Stability AIが学習に使用したデータセット(LAION-5B)の構成およびそのうちGetty素材が占める割合が争点となっている。

集団訴訟と著作権者の組織的対応

NYT訴訟・Getty訴訟に加え、著作権者による集団訴訟も進行している。米国作家組合(Authors Guild)を含む小説家・ノンフィクション作家のグループはOpenAIを相手取り、集団訴訟を提起している。原告には著名作家のジョン・グリシャム、デイヴィッド・バルダッチ、ジョージ・R・R・マーティン等が含まれる(Case No. 1:23-cv-08292-SHS、S.D.N.Y.)。

コード分野では、GitHubのCopilotが訓練に使用したオープンソースコードの著作権侵害を主張する訴訟(Doe v. GitHub, Inc.、Case No. 4:22-cv-06823-JST、N.D. Cal.)が進行中で、コード著作権の問題を提起している。

フェアユースの法的論点

米国著作権法第107条は「フェアユース(公正使用)」を定め、著作権者の許諾なしに著作物を使用できる場合を四つの考慮要素で判断する。(1)使用の目的・性格(商業的か非営利・教育的か、変容的使用か)、(2)著作物の性質、(3)使用された部分の量・実質性、(4)著作物の潜在的市場への影響、の四要素である。

変容的利用(Transformative Use)の論点

AI学習がフェアユースに該当するか否かの最大の争点は、「変容的利用(transformative use)」の有無である。変容的利用とは、原著作物に新たな意義・表現・メッセージを付加することをいい、単なる複製は該当しない(Campbell v. Acuff-Rose Music, Inc.、510 U.S. 569、1994年)。

OpenAI側は、LLMの学習は著作物を「入力として処理する」行為であり、著作物の「表現」ではなく「統計的パターン」を抽出するものであるから、変容的利用に該当すると主張する。この主張を支持する先例として、Authors Guild v. Google, Inc.(804 F.3d 202、2d Cir. 2015年)がある。同判決はGoogle Book Searchが書籍全文をスキャンして検索可能にする行為についてフェアユースを認め、「新たな情報・新たな審美的体験・新たな洞察を生み出す」変容性を根拠とした。

他方、NYT側は「Google Books事件では書籍の『スニペット(断片)』のみを表示したが、ChatGPTはNYT記事と実質的に同一のテキストを生成できる」と主張する。市場への影響(第四要素)という観点では、読者がChatGPTを通じてNYT記事の内容を得られるならばNYTの購読・広告収入に実質的な打撃を与えるという主張は、直感的な説得力を持つ。

市場への影響:第四要素の重み

連邦最高裁はHarper & Row, Publishers, Inc. v. Nation Enterprises(471 U.S. 539、1985年)において第四要素(市場への影響)を「最も重要な考慮要素」と位置づけている。AI学習訴訟においては、原告各社が「ライセンス市場の損害」を主張しており、「もしOpenAIがNYT記事の学習使用についてライセンスを支払っていたなら、NYTはライセンス料収入を得られたはず」という論理が重要な証拠になるとみられる。

日本・EU・米国の著作権法比較:特に日本の30条の4

各国・地域の著作権法はAI学習に対して異なるアプローチを採っており、グローバルなAI企業の法的リスク評価に直接影響する。

日本——第30条の4の明示的許容

日本著作権法は2018年改正により、第30条の4(情報解析のための著作物の利用)を導入した。同条は「著作物に表現された思想又は感情の享受を目的としない利用」について、著作権者の許諾なしに著作物を利用できることを認めている。文化庁の解釈によれば、機械学習のための著作物の学習利用は原則として同条の適用範囲に含まれる。

ただし、同条には「著作権者の利益を不当に害する場合」という例外があり、学習データとして著作物を収集・蓄積すること自体は許容されるが、学習済みモデルが著作物の表現を直接再現するような場合には別途著作権上の問題が生じる可能性がある。この点で、日本法の下でもNYT訴訟で問題となったような「逐語再現」が行われる場合には複製権侵害が問題となり得る。

欧州——テキスト・データマイニング(TDM)規定

EU著作権指令(2019/790/EU)第4条は、テキスト・データマイニング(TDM)のための著作物複製を一般的に認める権利制限規定を設けているが、著作権者が「オプトアウト」することを認めている。すなわち、著作権者がmachine-readable形式で使用禁止の意思表示をした場合には、TDMのための利用は認められない。EU AI Act(2024年)はこの点を確認しつつ、AI開発者に対してTDM例外の利用状況の透明性を求める規定を含んでいる。

米国——フェアユースの司法判断依存

米国著作権法にはAI学習を明示的に扱う規定がなく、フェアユース法理の司法的適用に委ねられている。このため、法的安定性は日本やEUと比べて低い。現在進行中のNYT訴訟、Getty訴訟の判決は、米国におけるAI学習の合法性を方向づける先例となる可能性が高く、業界全体が注目している。

和解の可能性と業界への影響

訴訟の帰趨として最も可能性が高いのは「和解」である。NYT訴訟において仮にNYT側が勝訴し損害賠償が命じられた場合、OpenAIおよびMicrosoftに対する財務的影響は甚大になりかねない。OpenAIがNYT記事を学習データとして使用したことによる「損害」を理論的に算定すれば、記事1本あたりの統計的損害×使用記事数という計算になりかねず、数十億ドル規模の請求になる可能性もある。

和解の場合、OpenAIがNYTに対してライセンス料を支払い、あるいはニュース配信提携の形での協力関係を構築するという形が考えられる。実際、AppleはOpenAIとコンテンツ配信提携を結んでおり、主要出版社とAIプラットフォームの間でライセンス契約を結ぶことはすでに実績がある(例:Associated PressのOpenAIとのコンテンツライセンス契約、2023年7月)。

業界全体への影響という観点では、訴訟の帰趨にかかわらず、コンテンツ権利者とAI企業の間でのライセンス交渉が常態化しつつある。学習データの権利処理をどのように整備するかは、次世代AIモデルの開発コストに直接影響する問題であり、業界全体のビジネスモデルを再形成しつつある。


本稿は「AI知財戦争2026」シリーズ第3回です。第4回では、MetaのLlama戦略が競争規則をどのように変えたかを分析します。

生成AIの学習データをめぐる著作権訴訟は、2023年以降、米国・英国を中心に急増している。なかでもThe New York Times Company v. OpenAI, Inc. and Microsoft Corporation(以下「NYT訴訟」)とGetty Images, Inc. v. Stability AI, Ltd.(以下「Getty訴訟」)は、フェアユース法理の射程とAI学習の合法性に関する司法判断を迫る先駆的事件として注目される。本稿では、これらの主要訴訟の現状、法的争点、および日本・EU・米国の著作権法の比較を整理する。

NYT対OpenAI訴訟:事件の概要と現状

事件番号と経緯

ニューヨーク・タイムズ(NYT)はOpenAIおよびMicrosoftを相手取り、2023年12月27日、ニューヨーク南部地区連邦地方裁判所(Case No. 1:23-cv-11195-SHS)に提訴した。原告の主張は、OpenAIが著作権法に基づく許諾なしにNYTの記事数百万本をLLMの学習データとして使用したというものである。

原告の主な主張

NYT側は主要な主張として次の点を挙げている。第一に、ChatGPTおよびGPT-4がNYT記事の内容を逐語的に再現できる事例が確認されており、これはNYTの著作物の「市場への影響(market substitution)」を示すとする。第二に、OpenAIは学習データとしてNYTの記事を無断使用したことで直接侵害を構成するとともに、ChatGPTを通じた出力がNYT記事の代替物として機能することで二次的な侵害も生じているとする。第三に、被告はロボット排除プロトコル(robots.txt)によるクロール拒否設定を迂回したとも主張している。

OpenAI・Microsoftの反論

被告側はフェアユース(公正使用)を主たる抗弁として主張している。OpenAIは、LLMの学習は著作物から「情報・パターンを抽出する」行為であり、著作物そのものを「複製・頒布」するものではないと主張する。また、LLMの出力は訓練データを逐語的に「記憶・再現」するものではなく、新たなコンテンツを生成するものであるとも述べている。NYTが提示した「逐語再現」のデモンストレーションについては、被告は特殊なプロンプト操作による「脱獄(jailbreaking)」によって誘発されたものであり、通常の使用を代表しないと反論した。

2025〜2026年の訴訟進展

2025年初頭には証拠開示(ディスカバリー)段階が進行し、OpenAIの学習データ構成に関する内部文書の開示が問題となった。裁判所はOpenAIに対して学習データの構成に関する記録を開示するよう命じており、これがOpenAIの技術的秘密保護と証拠開示義務の間の緊張をもたらしている。2026年4月時点では、本案審理(trial on the merits)への移行前の段階であり、和解交渉が並行して行われているとみられる。

Getty Images対Stability AI訴訟

事件の概要

Getty Imagesは英国においては2023年1月にStability AI(画像生成AIモデルStable Diffusionの開発元)を提訴し、続いて米国デラウェア州連邦地方裁判所(Case No. 1:23-cv-00135-UNA)においても2023年2月に提訴した。原告は、Stability AIが12億点以上のGettyの有料素材画像を無断で学習データとして使用したと主張する。

本訴訟が示す特有の争点

Getty訴訟はNYT訴訟と比較して、いくつかの異なる法的争点を含んでいる。第一に、Stable Diffusionが出力する画像にGettyのウォーターマーク(透かし)の変形が含まれていることが確認されており、これはNYTの逐語再現問題に類似しながらも視覚的要素という独自の問題を提起している。第二に、Getty Imagesは著作権侵害に加えて、商標法違反(ウォーターマーク改ざん)およびデジタルミレニアム著作権法(DMCA)第1202条(著作権管理情報の改ざん禁止)違反も主張しており、請求の根拠が多層的である。

英国訴訟(High Court of Justice, IP and Enterprise Court)では、2025年に証拠開示が進み、Stability AIが学習に使用したデータセット(LAION-5B)の構成およびそのうちGetty素材が占める割合が争点となっている。

集団訴訟と著作権者の組織的対応

NYT訴訟・Getty訴訟に加え、著作権者による集団訴訟も進行している。米国作家組合(Authors Guild)を含む小説家・ノンフィクション作家のグループはOpenAIを相手取り、集団訴訟を提起している。原告には著名作家のジョン・グリシャム、デイヴィッド・バルダッチ、ジョージ・R・R・マーティン等が含まれる(Case No. 1:23-cv-08292-SHS、S.D.N.Y.)。

コード分野では、GitHubのCopilotが訓練に使用したオープンソースコードの著作権侵害を主張する訴訟(Doe v. GitHub, Inc.、Case No. 4:22-cv-06823-JST、N.D. Cal.)が進行中で、コード著作権の問題を提起している。

フェアユースの法的論点

米国著作権法第107条は「フェアユース(公正使用)」を定め、著作権者の許諾なしに著作物を使用できる場合を四つの考慮要素で判断する。(1)使用の目的・性格(商業的か非営利・教育的か、変容的使用か)、(2)著作物の性質、(3)使用された部分の量・実質性、(4)著作物の潜在的市場への影響、の四要素である。

変容的利用(Transformative Use)の論点

AI学習がフェアユースに該当するか否かの最大の争点は、「変容的利用(transformative use)」の有無である。変容的利用とは、原著作物に新たな意義・表現・メッセージを付加することをいい、単なる複製は該当しない(Campbell v. Acuff-Rose Music, Inc.、510 U.S. 569、1994年)。

OpenAI側は、LLMの学習は著作物を「入力として処理する」行為であり、著作物の「表現」ではなく「統計的パターン」を抽出するものであるから、変容的利用に該当すると主張する。この主張を支持する先例として、Authors Guild v. Google, Inc.(804 F.3d 202、2d Cir. 2015年)がある。同判決はGoogle Book Searchが書籍全文をスキャンして検索可能にする行為についてフェアユースを認め、「新たな情報・新たな審美的体験・新たな洞察を生み出す」変容性を根拠とした。

他方、NYT側は「Google Books事件では書籍の『スニペット(断片)』のみを表示したが、ChatGPTはNYT記事と実質的に同一のテキストを生成できる」と主張する。市場への影響(第四要素)という観点では、読者がChatGPTを通じてNYT記事の内容を得られるならばNYTの購読・広告収入に実質的な打撃を与えるという主張は、直感的な説得力を持つ。

市場への影響:第四要素の重み

連邦最高裁はHarper & Row, Publishers, Inc. v. Nation Enterprises(471 U.S. 539、1985年)において第四要素(市場への影響)を「最も重要な考慮要素」と位置づけている。AI学習訴訟においては、原告各社が「ライセンス市場の損害」を主張しており、「もしOpenAIがNYT記事の学習使用についてライセンスを支払っていたなら、NYTはライセンス料収入を得られたはず」という論理が重要な証拠になるとみられる。

日本・EU・米国の著作権法比較:特に日本の30条の4

各国・地域の著作権法はAI学習に対して異なるアプローチを採っており、グローバルなAI企業の法的リスク評価に直接影響する。

日本——第30条の4の明示的許容

日本著作権法は2018年改正により、第30条の4(情報解析のための著作物の利用)を導入した。同条は「著作物に表現された思想又は感情の享受を目的としない利用」について、著作権者の許諾なしに著作物を利用できることを認めている。文化庁の解釈によれば、機械学習のための著作物の学習利用は原則として同条の適用範囲に含まれる。

ただし、同条には「著作権者の利益を不当に害する場合」という例外があり、学習データとして著作物を収集・蓄積すること自体は許容されるが、学習済みモデルが著作物の表現を直接再現するような場合には別途著作権上の問題が生じる可能性がある。この点で、日本法の下でもNYT訴訟で問題となったような「逐語再現」が行われる場合には複製権侵害が問題となり得る。

欧州——テキスト・データマイニング(TDM)規定

EU著作権指令(2019/790/EU)第4条は、テキスト・データマイニング(TDM)のための著作物複製を一般的に認める権利制限規定を設けているが、著作権者が「オプトアウト」することを認めている。すなわち、著作権者がmachine-readable形式で使用禁止の意思表示をした場合には、TDMのための利用は認められない。EU AI Act(2024年)はこの点を確認しつつ、AI開発者に対してTDM例外の利用状況の透明性を求める規定を含んでいる。

米国——フェアユースの司法判断依存

米国著作権法にはAI学習を明示的に扱う規定がなく、フェアユース法理の司法的適用に委ねられている。このため、法的安定性は日本やEUと比べて低い。現在進行中のNYT訴訟、Getty訴訟の判決は、米国におけるAI学習の合法性を方向づける先例となる可能性が高く、業界全体が注目している。

和解の可能性と業界への影響

訴訟の帰趨として最も可能性が高いのは「和解」である。NYT訴訟において仮にNYT側が勝訴し損害賠償が命じられた場合、OpenAIおよびMicrosoftに対する財務的影響は甚大になりかねない。OpenAIがNYT記事を学習データとして使用したことによる「損害」を理論的に算定すれば、記事1本あたりの統計的損害×使用記事数という計算になりかねず、数十億ドル規模の請求になる可能性もある。

和解の場合、OpenAIがNYTに対してライセンス料を支払い、あるいはニュース配信提携の形での協力関係を構築するという形が考えられる。実際、AppleはOpenAIとコンテンツ配信提携を結んでおり、主要出版社とAIプラットフォームの間でライセンス契約を結ぶことはすでに実績がある(例:Associated PressのOpenAIとのコンテンツライセンス契約、2023年7月)。

業界全体への影響という観点では、訴訟の帰趨にかかわらず、コンテンツ権利者とAI企業の間でのライセンス交渉が常態化しつつある。学習データの権利処理をどのように整備するかは、次世代AIモデルの開発コストに直接影響する問題であり、業界全体のビジネスモデルを再形成しつつある。


本稿は「AI知財戦争2026」シリーズ第3回です。第4回では、MetaのLlama戦略が競争規則をどのように変えたかを分析します。

コメント

タイトルとURLをコピーしました