2024.12.18

ハーバード大、膨大なAI訓練用のデータセットを無料公開。OpenAIとマイクロソフトが資金提供

ハーバード大学はAIの訓練に使える、約100万冊のパブリックドメイン書籍を含むデータセットを公開した。個人や小規模な企業でも著作権の問題を気にせず活用できるリソースを提供することで、AI分野でのより公平な競争促進を目指している。

Stack of old books. Knowledge concept. Uong Bi. Vietnam

ハーバード大学は12月12日（米国時間）、約100万冊のパブリックドメインの書籍を含む高品質なデータセットを公開すると発表した。このデータセットは、ハーバード大学がマイクロソフトおよびOpenAIからの資金提供を受けて新設したInstitutional Data Initiative (IDI)が作成したもので、誰でも大規模言語モデル（LLM）やその他の人工知能（AI）ツールの訓練に使用することができる。IDIのデータには、Google ブックスのプロジェクトの一環としてスキャンされたもので、すでに著作権保護の対象外となっている書籍も含まれている。

IDIのデータベースは、メタ・プラットフォームズのLlamaのようなAIモデルの訓練に使用された悪名高いデータセット「Books3」の約5倍の規模を誇り、さまざまなジャンル、年代、言語の書籍を網羅している。シェイクスピア、チャールズ・ディケンズ、ダンテなどによる古典的な作品から、あまり知られていないチェコ語の数学の教科書やウェールズ語のポケットサイズの辞書まで収録されている。

このプロジェクトは、AI産業の小規模企業や個人の研究者を含む一般の人にも、通常は十分なリソースをもつ大手テック企業にしか集められないような高度に洗練されたコンテンツリポジトリを利用できるようにすることで、「平等な競争を促進する」試みであると、IDIのエグゼクティブディレクターを務めるグレッグ・レパートは説明する。「厳密な審査を経たデータセットです」と語る。

OpenAIとマイクロソフトが出資

パブリックドメインの作品を収録したこのデータベースは、AIモデルを構築する際に、ライセンスを取得したほかの資料と組み合わせて利用されることを想定していると、レパートは話す。「これは、世界中で基盤のOSとして使われているLinuxに近いものであると考えています」とレパートは語る。とはいえ、企業は競合他社との差別化を図るために、追加の訓練データを用いる必要があると説明する。

マイクロソフトのバイスプレジデントで知的財産を担当する次席法務顧問のバートン・デイビスは、このプロジェクトを支援することは、AIスタートアップが活用できる「公共の利益に沿って管理されるデータプールをつくり出すことの重要性を重んじる、同社の基本的な方針と合致していると強調した。

これは言い換えれば、マイクロソフトは自社のAIモデルの訓練に使用してきたデータを、ハーバード大学の新たなデータベースにある書籍のようなパブリックドメインのデータに全面的に切り替えることまでは想定していないということだ。「モデルの訓練には、公的に利用可能なデータを活用しています」とデイビスは説明する。

OpenAIの知的財産とコンテンツの最高責任者であるトム・ルービンは、同社がこのプロジェクトを支援できることを「喜ばしく思う」と声明で表明している。

AIモデルの構築方法が変わる可能性

現在、著作権で守られているデータをAI訓練に用いることを巡り数多くの訴訟が進行しており、AIツールが今後どのような手法で構築されることになるかは、まだはっきりしていない。

AI企業が裁判に勝てば、著作権者とライセンス契約を結ぶことなく、インターネット上の情報を収集し続けることが可能になる。しかし、負ければ、AI企業はモデルの構築方法の大幅な見直しを迫られるかもしれない。ハーバード大学のデータベースのような一連のプロジェクトは、どのような結果になろうとも、パブリックドメインのデータセットへの需要が必ず発生するという前提の下に進められている。

膨大な書籍にとどまらず、IDIはボストン公共図書館と協力し、現在パブリックドメインとなった新聞記事数百万点をスキャンする作業も進めている。また、今後もほかの機関と同様の協力関係を築くことに意欲を示している。

書籍のデータセットの公開方法については、具体的なことはまだ決まっていない。IDIはグーグルに対し、一般公開に向けた協力を求めているものの詳細はまだ検討中である。グーグルで国際問題部門のプレジデントを務めるケント・ウォーカーは、声明でこのプロジェクトを「支援できることを誇りに思う」と伝えていた。

パブリックドメインのデータセット

どのように公開されるかはまだわからないが、実現すればIDIのデータセットは、企業が著作権にまつわる問題に直面することなく、有用で高品質なAI訓練用の資料の使用を約束する類似のプロジェクトやスタートアップ、施策に加わることになる。例えば、Calliope NetworksやProRataといった企業は、使用者にライセンスを発行し、AI訓練用のデータを提供するクリエイターや権利者に報酬を支払う仕組みを構築しようとしている。

ほかにもパブリックドメインのデータを扱う新たなプロジェクトが登場している。フランスのAIスタートアップであるPleiasは、昨年春にパブリックドメインの作品を収録した独自のデータセット「Common Corpus」を公開した。このデータセットには約300万～400万冊の書籍や定期刊行物が含まれていると、プロジェクトコーディネーターのピエール＝カール・ラングレは話す。Common Corpusはフランス文化省の後援を受けており、オープンソースのAIプラットフォームHugging Faceでは、今月だけでも6万回以上ダウンロードされた。

Pleiasは先週、このデータセットを用いて訓練した初の大規模言語モデルを複数公開すると発表している。これらのモデルは「完全にオープンデータのみで訓練され、欧州連合（EU）のAI規制法に準拠する初のモデルである」とラングレは『WIRED』に語った。

同じようにパブリックドメインの画像のデータセットを作成する動きもある。AIスタートアップのSpawningは今夏「Source.Plus」と呼ばれる独自のデータセットを公開した。このデータセットはWikimedia Commonsのものをはじめ、美術館などが保存している作品などのパブリックドメインの画像を収録している。また、ニューヨークのメトロポリタン美術館など一部の著名な文化機関は、以前から個別のプロジェクトとして収録作品を一般公開してきた。

AIの訓練に著作権に守られた作品は必須？

Stability AIの元幹部で、現在は倫理的に訓練されたAIツールを認証する非営利団体を運営するエド・ニュートン＝レックスは、こうしたデータセットの台頭は、高性能かつ質の高いAIモデルを構築するために著作権に守られた資料を盗む必要はないことを示していると話す。

OpenAIは以前、英国の立法者に対し、著作権に守られた作品を使用せずにChatGPTのような製品を生み出すことは「不可能」だと主張していた。「このようなパブリックドメインの作品を収録した大規模なデータセットは、一部のAI企業がモデルの訓練のために著作権に守られた作品を収集する行為を正当化する『必要性の主張』をさらに揺るがすものです」とニュートン＝レックスは語る。

とはいえ、IDIやそれに類するプロジェクトが、実際にAI訓練の現状を変えられるかどうかについて、ニュートン＝レックスは慎重な見方をしている。「これらのデータセットが業界によい影響をもたらすには、これらのデータセットを、スクレイピングで取得した著作権で保護されている作品を置き換えるためにライセンスを取得したデータと組み合わせて使用する場合に限られます。そうではなく、これらのデータを無許可で使用されている世界中のクリエイターの作品を含むデータセットに追加されるだけであれば、それはAI企業にさらなる利益をもたらすだけです」と指摘している。

（Originally published on wired.com, translated by Nozomi Okuma, edited by Mamiko Nakano)

※『WIRED』による人工知能（AI）の関連記事はこちら。

Related Articles

Image may contain: Advertisement, Poster, and Person

OpenAIが独立系メディアとの裁判に1勝。しかし著作権をめぐる戦いは終わらない

ネットメディアのAlternetとRaw StoryがOpenAIに対して起こしていた訴えが11月上旬、裁判所に退けられた。この裁判の影響は、ほかのAI企業対メディアの裁判にも及ぶかもしれない。

Illustration of a robot eating public domain text

AIモデルは著作権を侵害せずに構築できる──法的、倫理的に“正しい”大規模言語モデルを初めて認証

OpenAIは、著作権で保護されたコンテンツを使うことなしに優れたAIモデルをつくるのは「不可能」だと主張する。だが著作権侵害のない大規模言語モデル（LLM）の登場や、パブリックドメインのデータセットの活用が進む現状は、逆の事実を示している。

ハーバード大、膨大なAI訓練用のデータセットを無料公開。OpenAIとマイクロソフトが資金提供

雑誌『WIRED』日本版 VOL.55
「THE WIRED WORLD IN 2025」は好評発売中！

『WIRED』の「THE WIRED WORLD IN 20XX」シリーズは、未来の可能性を拡張するアイデアやイノベーションのエッセンスが凝縮された毎年恒例の大好評企画だ。ユヴァル・ノア・ハラリやオードリー・タン、安野貴博、九段理江をはじめとする40名以上のビジョナリーが、テクノロジーやビジネス、カルチャーなど全10分野において、2025年を見通す最重要キーワードを掲げている。本特集は、未来を実装する者たちにとって必携の手引きとなるだろう。詳細はこちら。