OpenAIの会話型AIが法科大学院に行かなくても司法試験に合格できることは、すでに知られている。そしていま、アカデミー賞が発表される直前のタイミングで、人工知能(AI)を用いたOpenAIの新たなツール「Sora」は、映画の学校に通わずとも映画制作を習得することを望んでいるのだ。
現時点では研究用のツールであるSoraは、一部の選ばれたクリエイターと、安全に関する脆弱性を評価するレッドチームの役割を担う多数のセキュリティ専門家に提供される予定である。時期は未定ながらもOpenAIはSoraをすべての“映画監督志望者”が利用できるようにする計画だが、先行してプレビューを実施することに決めたという。
グーグルのような大手企業からRunwayのようなスタートアップまで、さまざまな企業がすでにテキストを動画に変換するAIプロジェクトを公表している。しかし、OpenAIによると、Soraはそれらの競合モデルでは見たことがないような特筆すべきフォトリアリズム(写真のような写実性)と、ほかのモデルが生成する断片的な映像より長い最大1分の動画を生み出す能力において、一線を画しているという。
取材した研究者たちは、Soraがすべての映像をレンダリングするためにどれだけの時間が必要なのかを語ろうとしなかった。しかし、さらに踏み込んで尋ねたところ、「数日の休みをとる」というよりは、野球場に「ブリトーを食べに出かける」くらいの時間であると説明してくれた。実際に見せてもらった厳選された映像の事例が信じられるものだとすれば、それくらいの時間をかける価値はある。
生成された「雪に覆われた東京」の衝撃
OpenAIは独自のプロンプトを入力させてくれなかったが、Soraの能力を示す4つの事例を見せてくれた(最長とされる1分に近い動画はなく、最も長いもので17秒だった)。
最初の事例は、こだわりの強い脚本家が設定したように感じられる次のような詳細なプロンプトから生成された映像だった。
「美しく雪に覆われた東京の街がにぎわっている。美しい雪模様を楽しんだり近くの露店で買い物したりしている数人の人々をカメラが追いながら、活気のある市街地の通りを移動する。華やかな桜の花びらが、雪片とともに風に舞っている(Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes)」
結果的に生み出された映像は、雪片と桜の花が同時に存在する魔法のような瞬間の、まぎれもない「東京」の説得力のある風景だった。ドローンに取り付けられたかのような仮想上のカメラが、街並みをゆっくりとそぞろ歩く1組のカップルを追う。通行人のひとりはマスクをしている。左手の川沿いの車道をクルマが音を立てて通り、右手に立ち並ぶ小さな商店には買い物客がせわしなく出入りしている。
完璧ではない。この動画を何度か観ると、仮想カメラがそのまま進み続ければ、主人公たち(雪に覆われた歩道をそぞろ歩くカップル)がジレンマに直面していたであろうことに気づくのだ。ふたりが歩いている歩道は行き止まりになっているように見える。そのまま歩いて行けば、小さなガードレールを乗り越えて、右側に並行して走る奇妙な歩道に移らなければならないだろう。
こうした軽度の不具合にもかかわらず、東京の映像の事例は世界を構築する能力の驚異的な実演だった。これからプロダクションデザイナーたちは、これが強力な「協力者」なのか、それとも仕事を奪う存在なのかを議論することになるだろう。
また、この映像に登場する(すべてデジタルニューラルネットワークによって生成された)人物たちは、クローズアップでは映されていないし、感情も一切見られない。しかし、Soraの開発チームによると、ほかの事例ではフェイクの俳優たちがリアルな“感情”を見せているという。
「訓練されていないこと」を表現する能力
このほかの動画も印象的だった。なかでも、「背の低いふわふわのモンスターが赤いろうそくのそばでひざまずいているアニメーションの一場面(an animated scene of a short fluffy monster kneeling beside a red candle)」という指示から生成された動画は、特に印象的である。
この指示には、詳細な描写(「目を見開いて口を開ける(wide eyes and open mouth)」)と、期待される雰囲気の説明も添えられていた。こうしてSoraが生み出したのが、ファービーとグレムリン、『モンスターズ・インク』のサリーからDNAを受け継いだような、ピクサー風の仮想の生物である。
『モンスターズ・インク』が公開された当時、モンスターが動き回るときの毛皮の極めて複雑な質感をつくり出すことがいかに難しいかを、ピクサーが大げさに宣伝していたことを覚えている。ピクサーの魔法使いたちは、何カ月もかけてそれを実現したのだ。OpenAIが新たに生み出したテキストから動画への変換をこなすマシンは……まさにそれをやってのけたのである。
「Soraは3次元幾何学と一貫性について学習します」と、このプロジェクトの研究科学者のティム・ブルックスは語る話す。「わたしたちがそのような映像になるように仕組んだわけではありません。完全に多くのデータを参照することから生みだされたものなのです」
こうした映像には確かに感心させられるが、Soraの最も驚くべき能力は訓練されていない領域で発揮される。OpenAIの画像生成AI「DALL·E 3」が用いる拡散モデルのひとつと、「GPT-4」の根幹をなすアーキテクチャー「Transformer」に基づくエンジンを原動力とするSoraは、プロンプトの要求を満たす映像を単に量産するだけではない。そこには映画の「文法」を即興で理解したことが示されているのだ。
つまり、Soraには物語を編み出す“才能”があることになる。「カラフルな魚や海の生物で満たされたサンゴ礁をきらびやかに描いたペーパークラフトの世界(a gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures)」というプロンプトから生み出された別の映像をご覧いただこう。
今回のプロジェクトに参加している研究者のビル・ピーブルズは、Soraがカメラのアングルやタイミングで物語の力を生み出したのだと指摘する。「実際にショットの切り替えが複数回あります。この映像は場面をつなぎ合わせたものではなく、AIモデルが一度に生成したものです」と、ピーブルズは言う。「そのように命令したわけではありません。自主的にやってのけたのです」
別の事例(映像は未確認)では、動物園を紹介するようSoraに指示しているという。「動物園の名称が書かれた大きな看板からスタートして、画面が縦方向に徐々に下がっていきます。そして場面が複数回にわたって切り替わり、動物園にいるさまざまな動物を紹介するのです」と、ピーブルズは説明する。「明確な指示を出していないにもかかわらず、優れた映画的な手法で映像を生成しています」
OpenAIのチームがまだ披露しておらず、今後もなかなか公開しない可能性のあるSoraの機能のひとつが、単体の画像や連続した場面から映像を生成する能力だ。「これもまた、物語を編み出す能力を向上させる非常に優れた手法のひとつになるでしょう」と、ブルックスは言う。「頭の中にあるものを正確に描き出し、それに命を吹き込むことができるのですから」
OpenAIは、この機能にはディープフェイクやデマを生み出す力もあることを認識している。「安全面での影響について、非常に慎重に進めていくことになります」と、ピーブルズは付け加える。
Soraには「DALL·E 3」と同様のコンテンツ制限(暴力・ポルノの禁止、実在する人物の取り込みやよく知られたアーティストの表現方法の取り込みの禁止)がかけられることが想定される。OpenAIはDALL·E 3と同じように、動画を観た人が「AIによる生成」であることがわかるような印を付けることになるだろう。
とはいえ、安全性や真実性は現在進行形の問題であり、それはひとつの企業では対処できない規模になっていると、OpenAIは説明する。「デマ対策として、わたしたちの側でもある程度は対処することになります。一方で、社会の側にも理解が必要であり、SNSも適応していく必要があります」と、DALL·Eチームの研究主任で責任者のアーディティヤ・ラメシュは言う。
Soraが生み出す映像の内容が他者の著作物を侵害する可能性も存在する。「訓練データは、わたしたちがライセンスを有するコンテンツや公に利用できるコンテンツから得ています」と、ピーブルズは言う。もちろん、OpenAIに対する複数の訴訟の焦点は、「公に利用できる」著作物がAIの訓練にとって適正なのかどうか、という点にある。
長いカウントダウンの始まり
「テキストから動画」のシステムが実際の映画制作の脅威になるまでには(仮にそんな状況が生まれるとしての話だが)、非常に長い時間がかかるだろう。Soraが生み出した1分間の映像を120個つなげても、一貫した映画をつくることはできない。なぜなら、Soraは複数のプロンプトにまったく同じように反応するわけではないからだ。連続性は期待できない。
だが、TikTokやInstagramの「リール」などのソーシャルメディア向けの動画を生成するプログラムやSoraにとって、時間的な制限が障壁になることはない。「プロレベルの映画をつくるには非常に高価な機材が必要になります」と、ピーブルズは言う。「Soraはソーシャルメディアで動画を製作している普通の人々が優れた質のコンテンツをつくる際に力を発揮するでしょう」
いまのところ、OpenAIはSoraが大規模なデマの発生源になることを防ぐという大きな仕事に直面している。しかし、それが済めば、次世代のクリストファー・ノーランやセリーヌ・ソンがAIモデルに命令して魔法のように映画を制作する時代の到来に向けて、長いカウントダウンが始まることになるのだ。
(WIRED US/Edit by Daisuke Takimoto)
※『WIRED』による人工知能(AI)の関連記事はこちら。
雑誌『WIRED』日本版 VOL.51
「THE WORLD IN 2024」は好評発売中!
アイデアとイノベーションの源泉であり、常に未来を実装するメディアである『WIRED』のエッセンスが詰まった年末恒例の「THE WORLD IN」シリーズ。加速し続けるAIの能力がわたしたちのカルチャーやビジネス、セキュリティから政治まで広範に及ぼすインパクトのゆくえを探るほか、環境危機に対峙するテクノロジーの現在地、サイエンスや医療でいよいよ訪れる注目のブレイクスルーなど、全10分野にわたり、2024年の最重要パラダイムを読み解く総力特集。詳細はこちら。