高精細な動画を生み出すOpenAIの新ツール「Sora」は、生成AIを新たな次元へと押し上げる

テキストによる指示で高精細な動画を生成する新しいツール「Sora」をOpenAIが発表した。作例のようなクオリティを本当に実現できるなら、これはAIモデルに命令して魔法のように映画を制作する時代の到来に向けた、長いカウントダウンの始まりかもしれない。

Steven Levy

2024.02.16

VIDEO: WIRED STAFF; GETTY IMAGES

OpenAIの会話型AIが法科大学院に行かなくても司法試験に合格できることは、すでに知られている。そしていま、アカデミー賞が発表される直前のタイミングで、人工知能（AI）を用いたOpenAIの新たなツール「Sora」は、映画の学校に通わずとも映画制作を習得することを望んでいるのだ。

現時点では研究用のツールであるSoraは、一部の選ばれたクリエイターと、安全に関する脆弱性を評価するレッドチームの役割を担う多数のセキュリティ専門家に提供される予定である。時期は未定ながらもOpenAIはSoraをすべての“映画監督志望者”が利用できるようにする計画だが、先行してプレビューを実施することに決めたという。

グーグルのような大手企業からRunwayのようなスタートアップまで、さまざまな企業がすでにテキストを動画に変換するAIプロジェクトを公表している。しかし、OpenAIによると、Soraはそれらの競合モデルでは見たことがないような特筆すべきフォトリアリズム（写真のような写実性）と、ほかのモデルが生成する断片的な映像より長い最大1分の動画を生み出す能力において、一線を画しているという。

取材した研究者たちは、Soraがすべての映像をレンダリングするためにどれだけの時間が必要なのかを語ろうとしなかった。しかし、さらに踏み込んで尋ねたところ、「数日の休みをとる」というよりは、野球場に「ブリトーを食べに出かける」くらいの時間であると説明してくれた。実際に見せてもらった厳選された映像の事例が信じられるものだとすれば、それくらいの時間をかける価値はある。

生成された「雪に覆われた東京」の衝撃

OpenAIは独自のプロンプトを入力させてくれなかったが、Soraの能力を示す4つの事例を見せてくれた（最長とされる1分に近い動画はなく、最も長いもので17秒だった）。

最初の事例は、こだわりの強い脚本家が設定したように感じられる次のような詳細なプロンプトから生成された映像だった。

「美しく雪に覆われた東京の街がにぎわっている。美しい雪模様を楽しんだり近くの露店で買い物したりしている数人の人々をカメラが追いながら、活気のある市街地の通りを移動する。華やかな桜の花びらが、雪片とともに風に舞っている（Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes）」

OpenAIの「Sora」で生成された映像の事例。「美しく雪に覆われた東京の街」がテーマだ。

Courtesy of OpenAI

結果的に生み出された映像は、雪片と桜の花が同時に存在する魔法のような瞬間の、まぎれもない「東京」の説得力のある風景だった。ドローンに取り付けられたかのような仮想上のカメラが、街並みをゆっくりとそぞろ歩く1組のカップルを追う。通行人のひとりはマスクをしている。左手の川沿いの車道をクルマが音を立てて通り、右手に立ち並ぶ小さな商店には買い物客がせわしなく出入りしている。

完璧ではない。この動画を何度か観ると、仮想カメラがそのまま進み続ければ、主人公たち（雪に覆われた歩道をそぞろ歩くカップル）がジレンマに直面していたであろうことに気づくのだ。ふたりが歩いている歩道は行き止まりになっているように見える。そのまま歩いて行けば、小さなガードレールを乗り越えて、右側に並行して走る奇妙な歩道に移らなければならないだろう。

こうした軽度の不具合にもかかわらず、東京の映像の事例は世界を構築する能力の驚異的な実演だった。これからプロダクションデザイナーたちは、これが強力な「協力者」なのか、それとも仕事を奪う存在なのかを議論することになるだろう。

また、この映像に登場する（すべてデジタルニューラルネットワークによって生成された）人物たちは、クローズアップでは映されていないし、感情も一切見られない。しかし、Soraの開発チームによると、ほかの事例ではフェイクの俳優たちがリアルな“感情”を見せているという。

「訓練されていないこと」を表現する能力

このほかの動画も印象的だった。なかでも、「背の低いふわふわのモンスターが赤いろうそくのそばでひざまずいているアニメーションの一場面（an animated scene of a short fluffy monster kneeling beside a red candle）」という指示から生成された動画は、特に印象的である。

この指示には、詳細な描写（「目を見開いて口を開ける（wide eyes and open mouth）」）と、期待される雰囲気の説明も添えられていた。こうしてSoraが生み出したのが、ファービーとグレムリン、『モンスターズ・インク』のサリーからDNAを受け継いだような、ピクサー風の仮想の生物である。

『モンスターズ・インク』が公開された当時、モンスターが動き回るときの毛皮の極めて複雑な質感をつくり出すことがいかに難しいかを、ピクサーが大げさに宣伝していたことを覚えている。ピクサーの魔法使いたちは、何カ月もかけてそれを実現したのだ。OpenAIが新たに生み出したテキストから動画への変換をこなすマシンは……まさにそれをやってのけたのである。

「Soraは3次元幾何学と一貫性について学習します」と、このプロジェクトの研究科学者のティム・ブルックスは語る話す。「わたしたちがそのような映像になるように仕組んだわけではありません。完全に多くのデータを参照することから生みだされたものなのです」

アニメーションの場面は、溶けた赤いろうそくのそばにいる背の低いふわふわしたモンスターへのクローズアップが特徴。暖色系の色づかいとドラマチックな照明が、この映像の居心地のよさそうな雰囲気をさらに高めている。

Courtesy of OpenAI

こうした映像には確かに感心させられるが、Soraの最も驚くべき能力は訓練されていない領域で発揮される。OpenAIの画像生成AI「DALL·E 3」が用いる拡散モデルのひとつと、「GPT-4」の根幹をなすアーキテクチャー「Transformer」に基づくエンジンを原動力とするSoraは、プロンプトの要求を満たす映像を単に量産するだけではない。そこには映画の「文法」を即興で理解したことが示されているのだ。

つまり、Soraには物語を編み出す“才能”があることになる。「カラフルな魚や海の生物で満たされたサンゴ礁をきらびやかに描いたペーパークラフトの世界（a gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures）」というプロンプトから生み出された別の映像をご覧いただこう。

今回のプロジェクトに参加している研究者のビル・ピーブルズは、Soraがカメラのアングルやタイミングで物語の力を生み出したのだと指摘する。「実際にショットの切り替えが複数回あります。この映像は場面をつなぎ合わせたものではなく、AIモデルが一度に生成したものです」と、ピーブルズは言う。「そのように命令したわけではありません。自主的にやってのけたのです」

「カラフルな魚や海の生物で満たされたサンゴ礁をきらびやかに描いたペーパークラフトの世界」というプロンプトから生成された映像。

Courtesy of OpenAI

別の事例（映像は未確認）では、動物園を紹介するようSoraに指示しているという。「動物園の名称が書かれた大きな看板からスタートして、画面が縦方向に徐々に下がっていきます。そして場面が複数回にわたって切り替わり、動物園にいるさまざまな動物を紹介するのです」と、ピーブルズは説明する。「明確な指示を出していないにもかかわらず、優れた映画的な手法で映像を生成しています」

OpenAIのチームがまだ披露しておらず、今後もなかなか公開しない可能性のあるSoraの機能のひとつが、単体の画像や連続した場面から映像を生成する能力だ。「これもまた、物語を編み出す能力を向上させる非常に優れた手法のひとつになるでしょう」と、ブルックスは言う。「頭の中にあるものを正確に描き出し、それに命を吹き込むことができるのですから」

OpenAIは、この機能にはディープフェイクやデマを生み出す力もあることを認識している。「安全面での影響について、非常に慎重に進めていくことになります」と、ピーブルズは付け加える。

Soraには「DALL·E 3」と同様のコンテンツ制限（暴力・ポルノの禁止、実在する人物の取り込みやよく知られたアーティストの表現方法の取り込みの禁止）がかけられることが想定される。OpenAIはDALL·E 3と同じように、動画を観た人が「AIによる生成」であることがわかるような印を付けることになるだろう。

とはいえ、安全性や真実性は現在進行形の問題であり、それはひとつの企業では対処できない規模になっていると、OpenAIは説明する。「デマ対策として、わたしたちの側でもある程度は対処することになります。一方で、社会の側にも理解が必要であり、SNSも適応していく必要があります」と、DALL·Eチームの研究主任で責任者のアーディティヤ・ラメシュは言う。

この映像は以下のプロンプトに基づいて生成されたという。「数頭の巨大な毛むくじゃらのマンモスが雪の草原を踏みしめながら近づいてくる。毛むくじゃらの長い毛が風になびいている。雪に覆われた木々と、遠くにそびえる雪が積もったドラマチックな山々が見える。うっすらとした雲と遠くに高く上った太陽が暖かな輝きを放つ昼下がりの光、低いカメラアングルが大きな毛皮をまとった哺乳類を美しく写実的な被写界深度で見事に捉えている」

Courtesy of OpenAI

Soraが生み出す映像の内容が他者の著作物を侵害する可能性も存在する。「訓練データは、わたしたちがライセンスを有するコンテンツや公に利用できるコンテンツから得ています」と、ピーブルズは言う。もちろん、OpenAIに対する複数の訴訟の焦点は、「公に利用できる」著作物がAIの訓練にとって適正なのかどうか、という点にある。

長いカウントダウンの始まり

「テキストから動画」のシステムが実際の映画制作の脅威になるまでには（仮にそんな状況が生まれるとしての話だが）、非常に長い時間がかかるだろう。Soraが生み出した1分間の映像を120個つなげても、一貫した映画をつくることはできない。なぜなら、Soraは複数のプロンプトにまったく同じように反応するわけではないからだ。連続性は期待できない。

だが、TikTokやInstagramの「リール」などのソーシャルメディア向けの動画を生成するプログラムやSoraにとって、時間的な制限が障壁になることはない。「プロレベルの映画をつくるには非常に高価な機材が必要になります」と、ピーブルズは言う。「Soraはソーシャルメディアで動画を製作している普通の人々が優れた質のコンテンツをつくる際に力を発揮するでしょう」

いまのところ、OpenAIはSoraが大規模なデマの発生源になることを防ぐという大きな仕事に直面している。しかし、それが済めば、次世代のクリストファー・ノーランやセリーヌ・ソンがAIモデルに命令して魔法のように映画を制作する時代の到来に向けて、長いカウントダウンが始まることになるのだ。

（WIRED US/Edit by Daisuke Takimoto）

※『WIRED』による人工知能（AI）の関連記事はこちら。

Related Articles

Multi-colored glass spheres balanced on red metallic beams that are just about to topple over

ジェネレーティブAIが、動画でも転換点を迎える日がやってくる

アルゴリズムが生成したミーム動画が話題になりつつある。自動生成された動画の突然の増殖は、AIによる動画生成ツールの技術が発達して爆発的な進化を遂げる前兆かもしれない。

A collection of silhouettes all framed and in black and white outlined.

奇妙な映像を生成する動画生成AIは、映画やドラマ制作の現場に浸透するのか？

文章を入力するだけで動画を生成するAIツールが注目されている。生成された動画に滑らかさはまだなく、人の感情を揺さぶるコンテンツを生成するまでには至っていない。映像業界の人間がAIに置き換えられることはまだないだろうが、動画生成AIの技術が急速に進化しているのは確かだ。

Person standing in a dark room with their reflection in a mirror behind them

Google DeepMindのAIツール、音楽動画を瞬時に生成。“創造”はここまで簡単でいいのか？

Google DeepMindが音楽に特化した生成AIモデル「Lyria」と2つのAIツールを発表した。「Dream Track」では、アーティストを選択すれば、その声や楽曲スタイルを模倣した30秒の動画をすぐに生成できる。これは音楽の未来にとって何を意味するのだろうか。

高精細な動画を生み出すOpenAIの新ツール「Sora」は、生成AIを新たな次元へと押し上げる

雑誌『WIRED』日本版 VOL.51
「THE WORLD IN 2024」は好評発売中！

アイデアとイノベーションの源泉であり、常に未来を実装するメディアである『WIRED』のエッセンスが詰まった年末恒例の「THE WORLD IN」シリーズ。加速し続けるAIの能力がわたしたちのカルチャーやビジネス、セキュリティから政治まで広範に及ぼすインパクトのゆくえを探るほか、環境危機に対峙するテクノロジーの現在地、サイエンスや医療でいよいよ訪れる注目のブレイクスルーなど、全10分野にわたり、2024年の最重要パラダイムを読み解く総力特集。詳細はこちら。