OpenAIリリース文書「Video generation models as world simulators」の翻訳

15日、OpenAIは動画生成モデル、Soraを発表した。プロンプトとして与えられたテキストに基づいて生成された動画の品質、ディテールが注目されている。巷にあふれる印象や、断片的な情報を雑多に収集し、鵜呑みにするのではなく、内容を適切に理解したいと考え、リリース文書に目を通した。

openai.com

大規模言語モデルの学習においては、トークンと呼ばれる、学習データが内包する表象を文字情報のチャンクとして処理し、推論においては、適切なトークンを予測していく。動画生成モデルも同じようなことをしている。トークンの代わりに、パッチと呼ばれる時空情報のチャンクを処理し、推論においては、適切なパッチを予測していく。

面白いのは大規模言語モデル同様、動画生成モデルの学習でも創発が生じることだ。三次元的な整合性のある世界体系のようなものが生じ、ある程度、世界をシミュレーションすることのできる機能を獲得する。

現時点では確実性がないため、Video generation model（動画生成モデル）にとどまっているのだが、その本質的な可能性は、ただ文字列から動画を生成するという創作支援的な用途に限定されるものではない。動画情報からの学習だけで、シミュレーター的に世界を模倣できる可能性を秘めている。

注意
翻訳 - Video generation models as world simulators

注意

リリース文書には、合計32の参考文献を指す注釈番号が付与されている。この翻訳では、それらを全て削除した。リリース文書、参考文献ともに英文なので、そもそも参考文献まで目を通す読者であれば、最初から英文のリリース文書に目を通しているはずだ。だから注釈番号も不要と判断した。

リリース文書には多数のサンプル動画が収録されている。はてなブログの仕様の都合、これらを参照するURLを掲載しても、プレビューが表示されない。このブログ上で、それらを直接参照することはできないため、必要な都度、オリジナルの文書中の動画を参照してほしい。

翻訳 - Video generation models as world simulators

動画データを用いる生成モデルの大規模トレーニング、とりわけ再生時間、解像度、アスペクト比の異なる多様な動画、静止画を用いるテキスト条件付き拡散モデルの学習について研究しました。Transformerのアーキテクチャを応用し、動画から得た時空パッチ、静止画が内包する符号を操作することで、OpenAI最大のモデルであるSoraは、現実に即した1分間の動画を生成できます。この結果は、動画生成モデルを突き詰めていくことが、物理世界を汎用的に模倣するために有用であることを示唆しています。

このレポートは、次の2点に焦点を当てています。モデルと実装の詳細については触れません。

多様な映像データを、生成モデルの大規模学習に適用可能な統一的表現に変換する方法
Soraができること、できないことの定性評価

RNN、GAN、自己回帰Transformer、拡散モデルなど、様々な手法による動画生成モデルについて、多くの先行研究があります。多くは特定カテゴリの画像データ、短い動画、固定サイズの動画に特化しています。Soraは広範に機能するモデルであり、再生時間、アスペクト比、解像度の異なる、最大1分間の高画質動画、画像を生成することができます。

画像情報からパッチへの変換

着想は、インターネット上のデータを学習することによって汎用性を獲得した大規模言語モデルでした。LLMを成功に導いた要因の一つは、数学、自然言語など、テキストが内包する概念や様相などを巧みに融合したトークンを用いることでした。この研究では、同様のアイデアが視覚データの生成モデルについても有効であるかを考察します。
LLMがテキスト・トークンを利用するように、Soraは視覚パッチを用います。視覚データ・モデルに対するパッチの有効性はパッチは、以前より示されています。動画、画像を用いる生成モデルの学習に対してもパッチを適用することができ、有効に機能することを突き止めました。

動画のパッチ化を概念的に表現すると、動画を低次元の潜在空間に圧縮し、圧縮情報の表彰を時空パッチに変換することです。

動画圧縮ネットワーク

視覚データを次元圧縮するようネットワークをトレーニングします。このネットワークは動画そのものを入力とし、動画が内包する時空が圧縮された表彰を出力します。Soraは、このような圧縮された内包空間で学習し、動画を生成するのです。同時に、生成された情報をピクセル空間にマッピングするデコーダーとして機能するモデルも学習させます。

時空パッチ

入力となる動画が圧縮されると、Transformerでいうところのトークンに相当する、一連の時空パッチが生成されます。単一の静止画は、1フレームで構成された動画であると解釈すれば、この仕組みは画像に対しても有効に機能します。Soraは、解像度、再生時間、アスペクト比の異なる動画や画像を、パッチ化された表象として学習するのです。推論時、ランダムに初期化されたパッチを、適切なサイズの格子状に並べることで、生成される動画のサイズをコントロールできます。

動画生成におけるTransformerの応用

Soraは拡散モデルです。ノイズ・パッチ（加えて、制約条件となるプロンプト）を入力とし、ノイズを取り除いた原型となるパッチを予測するよう、学習します。Soraは拡散Transformerなのです。Transformerは、言語モデル、コンピュータ・ビジョン、画像生成など、様々な領域に応用されています。

拡散Transformerも、同様に動画モデルに応用可能であることを突き止めました。以下に示すのは、学習過程の動画のサンプル比較です。シードと入力は共通です。学習が進むほど、サンプルのクオリティが改善しているのが分かります。

=====[動画参照]=====

再生時間、解像度、アスペクト比の変更

例えば、256ピクセル四方、4秒の動画のように、リサイズ、切り抜きで標準サイズのデータを用いるのが、従来の画像、動画生成学習でした。今回、本来のサイズのデータを学習に用いることが有用であることが分かりました。

サンプリングの柔軟性

Soraは、1920 x 1080pの横長、1080 x 1920の縦長、その中間のすべてサイズの動画をサンプリングできます。その結果、異なる端末の、それぞれのアスペクト比に応じた画像を生成できます。共通のモデルに基づいて、最高解像度の画像を生成する前に、プロトタイプとして低解像度の画像を素早く出力できるのです。

=====[動画参照]=====

構図と構成の改善

経験上明らかなのが、動画本来のアスペクト比で学習させることで、構図と構成が改善されることです。生成モデルの学習では一般的な、正方形にくり抜いた動画で学習したモデルとSoraを比較したところ、前者は被写体全体を捉えきれていない動画を生成することがありました。対照的に、Soraは構成が改善された動画を出力しています。

=====[動画参照]=====

言語の理解

テキストから動画を生成するための学習には、説明文付きの動画を大量に用います。今回、DALL-E 3で採用された、キャプションから動画を生成する手法を適用しました。まず表現力豊かなキャプションを生成するモデルに学習させ、訓練用動画データのキャプションを生成させるのです。表現力豊かなキャプションを用いた学習は、動画の品質を向上させるとともに、キャプションに忠実な動画を生成するのです。

DALL-E 3同様、GPTを用いて、短いプロンプトを長く詳細なキャプションへ変換し、動画生成モデルへ指示します。こうすることで、Soraはプロンプトに忠実な高品質動画を生成できるのです。

画像と動画のプロンプト

トップページに掲載された画像も含め、以上のサンプルはテキストから生成された動画です。Soraはまた、既存の画像や動画を入力として処理することで、延々とループし続ける動画を生成したり、静止画を動画にしたり、動画に映る内容の過去、未来を創造したりなど、広範な画像、動画編集に対応することもできます。

DALL-Eの出力を動画化

Soraは、入力された画像とプロンプトに基づいた動画を生成できます。以下に示すサンプルは、DALL-E 2、3から出力された画像に基づいて生成された動画です。

=====[動画参照]=====

生成された動画の拡張

Soraは、動画に映る内容の過去、未来を創造することもできます。以下に示す動画は、生成された動画の開始位置から過去に遡って生成されたものです。それぞれの動画の出だしは異なるのですが、結末は同じです。

=====[動画参照]=====

この方法を応用すれば、過去と未来をつなげてループさせることもできるのです。

=====[動画参照]=====

動画の編集

拡散モデルが、テキストから画像や動画を編集する多様な方法を実現しました。以下に示すのは、その一手法であるSDEditをSoraに適用したものです。この手法によって、入力された動画の作風や背景を、追加学習なしで変換することができます。

=====[動画参照]=====

動画の合成

Soraは、2つの入力動画を補間することで、被写体や場面、構図が完全に異なる動画を合成することができる。以下に示す動画の中央列は、左右の動画から合成されたものです。

=====[動画参照]=====

画像生成能力

Soraは画像を生成することもできます。1フレームの動画にガウス・ノイズのパッチを敷き詰めることで、縦横最大2048ピクセルの画像を生成できます。

	Close-up portrait shot of a woman in autumn, extreme detail, shallow depth of field
	Vibrant coral reef teeming with colorful fish and sea creatures
	Digital art of a young tiger under an apple tree in a matte painting style with gorgeous details
	A snowy mountain village with cozy cabins and a northern lights display, high detail and photorealistic dslr, 50mm f/1.2

創発的シミュレーション能力

大規模な学習をした動画生成モデルは、数々の興味深い機能を創発します。この機能によって、Soraは物理世界の環境、人間、動物のある一面を模倣することができます。これは単に学習の規模によって生じる現象であり、学習の設定によって生じたものではありません。

三次元的な整合

Soraは、カメラが移動しながら撮影した動画を生成します。カメラが回り込んだり、焦点を切り替えたりするに応じて、被写体も三次元的に整合するように移動するのです。

=====[動画参照]=====

長期間の一貫性、オブジェクトの永続性

動画生成システムの重要な課題は、長い動画をサンプリングする際に、時間的な一貫性を維持し続けることです。常にというわけではありませんが、Soraは長期間、短期間の依存関係を効果的にモデルへ反映させることができます。例えば、被写体が遮られたり、フレームから外れても、その存在を保持し続けます。同様に、単一のサンプルから一つのキャラクターの画像を複数生成し、動画を通じて、その要望を保ち続けることができます。

=====[動画参照]=====

世界との相互作用

単純な形で世界に影響する行動を、Soraは模倣することができます。例えば、画家はキャンバス上に筆跡を残し続け、男性がかぶりついたバーガーには歯形が残ります。

=====[動画参照]=====

デジタル世界の模倣

Soraは人工的なプロセス、例えばビデオゲームも模倣できます。マインクラフトのプレイヤーを単純なルールに基づいて操作すると同時に、ゲームの舞台と、そこに働く力学系を忠実にレンダリングします。"Minecraft"を含むプロンプトで追加学習する必要もありません。

=====[動画参照]=====

このような能力が示唆するのは、動画生成モデルを突き詰めることが、現実世界、デジタル世界、その中のオブジェクト、動物、人々をまとめて模倣する、極めて優れたシミュレータの開発に有用であることです。

課題

現在、Soraはシミュレーターとして多くの限界を抱えています。例えば、グラスが割れるような、基本的な物理的相互作用が、モデルへ正確に反映されていません。食事のような、そのほかの相互作用にしても、オブジェクトの状態を適切に変化させているとは限りません。長大なサンプルで生じる不整合、不意に出現するオブジェクトなど、ありがちな失敗事例をランディングページに列挙しています。

=====[動画参照]=====

動画生成モデルの追及が、現実世界、デジタル世界、その中のオブジェクト、動物、人々をまとめて模倣する、優れたシミュレータの開発に繋がることを、Soraの能力が実証したと思うのです。

Technically Impossible

Lets look at the weak link in your statement. Anything "Technically Impossible" basically means we haven't figured out how yet.

OpenAIリリース文書「Video generation models as world simulators」の翻訳

注意

翻訳 - Video generation models as world simulators

画像情報からパッチへの変換

動画圧縮ネットワーク

時空パッチ

動画生成におけるTransformerの応用

再生時間、解像度、アスペクト比の変更

言語の理解

画像と動画のプロンプト

画像生成能力

創発的シミュレーション能力

課題