OpenAIがテキスト動画生成モデル「Sora」を発表
米国時間2月15日、OpenAIがテキストから動画を生成するモデル「Sora」を発表しました。
以下、公式サイトから
Soraの能力
私たち(OpenAI)は、現実世界でのインタラクションを必要とする問題の解決を支援するモデルをトレーニングすることを目標に、物理的な世界の動きを理解し、シミュレートするためにAIを教育しています。
私たちのテキストから動画への変換モデルであるSoraを紹介します。Soraは、視覚的な品質とユーザーのプロンプトに忠実であることを維持しながら、1分までの動画を生成することができます。
今日、Soraはレッドチーマー(訳注:セキュリティ対策をするための攻撃役)が重要なエリアの被害やリスクを評価するために利用できるようになりました。また、多くのビジュアルアーティスト、デザイナー、映画制作者にもアクセスを許可し、クリエイティブな専門家にとって最も役立つモデルの改良方法についてフィードバックを得ています。
私たちは、OpenAIの外部の人々と協力し、フィードバックを得るために、また、どのようなAI機能が地平線上にあるのかを一般の人々に感じてもらうために、研究の進捗状況を早期に共有しています。
Soraは、複数のキャラクター、特定の種類の動き、被写体や背景の正確なディテールを持つ複雑なシーンを生成することができます。このモデルは、ユーザーがプロンプトで求めたものだけでなく、それらが物理的な世界にどのように存在するかも理解しています。
このモデルは言語を深く理解しているため、プロンプトを正確に解釈し、生き生きとした感情を表現する魅力的なキャラクターを生成することができます。また、Soraは、生成された1つのビデオ内で、キャラクターやビジュアルスタイルを正確に表現する複数のショットを作成することができます。
現在のモデルには弱点があります。複雑なシーンの物理を正確にシミュレートすることに苦労したり、原因と結果の具体的な例を理解できなかったりします。例えば、人がクッキーを齧るかもしれませんが、その後、クッキーには齧った跡がないかもしれません。
また、プロンプトの空間的な詳細、たとえば左と右を混同してしまったり、特定のカメラの軌跡をたどるような、時間をかけて起こる出来事の正確な描写に苦労したりすることもあります。
安全性
SoraをOpenAIの製品で利用できるようにする前に、いくつかの重要な安全対策を講じる予定です。私たちはレッドチーマー(誤報、憎悪的なコンテンツ、偏見などの分野の専門家)と協力し、モデルを敵対的にテストします。
また、動画がSoraによって生成されたかを判別する検出分類器など、誤解を招くコンテンツの検出に役立つツールも構築しています。将来、OpenAI製品にこのモデルを導入する際には、 C2PAのメタデータ を含める予定です。
新しい技術を開発して配備に備えるだけでなく、DALL-E 3を使用する製品のために構築した 既存の安全メソッド を活用しています。
例えば、OpenAIの製品では、過激な暴力、性的な内容、憎悪的なイメージ、有名人の肖像、他人のIPを要求するような、私たちの使用ポリシーに違反するテキスト入力プロンプトを、私たちのテキスト分類器がチェックして拒否します。また、生成されたすべてのビデオのフレームを確認するために使用される堅牢な画像分類器も開発し、ユーザーに表示される前に、使用ポリシーに準拠していることを確認するのに役立っています。
私たちは、世界中の政策立案者、教育者、アーティストを巻き込んで、彼らの懸念を理解し、この新技術の積極的な使用事例を特定していきます。広範な調査とテストにもかかわらず、私たちは、人々が私たちの技術を使用する有益な方法のすべてを予測することはできませんし、人々がそれを悪用する方法のすべてを予測することもできません。だからこそ私たちは、実際の使用例から学ぶことが、時間をかけてより安全なAIシステムを開発し、リリースしていくための重要な要素であると考えています。
研究手法
Soraは拡散モデルで、静的なノイズのような動画から生成し、何段階にもわたってノイズを除去しながら徐々に変形させていきます。
Soraは動画全体を一度に生成したり、生成された動画を延長して長くしたりすることができます。一度に何フレームもの先読みをモデルに与えることで、被写体が一時的に視界から外れても被写体が変わらないようにするという難しい問題を解決しています。
GPTモデルと同様に、Soraはトランスフォーマーアーキテクチャを採用し、優れたスケーリング性能を実現しています。
Soraは、動画や画像をパッチと呼ばれる小さなデータ単位の集合体として表現します。データの表現方法を統一することで、異なる時間、解像度、アスペクト比にまたがる、従来よりも幅広い視覚データに対して拡散変換器を学習させることができます。
Soraは、DALL-EとGPTモデルの過去の研究をベースにしています。Sora は、DALL-E 3 の recaptioning テクニックを使用しており、ビジュアルトレーニングデータに対して非常に説明的なキャプションを生成します。その結果、生成された映像の中で、ユーザが指示したテキストをより忠実に再現することができます。
また、テキスト指示のみから動画を生成するだけでなく、既存の静止画像から動画を生成することも可能です。また、既存の動画を拡張したり、欠けているフレームを埋めることもできます。詳しくは テクニカルレポート をご覧ください。
Soraは、現実世界を理解しシミュレートできるモデルの基礎となるもので、AGIを実現するための重要なマイルストーンになると考えています。
Originally published at https://note.com on February 16, 2024.
Comments