https://openai.com/index/sora-2/
本日、OpenAI はフラッグシップの動画・音声生成モデル Sora 2 をリリースしました。2024年2月に公開した初代 Sora は、動画における “GPT-1 の瞬間” でした。はじめて「動き始めた」と感じられる生成が可能になり、学習前段の計算資源をスケールするだけで、物体永続性(Object Permanence) のような単純挙動が自然発生的に現れたのです。その後、Sora チームはより進んだ世界シミュレーション能力の学習に注力してきました。OpenAI は、こうしたシステムこそが、物理世界を深く理解する AI の育成に不可欠だと考えています。言語に比べればまだ黎明期にある大規模映像データでの事前学習と事後学習を極めることが、その大きなマイルストーンです。
Sora 2 によって、OpenAI は動画における “GPT-3.5 の瞬間” へ一気に飛び込んだと考えています。Sora 2 は、従来の動画生成モデルでは極めて難しく—場合によっては不可能だったことまで可能にします。たとえば、オリンピック級の体操ルーティン、パドルボード上でのバク宙(浮力や剛性のダイナミクスを正しく再現)、そして猫にしがみつかれながらのトリプルアクセルなどです。
従来の動画モデルは楽観的すぎる傾向があり、テキストプロンプトを成立させるために物体を変形させたり現実を歪めたりしてしまいます。たとえばバスケットボール選手がシュートを外した場面で、ボールが瞬間移動してリングに吸い込まれるような挙動です。Sora 2 では、同じ状況でボールはバックボードで跳ね返ります。興味深いのは、Sora 2 の「ミス」はしばしばモデル内部で暗黙にシミュレートされているエージェントのミスとして現れる点です。完璧ではないものの、物理法則の順守は従来より大きく改善しています。これは有用な世界シミュレータにとって極めて重要です—成功だけでなく失敗も正しくモデル化できなければならないからです。
また、このモデルはコントロール性が大きく進歩し、複数ショットにまたがる綿密な指示にも従え、世界状態(ワールドステート)の持続も正確です。写実、シネマティック、アニメ調などで高い表現力を発揮します。
さらに、現実世界の要素を直接差し込むことも可能です。たとえば、チームメンバーの動画を観察させることで、Sora が生成するあらゆる環境にその人物の外見と声を正確に反映して登場させられます。この能力は非常に汎用的で、人間・動物・物体いずれにも機能します。
このモデルはまだ完璧ではなくさまざまなミスも起こしますが、映像データでニューラルネットをさらにスケールすることが、現実のシミュレーションに近づく道のりであるという強い検証になっています。
汎用シミュレーションや物理世界で機能する AI への道のりの中で、OpenAI が構築しているモデルは、その過程でも多くの楽しさを提供できると考えています。
Sora チームは数か月前からこの「自分をアップロード」機能で遊び始め、大いに盛り上がりました。テキスト→絵文字→ボイスメモ→そしてSora2へとコミュニケーションの自然な進化のようにも感じられました。
そこで本日、Sora 2 を搭載した新しいソーシャル iOS アプリ「Sora」をローンチします。アプリ内では、生成・リミックス・発見ができ、カメオ(cameos)で自分や友人を登場させられます。カメオでは、アプリ内で一度だけ短い動画+音声の本人確認を行うことで、あなたの容姿と声をキャプチャし、どの Sora シーンにも高忠実度で自分をドロップインできます。
先週、OpenAI はこのアプリを社内の全メンバーに公開しました。この機能を通じて新しい社内の友人ができたという声も届いています。OpenAI は、カメオを中心に据えたソーシャルアプリこそが Sora 2 の魔法を最もよく体験できる方法だと考えています。
無限スクロールの中毒性、孤立、RL-sloptimized(強化学習に最適化された)偏ったフィードといった懸念は常に念頭に置いています。OpenAI は以下の取り組みを行っています。
ユーザーが自分のフィードをコントロールできるようにします。OpenAI の既存の大規模言語モデルを用いて、自然言語で指示可能な新しいレコメンダを開発しました。さらに、定期的なウェルビーイングの確認と、フィード調整の提案を行う仕組みを備えています。
既定では、フォロー/交流のある人々のコンテンツが強く優先され、自分の創作のインスピレーションとして使いそうな動画を優先表示します。滞在時間の最大化は目的としておらず、視聴よりも創作を最大化する設計です。詳細は フィード哲学 を参照してください。
このアプリは友達と一緒に使うことを想定しています。テスターからの圧倒的なフィードバックは、カメオがこの体験を新しく楽しいものにしているという点でした。言葉では伝えにくいのですが、実際に使うとまったく新しいコミュニケーションであると感じられます。招待制で段階的に展開し、友人と一緒に入れるようにしています。主要プラットフォームがソーシャルグラフから離れつつある今、OpenAI はカメオがコミュニティを強化すると考えています。
ティーンのウェルビーイング保護はとても重要です。フィードで 1 日に見られる生成数に既定の上限を設け、カメオの権限もより厳格にします。自動の安全対策に加えて、人によるモデレーション体制を拡充し、いじめの事例には素早く対応します。Sora の保護者コントロールは ChatGPT を通じて提供し、無限スクロールの制限解除、アルゴリズムのパーソナライズ無効化、DM 設定の管理などが可能です。
カメオ出演
このアプリでは、同意(肖像の利用)・来歴(プロベナンス)・有害コンテンツ生成の防止など、数多くの安全トピックに取り組んできました。詳しくは Sora 2 セーフティ文書 を参照してください。
他のアプリの多くの問題は、収益化モデルがユーザーのウェルビーイングと相反する意思決定を誘発することに起因します。OpenAI は透明性をもって、現時点では計算資源が逼迫した際に、追加生成のための少額課金オプションを用意する以外の計画はありません。アプリの進化に応じて、この方針の変更はオープンに伝達し続け、ユーザーのウェルビーイングを最優先に保ちます。
この旅はまだ始まったばかりですが、Sora 2 による強力な生成とリミックスの方法は、協創体験のまったく新しい時代の幕開けだと OpenAI は見ています。現行のプラットフォームと比べても、より健全なエンタメと創作の場になると楽観しています。どうぞ楽しんでください :)
Sora iOS アプリは今すぐダウンロードできます。アプリ内で登録すると、アクセス可能になったタイミングで通知を受け取れます。OpenAI は米国とカナダで初期展開を開始し、迅速に他国へ拡大する予定です。招待を受け取った後は、sora.com からも Sora 2 にアクセスできます。Sora 2 は当初無料で提供され、十分に寛大な制限を設けて自由に試せるようにします(ただし計算資源には制約があります)。ChatGPT Pro ユーザーは sora.com(および近日中に Sora アプリでも)で、実験的かつ高品質な Sora 2 Pro モデルを利用できます。Sora 1 Turbo も引き続き利用可能で、これまでに作成したコンテンツはsora.com のライブラリにそのまま残ります。
動画モデルは驚異的な速度で進歩しています。汎用の世界シミュレータとロボティックエージェントは、社会を根本から変え、人類の進歩を加速させるでしょう。Sora 2 はその目標に向けた大きな前進です。OpenAI のミッションに照らし、これらのモデルが開発される過程でも人類全体が恩恵を受けることが重要です。OpenAI は、Sora が世界に喜び・創造性・つながりをもたらすと考えています。
— Sora チーム記
もとMidJourney、現OpenAI Soraリサーチチームのgabrielさん
課金されないという点も驚きです。
Sora2の速さと品質、機能と価格、全てにおいて、他の動画生成サービスにも多大な影響を与える可能性が予想されます。
例えば総合動画生成サービス「HiggsFields」では「Sora2」のウェイトリストがありましたが、現在では取り下げられています。
非常に危険なアプリであることは間違いありません。
著作権に関しても注意が必要です
日本でリリースされていない理由は法的な理由かもしれません。
そして"お小遣い稼ぎ"を考えるあなたへ
動画とソーシャルメディアについてなやむ ざすこさん
OpenAIのリリースにもあるように、「楽しむこと」をまずは応援していくスタンスで設計されているようです。AICUは「つくる人をつくる」を応援しつつ、歴史の1ページを確実に見届けていきたいとおもいます。
謝辞:試作動画をご提供いただいたみなさまありがとうございました
Originally published at note.com/aicu on Oct 1, 2025.