2025年10月6日にOpenAI公式CookBookとして公開された「効果的なビデオプロンプトの作り方」を完全日本語翻訳+解説いたしました。この資料は無料アプリ版「Sora」ではなく、API版「Sora-2」に関する公式資料になります。APIを使ったツール開発を行う前に一度読んでおきたい資料です。
https://corp.aicu.ai/ja/sora2-20251006
またSora2のプロンプトは多くの場合日本語を解釈します。本書は解説のために全てを日本語にしていますが、実験の際は公式最新資料とともに英語も試してみてください。
プロンプト作成とは、あなたの絵コンテを一度も見たことのない撮影監督に指示を出すようなものだと考えてください。詳細を省略すれば、彼らは即興で対応しますが、あなたが思い描いていたものとは違うものが出来上がるかもしれません。その「ショット」で何を達成すべきかを具体的に指示することで、モデルはより高い制御力と一貫性を持って制作に取り組むことができます。
しかし、あえて詳細を曖昧にしておくことも、同様に強力な手法となり得ます。モデルに創造的な自由を与えることで、驚くようなバリエーションや、予期せぬ美しい解釈が生まれることがあります。どちらのアプローチも有効です。詳細なプロンプトは制御と一貫性をもたらし、シンプルなプロンプトは創造的な結果を生む余地を与えます。 どちらが適切かは、あなたの目標と目指す結果によって決まります。
プロンプトは契約書ではなく、クリエイティブなウィッシュリストとして扱いましょう。ChatGPTと同様に、同じプロンプトを複数回使用すると異なる結果が生成されます。これはバグではなく仕様です。それぞれの生成は新たな試みであり、時には2回目や3回目のものがより良い結果となることもあります。
最も重要なのは、繰り返し試行する準備をしておくことです。カメラ、照明、アクションのわずかな変更が、結果を劇的に変えることがあります。モデルと協力しましょう。あなたが方向性を示し、モデルが創造的なバリエーションを提供するのです。
これは厳密な科学ではありません。以下のガイダンスは、私たちがモデルを扱う中で学んだ役立つ提案だと考えてください。
プロンプトはビデオの内容を制御しますが、特定の設定はAPIパラメータによってのみ管理されます。これらは文章でリクエストするのではなく、API呼び出しで明示的に設定する必要があります。
model: sora-2 または sora-2-pro。
size: {幅}x{高さ} 形式の文字列。サポートされる解像度は、選択したモデルによって異なります。
sora-2
1280x720, 720x1280
sora-2-pro
1280x720, 720x1280
1024x1792, 1792x1024
seconds: クリップの長さ。サポートされる値は "4", "8", "12" です。デフォルト値は "4" です。
これらのパラメータはビデオの「器」です。解像度、長さ、品質は「もっと長くして」のような文章では変更されません。API呼び出しで明示的に設定してください。プロンプトはそれ以外のすべて(被写体、動き、照明、スタイル)を制御します。
ビデオ解像度は、Soraの映像の忠実度と動きの一貫性に直接影響します。高解像度では、ディテール、テクスチャ、照明の移り変わりがより正確に生成されますが、低解像度では映像情報が圧縮され、しばしばぼやけやノイズが生じます。
モデルは一般的に、短いクリップの方が指示に忠実に従います。最良の結果を得るためには、簡潔なショットを目指してください。もしプロジェクトで可能なら、8秒のクリップを1つ生成するよりも、4秒のクリップを2つ生成して編集でつなぎ合わせた方が、良い結果が得られることがあります。
明確なプロンプトは、まるで絵コンテにスケッチするかのようにショットを記述します。カメラのフレーミングを指定し、被写界深度に言及し、アクションをビート単位で描写し、照明とパレットを設定します。被写体をいくつかの特徴的なディテールで固定することで認識しやすくなり、一つのもっともらしいアクションに絞ることでショットが追いやすくなります。
一つのプロンプトで複数のショットを記述することも、シーケンスをカバーする必要がある場合には有効です。その際は、各ショットのブロックを明確に区別してください。つまり、一つのカメラ設定、一つの被写体のアクション、一つの照明レシピを一度に記述します。これにより、プロジェクトに応じて短い独立したクリップを生成したり、より長い連続した瞬間を生成したりする柔軟性が得られます。各ショットを創造的な単位として扱い、編集でつなぎ合わせるか、一つのシーケンスとして再生させるかを選択できます。
短いプロンプトは、モデルにより多くの創造的な自由を与えます。驚くような結果が期待できます。
長く詳細なプロンプトは、モデルの創造性を制限します。あなたの指示に従おうとしますが、常に忠実とは限りません。
短いプロンプトの例です:
90年代のドキュメンタリー風インタビューで、年配のスウェーデン人男性が書斎に座り、「私が若かった頃を今でも覚えている」と語る。
このプロンプトはうまく機能する可能性が高いです:
90年代のドキュメンタリーがビデオのスタイルを設定します。モデルはカメラレンズ、照明、カラーグレーディングなどの変数をそれに応じて選択します。
年配のスウェーデン人男性が書斎に座りは、人物と設定を最小限のディテールで記述しており、モデルが人物や設定の外観について創造的な自由を発揮できるようにしています。
「私が若かった頃を今でも覚えている」と語るはセリフを記述しています。Soraはこの指示に正確に従うことができるでしょう。
このプロンプトは、これらの要件に合致するビデオを安定して生成します。しかし、多くの詳細が未指定のため、あなたのビジョンと完全に一致しないかもしれません。例えば、プロンプトには時間帯、天気、服装、トーン、キャラクターの外見や年齢、カメラアングル、カット、セットデザインなど、多くの要素が記述されていません。これらの詳細を記述しない限り、Soraがそれらを補完します。
複雑で映画的なショットの場合、標準的なプロンプト構造を超えて、専門的な制作用語で外観、カメラ設定、グレーディング、音響、さらにはショットの意図まで指定することができます。これは、監督がカメラクルーやVFXチームに指示を出す方法に似ています。レンズ、フィルター、照明、グレーディング、動きに関する詳細な指示は、モデルが非常に特定の美学を捉えるのに役立ちます。
例えば、視聴者が最初に気づくもの、カメラのプラットフォームとレンズ、照明の方向、カラーパレット、質感、劇中音、ショットのタイミングなどを記述することができます。このアプローチは、実際の映画撮影スタイル(例:IMAX空撮、35mm手持ち撮影、ビンテージ16mmドキュメンタリー)を再現したい場合や、ショット間で厳密な連続性を維持したい場合にうまく機能します。
フォーマットと外観
長さ4秒; 180°シャッター; 65mmフィルムのコントラストを模倣したデジタル撮影; 微細な粒子; ハイライト部分にわずかなハレーション; ゲートウィーブなし。
レンズとフィルター
32mm / 50mm球面プライムレンズ; Black Pro-Mist 1/4フィルター; 列車の窓ガラスの反射を抑えるためのわずかなCPLフィルター回転。
グレーディング / パレット
ハイライト: アンバーがかったクリーンな朝日。
中間調: 影にわずかにティールを帯びたバランスの取れたニュートラル。
黒レベル: 霞を保持するためにわずかに持ち上げた、柔らかくニュートラルな黒。
照明と雰囲気
カメラ左からの自然光、低角度(午前7:30)。
バウンス: 線路脇からの4×4ウルトラバウンスシルバー。
反対側の壁からのネガティブフィル。
プラクティカルライト: ホームのナトリウム灯がゆっくりと消えていく。
雰囲気: 穏やかな霧; 列車の排気が光線の中を漂う。
場所とフレーミング
夜明けの都市の通勤プラットフォーム。
前景: 黄色い安全線、ベンチの上のコーヒーカップ。
中景: 霞の中にシルエットで浮かび上がる待っている乗客。
背景: 停止するためにブレーキをかける到着列車。
標識や企業のブランドロゴは避ける。
衣装 / 小道具 / エキストラ
メインの被写体: 30代半ばの旅行者、紺色のコート、片方の肩にかけたバックパック、携帯電話を緩く脇に持っている。
エキストラ: 落ち着いた色調の服を着た通勤者; 自転車を押すサイクリスト1人。
小道具: 紙のコーヒーカップ、キャリーバッグ、LED出発案内板(行き先は架空のもの)。
音響
劇中音のみ: 微かなレールのきしみ音、列車のブレーキのヒス音、遠くで聞こえる muffled なアナウンス(-20 LUFS)、低い環境音。
足音と紙が擦れる音; BGMや追加の効果音はなし。
最適化されたショットリスト(2ショット / 合計4秒)
0.00–2.40 — 「到着のドリフト」(32mm、ショルダーマウントで左へゆっくりドリー)
カメラがプラットフォームの標識の端を通り過ぎる; 浅い焦点でフレーム中央の旅行者が線路の先を見つめているのが現れる。朝の光がレンズ全体に広がり; 列車のヘッドライトが霧を通して柔らかくフレアを起こす。目的: 設定とトーンを確立し、期待感を匂わせる。
2.40–4.00 — 「振り返りと一時停止」(50mm、ゆっくりと内側へアーク)
列車が停止すると同時に、よりタイトなオーバーショルダーのアークショットにカット; 旅行者がカメラに向かってわずかに振り返り、頬に太陽光のリムライトが当たり、携帯電話の画面が反射する。視線が何か見えないものへと上がる。目的: 最小限の動きで人間的な焦点を作り出す。
カメラノート(なぜこれが機能するのか)
親密さを出すため、アイラインを低く、レンズ軸に近づける。
美的な質感として、列車の窓ガラスからのマイクロフレアを許容する。
リアリズムのために、手持ち撮影の微細な不完全さを維持する。
露出オーバーのフレアでシルエットの鮮明さを損なわず、肌のハイライトのロールオフを保持する。
仕上げ
リアリズムのための微細な粒子オーバーレイとわずかなクロマノイズ; プラクティカルライトの控えめなハレーション; 朝の分割トーンのためのウォームクールLUT。
ミックス: 足音のトランジェントよりも列車と環境音の詳細を優先する。
ポスターフレーム: 旅行者が振り返る途中、金色のリムライト、背景の霞の中に柔らかく焦点が合った到着列車。
プロンプトを作成する際、スタイルはモデルを望む結果に導くための最も強力な手段の一つです。全体的な美学を記述すること—例えば、「1970年代の映画」、「壮大なIMAXスケールのシーン」、または*「16mmの白黒映画」*—は、他のすべての選択肢を枠にはめる視覚的なトーンを設定します。モデルが一貫してそのスタイルを維持できるように、早い段階でこのスタイルを確立してください。
洗練されたハリウッドドラマ、手持ちのスマートフォンクリップ、またはざらついたヴィンテージコマーシャルのいずれを求めるかによって、同じディテールでも全く異なる印象になります。トーンが設定されたら、ショット、アクション、光で具体的な詳細を重ねていきましょう。
明確さが重要です。*「美しい夜の通り」のような曖昧な合図の代わりに、「濡れたアスファルト、横断歩道、水たまりに反射するネオンサイン」と記述してください。「速く動く」の代わりに、「3歩ジョギングして縁石で止まる」*と具体的に指定してください。目に見える結果を指し示す動詞や名詞は、常により明確で一貫した出力を提供します。
弱いプロンプト強いプロンプト「美しい夜の通り」「濡れたアスファルト、横断歩道、水たまりに反射するネオンサイン」「人が速く動く」「サイクリストが3回ペダルを漕ぎ、ブレーキをかけて横断歩道で止まる」「映画的なルック」「アナモルフィック2.0xレンズ、浅い被写界深度、ボリューメトリックライト」
カメラの方向とフレーミングは、ショットの雰囲気を形作ります。上からのワイドショットは空間と文脈を強調し、アイレベルでのクローズアップは感情に焦点を当てます。被写界深度はさらに別の層を加えます。浅い焦点は被写体をぼやけた背景から際立たせ、深い焦点は前景と背景の両方をシャープに保ちます。照明も同様に強くトーンを設定します。柔らかく暖かいキーライトは魅力的な雰囲気を作り出し、一方でクールなエッジを持つ単一の硬い光はドラマ性を高めます。
キャラクターを導入する際には、ある程度の予測不可能性を覚悟してください。フレーズのわずかな変更が、アイデンティティ、ポーズ、またはシーン自体の焦点を変えることがあります。ショット間で説明を一貫させ、連続性のためにフレーズを再利用し、競合する可能性のある特性を混ぜることは避けてください。
弱い
カメラショット:映画的なルック
カメラショット:ワイドショット、ローアングル
被写界深度:浅い(被写体にシャープ、背景はぼやけている)
照明+パレット:暖かい逆光と柔らかいリムライト
ワイドなエスタブリッシングショット、アイレベル
ワイドショット、突撃と共に左から右へトラッキング
空中からのワイドショット、わずかに下向きのアングル
ミディアムクローズアップショット、後ろからわずかなアングル
良いカメラモーション指示の例:
ゆっくりと傾くカメラ
手持ちのENGカメラ
動きは最も正しく表現するのが難しい部分なので、シンプルに保ちましょう。各ショットには、一つの明確なカメラの動きと、一つの明確な被写体のアクションを持たせるべきです。アクションは、ビートやカウント(小さなステップ、ジェスチャー、間)で記述すると、時間的に地に足がついた感じになり、最も効果的です。
「俳優が部屋を横切って歩く」では、あまり具体的な情報がありません。「俳優が窓まで4歩歩き、一時停止し、最後の1秒でカーテンを引く」のような一文は、タイミングを正確で達成可能なものにします。
弱い
俳優が部屋を横切って歩く。
俳優が窓まで4歩歩き、一時停止し、最後の1秒でカーテンを引く。
光は、アクションや設定と同じくらい雰囲気を決定づけます。フレーム全体に広がる拡散光は穏やかで中立的な感じを与え、単一の強い光源はシャープなコントラストと緊張感を生み出します。複数のクリップを編集でつなぎ合わせたい場合、照明の論理を一貫させることが、編集をシームレスにする鍵です。
光の質と、それを補強する色のアンカーの両方を記述してください。「明るく照らされた部屋」のような大まかなメモの代わりに、光源とトーンの組み合わせを具体的に指定します。「柔らかい窓からの光に、暖かいランプの補助光、そして廊下からのクールなエッジライト」のように。3〜5色を指定すると、ショット間でパレットを安定させるのに役立ちます。
弱い
照明+パレット:明るく照らされた部屋
照明+パレット:柔らかい窓からの光に暖かいランプの補助光、廊下からのクールなリムライト
パレットのアンカー:アンバー、クリーム、ウォールナットブラウン
ショットの構図とスタイルをさらに細かく制御するために、画像入力を視覚的なリファレンスとして使用できます。写真、デジタルアート、またはAIが生成したビジュアルを使用できます。これにより、キャラクターデザイン、衣装、セットの装飾、または全体的な美学などの要素が固定されます。モデルは画像を最初のフレームのアンカーとして使用し、テキストプロンプトが次に何が起こるかを定義します。
使い方
POST /videos リクエストの input_reference パラメータとして画像ファイルを含めます。
画像はターゲットビデオの解像度(サイズ)と一致する必要があります。
サポートされているファイル形式は、image/jpeg、image/png、image/webp です。
OpenAI GPT Imageで生成された入力画像Sora 2を使用した生成ビデオ(GIFに変換)<p><a href="https://cdn.openai.com/API/docs/images/sora/woman_skyline_original_720p.jpeg">この画像をダウンロード</a></p><p>プロンプト:<em>「彼女は振り向いて微笑み、ゆっくりとフレームから歩き去る。」</em></p><p><a href="https://cdn.openai.com/API/docs/images/sora/monster_original_720p.jpeg">この画像をダウンロード</a></p><p>プロンプト:<em>「冷蔵庫のドアが開く。かわいくてぽっちゃりした紫のモンスターがそこから出てくる。」</em></p>
もし視覚的なリファレンスがまだない場合、OpenAIの画像生成モデルはそれらを作成するための強力な方法です。環境やシーンデザインを素早く作成し、それらをSoraにリファレンスとして渡すことができます。これは美学をテストし、ビデオの美しい出発点を生成するのに最適な方法です。
セリフはプロンプトに直接記述する必要があります。散文的な説明の下に ブロックで配置することで、モデルが視覚的な説明と話されるセリフを明確に区別できるようにします。セリフは簡潔で自然なものにし、クリップの長さに合わせるために、やり取りは数文に制限してください。複数のキャラクターが登場するシーンでは、話者を一貫してラベル付けし、交互に話すようにします。これにより、モデルは各セリフを正しいキャラクターのジェスチャーや表情と関連付けることができます。
リズムとタイミングについても考える必要があります。4秒のショットは通常、1、2回の短いやり取りに対応でき、8秒のクリップはもう少し多くのやり取りをサポートできます。長く複雑なスピーチはうまく同期せず、ペースを崩す可能性があります。
ショットが無音の場合でも、「遠くの交通のヒス音」や「パリッとしたスナップ音」のような小さな音でペースを示すことができます。完全なサウンドトラックではなく、リズムの合図として考えてください。
セリフ付きのプロンプト例:
古い灰色の壁に囲まれた、窓のない窮屈な部屋。天井から一本の裸電球がぶら下がり、その光が中央の傷だらけの金属テーブルに溜まっている。テーブルを挟んで2つの椅子が向かい合っている。一方には刑事が座り、トレンチコートが椅子の背にかけられ、目は鋭く瞬きもしない。彼の向かいには容疑者がだらしなく座り、タバコの煙がゆっくりと天井に向かって立ち上っている。静寂が圧し掛かり、頭上の照明のかすかなハム音だけがそれを破っている。
セリフ:
- 刑事:「嘘をついているな。その沈黙から聞こえる。」
- 容疑者:「あるいは、ただ話すのに疲れただけかもしれない。」
- 刑事:「どちらにせよ、夜が明ける前には話してもらう。」
エスプレッソマシンのハム音と人々のささやき声が背景を形成している。
リミックスは賭けではなく、微調整のためのものです。一度に一つずつ、制御された変更を行うために使用し、「同じショットで、85mmに切り替え」や「同じ照明で、新しいパレット:ティール、サンド、ラスト」のように、何を変更しているのかを伝えてください。結果が惜しい場合は、それをリファレンスとして固定し、微調整部分だけを記述します。そうすることで、すでにうまくいっている部分はすべて固定されたままになります。
ショットが何度も失敗する場合は、基本に戻してください。カメラを固定し、アクションを単純化し、背景をクリアにします。それがうまくいったら、段階的に複雑さを加えていきましょう。
オリジナルビデオリミックス生成ビデオ<p>オリジナルビデオ</p><p><em>プロンプト:「モンスターの色をオレンジに変えて」</em></p><p>オリジナルビデオ</p><p><em>プロンプト:「直後にもう一体のモンスターが出てくる」</em></p>
プロンプトを書く効果的な方法の一つは、モデルに使用させたい情報の種類を分けることです。これは万能の成功法則ではありませんが、明確なフレームワークを提供し、一貫性を保ちやすくします。すべての詳細を含める必要はありません。ショットにとって重要でないものは省略できます。
実際、特定の要素を未指定のままにしておくと、モデルはより創造的になります。すべての視覚的な選択を厳密に指定しないほど、モデルは解釈し、予期せぬ、しかししばしば美しいバリエーションであなたを驚かせる余地が生まれます。非常に詳細なプロンプトは、より一貫性のある制御された結果をもたらしますが、シンプルなプロンプトは、新鮮で想像力に富んだ多様な結果を引き出すことができます。
詳細なプロンプトテンプレート:
[平易な言葉での散文的なシーン記述。キャラクター、衣装、風景、天気、その他の詳細を記述する。あなたのビジョンに合ったビデオを生成するために、できるだけ詳細に記述してください。]
撮影技法:
カメラショット:[フレーミングとアングル、例:ワイドなエスタブリッシングショット、アイレベル]
雰囲気:[全体的なトーン、例:映画的で緊迫感のある、遊び心がありサスペンスフルな、豪華な期待感]
アクション:
- [アクション1:明確で具体的なビートやジェスチャー]
- [アクション2:クリップ内の別の明確なビート]
- [アクション3:別のアクションまたはセリフ]
セリフ:
[ショットにセリフがある場合は、短い自然なセリフをここに追加するか、アクションリストの一部として追加します。クリップの長さに合うように簡潔にしてください。]
スタイル:柔らかいブラシの質感、暖かいタングステン照明、そして触感のあるストップモーションのような感覚を持つ、手描きの2D/3Dハイブリッドアニメーション。2000年代半ばの絵本アニメーションを彷彿とさせる美学—居心地が良く、不完全で、機械的な魅力に満ちている。 subtle な水彩画のウォッシュと絵画的なテクスチャ; グレーディングにおける暖色と寒色のバランス; アニメーションのリアリズムのための映画的なモーションブラー。
散らかった工房の中、棚には歯車、ボルト、黄ばんだ設計図が溢れている。中央には、木製のベンチに小さな丸いロボットが座っており、そのへこんだ体は不揃いのプレートや古い塗装の層で補修されている。その大きな光る目は淡い青色にちらつき、ジーという音を立てる電球を神経質にいじっている。空気は静かな機械のうなり声で満たされ、窓には雨が降りつけ、時計が背景で着実に時を刻んでいる。
撮影技法:
カメラ:ミディアムクローズアップ、吊り下げられた道具からの穏やかなパララックスを伴うゆっくりとしたプッシュイン
レンズ:35mmバーチャルレンズ; 背景の散らかりを和らげるための浅い被写界深度
照明:頭上のプラクティカルライトからの暖かいキーライト; コントラストのための窓からのクールなスピル
雰囲気:優しく、気まぐれで、少しサスペンスがある
アクション:
- ロボットが電球をタップする; 火花がパチパチと鳴る。
- それはひるみ、電球を落とし、目が大きく見開かれる。
- 電球がスローモーションで転がり落ちる; それはギリギリでキャッチする。
- 胸から蒸気のひと吹きが漏れる—安堵と誇り。
- ロボットが静かに言う:「もう少しで失うところだった…でも、捕まえた!」
背景音:
雨、時計のチクタク音、柔らかい機械のハム音、かすかな電球のジリジリ音。
スタイル:1970年代のロマンチックドラマ、35mmフィルムで撮影され、自然なフレア、ソフトフォーカス、暖かいハレーションがある。わずかなゲートウィーブと手持ち撮影の微細な揺れが、ヴィンテージの親密さを呼び起こす。暖かいコダック風のグレーディング; 電球の軽いハレーション; 時代の信憑性のためのフィルムグレインとソフトなビネット。
ゴールデンアワーに、レンガ造りのアパートの屋上が小さなステージに変わる。白いシーツが干された洗濯ロープが風に揺れ、最後の日光を浴びている。不揃いのフェアリーライトのストリングが頭上でかすかにうなっている。流れるような赤いシルクのドレスを着た若い女性が裸足で踊り、色あせていく光の中でカールが輝いている。彼女のパートナー—袖をまくり、サスペンダーを緩めた—が手拍子を送り、彼の笑顔は広く、無防備だ。下では、街が車のクラクション、地下鉄の揺れ、遠くの笑い声でざわめいている。
撮影技法:
カメラ:ミディアムワイドショット、アイレベルからのゆっくりとしたドリーイン
レンズ:40mm球面レンズ; スカイラインからカップルを分離するための浅い焦点
照明:タングステンのバウンスを伴う金色の自然なキーライト; フェアリーライトからのエッジライト
雰囲気:ノスタルジック、優しく、映画的
アクション:
- 彼女が回転する; ドレスが広がり、日光を浴びる。
- 女性(笑いながら):「見て?今夜は街も私たちと一緒に踊っているわ。」
- 彼がステップインし、彼女の手を取り、彼女を影の中にディップさせる。
- 男性(微笑みながら):「君がリードするからだよ。」
- シーツがフレームを横切り、スカイラインを一時的に覆い隠してから再び分かれる。
背景音:
自然な環境音のみ:かすかな風、布のはためき、街の騒音、 muffled な音楽。追加のスコアなし。
Googleによるソースコードはこちら
https://github.com/openai/openai-cookbook/blob/main/examples/sora/sora2_prompting_guide.ipynb
Originally published at note.com/aicu on Oct 8, 2025.