Google DeepMindが「Gemini Omni」を発表! 「動画版Nano Banana」がもたらすビデオクリエイティブのパラダイムシフト

作成者: AICU Japan｜2026/05/21 16:13:46 Z

【AICU I/O 2026 速報】2026年5月20日(日本時間) Googleの新技術発表会 I/O 2026にて、Google DeepMindはAIの歴史を大きく塗り替える可能性を秘めた次世代AIモデルファミリー「Gemini Omni（ジェミニ・オムニ）」を発表しました。「動画版Nano Banana」ともいえるクリエイティブAIのパラダイムシフトを解説します。

基調講演に登壇したGoogle DeepMind CEOのデミス・ハサビス（Demis Hassabis）氏は、このモデルを「人工汎用知能（AGI）の実現に向けた極めて重要なステップ」と位置づけています。AIが単に次の言葉を予測する段階を超え、現実世界をシミュレートする「世界モデル（world model）」へと進化した、その驚異の全貌をAICU読者に向けて速報でお届けします。

Gemini Omniとは？：究極の「Any-to-Any」への第一歩

Gemini Omniの最大にして究極のコンセプトは、「どのような入力からでも、あらゆるものを作成できる（Any-to-Any）」という点にあります。テキスト、画像、音声、動画といったあらゆるモダリティをシームレスに融合し、今回はその記念すべき第1歩として「ビデオ生成と編集」の領域からスタートします。

これまでGoogleが培ってきたメディア生成モデル（Veo、Nano Banana、Genieなど）の表現力と、Geminiの高度な推論・言語理解能力が融合した、全く新しいマルチモーダルモデルです。

異次元の進化を遂げた「4つの核心的特徴」

1. 物理法則と文化を理解する「世界モデル（world model）」

従来の動画生成AIは「もっともらしい映像の連続」を作るのが得意でしたが、Gemini Omniは物理概念（運動エネルギーや重力など）を深く理解しています。さらに、Geminiが持つ歴史、生物学、科学、文化に関する膨大な知識をそこに融合させています。

これにより、単に写真のようにリアルな（フォトリアリスティックな）映像を作るだけでなく、「行動には結果が伴い、環境は出来事に反応し、物語が論理的に展開する」という、意味のあるストーリーテリングが可能になりました。ハサビス氏によるデモでは、「タンパク質の折り畳み構造についてのクレイアニメ解説動画を作って」という非常に複雑なプロンプトに対し、科学的に正確でリアリティのあるストップモーション動画を瞬時に生成し、会場を沸かせました。

2. 完璧な「キャラクターの一貫性」を維持

映像クリエイターにとって最大の課題だった「シーンが変わるとキャラクターの顔や服装が変わってしまう問題」を劇的に解決します。

Gemini Omniでは、キャラクターを最初に一度定義するだけで、その後に続くどのシーン、どの場所、どのような動作や照明環境であっても、完全に一貫性を保ったまま登場させることができます。

3. 自然言語で動画の現実を作り変える「再構成（編集）」機能

ゼロからの生成だけでなく、「ユーザーが自分で撮影した動画」をベースにした直感的な編集が可能です。

例えば、自分の自撮り動画をアップロードし、Gemini Omniに指示を出すだけで、周囲の環境をガラリと変えたり、新しいオブジェクトを違和感なく追加したり、動画内の単純な円をブラックホールに変形させたりといった、現実を再構成するキャンバスのような使い方が可能です。

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/

4. 軽量高速モデル「Gemini Omni Flash」が即座に利用可能に！

今回の発表に合わせ、Omniファミリーの最初のモデルとなる「Gemini Omni Flash」がすでにローンチされています。今すぐ以下のプラットフォームやプロダクトで体験可能です。

Geminiアプリ
Google Flow
YouTube Shorts

さらに、開発者や企業向けにも、今後数週間以内にAPI経由での展開が開始される予定です。また、今後はより高度なタスクに対応する上位モデル「Omni Pro」の詳細も共有されるとのことです。

より深い使い方を紹介！

追加の公式詳細情報を反映し、機能を深掘りした「完全詳細版」のAICUブログ記事へとアップデートしました。読者が実際のユースケースやクリエイティブへの応用をイメージしやすいよう、具体的なプロンプト例や安全性の取り組みを網羅しています。

「動画版Nano Banana」：対話で育てるマルチターン編集

Google DeepMindは、Gemini Omniの編集体験を「動画版のNano Banana（画像生成モデル）」と表現しています。

最大の特徴は、自然言語によるステップ・バイ・ステップの対話型編集です。一度動画を出力して終わりではなく、チャットで指示を重ねるごとに、前のアクションを引き継ぎながら一貫性とまとまりのあるシーンを洗練させていくことができます。

【デモで示された驚異の編集プロンプト例】

元の動画（人物が鏡に触れるシーン）に対し、プロンプトを投げるだけで世界観を瞬時に塗り替えます。

質感の変更：「鏡に触れた瞬間、鏡面が液体のように美しく波打ち、人物の腕が鏡の反射素材に変化する」
アートスタイルの変換：「鏡に触れると、人物が詳細なモノクロの線画（ラインアート）に変わる」
実写からクラフトへ：「鏡に触れた瞬間、ギョロ目とメガネをかけた可愛いフェルトのぬいぐるみに変身する」
ボクセル化：「鏡に触れると、周囲の環境すべてが3Dボクセルアート（マインクラフト風）に変化する」

複数の「素材（リファレンス）」を1つに融合する超マルチモダリティ

Gemini Omniは、テキストだけでなく画像、動画、音声といった複数のインプットをパズルのように組み合わせ、1つの洗練された物語に仕立て上げることができます。

画像から動画へのエフェクト適用： 手が開く動画に対し、1枚の建築スケッチ（画像）を読み込ませて「この画像に基づいた3D建築構造が手のひらの上で構築され、プリズムの光を反射させる。BGMはなし、リアルな環境音だけで」と指示すると、完璧に融合した映像が出力されます。
モーションとスタイルの転写：
1. 「動画Aのクジラの泳ぎ（動き）」を、「画像Bの流体反射素材（スタイル）」に適用。水やクジラそのものは描かず、素材自体がクジラのように躍動する抽象的かつ美しい映像を生み出します。
スケッチを実写化：
1. ユーザーが描いた手書きの「落書き（線画）」を動きのガイドとして使い、描かれた要素の動きを完全にトレースした「リアルな実写映像」へと翻訳します。

現実世界のロジック・科学・テキストを同期する「知能」

単に綺麗な映像を作るだけでなく、Geminiが持つ「言語・学術的な推論力」が動画生成と完全に同期しています。

物理法則の直感的な理解

重力、運動エネルギー、流体力学などの概念を理解しているため、「ピタゴラスイッチのようなトラックを猛スピードで転がるビー玉」といった、現実的な慣性や加速を持つ映像をスムーズなワンカットで描けます。

高度な科学・歴史のストーリーテリング

プロテインフォールディング（タンパク質折り畳み）の解説：「すべてが粘土でできたクレイアニメで、人間の手は映さず、ストップモーションで正確にタンパク質の折り畳みを説明して」という複雑な科学的オーダーにも、正確な構造を持って応えます。
脳の仕組み解説：「海馬の働きについてのストップモーション解説動画。ただしタツノオトシゴ（Hippocampusの語源）は出さないで」といった高度な文脈の制御（ネガティブプロンプトの論理的理解）も完璧です。

映像とテキスト（文字入れ）の完璧な同期

動画内で「文字」をレンダリングするだけでなく、映像のカットやリズムと文字をシンクロさせます。

「アルファベット・チャレンジ」のプロンプト例：「AからZまでのアイテムがテーブルに置かれている動画。Cならカピバラ、Dならディスコボール。26個のアイテムを24FPS（1秒24フレーム）の中、1アイテムあたり約9フレームの超高速テンポで表示し、左下に黒マーカーで紙に書いたような文字でアイテム名を同期させて表示して。最後は『THE END』で締め、スムースな音楽を乗せて」

このような、従来なら気が遠くなるような動画編集・モーショングラフィックスの作業が、プロンプトひとつで完結します。

「カメラアングル変更」や「オブジェクト置換」も自由自在

マルチターン編集の真骨頂として、映像内の特定の要素だけをピンポイントで変更可能です。

カメラワークの変更： バイオリニストの動画に対し、「カメラアングルをバイオリニストの肩越しの視点（同ポジション）に変更して」と頼むだけで、シーンの連続性を保ったまま3D空間のカメラ位置を切り替えます。
オブジェクトの消去・置換： 「バイオリンを透明にして」「スペースシップを別のオブジェクトに置き換えて」といった指示にも、背景の手補正なしで自然に馴染ませます。

安全性と透明性へのアプローチ：SynthIDとC2PAを標準装備

Google DeepMindは、Gemini Omniの開発において責任あるAI（Responsible AI）へのアプローチを徹底しています。内部の安全・セキュリティチームと連携し、継続的な自動・人間による「レッドチーム（脆弱性・悪用リスクの検証）」を実施。

さらに、Geminiアプリ、Google Flow、YouTube Shortsで作成・編集されたすべてのOmniコンテンツには、以下の強力な透明性ツールが組み込まれます。

SynthID： 人間の目には見えない、改ざんに強いデジタルウォーターマーク（電子水印）
C2PAコンテンツ認証情報： 技術的にどのようなプロセスで生成・編集されたかのメタデータを記録

これらはGeminiアプリ内で簡単に検証できるほか、間もなくGoogle ChromeやGoogle検索でもクリエイティブの出自を確認できるようになります。

クリエイティブAIの新たな時代がやってくる

AIが「物理世界をシミュレートする知能」を手に入れたことで、クリエイターの役割は「ツールを操作する」ことから「ビジョンを記述し、AIと対話しながら世界を構築する」ことへと完全にシフトしつつあります。

特にYouTube ShortsやGoogle Flowへの即時実装は、動画制作のハードルを驚くほど引き下げるでしょう。テキストで指示を出すだけで、物理的・科学的に正しいアニメーションや、一貫性のあるキャラクター映画が作れる時代の幕開けです。

APIの公開を含め、今後のクリエイティブシーンにどのような激変をもたらすのか、AICUでは引き続きGemini Omniの動向を追いかけていきます！

Gemini Omniファミリーの先陣を切る「Gemini Omni Flash」は、現在以下のプラットフォームで展開されています。

Geminiアプリ： 日常のクリエイティブや実験の場として
Google Flow： クリエイターのために構築された、本格的なAIクリエイティブスタジオ
YouTube Shorts： 最先端のショート動画生成・編集ツールとして

※利用にはGoogle AIサブスクリプションが必要です（機能はプランや地域によって異なります）。

「文字や画像から動画を作る」時代から、「AIと会話しながら、映画のような世界を構築・編集する」時代へ。Gemini Omniがもたらす表現の爆発から、目が離せません！

追記

そういえば「Omni 1」というAIのOSプロジェクトが過去のGemini API 開発者コンペでで提案されていましたね！

https://ai.google.dev/competition/projects/omni-1

https://blog.google/innovation-and-ai/products/gemini-app/next-evolution-gemini-app/

Originally published at note.com/aicu on May 20, 2026.

完全な記事を表示