【AICU I/O 2026 速報】2026年5月20日(日本時間) Googleの新技術発表会 I/O 2026にて、Google DeepMindはAIの歴史を大きく塗り替える可能性を秘めた次世代AIモデルファミリー「Gemini Omni(ジェミニ・オムニ)」を発表しました。「動画版Nano Banana」ともいえるクリエイティブAIのパラダイムシフトを解説します。
基調講演に登壇したGoogle DeepMind CEOのデミス・ハサビス(Demis Hassabis)氏は、このモデルを「人工汎用知能(AGI)の実現に向けた極めて重要なステップ」と位置づけています。AIが単に次の言葉を予測する段階を超え、現実世界をシミュレートする「世界モデル(world model)」へと進化した、その驚異の全貌をAICU読者に向けて速報でお届けします。
Gemini Omniの最大にして究極のコンセプトは、「どのような入力からでも、あらゆるものを作成できる(Any-to-Any)」という点にあります。テキスト、画像、音声、動画といったあらゆるモダリティをシームレスに融合し、今回はその記念すべき第1歩として「ビデオ生成と編集」の領域からスタートします。
これまでGoogleが培ってきたメディア生成モデル(Veo、Nano Banana、Genieなど)の表現力と、Geminiの高度な推論・言語理解能力が融合した、全く新しいマルチモーダルモデルです。
従来の動画生成AIは「もっともらしい映像の連続」を作るのが得意でしたが、Gemini Omniは物理概念(運動エネルギーや重力など)を深く理解しています。さらに、Geminiが持つ歴史、生物学、科学、文化に関する膨大な知識をそこに融合させています。
これにより、単に写真のようにリアルな(フォトリアリスティックな)映像を作るだけでなく、「行動には結果が伴い、環境は出来事に反応し、物語が論理的に展開する」という、意味のあるストーリーテリングが可能になりました。ハサビス氏によるデモでは、「タンパク質の折り畳み構造についてのクレイアニメ解説動画を作って」という非常に複雑なプロンプトに対し、科学的に正確でリアリティのあるストップモーション動画を瞬時に生成し、会場を沸かせました。
映像クリエイターにとって最大の課題だった「シーンが変わるとキャラクターの顔や服装が変わってしまう問題」を劇的に解決します。
Gemini Omniでは、キャラクターを最初に一度定義するだけで、その後に続くどのシーン、どの場所、どのような動作や照明環境であっても、完全に一貫性を保ったまま登場させることができます。
ゼロからの生成だけでなく、「ユーザーが自分で撮影した動画」をベースにした直感的な編集が可能です。
例えば、自分の自撮り動画をアップロードし、Gemini Omniに指示を出すだけで、周囲の環境をガラリと変えたり、新しいオブジェクトを違和感なく追加したり、動画内の単純な円をブラックホールに変形させたりといった、現実を再構成するキャンバスのような使い方が可能です。
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/
今回の発表に合わせ、Omniファミリーの最初のモデルとなる「Gemini Omni Flash」がすでにローンチされています。今すぐ以下のプラットフォームやプロダクトで体験可能です。
さらに、開発者や企業向けにも、今後数週間以内にAPI経由での展開が開始される予定です。また、今後はより高度なタスクに対応する上位モデル「Omni Pro」の詳細も共有されるとのことです。
追加の公式詳細情報を反映し、機能を深掘りした「完全詳細版」のAICUブログ記事へとアップデートしました。読者が実際のユースケースやクリエイティブへの応用をイメージしやすいよう、具体的なプロンプト例や安全性の取り組みを網羅しています。
Google DeepMindは、Gemini Omniの編集体験を「動画版のNano Banana(画像生成モデル)」と表現しています。
最大の特徴は、自然言語によるステップ・バイ・ステップの対話型編集です。一度動画を出力して終わりではなく、チャットで指示を重ねるごとに、前のアクションを引き継ぎながら一貫性とまとまりのあるシーンを洗練させていくことができます。
元の動画(人物が鏡に触れるシーン)に対し、プロンプトを投げるだけで世界観を瞬時に塗り替えます。
Gemini Omniは、テキストだけでなく画像、動画、音声といった複数のインプットをパズルのように組み合わせ、1つの洗練された物語に仕立て上げることができます。
単に綺麗な映像を作るだけでなく、Geminiが持つ「言語・学術的な推論力」が動画生成と完全に同期しています。
重力、運動エネルギー、流体力学などの概念を理解しているため、「ピタゴラスイッチのようなトラックを猛スピードで転がるビー玉」といった、現実的な慣性や加速を持つ映像をスムーズなワンカットで描けます。
動画内で「文字」をレンダリングするだけでなく、映像のカットやリズムと文字をシンクロさせます。
「アルファベット・チャレンジ」のプロンプト例:「AからZまでのアイテムがテーブルに置かれている動画。Cならカピバラ、Dならディスコボール。26個のアイテムを24FPS(1秒24フレーム)の中、1アイテムあたり約9フレームの超高速テンポで表示し、左下に黒マーカーで紙に書いたような文字でアイテム名を同期させて表示して。最後は『THE END』で締め、スムースな音楽を乗せて」
このような、従来なら気が遠くなるような動画編集・モーショングラフィックスの作業が、プロンプトひとつで完結します。
マルチターン編集の真骨頂として、映像内の特定の要素だけをピンポイントで変更可能です。
Google DeepMindは、Gemini Omniの開発において責任あるAI(Responsible AI)へのアプローチを徹底しています。内部の安全・セキュリティチームと連携し、継続的な自動・人間による「レッドチーム(脆弱性・悪用リスクの検証)」を実施。
さらに、Geminiアプリ、Google Flow、YouTube Shortsで作成・編集されたすべてのOmniコンテンツには、以下の強力な透明性ツールが組み込まれます。
これらはGeminiアプリ内で簡単に検証できるほか、間もなくGoogle ChromeやGoogle検索でもクリエイティブの出自を確認できるようになります。
AIが「物理世界をシミュレートする知能」を手に入れたことで、クリエイターの役割は「ツールを操作する」ことから「ビジョンを記述し、AIと対話しながら世界を構築する」ことへと完全にシフトしつつあります。
特にYouTube ShortsやGoogle Flowへの即時実装は、動画制作のハードルを驚くほど引き下げるでしょう。テキストで指示を出すだけで、物理的・科学的に正しいアニメーションや、一貫性のあるキャラクター映画が作れる時代の幕開けです。
APIの公開を含め、今後のクリエイティブシーンにどのような激変をもたらすのか、AICUでは引き続きGemini Omniの動向を追いかけていきます!
Gemini Omniファミリーの先陣を切る「Gemini Omni Flash」は、現在以下のプラットフォームで展開されています。
※利用にはGoogle AIサブスクリプションが必要です(機能はプランや地域によって異なります)。
「文字や画像から動画を作る」時代から、「AIと会話しながら、映画のような世界を構築・編集する」時代へ。Gemini Omniがもたらす表現の爆発から、目が離せません!
そういえば「Omni 1」というAIのOSプロジェクトが過去のGemini API 開発者コンペでで提案されていましたね!
https://ai.google.dev/competition/projects/omni-1
https://blog.google/innovation-and-ai/products/gemini-app/next-evolution-gemini-app/
Originally published at note.com/aicu on May 20, 2026.