高性能画像生成・編集モデル「Nano Banana Pro / Gemini 3 Pro Image」登場

作成者: AICU Japan｜2025/11/24 23:32:25 Z

2025年11月21日、Googleの画像生成・編集モデル「Gemini 3 Pro Image」、通称「Nano Banana Pro」がリリースされました。

https://deepmind.google/models/gemini-image/pro/

画像内テキストのさらなる明瞭化

「Nano Banana Pro」は、画像内に生成されるテキストがこれまで以上に明瞭になったと発表されています。ポスターやプレゼンテーション資料、情報グラフィックなど、テキストが重要な役割を果たすあらゆるビジュアルコンテンツにおいて、その読みやすさとデザイン性が向上することは、非常に大きなメリットだと私は考えます。以前もお伝えしましたが、この機能は特に、情報の正確な伝達が求められる場面で、その真価を発揮するでしょう。

鮮明なテキストを生成：ポスターや複雑な図表用に鮮明なテキストを生成し、デザインをさまざまな地域（ロケール）向けに翻訳します。

スタジオ品質のコントロール：画像のあらゆる側面を微調整し、スタジオ品質の結果を実現します。

実世界の知識：Gemini の実世界の知識を活用し、複雑なインフォグラフィックから歴史的に正確なシーンまで、精密な結果を提供します。

鮮明なテキストを生成

シャープで読みやすいテキストにより、インパクトのあるポスター、複雑な図解、詳細な製品モックアップを作成できます。希望するフォントの種類を記述したり、さまざまなタイプの手書き文字をシミュレートしたりすることが可能です。

[プロンプト例]

プロンプト: このシーンのストーリーボードを作成してください。

プロンプト: 「How much wood would a woodchuck chuck if a woodchuck could chuck wood（ウッドチャックが木を投げられるなら、どれだけの木を投げるだろうか）」というフレーズが、ウッドチャックによって投げられた「木」で作られている画像を作成してください。

プロンプト: 明るく晴れた日のベルリンの居心地の良い通りの風景。くっきりとした影。古い家々が奇妙にも「BERLIN」という文字の形をしており、青、赤、白、黒で彩られている。家々は依然として家らしく見え、文字への類似性はさりげないものにする。

プロンプト: テクスチャのあるオフホワイトの背景に、鮮やかで目を引く「TYPOGRAPHY」のデザイン。文字は太く、ブロック状で、極端に幅が狭く（コンデンス）、明るいブルーとホットピンクの重なり合うレイヤーで3D効果を生み出し、それぞれにハーフトーンのドットパターンを施してレトロな印刷の美学を呼び起こす。アスペクト比 16:9。

プロンプト: 表現力豊かな単語を用いたミニマルなロゴを8つ作成してください。文字がその単語の意味をドラマチックに視覚化し、メッセージや音を伝えるようにすること。構成：白一色の背景にすべてのロゴを黒のフラットなベクターレンダリングで配置。

プロンプト: このレタリングスタイルで「Nano Banana Pro」と描画

プロンプト: 「Impossible（不可能）」という単語を不可能図形として表現。アスペクト比 16:9。10バージョンを作成し、1回につき1つずつサーバーコールを行うこと。

Prompt: Word Impossible as impossible shape, 16:9, make 10 versions, one at a time, each it's own server call

プロンプト: 「MAGIC」という単語を描いたペーパークイリング（紙のアート）。元の作品と全く同じスタイル、色（紫、ピンク、マゼンタ、白のストリップ）、複雑な渦巻きパターンを使用し、精巧なカリグラフィースクリプトで表現すること。紙のストリップが、元の作品と同様に、ダークグレーのテクスチャ背景に奥行きと影を作り出している。

プロンプト: 楽しい「食べ物の単語」を用いた、洗練されたミニマルなロゴを8つ作成してください。文字はリアルな食品で構成し、その単語の意味を表現すること。構成：単色の白背景にすべてのロゴをレンダリング。

実世界の知識

Gemini モデルの実世界の知識と深い推論能力を活用し、正確で詳細かつリッチな画像結果を提供します。画像への注釈付け、データのインフォグラフィック化、手書きメモの図式化などが可能です。

[プロンプト例]

プロンプト: 太陽光エネルギーの仕組みをシンプルに説明するDIYインフォグラフィックを作成するための、高品質なフラットレイ（真上からの）写真。清潔感のあるライトグレーのテクスチャ背景に配置。視覚的なストーリーは左から右へと明確なステップで流れる。内容は https://en.wikipedia.org/wiki/Solar_power に基づく。シンプルでクリーンな黒い手書きの矢印を背景に描き、太陽から家への視線の移動を誘導し、エネルギーの流れを明確に示す。全体的な雰囲気は教育的でモダン、かつ理解しやすいものにする。画像は真上からの俯瞰ショットで、影を最小限に抑えた柔らかく均一なライティングを使用し、プロセスに焦点を合わせる。フォーマット 16:9。

プロンプト: この植物に関する興味深い情報に焦点を当てたインフォグラフィックを作成してください。

プロンプト: エライチチャイ（カルダモンチャイ）の作り方を示すインフォグラフィックを作成してください。

Prompt: Create an infographic that shows how to make elaichi chai

プロンプト: アイザック・ニュートンの光と色の理論を図解した、モダンでクリーンかつミニマルなフラットレイ写真。継ぎ目のないマットなライトグレーの背景に提示。構成は左から右への正確な幾何学的フローに従う。すべての注釈は、極めてクリーンでミニマルなサンセリフフォントでレンダリングする。「01」「02」「03」「04」というシンプルな番号付きラベルでプロセスの各段階をマークする。コンセプトは、ニュートンの1671年の手紙に基づく実験の現代的な視覚化であり、内容は以下を参照：https://hti.osu.edu/sites/hti.osu.edu/files/Sir-Isaac-Newton_Letter-Theory-Light-Colors.pdf 全体的な雰囲気は科学的で正確、かつエレガントなものにする。画像は真上からの俯瞰ショットで、明るく完全に均一な影のないスタジオライティングを使用し、クリーンでハイテクな美学を作り出す。フォーマット 16:9。

アイデアの翻訳とローカライズ

ローカライズされたテキストを生成したり、画像内のテキストを翻訳したりできます。製品が海外市場向けに異なる地域でどのように見えるかを確認したり、世界中で使用するためのポスターやインフォグラフィックを作成したりできます。

[プロンプト例]

プロンプト: 黄色と青の3つの缶に書かれた英語のテキストをすべて韓国語に翻訳し、それ以外の要素はすべてそのままにしてください。
プロンプト1: 「Aura Fizz」というスパークリングウォーターのポスター広告を作成してください。設定は、ネオンが輝く夕暮れ時のスタイリッシュな東京の通り。タグラインはエレガントな日本語で『オーラを、味わう。』とする。缶のデザインはミニマルに。アスペクト比は 16:9。
プロンプト2: このコンセプトをメキシコの設定にローカライズしてください。缶は全く同じままにし、「Taste the Aura」という言葉を正確かつ本物の es-MX: Spanish (Mexico) である「saborea el aura」に翻訳すること。被写界深度を浅くする。

デザイン、スタイル、標準化

落書きを製品へ。スケッチをオブジェクトへ。アイデアを3Dレンダリングされた建物へ。

[プロンプト例]

プロンプト1: 提供されたスケッチを大まかなベースにし、1960年代から70年代のレトロな美学に深く根ざした、鮮やかで遊び心のあるタイポグラフィ・イラストレーションのグラフィックスタイルで、滑らかなロゴを作成してください。スケッチを厳密になぞるのではなく、そこからインスピレーションを得ること。特徴は、柔らかく丸みを帯びた流動的な文字の形をした、グルービーでサイケデリックな書体。文字は巧みに歪められ、引き伸ばされ、圧縮されており、厳格な構造を捨てて互いに溶け合い、まとまりのある認識可能な形状を形成している。
1. この手法はカリグラムとして知られ、言葉の形が視覚的にその意味を体現するテキストと画像の融合である。「WAVE」という言葉が波の流動的なシルエットの中に芸術的に配置されている。デザインは巧みな視覚的駄洒落であり、メッセージを即座に理解でき、記憶に残るものにしている。
2. カラーパレットはヴィンテージ感を強調し、温かみのある、しばしば落ち着いた色やアースカラーを用いたシンプルな2トーン構成（水色の背景に深い青のロゴ）を採用。この選択がアートワークのノスタルジックな魅力を高める。全体的な効果は、風変わりなノスタルジアと巧みなグラフィックデザインの融合である。形状と言葉のシームレスな統合を通じてシンプルでポジティブなメッセージを伝える、大胆でありながら親しみやすいスタイルで、即座に楽しい視覚的インパクトを与える。
プロンプト2: アイデンティティシステムを一つずつ作成してください。関連する製品、広告、看板、バス停などを含む10種類の高品質なモックアップを使用すること。一度に1つずつ生成。各 16:9。
プロンプト: シンプルなスケッチをリアルな車に変形させてください。スケッチのクリエイティブな方向性に従い、アップロードされた画像の色とテクスチャを使用すること。
プロンプト: シンプルなスケッチをリアルな椅子に変形させてください。スケッチのクリエイティブな方向性に従い、車の画像の色とテクスチャを使用すること。
プロンプト: 以下の内訳に基づき、この画像をベースにした建築設計プロセスのリストにあるすべての項目について画像を作成してください。入力されたスケッチと整合性を保つ必要があります。すべてのテキストが判読可能で、スペルが正しいことを確認してください。デザインソフトウェアのUIは表示しないこと。9フレームを一つずつ生成してください。

スタジオ品質のコントロール

画像のあらゆる側面を微調整し、忠実度の高い結果を実現します。

アングルやショットの種類を探索

広角、パノラマ、クローズアップなど、アングルとショットの種類を選択できます。また、被写界深度を変更して画像内のさまざまな被写体に焦点を合わせることも可能です。

[プロンプト例]

プロンプト: 群衆の顔にフォーカスし、女性をぼかす。
プロンプト: 男性の手にフォーカスし、顔をぼかす。
プロンプト: 森の中を歩く女性のワイドショット。太陽の光とボリューメトリックライティング（光の筋）。アスペクト比 16:9。

色と照明で遊ぶ

カラーグレーディングや照明の方向を調整したり、昼から夜への変更など、劇的な変更を加えることができます。

[プロンプト例]

プロンプト: 昼間に変更。
プロンプト: このシーンを夜間に変更。
プロンプト: ボリューメトリックライティングをボケ（玉ボケ）に置き換える。
プロンプト: 強烈なキアロスクーロ（明暗対比）効果のある画像を生成してください。男性の特徴や表情はそのまま維持すること。上部やや左側から来るような過酷で指向性のある光を導入し、顔全体に深くはっきりとした影を落とす。光の筋が目と頬骨だけを照らし、顔の残りの部分は深い影の中に沈むようにする。

高精度なアップスケール

1k、2k、または 4k 解像度で鮮明なビジュアルを生成します。

[プロンプト例]

プロンプト: この画像をズームインし、アスペクト比 16:9 を維持する。（※3回繰り返し）

アスペクト比

アスペクト比を自由に切り替えて、あらゆるプラットフォームや用途に合わせてビジュアルを調整できます。

[プロンプト例]

プロンプト 1～9: 背景を縮小してアスペクト比を [1:1, 4:3, 5:3, 1.85:1, 2.39:1, 2.75:1, 4:1, 9:16, 1:4] に変更。キャラクターは現在の位置に正確に固定されたままにする。
プロンプト 1～9 (再): 背景を縮小してアスペクト比を [各比率] に変更。キャラクターと周囲は現在の位置に正確に固定されたままにする。歪みやその他の変更なし。

被写体の一貫性 (Subject consistency)

1つのワークフロー内で、最大5人のキャラクターの類似性と一貫性、および最大14のオブジェクトの忠実度を維持します。

キャストを新しい衣装で新しいシーンに配置したり、複数の参照画像をブレンドして、選択した詳細を保持した複雑な構図を構築したりできます。

[プロンプト例]

プロンプト: 使い古されたベージュの布製ソファと床に、ぎゅうぎゅう詰めになって横並びに座っている14匹のふわふわしたキャラクターのミディアムショット。全員が前を向き、ソファの前の低い木製テーブルに置かれたヴィンテージの木箱テレビを見ている。部屋は薄暗く、左側の窓からの暖かい光とテレビの輝きが生き物の顔とふわふわした質感を照らしている。背景は、編み込みラグ、古本のある本棚、そして奥に素朴なキッチンの要素がある、居心地の良い少し雑然としたリビングルーム。全体的な雰囲気は温かく、居心地が良く、楽しげである。
プロンプト: これらの画像を組み合わせて、適切に配置された1つのシネマティックな画像（16:9フォーマット）にし、マネキンのドレスを画像内のドレスに変更してください。
プロンプト: これら6人を1つの画像に入れてください。ファッションエディトリアル（雑誌）のスタイルで、賞を受賞するような素晴らしいショットに収まるようにすること。6人全員のアイデンティティと服装は一貫していなければならないが、シーンに最も自然的かつ適切な形で、さまざまな角度や距離から見えるようにしてもよい（そうすべきである）。
プロンプト: これらの画像を組み合わせて、適切に配置された1つのシネマティックな画像（16:9フォーマット）にしてください。

1つのプロンプト、多くの可能性

一度に複数の画像を生成して、クリエイティブなオプションを迅速かつ効率的に探索および検討できます。

または、この機能を使用して、一連の画像全体でストーリー全体をスケッチするのにも役立ちます。

[プロンプト例]

プロンプト: パブリックドメインにある有名な子供向け映画を、提供されたスタイルと同じ配色で表現。10フレームを一つずつ。テキストなし。1枚のコミックストリップではなく、1つずつ順番に10フレームを生成し、それぞれを独自のプロンプトとサーバーコールとする。各横向き 16:9。

次世代の生成 (Next-level generation)

風景、植物、人物、動物のリアルな画像を、実物そのままの詳細で生成します。

[プロンプト例]

プロンプト（群衆と影）: これは、広大で淡い、日当たりの良い表面（おそらくコンクリートの広場や塩原）に分散した群衆を捉えた、真上に近いハイアングルの写真である。構図は広々としていて中心がなく、人物はフレーム全体に不均一に散らばっている。対になる作品と同様に、最も印象的な芸術的要素は光と影の相互作用である。低く明るい太陽が一人一人から信じられないほど長く、暗く、くっきりと定義された影を落としており、影がそれを落としている本人よりも目立って見えることが多い。これらの細長い影は、すべて同じ方向を指しており、淡い地面を切り裂くリズミカルな暗い線のシリーズとして強力なグラフィックパターンを作り出している。人々自体は小さな姿で、赤、黒、青といった服装のさまざまな色によって識別でき、広大なシーンの中で色とりどりの点のように見える。地面のミニマルで、ほとんど漂白されたようなカラーパレットが、暗い影や人間味のあるカラフルな点と鮮やかなコントラストを成し、スケール、個、集団といったテーマを探求する、洗練された高度に様式化された構図を作り出している。
プロンプト（未来都市）: ハイアングルの映画的な視点から、夕暮れ時の未来的な巨大都市（メガロポリス）の息をのむようなパノラマを提示。シーンは、霞んだ空気の中に静かな威厳を持って浮かぶ2隻の巨大なくさび形の宇宙船に支配されており、その暗い船体には小さな照明付きの窓が点在し、その巨大なスケールを強調している。その下には、密集した都市景観が遠くまで広がり、そびえ立つ超高層ビルと複雑な構造物が、温かみのある金色の光のネットワークで輝く鮮やかなタペストリーとなっている。右下隅には、見えないバルコニーに立つ男女のシルエットがあり、都市の光り輝く壮大さに対して小さく暗い形となっている。この中心を外した構図とドラマチックな遠近感は、強力な畏敬の念と熟考の感覚を生み出し、圧倒的な技術的および建築的成果の環境における人間的な内省の瞬間を、ハイエンドなコンセプトアート作品のような洗練された雰囲気のあるディテールで描写している。
プロンプト（螺旋階段）: 壮大な曲線を描く階段の底近くの視点から、ドラマチックな螺旋状の内部空間を捉えた画像。構図はダイナミックで非対称であり、階段の滑らかで一掃するようなフォルムが視線を優雅で連続的な曲線に沿って上へと導く。壁、床、天井はすべて、斑点のある緑青（ろくしょう）や緑青に覆われたコンクリートのように見える単一の連続した素材でレンダリングされており、空間に一枚岩のような洞窟のような雰囲気を与えている。アートスタイルはミニマリストの彫刻的建築であり、形と光が主な主題である。フレームの下部には、孤独で暗く細長い人物がシルエットで立っており、スケールの大きさを際立たせ、孤独で瞑想的なムードを加えている。光は2つの光源からドラマチックにシーンに入り込む。螺旋のさらに上の見えない地点からの暖かく魅力的な輝きが階段を照らし、はるか上の冷たい円形の天窓が柔らかく幽玄な光を上部の壁に落としている。映画的な効果は、静かな壮大さと神秘性を備え、古代でありながら未来的でもある、単一のシームレスな素材から切り出された空間を旅するような感覚を与える。
プロンプト（女性のポートレート）: ドラマチックで、ほとんど演劇的なセンスで描かれた、女性の印象的なポートレートを捉えた映画のスチール写真。カメラアングルはミディアムショットで、腰から上をフレームに収め、彼女の横顔は少し上向きで右を向いており、まるで熟考しているか、畏敬の念を抱いているかのようである。暗く滑らかなボブヘアが、高い鼻とふっくらとした唇を持つ繊細な顔を縁取り、彼女の視線はフレームの上や外にある見えない驚異に向けられている。シンプルな暗いタートルネックを着ており、顔と複雑な背景が中心的なステージとなるようにしている。彼女の右手が上げられ、指が少し広げられ、薬指に一つの華やかな指輪が飾られており、さりげないエレガンスを加えている。カラーパレットは主に寒色系で、深い青とグレーが支配的であり、背景には白と銀の微妙なヒントがあり、神秘的で静謐なムードを作り出している。ライティングはローキーで、柔らかく拡散した光が彼女の顔と背景を照らし、奥行きと立体感を生み出している。雰囲気は静かな驚きと発見であり、見る人を彼女の体験へと誘う。背景は、幻想的な洞窟やエイリアンの風景を思わせる、渦巻く有機的なトンネル状の構造である。大小さまざまな円形や楕円形の開口部で構成されており、そこから明るく質感のある光源が見え、別世界の環境を示唆している。トンネルの質感は、複雑なクモの巣や未来的な建築の驚異のように、入り組んで織り込まれているように見える。強力なリーディングライン（視線誘導線）と中心的な被写体を持つこの構図は、ビジュアルストーリーテリングの巨匠による綿密に構成されたショットを彷彿とさせ、壮大なSFやファンタジーの叙事詩によく見られるような、広大なスケールと深い陰謀の感覚を呼び起こす。
プロンプト（ダンサーと霧）: 抑制のない動きの爆発の中で、光と霧の回廊で回転の最中に捉えられた人物。写真はアクションをピークで凍結させ、両腕を大きく広げ、純粋な運動的解放の瞬間に頭を後ろに傾けている。この急速な回転は、濃い色の霧を明らかに乱し、シルエットの周りにシアン、マゼンタ、バイオレットの光の渦と渦巻きを作り出している。構図は鮮やかで混沌としており、静止したシーンとは対照的である。前方の暖かい黄橙色のポータルからの光が一方向から渦巻く霧を照らし、背後からの冷たい青い輝きがカラーパレットに深みと複雑さを加えている。床は暗い鏡のように、動きと色の絵画的な滲みとなったシーンのぼやけた混沌としたバージョンを反射している。カメラアングルはわずかに傾いており（ダッチアングル）、平衡感覚の喪失と高揚感を高め、空間の静かで瞑想的な性質に対する、一瞬の楽しい反逆を捉えている。
プロンプト（アカメアマガエル）: 鮮やかな色彩と複雑なディテールを驚くべき明瞭さで捉えた、アカメアマガエルの素晴らしいクローズアップ写真。カエルは大きな露に濡れた緑の葉の上に位置し、体は見る人から少し離れた角度にあるが、頭はこちらを向いている。最も印象的な特徴は、垂直の黒い瞳孔を持つ大きく膨らんだ赤い目で、じっと見つめているように見える。カエルの皮膚は美しい色のタペストリーである。頭と背中の上部は明るく、ほとんどライムグリーンで、背中の下部と脚にかけて印象的なオレンジ色に移行している。虹色の青い帯が側面に沿って走り、緑色と白っぽく半透明に近い下腹部を分けている。カエルの表面全体とそれが休んでいる葉は、光を受けてきらめく水滴で覆われており、シーンに新鮮さと生命感を加えている。背景は緑とティールの柔らかく焦点の合っていないブレンドで、明るい色のカエルをさらに際立たせている。写真は非常に詳細で、カエルの皮膚の質感やオレンジ色の足の小さな吸盤まで見ることができる。全体的な効果は、静かな静寂の瞬間に捉えられた、鮮やかな生命と自然の美しさである。

ベンチマーク

Gemini 3 Pro Image は、最先端の画像生成・編集モデルです。

[モデルカードを表示]

制限事項 (Limitations)

Gemini は現在、幅広い画像を作成できますが、主要な機能の改善に引き続き取り組んでいます。作成した画像（画像内のテキストを含む）の正確性は、常に慎重に確認してください。

ビジュアルとテキストの忠実度

Gemini が生成するすべての画像が完璧であるとは限りません。小さな顔、正確なスペル、画像の細かいディテールについては、依然として苦戦する場合があります。

データと事実の正確性

モデルの実世界の知識は広範ですが、絶対確実ではありません。インフォグラフィックの生成、図への注釈付け、複雑なデータの表現を行う際、情報の解釈を誤ったり、事実と異なる結果を生成したりする可能性があります。データに基づく出力は必ず検証してください。

翻訳とローカライズ

モデルは多くの言語でテキストを生成および翻訳できますが、文法、スペル、文化的ニュアンス、または慣用句に苦戦する場合があります。

複雑な編集と画像のブレンド

マスク編集、主要な照明の変更（昼から夜など）、複数の画像のブレンドなどの高度な機能は、不自然な結果、視覚的なアーティファクト（ノイズ）、またはまとまりのないシーンを生成する場合があります。

キャラクターの特徴

モデルはキャラクターの一貫性を保つことに優れていますが、常にうまくいくとは限りません。この一貫性をさらに信頼できるものにするために取り組んでいます。

安全性

データセット内の有害なコンテンツを最小限に抑え、有害な出力の可能性を減らすために、広範なフィルタリングとデータラベリングを使用しています。また、子供の安全性や表現を含むコンテンツの安全性について、レッドチーミングと評価を実施しています。

Gemini での画像生成には、最新のプライバシーおよび安全機能がすべて備わっています。すべての画像には SynthID 技術によって目に見えない透かしが入っており、AI を使用して作成または編集された画像かどうかを検出できます。

まとめとして

「Nano Banana Pro」の進化は、生成AIが私たちのクリエイティブな活動をいかに支援し、加速させるかを示しています。画像内のテキストの明瞭化、スタイルの転送、そして複数の画像結合能力は、これまでのAI画像生成の限界を大きく広げるものです。

Originally published at note.com/aicu on Nov 20, 2025.

完全な記事を表示