2025年3月12日、GoogleのGemini 2.0 Flashが、テキストと画像の生成をネイティブに統合した、わくわくする新機能を発表しました!AICUでは早速Google Colabで動作するAPIのサンプルコードを提供します。
https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/
昨年12月から一部の信頼できるテスター向けに公開されていたこの機能が、ついにGoogle AI Studioで実験的に利用可能になりました。 Gemini 2.0 Flashの実験バージョン(gemini-2.0-flash-exp)を通じて、Google AI StudioとGemini APIで今すぐ試せます。
2025年3月14日のAICU編集部による調査ですが、すでにAI Studioだけでなく、一般のGemniを使って画像生成が試せる状態のようです。
AI Studioでの利用
画像編集「Image edition」という機能が追加されています。
画像のアップロードとともに
「Add some chocolate drizzle to the croissants.」
(チョコレートの線掛けをクロワッサンに加えて)というサンプルがボタンになっていますので押してみましょう。
会話命令に従って、見事な画像が生成されています。

日本語も使えます。

内部のモデルやライセンスは不明ですが、画角の変更などの制御性がとても高いのが特徴です。

一般用Geminiでの利用
なお、一部のユーザーには一般版のGeminiでも利用可能のようです。

ただしユーザーによっては
Gemini Advanced confidential preview. Please do not share any screenshots, information, or links to responses from any unreleased features being tested. You can share your feedback HERE.
(Gemini Advanced は機密プレビューです。テスト中の未リリースの機能に関するスクリーンショット、情報、または応答へのリンクは共有しないでください。フィードバックはここから共有できます。)
というメッセージが表示されています。リンク先はGem機能に関するものなので、一般版Geminiでの画像生成がどこまでシェア可能なのかは現在確認が必要な状況ではあります。
https://note.com/google_gemini/n/na91ee2428d76
クリエイター視点での機能紹介
Gemini 2.0 Flashは、マルチモーダル入力、高度な推論、そして自然言語理解を組み合わせることで、クリエイティブな画像生成を実現します。文章から想像力を掻き立てるイラストを生成したり、会話をしながらイメージを編集したり、レシピのような複雑なビジュアルを正確に描き出したりと、その可能性は無限大です!
まるで魔法のような Gemini 2.0 Flash Image Edit機能ですが、具体的にどんなことができるのか、クリエイター視点で見ていきましょう!
1. ストーリーとイラストを一緒に創り出す
Gemini 2.0 Flashは、画像を理解して物語を伝える能力も持っています。登場人物や設定を維持しながら、ストーリーにぴったりのイラストを自動生成してくれるんです。漫画作家や絵本作家さんにとっては、まさに夢のようなツールですよね!
さらに、フィードバックを送ることで、ストーリーの展開を変えたり、イラストのスタイルを調整したりもできます。あなたのアイデアをGemini 2.0 Flashに伝えれば、想像力が無限に広がり、物語とイラストが一体となった、魅力的なコンテンツを創り出せるでしょう。

https://note.com/aicu/n/n424c8399ffdc
2. 会話しながらイメージを編集
「もう少し明るく」「色鉛筆画風にして」「線画にして」
Gemini 2.0 Flashは、こんな会話によるイメージ編集も得意なんです。まるでクリエイティブな壁打ち相手がいるみたいでワクワクしませんか? 会話を重ねるごとにイメージが洗練されていくので、完璧な一枚を追求したり、色々なアイデアを試したりするのに最適です。
AIサービスに画像をアップロードする権利は非常に慎重になる必要があります。Geminiにはサンプルメディアを追加する機能がありますので実験してみましょう。


3. 世界の知識を活かしてリアルな描写
他の画像生成モデルと違う点は、Gemini 2.0 Flashが世界に関する言語的な知識と高度な推論力を持っていること。まさにマルチモーダルネイティブです。例えば料理業界ではレシピ画像を簡単に作成できる、強力な味方になりますね!
4. 長文テキストも美しく表現
広告、SNS投稿、招待状…テキスト入りの画像を作りたい時ってありますよね。でも、従来の画像生成モデルは、長いテキストや複雑なフォントを正確に表現するのが苦手でした。
Gemini 2.0 Flash は、内部ベンチマークで競合モデルを上回るテキストレンダリング能力を有しています。 長いテキストも、読みやすく、デザイン性の高いイメージとして生成できます。 Gemini 2.0 Flashを使えば、テキストとビジュアルが融合した長文テキストを画像化して、広告コピーやキャッチーなSNS投稿文にする。フォントの種類やデザインも多様です。
AICUコラボクリエイターさんによる画像編集プロンプト例
https://note.com/ai_driven/n/n61bf3b144cb7
画像編集AIといえばStability AIにもEdit APIがあります。こちらも制御性はかなり高いので比較してみると良いかもしれません。
https://note.com/aicu/n/nfa9911d69de0
Gemini APIとGoole Colabで実験!
Gemini 2.0 Flash の画像生成機能、試してみたくなりましたか? 実はAI Studioや一般用Geminiだけでなく、Google ColabなどのPython環境でもGemini APIを使うこともできるようです。Gemini 2.0 Flash 試験運用版を使用した画像生成と、Imagen 3 を使用した画像生成をサポート開始しましたのでPythonやその他の言語環境から利用できます。Google Colabでのサンプルは文末で紹介します。
from google import genai
from google.genai import types
from PIL import Image
from IPython.display import display
from io import BytesIO
from google.colab import userdata
client = genai.Client(api_key=userdata.get('GOOGLE_API_KEY'))
contents = ('Hi, can you create a 3d rendered image of an angel with wings flying over a happy futuristic scifi city with a text AICU?')
response = client.models.generate_content(
model="models/gemini-2.0-flash-exp",
contents=contents,
config=types.GenerateContentConfig(response_modalities=['Text', 'Image'])
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
display(image)

Gemini 2.0 Flash Experimental では、インライン画像を含むテキストを出力する機能がサポートされています。これにより、Gemini を使用した対話的な画像の編集や、テキストが織り込まれた出力の生成を行えます。
from google import genai
from google.genai import types
from PIL import Image
from IPython.display import display
from io import BytesIO
from google.colab import userdata
import base64
client = genai.Client(api_key=userdata.get('GOOGLE_API_KEY'))
def generate_image(prompt, image_path='tmp_img.png', context=""): # contextを追加
# contextをpromptに追加
full_prompt = f"{context}\n{prompt}"
response = client.models.generate_content(
model="models/gemini-2.0-flash-exp",
contents=full_prompt, # full_promptを使用
config=types.GenerateContentConfig(response_modalities=['Text', 'Image'])
)
image = None
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
break # 画像が見つかったらループを抜ける
if image:
image.save(image_path) # 画像を保存
return image, full_prompt # full_promptを返す
def run_and_display(prompt, context=""): # contextを追加
image, new_context = generate_image(prompt, context=context) # contextを渡す
if image:
display(image)
return new_context # new_contextを返す
# 対話コマンド
# context = run_and_display("鶏のつがいのイラストレーションを生成して") # 最初の画像生成
# context = run_and_display("背景を除去して", context=context) # 前回生成された画像に対して背景除去
context = run_and_display("桜の下で約束をする高校生のイラストレーション")
context = run_and_display("ダイナミックな構図で背後下から", context=context)
context = run_and_display("白黒漫画風に", context=context)



生成されたすべての画像には SynthID の透かしが含まれ、AI Studio の画像には可視透かしも含まれます。その他のユースケースと例については、Gemini API クックブックの画像出力ガイドをご覧ください。これは本当にすごいので、AICUでも近いうちに詳細解説したいと思います。
制限事項
-
最高のパフォーマンスを実現するには、EN、es-MX、ja-JP、zh-CN、hi-IN のいずれかの言語を使用してください。
-
画像生成では、音声や動画の入力はサポートされていません。
-
画像生成がトリガーされない場合があります。
-
モデルがテキストのみを出力する場合があります。画像出力を明示的に指示してみてください(例: 「画像を生成してください」、「作業時に画像を提供してください」、「画像を更新してください」)。
-
モデルの生成が途中で停止することがあります。もう一度お試しいただくか、別のプロンプトをお試しください。
-
-
画像上のテキストを生成する場合は、まずテキストを生成し、次にテキストを含む画像をリクエストすると、Gemini が最も効果的に機能します。
Googleのシェイン・グウさんによる紹介
すごい楽しみにしていた画像生成がGeminiネイティブでリリースされました。画像モデルと言語モデル、これらをかなり深くつなげないとできないようなデモを色々試しください。画像と言語を組み合わせて指示できます。 海外でかなりバズっています。https://t.co/DRhGYEJdVj pic.twitter.com/cF15X8Y5UH
— シェイン・グウ (@shanegJP) March 14, 2025
Geminiの新機能の画像加工やばすぎっす
— 野火 城@AI漫画 (@nobisiro_2023) March 13, 2025
テキスト指示だけで背景の構図も自由自在に変えられる
もうこれでAI漫画の背景の整合性ガーとか考えなくていいっすね…ええ…???
AI漫画どころか、普通の手描き漫画の背景も一個描いたら別アングル作り放題ですよ pic.twitter.com/pwIelGQ7XU
かなり一貫性のあるGIFアニメを生成
Gemini can generate pretty consistent gif animations too:
— Cristian Peñas ░░░░░░░░ (@ilumine_ai) March 13, 2025
'Create an animation by generating multiple frames, showing a seed growing into a plant and then blooming into a flower, in a pixel art style' pic.twitter.com/hbVTXEj5XZ
遅刻しそうなときに…
POV: You're already late for work and you haven't even left home yet. You have no excuse. You snap a pic of today's fit and open Gemini 2.0 Flash Experimental. pic.twitter.com/IvKCROpBr3
— Riley Goodside (@goodside) March 14, 2025
パスポート写真を生成
Gemini Flash 2.0 Experimental saves you a trip to Walmart Portrait Studio: pic.twitter.com/LlS7h3gosG
— Riley Goodside (@goodside) March 13, 2025
なお、生成画像にはSynthIDで来歴が埋め込まれているはずなので、犯罪的な使用はぜったいにやめたほうがいいですよ…!
SynthIDは2025年2月6日のリリースで、Google Photoや Android で利用できる Magic Editor(編集マジック)にも実装が始まっていることをアナウンスしています。VertexAI以外での便利なWebUIを提供はまだないようです。
https://blog.google/feed/synthid-reimagine-magic-editor/
実際に動作するGoogle Colabノートブックを提供
—
この記事の続きはこちらから https://note.com/aicu/n/n33a8364383db
Originally published at https://note.com on Mar 14, 2025.
Comments