2026年1月27日、Alibaba傘下のTongyi Labは新世代画像生成AIの基盤モデル「Z-Image」を発表しました。このモデルは、先行する高速モデル「Z-Image-Turbo」とは異なり、画質、生成の多様性、そしてプロンプトへの忠実性を極限まで高めたフルキャパシティの基盤モデル(Foundation Model)です。かなり巨大なモデルである一方で、ユニファイドメモリ(Unified Memory)を搭載したMacBook Pro M4や、CPUのみの環境でも動作することが確認できました。そのビルド手順と実力についてレポートします。
https://www.aicu.jp/post/z-image-turbo-20251127
元気いっぱいの AiCuty の黄色担当&画像生成担当、メイ・ソレイユ だよ!🌟 最近の画像生成界、マジで激戦すぎない!?昨日まで Nano Banana Pro で盛り上がってたと思ったら 、今度は Alibaba の Tongyi Lab から、とんでもない新モデルが降臨しちゃったんだよ!🚀 その名も「Z-Image」!これ、ただの速いモデルじゃないんだって!さっそくメイがいろんな環境でビルドして試してきたのを早口で解説していくから、みんなしっかりついてきてね!
Tongyi Labが発表したこの「Z-Image」は、単なるスピード重視のモデルじゃなくて、プロのクリエイターが「これだよこれ!」って言いたくなるような機能が詰まってるんだよ!
多くの高速モデルは「蒸留(Distillation)」っていう処理で軽くしてるんだけど、Z-Imageはあえてそれをしないことで、学習データが持つ全ての信号を保持してるんだって。
フルCFG(Classifier-Free Guidance)対応:複雑なプロンプトエンジニアリングにもしっかり応えてくれる、プロのワークフローに最適な設計だよ!
開発者フレンドリー:GitHubやHuggingFaceでオープンに公開されてるから、エンジニアのみんなもすぐに試せるのが最高じゃん!
メイが一番「おっ!」って思ったのがここ!シード値(Seed)を変えた時の変化がすっごい大きいの。
構図・顔・ライティングの変化:同じプロンプトでも、全く違う雰囲気の画像を生成できるから、探索(Exploration)がめっちゃ捗るっしょ!
多人数シーンもバッチリ:複数の人物がいるシーンでも、それぞれの顔や個性がしっかり描き分けられるんだって。これ、アイドルグループの集合写真を作るメイたちには超重要!
「これ描かないで!」っていう指示、AIが無視することってあるじゃん?ネガティブプロンプトに対する反応がすごく正確だから、ノイズや変なアーティファクト(余計な描写)を確実に抑え込んで、思い通りの構図に調整できるんだよ。
Z-Imageはすでに以下のプラットフォームで公開されてるよ!
GitHub: Tongyi-MAI/Z-Image
HuggingFace: Tongyi-MAI/Z-Image
ModelScope: Tongyi-MAI/Z-Image
公式情報を追ってみた結果、以下の状況が判明しました。
Day-0 サポート: 2026-01-27付のComfyUI公式ブログで「Z-Image Day-0 support」がアナウンス済み。
推奨設定: 非蒸留版Z-Imageは 30〜50 steps / CFG 3〜5 が推奨されています。
過去の更新: すでに v0.3.75(2025-11-26)でモデルの基礎調整が、changelog v0.4.0(2025-12-10)でFP16互換性改善やPAI-Fun ControlNet対応が進んでいます。
結論として、「公式対応は爆速で進んでいるけれど、ユーザー側の環境構築手順はまだこれから安定していく時期」という印象です!
調査リンク:
公式ブログ: https://blog.comfy.org/p/z-image-day-0-support-in-comfyui
リリースノート: https://github.com/Comfy-Org/ComfyUI/releases/tag/v0.3.75
changelog: https://docs.comfy.org/changelog/index
issues検索: https://github.com/Comfy-Org/ComfyUI/issues?q=is%3Aissue state%3Aopen z-image
もう少し情報が集まったら別記事でまとめるね!
AICU Lab+での対応について:今のところ公式な専用ノードはこれからだけど、この盛り上がりなら数日中に誰かが作っちゃうはず!メイも楽しみすぎて夜しか眠れないよ! ComfyUIでのサポートが来たら、AICU Lab+勉強会 で爆速シェアするから待っててね!🌟
(1/29追記)対応開始しました!
https://blog.comfy.org/p/z-image-day-0-support-in-comfyui
README / 同梱LICENSE / モデルカードの範囲で整理してみたよ。最終判断は配布元の最新の規約を確認してね。
公式リポジトリのコード: Apache License 2.0
URL: https://github.com/Tongyi-MAI/Z-Image
http://www.apache.org/licenses/LICENSE-2.0
商用利用: 可 / 改変・再配布: 可(著作権表示とライセンス文の保持、変更点の明記が必要)
モデル重み(Z-Image-Turbo): モデルカード表記は Apache-2.0
モデルカード: https://huggingface.co/Tongyi-MAI/Z-Image-Turbo
ライセンス本文: http://www.apache.org/licenses/LICENSE-2.0
商用利用: 可 / サービス組み込み: 可(NOTICEやライセンス表示の整備が前提)
生成物の商用利用: Apache 2.0 の範囲では 基本的に可
ただし 肖像権・商標・著作権 など第三者権利は別途配慮が必要
作者/提供元: Tongyi-MAI(Alibaba)
新規公開モデルのため、モデルカードの利用条件と配布元の更新に注意
注意点/懸念点: 学習データの由来が公開されていない場合は、
生成物の権利やコンプライアンスは利用者側で慎重に確認が必要
https://x.com/Ali_TongyiLab/status/2016186674531758285
Z-Imageがリリースされて数時間。もう待てないので、
READMEに沿って“実際にこのMacで”動かすところまでやってみたよ。
この記事は「読む → そのまま叩く」で進められる実走ログです。
macOS 15.6.1 / arm64
Python 3.14.2
推論デバイス: mps(Apple GPU)
MacBook Pro M4 / 128GB(この環境)
MacでのGPU環境「mps」で生成はできましたが生成中にクラッシュしたり大変だったので、必ずバックアップなどをとってから作業してくださいね!なおWindowsやCPUでの推論も実験していますが、35GBぐらいRAMがあればできそうです(快適とも"必ずできる"とも言ってない!)。
実際に出た画像はこちら👇
え、いいじゃない!!公式プロンプトだけだよ!
原作 Tongyi-MAI/Z-Image を読んで感じたことを整理します。
README は「PyTorch ネイティブ + diffusers」での推論中心で、
pip install -e .→python inference.py までが最小ワークフロー。
Diffusers版のサンプルもあるけど、UIやデプロイの話はなく、開発者が
手元でパラメータを書き換えて走らせるスタイルです。
モデルロードは utils.ensure_model_weights 経由で Hugging Face か
ら snapshot_download する仕組みになっており 30GB 近い checkpoint を丸ごと置くことを前提としています。
とはいえ README は“走らせる人向け”の薄いガイドで、UIや制限ポリシー・デプロイは一切書かれていない。
解像度: 512×512〜2048×2048
ガイダンススケール: 3.0〜5.0
推論ステップ: 28〜50
ネガティブプロンプト: 強く推奨
公式サイトと GitHub をベースに見ると、「Z-Image は 6B パラメータ
のシングルストリーム DiT」 で、Turbo は 8 ステップ(NFEs)だけで
サブ秒推論、英中バイリンガルテキスト、16GB VRAM で実行可能という設計。Z-Image-Turbo は「少ステップで実用的な品質」に振っていて、モデルサイドでは Decoupled-DMD/DMDR で蒸留済み、Diffusers でZImagePipeline が用意されているのが基礎です。これを読みながら感じたのは、「多パラメータ/多ライブラリの土台はあるけど、UI・通知・
運用は誰かが手を入れて拡張する余地が大きい」 ということ。
Z-Image-Turbo は Apache-2.0 で開放されていて、翻訳精度や制御性
(英中文、poster デザイン、text rendering、instruction
adherence)に強み。3 つのバリアント(Turbo/Base/Edit)を用意し
て、Turbo は速さ、Base はファインチューニング、Edit は画像編集に
特化。
Diffusers 版の導入例(公式サイト)を見ると、
pipeline(Tasks.text_to_image_synthesis, model="Tongyi-MAI/Z-
Image-Turbo") で CUDA/MPS を自動判定、8 ステップ/0 CFG で動く簡潔さが魅力。ただしこのコードは「手元で torch を整えて、モデルをダウ
ンロードして pipeline を使う」前提。
Apache-2.0 の開放(z-image-turbo.ai の Attribution ページ)が改め
て強調されているので、クラウド展開や商用サービスなどもライセンス的には問題ありません。
なおDocker も公式タグがなかったことから、「公式コードは超高速でも、セルフホストで鋭く使うには環境整備が必要」という実感を持ちました!
AiCutyの公式READMEにあるメンバー設定と特徴を拾って、
5人集合写真のプロンプトを組んで回してみたよ。
(参考: https://github.com/aicuai/AiCuty/blob/main/README.md)
※ Z-Imageは縦横が16の倍数じゃないと怒られるので、
1920×1080 と 1910×1000 は一旦16倍数で生成→中央トリミングにしてるよ!
実行コマンド: `.venv/bin/python 2026-01-28-zimage-batch_inference.py`
コード全文: 文末の有料パートに移動
使用プロンプト(引用)
5 people, idol group lineup, full body, centered group composition, anime style, masterpiece, best quality,
clean white studio background, soft directional light from upper left, distinct color themes.
Center: Elena Bloom, sweet gentle idol girl, pastel pink twin tails tied high with big pastel pink ribbons and rose flower hair clips,
soft curled ends, shy warm smile, pastel pink and white idol outfit with subtle gold accents.
Right: Mei Soleil, vibrant golden yellow hair, high side ponytail tied with simple yellow ribbon, star-shaped yellow hairpin, freckles,
bright cheerful smile, sun-yellow tech-fabric idol outfit.
Left: Mina Azure, very long straight icy sky blue hair, round silver glasses, calm intelligent expression,
icy sky blue uniform with short capelet and beret.
Right back: Nao Verde, androgynous boy, dark green pixie cut with tapered nape, emerald eyes, confident smirk,
deep green bomber jacket over black top and black cargo pants.
Left back: Saki Noir, dark violet sleek straight bob cut with side bangs covering left eye, amethyst eyes,
mysterious vibe, black and violet elegant idol outfit.
Z-image-turboでの実行
試行: 1024×1024, 1920×1080, 1910×1000(※いずれも16の倍数ではないため、1920×1088 / 1920×1008 で生成 → 中央トリミング)
生成時間: 1024×1024 → 約 58.1 秒(mps) / 1920×1088 → 約 210.9 秒(mps) / 1920×1008 → 約 219.2 秒(mps)
ピークRSS(psutil計測): 1024×1024 → 約 0.61 GB / 1920×1088 → 約 0.63 GB / 1920×1008 → 約 0.33 GB
出力ファイル: `assets/aicuty5_zimage_turbo_mps_gen1024x1024_out1024x1024_steps8_cfg0_seed1234.png` / `assets/aicuty5_zimage_turbo_mps_gen1920x1088_out1920x1080_steps8_cfg0_seed1234.png` / `assets/aicuty5_zimage_turbo_mps_gen1920x1008_out1910x1000_steps8_cfg0_seed1234.png`
README推奨解像度(Z-Image): 512×512〜2048×2048
※ RSSはプロセスの常駐メモリで、MPSのユニファイドメモリ上の実使用量と一致しない場合があります(参考値)。
ちなみに、1920×1080を直指定するとこんなエラーが出たよ:
`Height must be divisible by 16 (got 1080)`
1024×1024: まとまりは良いけど、全身が詰まり気味で余白が少ない
1920×1080: 並びの見やすさが一番良く、集合写真感が強い
1910×1000: 1080より縦がタイトで引き締まる印象
共通: Sakiの左目が隠れがちなので、必要なら `eyepatch, covered eye` をネガティブに追加
はぁ〜〜〜っ!今日も一気に喋っちゃった!💨
「思考するAI」の Nano Banana Pro や、「4MPの衝撃」 FLUX.2 と並んで、今回の Z-Image は画像生成界の新しいスタンダードになりそうな予感!1月ももう終わりだけど、2月もAIニュースの荒波はすごそうじゃん?メイも乗り遅れないように、黄色いスニーカーの紐をギュッと結び直して突っ走るよ!👟💛
じゃ またね!それじゃ、また次のAIニュースで会おうね!いつも元気な AiCuty 画像生成担当、メイ・ソレイユ でした〜!バイバイ!👋💛
#ZImage #TongyiLab #AICU #AiCuty #画像生成AI #MeiSoleil #AlibabaAI
ペイウォールの向こうにめちゃ長い戦いの資料をおいとくね!
---
この記事の続きはこちら https://www.aicu.jp/post/260128
Originally published at note.com/aicu on Jan 28, 2026.