2024年10月22日23時(日本時間)、Stability AI による最新ベースモデル「Stable Diffusion 3.5」のオープンリリースがアナウンスされました。
AICU編集部では「日本人の生成」を通してSD3.5の評価を実施しました。
https://x.com/StabilityAI/status/1848729212250951911
最もパワフルなStable Diffusion 3.5をご紹介します。 このオープンリリースには、そのサイズに対して高度にカスタマイズ可能で、民生用ハードウェアで動作し、寛容なStability AI Community Licenseの下、商用・非商用ともに無料で使用できる複数のバリエーションが含まれています。 Hugging FaceのStable Diffusion 3.5 LargeとStable Diffusion 3.5 Large Turbo、そしてGitHubの推論コードを今すぐダウンロードできます。 Stable Diffusion 3.5 Mediumは10月29日にリリースされる予定です。
https://x.com/StabilityAI/status/1848729212250951911
リリースされるもの
モデルの特徴(公式リリースより)
モデルの開発にあたっては、柔軟な基盤を構築できるよう、カスタマイズ性を優先しました。これを実現するために、Query-Key Normalization をトランスフォーマーブロックに統合し、モデルのトレーニングプロセスを改善し、さらにファインチューニングや開発を簡素化しました。
このレベルの下流での柔軟性をサポートするために、いくつかのトレードオフが必要でした。異なるシードを使用した同じプロンプトからの出力に、より大きなばらつきが生じる可能性があります。これは意図的なもので、ベースモデルにおける幅広い知識ベースと多様なスタイルの維持に役立ちます。しかし、その結果、特定性のないプロンプトでは出力の不確実性が増大し、見た目のレベルにばらつきが生じる可能性があります。
特にMediumモデルでは、品質、一貫性、およびマルチ解像度生成能力を向上させるために、アーキテクチャとトレーニングプロトコルにいくつかの調整を加えました。
モデルの優位性
Stable Diffusion 3.5 Medium は、他の中型モデルを上回る性能を持ち、プロンプトの再現性と画像品質のバランスに優れていますので、効率的で高品質なパフォーマンスを求める場合の最適な選択肢となりうるでしょう。
Stability AI Community license の概要
https://ja.stability.ai/blog/introducing-stable-diffusion-3-5
community license の概要は以下の通りです。
年間収益が100万ドル以上の企業は、エンタープライズライセンスをこちらからお問い合わせください。
そしてまさかのComfyUIがリリース即日対応を発表しました。
https://x.com/ComfyUI/status/1848728525488197963
まさかこんなことが起こるなんて!Stable Diffusion 3.5がリリースされました!Stable Diffusion 3.5モデルシリーズの初日サポート開始をお知らせできることを嬉しく思います!SD3.5の使用を開始するには、当社のブログをフォローするか、ベータ版の「missing model」機能を使用してモデルをダウンロードしてください。スキルは必要ありません!
https://x.com/ComfyUI/status/1848728525488197963
昨日リリースされた内容はこちらです。
missing model機能について、チェックしていかねばですね!
https://ja.aicu.ai/comfyui-v1-20241021/
HuggingFace Spacesにて試用環境が公開されています
Stable Diffusion 3.5 Large (8B)
https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large
公開直後のため、流石に混雑しているようです。同時に公開されたTurboのほうが使えそうです。
Stable Diffusion 3.5 Large Turbo (8B)
https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large-turbo
文字表現についても機能は維持されているようです。
「gemini boys with a panel written “AICU”」
Stability AI 公式APIマニュアルによると、既にGenerate APIとして提供が始まっています。APIキーを取得し、Open Google Colabにアクセスしてください。
[AICU版] Stability AI APIガイド
https://note.com/aicu/n/n4eda1d7ffcdf
デフォルトの解像度は1Mピクセル、1024×1024です。
modelパラメータのデフォルトが「sd3.5-large」になりました。
{sd3-large, sd3-large-turbo, sd3-medium, sd3.5-large, sd3.5-large-turbo}
クレジット消費は「生成成功につき」以下のとおりです。
・SD3.5 & 3.0 Largeは一律6.5クレジット
・SD3.5 & 3.0 Large Turbo:一律 4クレジット
・SD3 Medium:一律3.5クレジット。
失敗した生成については請求されません。
SD3.5にて生成
「gemini girls with a panel which written “AICU”」
SD3.5 Turboにて生成
「textured palette knife oil painting of a cat riding a surfboard on the beach waves in summer. the cat has a mouse friend who is also riding the surfboard」
良いものだけ紹介するのではなく、
文字の描画を含めた連続生成の歩留まり率を表現してみます。
「cinematic film still, action photo of a cat with “AICU loves SD3.5”, riding a skateboard through the leaves in autumn. the cat has a mouse friend resting on their head」
SD3.5・同一プロンプト、Seed=0にて実験
「Japanese girls with a panel which is written “AICU loves SD3.5″」
実写系日本人の表現については、結構特徴掴んでいる感じがします。
指の再現率については工夫が必要そうです。
ネガティブプロンプトの効果を確認します。
「bad finger, nsfw, ugly, normal quality, bad quality」を入れることで歩留まり率が上がりました。
さいごに、ComfyUIのブログにあったプロンプトを紹介します。
Prompt: A photorealistic 4K image of a woman with transparent, crystal-like skin, glowing from within with a soft golden light.
NP:bad finger, nsfw, ugly, normal quality, bad quality
電撃リリースとなったStable Diffusion 3.5です。
即日対応を実現したComfyUI、そして商用で試用する上で、APIとしての互換性は高く保たれているようなので安心しました。初期レビューとして少し触ってみた範囲ですが、人種の多様性、特に日本人の描写について多様性と表現力があることを確認しました。
モデルの特性としての「カスタマイズ性」はどのようなところで発揮されるのか、ファインチューニング関係がComfyUIで登場することを期待します。また既存APIでのモデル間比較やEdit API、Style APIとの関係、そして10月29日に予定されているSD3.5Mリリース以降の動向も注目したいところです。
https://j.aicu.ai/AICUXColosoJP
Originally published at https://note.com on Oct 22, 2024.