Stable Diffusion開発元の、Stability AI Japan — External AdvocateのD̷ELLと申します。
今回、Stable Diffusion最高モデル Stable Diffusion 3 80億パラメータ(8B) を搭載したAPI「Stable Image」の、最上位サービス 「Stable Image Ultra」 の体験会を実施しました。
実施内容をレポートにまとめましたので、報告させて頂きます。

概要
- Stability AIからStable Diffusion 3 2B のモデルがリリースされ、世界を席巻した
- Stability AI APIでは、最上位モデルの Stable Diffusion 3 8B が利用可能
- 性能を体験してもらうために、色んな人に利用してもらったら凄かった
経緯
先日、Stability AIから待望の Stable Diffusion 3 Medium(2Bモデル)が発表され、大きな話題を呼びました。しかし、 Stability AI APIではさらに上位の Large / Ultra(8Bモデル) が利用できることをご存知でしょうか?
先日モデルリリースされた Stable Image Medium は 2B モデルですが、Stable Image Large は その4倍のパラメータを持つ 8Bモデルです。Stable Image Ultra は、8BモデルであるLargeを調整して更に性能を向上させた、名実ともに 全世界最高・最上位の画像生成AI となります。
Stable Image Ultraの紹介は以下の通りです。
当社の最も高度なテキストから画像への生成サービスであるStable Image Ultraは、これまでにない迅速な理解で最高品質の画像を作成します。Ultraは、タイポグラフィ、複雑な構図、ダイナミックな照明、鮮やかな色合い、芸術作品の全体的なまとまりや構成に優れています。Stable Diffusion 3を含む最先端のモデルから作られたUltraは、Stable Diffusionのエコシステムの最高峰を提供します。
Stable Diffusion 3 8Bの性能を最大限に引き出すように調整されたAPI、ということですね。
その優れた性能をぜひ体験していただきたく、先日Google Colabファイルを提供させていただきました。 こちら からご確認いただけます。
Google Colab notebook への短縮URL
https://j.aicu.ai/SD3UC
とはいえ、急に有償のAPIを利用するのは少しハードルが高いかもしれません。そこで今回は、懇意にしている皆様に、APIの最上位モデルである Stable Image Ultra を利用いただき、その感想を伺いました。
生成画像集
みなさまの生成された画像と、プロンプト、利用コメントを頂いております。
多種多様な画像を生成いただいておりますので、ぜひお楽しみください。
ご協力頂いた Discordサーバー AI声づくり技術研究会 様、ありがとうございます。

うんわさん
コメント:「あまりプロンプトを工夫してなくても非常に高品質な画像がパッと出てきて、とてつもない進化を感じました。」

A soft, plush toy shaped like a smiling face with two round black eyes and a simple curved smile. The toy is light purple and appears to be made of a soft, fuzzy material. It is positioned on a blue quilted surface with a light gray background, cute, kawaii, close-up shot, high detail.

a breathtaking underwater photo of a hand underwater touching the surface to create a ripple of bright abstract eye galaxy nebula vortex of beauty and nature, sunlight and chaos

robot girl, android,hanging,female, robot_torso,mechanical parts, cable, masterpiece, in a futuristic robotics lab, deactivated, wires, highly detailed, dynamic lighting, pale skin

aurora, milky way, night, night sky, shooting star, space, starry sky, galaxy, sky, city lights, constellation, light particles, skyscraper, cityscape, a girl, long hair, skyline, city, standing, twilight, looking at viewer, yellow eye

an image of a World War II battle scene. Include soldiers in era-specific uniforms, trenches, barbed wire, and debris. Show infantry, tanks, and military vehicles with smoke and fire. Add an overcast sky for a grim atmosphere. Use a muted, gritty color palette.
へむろっくさん
コメント:「触ってみな 飛ぶぞ!」






Girls who play games on a gaming PC with multiple monitors at home, willing, aged 20

Girl taking a selfie with her smartphone in the mirror at home, Young girl dressed in black gothic Lolita fashion, kawaii, anime,
うみせさん
コメント:「SD3を使ってみて、先日公開されたmediumよりも良い感じに生成できて楽しかったです。これまでにSD1、SD2、XL、cascadeと試してきましたが、SD3はそれらの良いところをうまく取り入れているように感じました。プロンプトの効きと生成結果がとてもよく、体験としては非常に素晴らしかったです。まだultraはAPIのみでの利用ですが、APIに抵抗がない方にはぜひ試してみてほしいです。」






a girl falling in the sky, smile, starry night, white hair, anime, vibrant, high quality,
A detailed anime-style character design, featuring a young girl with long flowing purple hair and bright blue eyes. She is wearing a stylish futuristic outfit with intricate details, including a metallic silver jacket, a neon blue skirt, and knee-high boots. Her expression is cheerful, and she is standing in a vibrant, colorful cityscape with tall buildings and neon signs in the background. The sky is stunningly beautiful, with a gradient of colors from deep blue to vibrant pink, adorned with fluffy white clouds and a glowing sunset. The lighting is dynamic, with a mix of natural and artificial light, giving the scene a lively and energetic atmosphere. The overall style is highly detailed, with a focus on capturing the unique elements of anime art and the breathtaking beauty of the sky.


yutoさん
コメント:「未来の技術は今使ってこそ未来の技術と言います。Stable Image API Ultraは今使える未来の技術です!!」


uthreeさん
コメント:「メチャクチャクオリティ高いとしか言いようがない」





A girl, starry night, anime, vibrant, high quality, pixel art
雫さん
コメント:「久しぶりに画像生成AIを使いましたが、前に使った時よりすごくプロンプトが効きやすい気がしました。ものすごく楽しかったです。貴重な機会をありがとうございました!」






flyfrontさん
コメント:「長い自然文でもちゃんとイラストに反映されてて良い感じ!」


焼肉Yakiinkuさん
コメント:「プロンプトの反映がとても自然に感じました!頭で考えたイメージや情景をかなりの精度で絵にしてくれる(しかもすごい生成速度早いっ)ので、「すごい!」もそうなのですが「とっても楽しい!」って感じなので時間を忘れて夢中になります・・!楽しいイベントありがとうございます!」




代屋モントさん




マッキーさん


生の声
https://twitter.com/mckey_draw/status/1801990763578093651
ChatGPTとの連携
プロンプトは、ChatGPTに生成してもらったという方が多くおられました。
GPTsでStable Diffusionのプロンプトを生成できるらしく、ぜひ参考にして頂ければと思います。また、Stable Diffusion 3 は自然言語処理に対応しておりますので、一般的な英文でも高品質な画像が生成できます。
「どんな呪文を使えばいいかわからない…。」という方でも、安心して本稿のような画像が生成可能です。安心ですね。
まとめ
いかがでしょうか?ひとつのAPIで、スタイルの指定など不要で、様々な画像が生成できていることがご覧いただけたかと思います。ユーザーのみなさまは、画像生成のベテランの方から初学者の方まで様々でしたが、望み通りの画像が出力出来たと大好評をいただきました。
APIの利用方法は、以下の記事にまとめておきました。
ぜひこの機会に、全世界最高峰・最上位の画像生成AIをお試しくださいませ。
ご協力いただいたみなさまに感謝申し上げます。
最後までご覧いただき、ありがとうございました。
本投稿は こちらの原作より、AICU media編集部に寄稿されたものです。
寄稿日 2024年06月16日
ご協力いただいた皆様、ありがとうございます。
Stability AI Japan — External AdvocateのD̷ELLさんもありがとうございます。
Stable Diffusionの探求を拡げていけるクリエイターのみなさまに感謝です。
https://ja.aicu.ai/aicu-creator-univeristy-audition-2024summer/
Originally published at https://ja.aicu.ai.
Comments