AICU mediaのKotoneです。多様に進化する画像生成AI「Stable Diffusion」関連ツールですが、初心者にはちょっと縁遠さがあると思います。『やってみたいけど高価なGPU搭載PCが必要なんでしょ……?』という思いもあるかなと思います(私もです!)。
今回のブログでは「Stability Matrix」という無料で利用できるオープンソースのツール、そして「Fooocus」を紹介します。こちらはテキスト→画像生成サービスとして有名な「Midjourney」や「NijiJourney」に似たお手軽感覚で高品質な画像生成環境です。
GPU非搭載もしくは弱めのGPU搭載なWindowsPCでも動作します。もしこれをインストールしても動かないようでしたら「高火力なPC」を購入すればよいのです。まずは試してみましょう!
Stability Matrix - Multi-Platform Package Manager for Stable Diffusion https://lykos.ai/
(GitHub) https://github.com/LykosAI/StabilityMatrix
最新の画像生成ツール、例えばAUTOMATIC1111、ComfyUI、Foocusなどは、Stable Diffusionを活用しています。これらのツールは日本語のユーザーインターフェースを持ち、使い方も簡単。ワンクリックでインストールできるので、迷うことはありません。プロフェッショナルなユーザーにとっても、常に最新のモデルに対応している点が魅力的です。
巨大なファイルだったモデルcheckpointを各WebUI間で共通管理でき、同様にLoRA、LyCORIS・VAE・Embeddingなども各WebUI間で共通管理できます。CivitAI を使ったモデルのブラウズ、ドロップアンドドラッグでローカルのモデルを利用でき、しかも Stability Matrix のシステム自身のアップデートできるのが魅力的です。
公式にサポートしているWebUIパッケージ
GitHubに最新のインストーラーが更新されています。
https://github.com/LykosAI/StabilityMatrix/releases
こちらのリリースページから最新インストーラーをダウンロードしましょう。本書執筆時点ではv.2.6.6が最新のようです。Windows版「-x64.zip」をダウンロードして展開すると『StabilityMatrix.exe』というファイルが1つ存在しますのでダブルクリックして実行しましょう。Windows Defenderの警告が表示されますが、そのまま実行で問題ありません。
【怖い画面だけど大丈夫】
『詳細情報』をクリックして
使用許諾契約書を確認し、『続ける』を選択して次に進みましょう。
次に、Stability Matrix自体をインストール先を選択します。権限があって自分の分かりやすい場所でよいです。
ここで『Portableモード』にチェックを入れておきます。Portableモードではすべてのデータと設定はアプリケーションと同じフォルダに保存されます。その中にある「Data」フォルダにすべてがまとまりますので、別のフォルダ(例えばUSBメモリやSDカード)や、別のコンピュータに移動できるようになります。
『Stability Matrix』のインストールが完了したら「StabilityMatrix.exe」を実行しましょう。
さっそく定番の「Stable Diffusion WebUI by AUTOMATIC1111」を…というところなのですが、他のUIについて紹介していきたいと思います。
https://github.com/lllyasviel/Fooocus
FooocusはControlNetを作ったスタンフォード大学のLvminさん(Lvmin Zhang)が作っているWebUIで、内部のモデルはStable Diffusionの最新版『SDXL』専用になります。GitHubで14kもスターが付いています。
使い勝手は、まさにMidjourney/NijijourneyをWebUIで「一人で使う」という感じの環境を構築できます。非常に少ないGPU、少ないプロンプトで品質の高い画像を作ってくれます(その分、ちょっとだけ時間がかかる感じ)。
さっそくプロンプトを「Christmas night」で生成してみます。
プロンプトを打ったら「Generate」ボタンを押して待ちましょう。
SDXLらしい立体感が素晴らしいですね。
「✅Advanced」にチェックを入れます。
右側の「Aspect Ratios」が縦横比です。
デフォルトは「1152x896」なのですが、YouTube等の動画やHDTVと呼ばれる「16:9」にしたいと思いました。
まずは計算機で「16:9」を計算すると、約1.78です。
近そうなアスペクト比を探ってみます
1280 ÷ 768 = 1.67
1344 ÷ 768 = 1.75
1344 ÷ 704 = 1.909090909090909
1408 ÷ 704 = 2.00
1472 ÷ 704 = 2.09
実はズバリの解像度は無いのですが、「1344x768」が一番近いようです。
『なんでこんな数字になっているのか…』という質問をハカセにしたところ
「SDのアルゴリズムやGPUの効率があって2の階乗が推奨。そのほうが無駄がないから」とのことでした。
こちらが「christmas night」などシンプルなプロンプトで生成した fooocus によるテキスト画像生成の結果です。なかなか高クオリティですよね!
次回は、より細かいパラメータを紹介していきます!
本記事は AICU media [初心者向け] #StabilityMatrix でお手軽画像生成環境をサクッとインストール #Fooocus で16:9画像を出すには⁉ をベースに、コーポレートサイトも向けにさらに優しさを追加したアーティクルです。
AICU media 最新の情報は X(Twitter)@AICUai および note をフォローください。