おかげさまで2024年3月の発売より大好評をいただいております 通称 #SD黄色本 「画像生成AI Stable Diffusionスタートガイド」(SBクリエイティブ刊)についてのアップデートをお送りします。
【先着10名!!】「画像生成Stable Diffusionスタートガイド」プレゼント!#SD黄色本 増刷感謝祭!生成AI×クリエイティブの未来を読み解く新刊10冊
https://corp.aicu.ai/ja/books-2024
現在、サイン本の製作と発送準備に入っております。
https://corp.aicu.ai/ja/books-2024
初版発行より8ヶ月が経過し、初版第1刷にマイナーな改訂を実施した第2刷が流通しておりましたが、このたび、第3刷の出荷が開始しました。
祝・重版出来!
このたびは大型のアップデートがございます。
既にご購入いただいた方や、大学・専門学校等での教科書としてお使いいただいているケースもあると存じますので、初版・第2刷と第3刷の差分を明記し、このブログで詳細を解説しつつお届けします。
まず人気のLoRA編(第6章, p.155-172)を改訂いたしました。
<出版社のサポートページ> https://www.sbcr.jp/product/4815624569/
初版で使用していたLoRA学習スクリプト https://j.aicu.ai/SDLoRA1x
はLinaqruf版「Kohya Trainer」をベースにしていましたが、その後、メンテナンスの都合から、Google Colabでの動作が難しい状況が一時期ございました。
AICUでは代替のスクリプトとして、より安定して動作し、設定項目も少ない「Lora Trainer by Hollowstrawberry」をオンラインで解説してまいりました。このたび、第3刷の改訂をもって正式版として移行していきたいと考えております。
https://note.com/aicu/n/n96c10dd1249b
「画像生成AI Stable Diffusion スタートガイド」第3刷をご購入いただいた方は新しいリンクで記載されておりますが、初版・第2刷の方のサポートも考えて、オープンに公開することといたしました。
ぜひとも書籍の方もご購入いただけましたら幸いです。
ご推薦やAmazonでの高評価も大変ありがたいです。
原作となったKohyaさん「sd_scripts」の初期の原作や解説はこちら。
https://note.com/kohya_ss/n/nbf7ce8d80f29
https://note.com/kohya_ss/n/nb20c5187e15a
日本から世界にLoRAの活用法を発信されているKohya氏に敬意を表すとともに、興味のある方むけの情報として紹介させていただきます。
上記の2024年4月の段階からさらに最近のアップデートとして、Hollowstrawberry氏のsd-scriptsがKohya氏のオリジナルのスクリプトではなく、uYouUs氏のリポジトリに変更されていることに追従しています。
具体的な変更点は以下になります。
この既刊で必要とされる requirementsが変更されました
!pip install accelerate==0.15.0 diffusers==0.10.2 transformers==4.26.0 bitsandbytes==0.41.3.post2 opencv-python==4.8.0.76 tensorflow torchvision==0.16.0 torchtext==0.16.0 torchaudio==2.1.0 jax==0.4.23 jaxlib==0.4.23
!pip install toml==0.10.2 ftfy==6.1.1 einops==0.6.0 timm==0.6.12 fairscale==0.4.13 albumentations==1.3.1 voluptuous==0.13.1 requests==2.31.0 pytorch-lightning==1.9.0
!pip install safetensors lion_pytorch==0.0.6 dadaptation==3.1 prodigyopt==1.0 pygments
!pip install .
if XFORMERS:
!pip install xformers==0.0.22.post7
最新のスクリプトは以下のとおりです。
!pip install -U torch==2.4 xformers triton torchvision==0.19 --index-url https://download.pytorch.org/whl/cu121 !pip install accelerate==0.25.0 transformers==4.36.2 diffusers[torch]==0.25.0 ftfy==6.1.1 \ opencv-python==4.8.1.78 einops==0.7.0 pytorch-lightning==1.9.0 bitsandbytes==0.43.0 \ prodigyopt==1.0 lion-pytorch==0.0.6 tensorboard safetensors==0.4.2 altair==4.2.2 \ easygui==0.98.3 toml==0.10.2 voluptuous==0.13.1 huggingface-hub==0.20.1 imagesize==1.4.1 rich==13.7.1 !pip install -e .
より最新のtransformers, diffusersを使い、xformersに関するバージョンもパッチではなくGoogle Colab標準対応バージョンとなりました。
Google Colabの環境は常に更新されているので、今後も大きく環境が動いた場合はメンテナンスを実行します。
以下は、将来のメンテナンスに備えた作業メモです。
Ver.20241118
サンプルデータは過去と同様 1024px × 1024px にトリミングした画像40枚を用意してあります。このスクリプトでの学習はSD1.5系なので 512 x 512 で行うことをおすすめしますが、設定を変えて 1024 x 1024 で実施することも可能です(綺麗です)。その場合、時間はだいたい T4 GPUで 1エポックあたり15分以上かかります
スクリプト内の解説も日本語訳と推奨値を更新しています。
例えばbatch sizeについて
Increasing the batch size makes training faster, but may make learning worse. Recommended 2 or 3. バッチ サイズを大きくするとトレーニングは速くなりますが、学習が悪くなる可能性があります。2 または 3 を推奨します。
batch_sizeのポイントとしては同時に学習する数が多いほど画像の細部の特徴が反映されにくく、少ないほど細部まで学習されるようになります。
かつてのバージョンでは「このことから画風を学習する場合は4~8、キャラクターを学習させるなら2~6を設定することをおすすめします。」」と記載されていましたが、最新版は上記の通り「2もしくは3を設定することをおすすめします」としております。
AUTOMATIC1111と同様、
checkpoints/anyloraCheckpoint_bakedvaeBlessedFp16.safetensors
models/loras/
に生成したLoRAファイルを配置することで利用できます。
ComfyUI V1での利用の様子を紹介します。
1girl, detailed, beautiful, intricate design, delicate, flowing hair, soft lighting, pastel colors, ornate dress, lace, floral patterns, long hair, glowing, ethereal, serene expression, detailed eyes, highly detailed background, flowers, soft shading, elegant, fantasy setting, fairy tale atmosphere, sparkles, graceful, warm tones
(negative) bad hands, bad anatomy, ugly, deformed, (face asymmetry, eyes asymmetry, deformed eyes, deformed mouth, open mouth)
10epoch, 1024x1024での学習結果を 512x512で生成した例です。
Hollowstrawberryさんの「Lora_Trainer_XL」の原作は、日本人の開発者 Kohyaさん が開発制作した「sd-scripts」を Animagineの開発者でも有る Linaqruf さんが Colab notebook で使用できるようにしたDreambooth形式と呼ばれるLoRA学習スクリプトがベースとなっています。現在は、これを uYouUsさんがメンテして Hollowstrawberryさんが使える状態を維持しています。これらはオープンソースの賜物ともいえます。
また最近では「コピー機LoRA」といった手法も提案されています。コピー機LoRAで使用する教師画像は1枚のみ。LoRAに教師画像の特徴を過学習させることで、どのSeed値でも教師画像に極めて類似した画像以外生成されないLoRAを敢えて作成し、これを混ぜて使うことで制御性の高いキャラクターや特徴を使うといったテクニックです。
書籍の紙面には大きな影響はなかったのですが、この12月末にGoogle ColabとAUTOMATIC1111の不具合に起因したhotfixを実施しました。
https://note.com/aicu/n/n97456571e02e
年末年始で、結構根深い問題だったので、解決に時間がかかってしまいました。この場をお借りしてお詫びいたします。
AUTOMATIC1111/Stable-Diffusion-WebUIの本家がバージョン1.10.0以降メンテナンスされない中、コミュニティにおいてTheLastBen氏によるメンテナンスが続いています。また新しいモデルとしてFlux.1がサポートされており、WebUIもバージョン1.10.1になっています(!)、一方で、protobufと関連ライブラリのバージョン維持が複雑になっています。
★今後大きな変更がある場合は、バージョンをフリーズさせる可能性があります。
大好評「画像生成AI Stable Diffusionスタートガイド」最新版は、このようなオープンソースの開発サイクルを取り込みながら、解説を続けています。Kindle等の電子版は自動更新される予定です。最新の紙版書籍はこちらからご購入ください!
勉強会、公式講習会なども予定しております。
X@AICUai と、こちらのTechplayをフォローいただけましたら幸いです。
https://techplay.jp/community/AICU
この記事の続きはこちらから https://note.com/aicu/n/nf04353005dca
Originally published at https://aicu.jp on Jan 1, 2025.