AICU編集部より - プロ向けLoRA連載開始!
2025年は画像生成AIがより一層、広い分野に使われるようになるとAICU編集部は予感しております。日本が得意とするアニメ・漫画・ゲームといったプロフェッショナルの製作の現場において、AICUがプロの皆様の画像表現探求や効率化に協力させていただく機会が多くなってきております。しかしながら(技術の進歩や難度、成熟とは関係なく)世間の誤解も多く、なかなか陽の目を観ることも難しい時代が続いていました。そんな中、AICUの「つくる人をつくる」というビジョンに理解のある読者の皆様、つまりクリエイティブ分野のプロフェッショナルの方々より「より当事者視点で、深く、実用的な使い方を学びたい」というご意見をいただくようになってまいりました。この種のプロ向けテクニックは一般の読者やホビイスト、また漫画などのクリエイティブ作家「以外の方々」にはまだ早い、専門性や高い倫理感や責任が必要になります。つまり初心者向けとは異なった内容として発信していく覚悟が必要です。そこで、濫用を防ぐためにもAICUの一般向け公開記事とは異なり、メンバーシップ「漫画製作のための画像生成AI」と有料のマガジン、AICUマガジン本誌でのみの限定された公開範囲で開始をすることといたしました。その名も「試験にでないLoRA作成講座」。連載の執筆担当は、第1回AIアートグランプリ準グランプリ、株式会社テセラクト代表取締役、シニアプログラミングネットワーク代表、小泉勝志郎先生 @koi_zoom1 です!さらに初回は 人気漫画家 うめ先生(@ume_nanminchamp/) のご許諾もいただいて、実用的で豪華な内容となっております。両先生、ありがとうございます!それでは始まります!
AICU読者の皆様、はじめまして!自称LoRAの魔術師の小泉勝志郎と申します。LoRAの魔術師と自分では思っているけど、誰もそう言ってくれないので自分で言うようにしているんですよ。今回縁あってAICU mediaで記事を描かせてもらえることになりました。
私は元々イラストを描くことをまったくしてこなかった人間なのです。ただ、「渚の妖精ぎばさちゃん」というご当地萌えキャラの運営をしているので、AI画像生成が出てきた当初から「自分のキャラをAIでどう再現するか」というのがテーマとしてあったんですね。
LoRAが一般的になる前のTextual InversionやDreamBoothがではじめの頃、まだ使いやすいツールがあまりない頃に自分でプログラムを書いて頑張っていたりしたのですよ!その後、LoRAが一般的になり、学習の負担も大幅に軽くなったので、自分のキャラ以外でもほぼ毎日のように何らかのLoRAを作っています。
そんな中で自分流の作成法も出来てきたので、今回から数回にわたって記事を書かせてもらうことになりました。対象はある程度LoRAを作った経験のある方でちょっとマニアックな内容でやっていきます。LoRAの初心者向け記事はすでにAICU media内に複数あるんですよ。まずはそちらを読んでもらえるとありがたいです。こちらの記事はAIでのみ二次創作可能なキャラクター「デルタもん」を題材に初心者向けの解説がされています。
◾️キャラLoRA学習ガイド2024年5月版 #SD黄色本
https://aicu.jp/n/n02de834e3d5c
LoRAではキャラクターだったり、衣装だったりを新しくAIに作画させることができるようになりますが、今回第1回目はAI画像生成の中でも物議を醸すことが多い画風LoRAの作り方です。
画風LoRAの作り方
うめ先生の画風LoRAを作らせてもらえることに!
自分流のLoRA作成法が出来てきたのでちゃんと画風LoRAに挑戦してみようと思ってこんなTweetをしました。
そうしたら、なんとうめ先生(原作の小沢先生)が反応してくれたのですよ!
うめ先生と言えば、非常にハック能力の高い漫画家の方で、まだ電子書籍の黎明期にKindle Direct Publishingにもいち早く挑戦され、そして現在は生成AIについても講演されたり、インタビュー記事も出ていらっしゃいます。
そんなうめ先生からとこれは非常にありがたいことです!そんなありがたいことなのに、今回LoRAを作るのに半年も間が空いちゃって非常に申し訳ありません。AIの世界って一日で様子が変わることがざらなくらいなのに。
絵についての要望は「スティーブズ以降くらいの絵」とのことでした。
うめ先生は作品ごとに大きく画風も変えてらっしゃいます。育児漫画「ニブンノイクジ」ではかなりデフォルメされた画風。
最新作「南緯六〇度線の約束」ではアクションも多く劇画風味も感じる画風です。
同じ作品で画風LoRAを作る方が良いだろうということで、今回は「スティーブズ」の画像から画風LoRAを作ることにしました。
「スティーブズ」はApple創業者であるスティーブ・ジョブズとスティーブ・ウォズニアックの物語で、ジョブズの現実歪曲空間がまるで能力バトルのように展開する漫画ならではの面白さが盛り込まれた傑作伝記漫画で、私も大好きな漫画です。
ところで、注意事項として書いておきますが、うめ先生の漫画製作において今回の画風LoRAは用いられておりません。今回のLoRAは作成に用いた各種データとともにうめ先生にお渡ししますが、私からは特に公開はしない予定です。
また、今回うめ先生だけではなくちぇんさんからも画風LoRAについての話が来ました。ちぇんさんのLoRAについてはキャラクターLoRAのときに画風LoRAとの違いを深堀りする際に登場する予定です。
画風LoRAの素材に向いていない画像がある!
LoRAでよく作られるものにキャラクターLoRAがあります。キャラクターLoRAの場合は、当然そのキャラクターが描かれた画像。それに対して、画風LoRAはなるべく多くの種類の画像がある方が良いです。
画風の場合、「この画風ではツリ目をこう描く。太った人をこう描く」等を再現できる必要があります。そのためにはツリ目ならその画風でのツリ目の画像が、太った人なら太った人がその画風で描かれていないと当然再現できないわけです。なるべく多く再現できるようにするには、画像の種類も多い方が良いということです。
そんな中、実は画風LoRAの際を作る際に、入れない画像というものがあります。それが「際立った特徴を持つキャラクター」です。
「スティーブズ」の場合、具体的に言うと主人公の一人であるスティーブ・ウォズニアックが画風LoRAの素材には向いていないのです。
特にこのデフォルメされた歯が画風LoRAに向いていないんです!キャラクターデザインとしてはキャラクターを印象付ける要素として、何か際立った要素を付ける方が覚えてもらいやすくなるので良いのですが、画風LoRAの素材となるとは話は変わります。
この特徴を持つキャラは作中にはウォズニアックとその父親のみ。この歯は画風ではなくあくまでキャラクターの特徴なんですよ。それがこの特徴的な歯が他の絵にも影響を与えてしまうことになるのです。次に書くタグ付けをうまくやれば回避できなくもないですが、今回はウォズニアックの画像は外すことに。主人公の一人なのに!
実は世に出回っている画風LoRAにはこのあたりをうまくできてないがために特定キャラの特徴であるものが画風として出てきてしまっているものも結構見かけたりもするんですよね。
画風LoRAでのタグ付け
LoRAを作る際には「その画像がどういう画像なのか?」を画像生成のプロンプトの形で表したキャプションというものを付けます。この際の特徴を表す単語やフレーズをタグと言い、キャラクターLoRAと画風LoRAではキャプションでのタグの付け方に違いがあるんです!
詳細はキャラクターLoRAの際に取り上げますが、キャラクターLoRAではキャラクターの特徴にあたる要素はタグ付けしないのが基本です。緑色の髪のデルタもん(deltamon)を学習させる際に「deltamon, green hair」で学習させると、「deltamon」だけでは髪色の再現が弱くなります。
それに対して、画風LoRAの際は顔立ちや服装も含めてしっかりタグ付けする方が良いです。画風の場合、「この画風ではツリ目をこう描く。太った人をこう描く」等を再現できる必要があるんですよ。
そして、今回に限らずこの連載の中で繰り返し述べていこうと思っている大事なことが以下の3つ。
-
画像の共通部分はタグの共通部分に学習される
-
画像の異なる部分はタグの異なる部分に学習される
-
画像が異なっているのにタグが共通している箇所は特徴が混ざって学習される
1番目は多くの記事で触れられていますが、2番目はほとんど言っている人を見かけないですね。それだと信憑性を疑う人も出るでしょうが、2番目を使ってトリック的なこともできるんですよ!別の回でそれを証明する形で詳細に触れます。
私のタグ付け方法
画像にどうやってタグ付けをするか?その絵を見てもどうやってタグ付けしてよいかわからないという方もいらっしゃるかもしれませんが、WD Taggerというツールを使うと、画像がどういうタグで表現できるか出力してくれます。まずはこういうツールを使うのが良いでしょう。
https://huggingface.co/spaces/SmilingWolf/wd-tagger
私もTaggerは使っているんですが、基本的にその画像と同じような画像を実際にプロンプトで画像を生成して確認と調整をするようにしています。そのため、実際に自分で打っている割合の方が高いです。
たとえば、スティーブズ4巻の表紙。
を学習させる際のキャプションはこのようにしています。
ume style, 1boy, glasses, smug, closed mouth, skinny, sitting on red chair, leaning side, one hand on mouth, crossed legs, blonde, blue eyes, bangs, layered hair, short hair, black business jacket, white shirt, purple tie, pants, brown shoes, from front
「ume style」が今回の画風を呼び出すトリガーワードです。これは実際にLoRAのベースモデルでそのプロンプトを実行して確認して調整していきます。
画風の違いはあれど格好やポーズはかなり一致していますよね。このプロンプトでの再現が悪いと、画風のトリガーワードはポーズの違いや色合いの違いまで学習してしまうので、画風の再現が悪くなるし、変な癖がついたりしてしまいます。
また、プロンプトとして実行する際はタグを強調したり、ネガティブプロンプトを書いたりするとは思いますが、キャプションには強調やネガティブプロンプトを除いたものを書いています。
画像の加工について
今回学習に用いる画像は一部加工をしています。こちらはスティーブズ1巻の表紙。ジョブズとウォズニアックです。このように文字が入っています。特に身体にかぶるように薄く入っている文字も。
このスティーブズの表紙画像のみを学習させたLoRAで作成した画像です。
girlだけで生成しても文字が出てきてしまう!
文字はネガティブプロンプトに「text」を入れれば消せるからまあ良いかと思ったら次は体に薄くかぶった文字が模様のような形で反映されてしまうじゃないですか!
学習枚数が多ければこの影響も減らせるのですが、スティーブズは全6巻なので、表紙画像は6枚なんですよね。そこで、画像を加工して学習させています。
文字の削除、特に体に薄くかかった文字とロゴを消すように。また、学習に用いないことにしたウォズニアック、ついでリンゴも消しています。
<ここから先は有料とさせていただきます>
メンバーシップ、マガジン単体販売もしくはAICUマガジンにてご購読ください!★期間限定・シェア割引設定中(1月中旬まで)★
この記事の続きはこちらから https://aicu.jp/n/nff822036e73b
Originally published at https://aicu.jp on Jan 2, 2025.
Comments