ComfyMaster「ゼロから学ぶComfyUI」は本日より、新章に突入します!
まずいったん、2025年2月次点での「画像生成AIの基礎知識」、次に「共有ComfyUI」環境における画像生成の基本をおさらいし、さらにControlNetとLoRA、動画生成と応用編に向かっていきます。
https://note.com/aicu/n/n8d07d082c7c0
参考図書「画像生成 AI Stable Diffusionスタートガイド」
AICUが2024年3月に出版したこの教科書「(通称)SD黄色本」を、ComfyUI時代の常識で引き上げていきます!できるだけ初心者から上級者まで幅広い読者にわかるように、丁寧に、優しく表現するのでついてきてくださいね!
内容は、近日発売予定の新刊書籍の草稿でもあります!
「わかりやすかった!」「難しかった…」などのご感想は、是非コメント欄にいただけましたら幸いです。
画像生成AI、最近本当によく聞くようになりましたよね!まるで魔法みたいに、言葉や簡単な指示から、想像もしていなかったような美しい画像や面白い画像がポンポン生まれてくる。
「ComfyUI」を使いこなして、そんな画像生成AIをもっと自由に操れるようになる前に、まずは画像生成AIって一体何なのか?何ができるのか?どうすれば使えるのか? といった基本的なところから、一緒に見ていきましょう!
今回は、ComfyUIの世界へ飛び込む前に知っておきたい、画像生成AIの全体像を掴むための3つのステップをご案内します。
画像生成AIってどんなもの?
画像生成AIって何ができるの?
画像生成AIを使うにはどうすればいい?
ComfyUIを学ぶための土台をしっかりと築いていきましょう!
画像生成AI、マイクロソフトの「Copilot」やOpenAIの「ChatGPT」、Xの「Grok」など、まるで魔法のように美しい画像が数単語のテキストを与えるだけで生成されていきます。ここでは、画像生成AIとは一体何なのか、その正体を解き明かし、他人に説明できるレベルでマスターしていきましょう。
画像生成AIとは:言葉やイメージを画像にする技術
画像生成AIとは、テキストや他の画像などの入力情報に基づいて、新しい画像を機械が生成する技術のことです。
例えば、「猫がピアノを弾いている(a picture of a cat play the piano)」と文章で指示(プロンプト)を入力すると、そのような画像が生成されます。人間が頭の中にイメージを持っているかどうかにかかわらず、AIが魔法のカメラで写真を撮ってきてくれたようにも感じられます。この画像生成AIは、AI技術の中でも「生成AI」と呼ばれる分野に属しています。既に獲得した「モデル」をベースに「推論」によって「それらしい画像」を生成します。生成AIは、画像だけでなく、文章、音楽、動画など、様々な種類のデータを生成することができます。
誰がどのように開発した?研究から一般利用へ
画像生成AIの歴史はコンピューターの歴史や映像の歴史、コンピューター・グラフィックス(CG)の歴史とともにあります。実は意外と古く、研究自体は1940年代から始まっていました。
初期の頃は、テレビやブラウン管、ディスプレイ技術のような電気電子技術による映像メディアの誕生とともにあり、バーコードのような白黒の印刷パターンから文字や数字といった「コード」を認識する技術が生まれます。パーセプトロンという人間の脳神経の仕組みを模した人工ニューロンやニューラルネットワークの研究とともに、セルオートマトンという簡単なアルゴリズムにより図形や模様を生成する程度でした。当時提案されたベジェ曲線のような複雑な曲線を表現できる数学のモデルは現在もAdobe Illustratorで使われています。ニューラルネットワークの研究はコンピューターの演算処理の高速化、メモリの大容量化、そして研究者たちのオープンな研究により、多層パーセプトロン、エキスパートシステム、誤差伝搬法と進化していき、近年、ディープラーニング(深層学習)という機械学習技術として進化します。特に2010年以降GAN(Generative Adversarial Network:敵対的生成ネットワーク)や拡散モデルといった新しいモデルが登場したことで、生成される画像のクオリティが飛躍的に向上しました。
特に、2022年8月に公開されたStable Diffusionは、オープンソース(公式には「ソース」ではなくオープンモデル、もしくはオープンウェイトと呼ばれています)で、誰でも無料で利用できるという点が画期的でした。これにより、画像生成AIは研究者や専門家だけでなく、多様なアプリやサービスに組み込まれ、一般の人々にも広く利用されるようになり、爆発的に普及しました。
Stable Diffusionの開発には、Stability AIという企業を中心に、多くの研究者や開発者が貢献していました。また、GoogleやOpenAI、Twitterを運営する Xといった大手IT企業も、Imagen、DALL-E、Grok といった高性能な画像生成AIを開発・公開しています。Webブラウザやスマホアプリで利用するサービスだけでなく、Stable Diffusionのようなオープンウェイトとして配布されるモデルや、さらに商用利用可能なモデルや、その追加学習をする技術、一般のクリエイターによって配布されるモデルなど多様に登場しました。
画像生成AIが一般的な認知を得るようになった経緯としては、
技術の進化: ディープラーニング、GAN、拡散モデルなどの技術革新により、高品質な画像生成が可能になった。
オープンソース化: Stable Diffusionの登場により、無料で誰でも利用できる環境が整った。
SNSでの拡散: 生成された画像がTwitterやInstagramなどのSNSで拡散され、多くの人々の目に触れる機会が増えた。
メディアの報道: テレビやニュースサイトなどのメディアで画像生成AIが取り上げられるようになり、一般層への認知度が向上した。
といった要因が挙げられます。これは旧来の研究者が、専門家向けに論文を書いて、学会で論文誌や書籍に収録されているだけのサイクルとは明らかに異なっており、さらにX(Twitter)のGrokような「日常の出来事」を画像生成させたり、公開された画像を学習したりしていくことで、さらに成長・進化していく可能性があります。
現在どのようなサービスがある?広がる利用シーン
現在、様々な画像生成AIサービスが登場しており、用途や目的に合わせて自由に選択できるようになりました。
主な画像生成AIサービス
Stable Diffusion: オープンソース(オープンウェイト)で、様々な派生モデルや対応できるGUIツールが存在する。「ComfyUI」もその一つです。
Midjourney: Discord上で利用できる画像生成AI。アーティスティックな画像生成に強み。広告業界では広く使われています。
DALL-E 2 & DALL-E 3: OpenAIが開発。テキスト指示への理解度が高く、高品質な画像生成が可能。OpenAIとマイクロソフト以外は中身がどうなっているか、直接触ることはできませんが、アプリ開発(Application Programming Interface: API)を経由して利用できます。
Bing Image Creator (DALL-E 3 搭載): Microsoft Bingの画像検索機能に統合された画像生成AI。API費用はマイクロソフトが負担しており、無料で手軽に利用可能です。
Adobe Firefly: アドビがAdobe Stockの画像を学習してトレーニングしたモデルで、Adobe Creative Cloudに統合された画像生成AI。Photoshopなどとの連携が強み。なおアドビには Adobe Stockに寄稿者が投稿したストック素材を生成AIモデルのトレーニングに使う許可が与えられています。
主にどのような人が使っている?
画像生成AIは、本当に幅広い層の人々に利用されています。
クリエイター・デザイナー: イラストレーター、グラフィックデザイナー、Webデザイナーなどが、アイデアの素早い具現化、デザインのバリエーション作成、作業効率化のために利用しています。一般のグラフィックスとして最終出力に使うだけでなく、素案やレイアウト検討、実際の俳優の演技検討や撮影計画の素材。漫画の背景といった使い方もあります。
マーケター・広告担当者: 広告素材、Webサイト用画像、SNS投稿用画像の作成に利用するケースが多く見られるようになってきました。画像素材として利用するだけでなく、多様な趣味嗜好に合わせた画像を人間が作り込む代わりに、多様な趣味嗜好に合いそうな画像を生成して「A/Bテスト」として市場に投入するといった例もあります。
教育関係者: 著作権や肖像権などを解決した教材作成、授業での利用、生徒の創造性育成、機械学習やAI利用の学習にも使われています。
研究者: 学術的な画像生成技術の探求、アニメやゲームの開発効率向上のためのツール開発、新たな表現能力の獲得を研究しています。
開発者: 例えばJR東日本グループによる研究開発では、電気設備の異常を検出する認識技術のために、ケーブルに発生した「自然な異常画像」を Stable Diffusionによって生成した例が報告されています。https://pages.awscloud.com/rs/112-TZM-766/images/20230921-railway_construction-02_jeis.pdf
一般ユーザー: 趣味のイラスト作成、SNSアイコン作成、ブログ用画像作成、アイデアの視覚化、家族写真のフィルタ処理、エンターテイメント目的など、幅広い用途で利用されています。
画像生成AIは、もはや特定の専門家だけのものではなく、アイデアを形にしたい全ての人にとって、強力なツールとなりつつあります。
画像生成AIは、一体どんなことができるのでしょうか?
ここでは、画像生成AIの主要な機能と、具体的な活用例を見ていきましょう。
画像生成AIは、テキストや画像などの入力情報から、様々な種類の画像を生成・加工することができます。
画像生成AIの主な機能
画像生成: テキストプロンプトに基づいて、全く新しい画像を生成します。
例:「猫が宇宙遊泳をしているイラスト」「夕焼けのビーチでサーフィンをする犬の写真」など、想像力次第で無限のバリエーションの画像を生成可能です。実際に撮影するととても大変なシチュエーションや、その瞬間の表現などに威力を発揮します。
画像変換 (スタイル変換): 既存の画像のスタイルを別のスタイルに変換します。
例:写真をイラスト風、油絵風、水彩画風などに変換。
例:実写の風景写真をアニメ調の背景に変換。
画像拡張 (アウトペインティング/インペインティング): 既存の画像の一部を拡張したり、不要な部分を自然に消去・修正したりします。
例:風景写真の左右を広げて、より広大な景色を生成。
例:写真に写り込んだ不要な人物や物を消去。
画像高解像度化 (超解像): 低解像度の画像を、AIの力で高解像度化し、画質を向上させます。
例:古い写真や低画質の画像を鮮明にする。
例:生成した画像の解像度を上げて、より高品質な画像にする。
画像生成AI、使ってみたくなってきましたか?
ここでは、画像生成AIを使うための方法と、この教科書で学ぶComfyUIについて解説します。まず、ComfyUIに限らず画像生成AIを利用する方法は、大きく分けて3つあります。
生成サービスを利用する: Webブラウザやスマホアプリから、Midjourney、 NijiJourney、DALL-E 3、Adobe Firefly などの画像生成AIサービスを利用する方法です。
メリット: 手軽に始められる、特別な環境構築が不要。
デメリット: サービスによっては有料、生成できる画像の種類や品質、自由度に制限がある場合がある。生成された画像の権利や、参照元にする画像の権利やセキュリティが問題になる。
自分で機械学習モデルを用意して利用する: Stable Diffusion などの機械学習モデルを自分で入手して、PCやクラウド環境に構築し、利用する方法です。
メリット: 無料で利用できる(電気代、PCやGPUの購入費用以外)、カスタマイズ性が高い、中の動作を理解できる、生成できる画像の自由度が高い。未公開画像などのセキュリティを閉じたネットワークで保護することができる。
デメリット: PCのスペックが必要、環境構築にある程度の知識が必要。
クラウド上のAPIサービスや演算基盤を利用して利用する: FalやReplicatorといった演算基盤、Stability AIのAPIなどモデルと問い合わせのためのAPIをセットにしたサービスを利用する方法です。
メリット: 安価で利用できる、カスタマイズ性が高い、PCやGPUのスペックに依存せず、画像の品質、アプリやサービスを開発に集中できる。
デメリット: 画像1枚あたり数円~数十円程度のAPI費用が必要。クラウド上のサービスを使用するためにセキュリティ面のリスクはゼロではない。未公開の画像をアップロードする可能性がある(多くの場合は学習対象にはなりません)。
「ゼロから学ぶComfyUI」では、自分で機械学習モデルを用意して利用する方法、とクラウド上のAPIサービスや演算基盤を利用して利用する方法の両方を「ComfyUI」(コンフィ・ユー・アイ)というツールを使って、自分で画像生成AIを使いこなしていく方法を解説していきます。
ComfyUIで画像生成AIを利用するためには、主に以下の要素が必要です。
高性能なPCまたはクラウド環境: 画像生成AIは計算負荷が高いため、ある程度のスペックのPCが必要です。Mac、とくにApple Siliconでも利用はできますが、可搬性・可用性ではGPU搭載のWindowsやLinuxが有利です。クラウド環境(Google Colabなど)やAPIサービスを利用することもできます。
機械学習モデル (Stable Diffusion など): 画像を生成するためのAIモデル本体です。様々なモデルが公開されており、用途や好みに合わせて選択できます。またライセンスも商用利用可能なモデルや、商用利用不可、もしくは商用利用に適さないモデルもあります。
ComfyUI: Stable Diffusionなどの機械学習モデルをGUI操作で簡単に扱えるようにするツールです。かつて広く使われていた「AUTOMATIC1111/Stable Diffusion WebUI」のようなボタン・パラメータ型のユーザーインターフェース(UI)ではなく、ノードベースのインターフェースで、複雑な処理も視覚的に分かりやすく構築できます。
基礎知識: 画像生成AIの基本的な仕組み、プロンプトの書き方、ComfyUIの操作方法など、ある程度の知識があると、よりComfyUIを (効果的に) 活用できます。これから一緒に学んでいきましょう!
前出の「生成サービスを利用する」というレベルの用途に限定すれば「なぜComfyUIを学ぶ必要があるの?」という疑問はあって当然と思います。一般のホビーやエンタメ目的であればWebブラウザやスマホアプリから、XのGrokやMidjourneyやNijiJourney、ChatGPTのDALL-Eが使えればいいでしょうし、グラフィックスを使うクリエイティブ分野の方であればAdobe Fireflyを使えば商業的なライセンスも問題なさそうです。
しかし「再現性と制御性」という視点ではいかがでしょうか。プロフェッショナルな業務においては「ちょっとそれらしい画像が出れば良い」という用途は非常に限定的で、キャラクターや背景画像であれば「その同じキャラクターで違う表情がほしい」とか「違う服で」とか「太陽を夕日に」といった「再現性と制御性」が求められます。もちろんAdobe Fireflyでも頑張ればできるかもしれませんが、汎用的なグラフィックスやストックフォトをベースにした画像生成モデルには限界があり、相当に使いこなせばこなすほど、似たような画像を生成する結果にたどり着く可能性が多くなります。また特殊な用途への絞り込み、例えば「日本人女性に特化した画像生成」とか「新作アパレル向けのファッションカタログ」とか「クルマの内装」とか「電気設備の自然な異常」とか、「子どもの自然な画像」といった用途に対して、やはり「自分でモデルを作る」といった結論にたどり着くことは多いでしょう。アプリやサービスを開発する立場であれば、なおのこと、その可能性は高くなりますし、映像制作や漫画制作スタジオのような小規模な製作会社であっても、同様に「外部で一般に使われている画像生成AIでは無理」という使い方が多くなります。
そういった目的に対して、Stable Diffusion初期の2022年~2023年では、Pythonスクリプトによるシステム開発や、AUTOMATIC1111/Stable Diffusion WebUI(A1111)によるモデル、ControlNet、LoRA、機能拡張といった改造で対応していました。そのために機械学習をゼロからやり直す、といった途方もない方法も当たり前のように取られていました。いくらStable DiffusionやA1111がオープンに配布されていたとしても、演算コストや人件費で数千万~数億円はかかってしまいます。
https://note.com/aicu/n/n4ded178bc0e5
しかし、現在、広く普及してきた「ComfyUI」の時代で、そのような問題は大きく解決しています。まず「ほぼひとりで開発してきたA1111」に対して、ComfyUIは「Comfy Org」というスタートアップ企業のような団体によって複数人でオープンソースで開発されています。元Google、元Stability AIといった優秀で聡明な開発者が「映像と音声メディアの新たなフロンティアを創造する」というビジョンのもと、「快適な(Comfy)」AIのインターフェースをつくるために日夜尽力しています。
ComfyUIはA1111と比較して以下のような特徴があります。
・高速
・セットアップがシンプル
・ノードベースで見やすい、フリースケール
・拡張機能を開発しやすい
まず、A1111やその派生である「Forge」は非常に優れたツールで、現在も数多くのユーザーが存在しますが、内部の動作は(オープンソースとはいえ)ユーザーに公開されているわけではありません。対してComfyUIは、非常に高速で、シンプルなテキストからの画像生成でも、ControlNetを使った複雑な生成でも、自分でノードを組み合わせて画像生成の設計図(ワークフロー)を作ります。現在どこのノードでプロセスが回っているか、どこの処理が重たいか、といった工程を確認していくことができます。拡張機能の開発も、余計な要素や知らなければならない前提知識が少なくても済むのが特徴です。
Q: 今後の計画について教えてください。
A:Comfyでは、常に最先端を行くために、最先端のモデルを採用し続けます。また、PRをレビューし、Githubの問題に迅速に対応することを目指しています。また、カスタムノード作成者のユーザーエクスペリエンスと開発者エクスペリエンスを向上させる必要があります。正確なモデルについてはまだ検討中ですが、将来の改良はGithubのProjectsで共有する予定です。すべての大きな変更はGithubのディスカッションとして始まり、私たちのDiscordとMatrixサーバーで共有されます。最終的なデザインに達したら、公開ロードマップに実装を追加します。私たちのTwitter、Discord、Matrixサーバーで最新情報をご確認ください。
Q: プロジェクトはどうやって維持するのですか?
A:現在、私たちはお金を稼いでいません。オープンソースのAIツールを開発するという私たちのビジョンに賛同してくださるサポーターや投資家に支えられています。そのような方は、hello@comfy.org へどうぞ。将来的にはお金を稼ぐつもりです。
Q: どうやってお金を稼ぐのですか?
A:最近のComfyUIのセキュリティ上の懸念にはどのように対処するのですか? レジストリ上のノードは意味的にバージョン管理され、悪意のある動作についてスキャンされます。すべてをキャッチすることはできませんが、ノードがカスタムピップホイールを含むかどうか、任意のシステムコールを実行するかどうか、外部APIを呼び出すかどうかのチェックを近々追加する予定です。フラグが立てられたノードは人間がレビューします。さらに重要なことは、セキュリティ上の懸念が見つかった場合、そのノードを禁止し、そのノードをインストールしたユーザーに通知することです。このプロセスは時間をかけて改善される予定です。
Q:他に取り組んでいるプロジェクトはありますか?
A:ComfyUIはアプリケーションであり、バックエンドであり、開発者プラットフォームです。私たちはComfyUIを安全で信頼性の高いものにするためにツールに投資しています。私たちは、カスタムノードをホストするリポジトリであるComfy Registryをホストしています。レジストリ上のノードは意味的にバージョン管理され、悪意のある動作がないかスキャンされます。我々はすべてをキャッチすることはできませんが、ノードがカスタムピップホイールを含むかどうか、任意のシステムコールを実行するかどうか、または外部のAPIを呼び出すかどうかのチェックをすぐに追加する予定です。また、Comfyの新しいコミットを様々なオペレーティングシステムやGPU上のワークフローに対してテストする継続的インテグレーションテストスイートもホストしており、Comfyの信頼性を高めています。
Q:コアとなる原則は何ですか?
A:透明性とコミュニケーション。2.オープンソースとコミュニティ主導。3.AIの民主化
Q:基盤モデルについてはどうですか?
A:OSS AIコミュニティにおける最近の混乱にもかかわらず、OSS AIモデルには膨大な進歩があります。私たちはOSSモデルビルダーと密接に協力し、最高のモデルをComfyUIに導入しています。また、将来的にはAIモデルにより多くのリソースを投入する予定です。
Q:どのようにComfyUIに貢献できますか?
A:私たちのdiscord/matrixチャンネルでフィードバックをしたり、参加することができます。バグレポートや機能リクエストの提出にご協力いただける場合は、Githubに課題(Issue)を作成してください。多くの課題には #good-first-issue というタグがつけられています。それ以外の場合は、PRを投稿してください。近い将来、他のOSSプロジェクトと同様のガバナンス構造を導入する予定です。
Q:Comfyの最新情報を得るにはどうしたらいいですか?
A:Twitterでフォローしたり、DiscordやMatrixチャンネルに参加してください。 https://x.com/ComfyUI
この記事の続きはこちらから https://note.com/aicu/n/n986913a2ae7b
Originally published at https://note.com on Jan 28, 2025.