シリコンバレーからみた生成AI - Stable Diffusionの重要性

作成者: AICU Japan｜2023/11/14 3:53:52 Z

AICUメディア事業部のKotoneです

最近LLMについての勉強を始めました。私が今力を入れている画像生成の根元にある技術なので、そもそもの基本的な考え方を知ることができ、とても興味深いです。

さて、今回は当社CFOのKojiから、10月30日（月）から11月2日（木）にシリコンバレーで行われた「ODSC West（Open Data Science Conference）」というデータサイエンスのカンファレンスのレポートが届きました。

ChatGPTに関する話題や個々の技術に関する話題はともかく、Stable Diffusionに関するまとまった講演もあったとのことで、皆さんにご紹介したいと思います！

ODSC West

10月30日（月）から11月2日（木）までODSC West（Open Data Science Conference）というカンファレンスがシリコンバレーで実施されました。

現在シリコンバレーではエンジニアや企業家にとって、生成AIは最も関心を集める話題です。ビジネスの中心と言ってよいほど、最も注目を集めるテーマです。そのため、データサイエンスやAIに関するカンファレンスやミートアップは、さまざまなものが毎日のように開催されています。本件は、データサイエンスの、主に現場のエンジニア向けにフォーカスされたのカンファレンスで、ワークショップやチュートリアルが中心です。そのため本件では、現場で開発に従事していると思われる若手エンジニアが、多数参加していました。

ODSC WESTは毎年この時期に開催されていますが、今回の特徴は、昨年夏ごろから急激に盛り上がってきた生成AIについてのプレゼンやワークショップが多数行われたことでした。私自身、これまでオンライン大学などでさまざまなAIやデータサイエンスの講義を受講してきましたが、生成AIに関してはこの1年間の進歩が非常に早く、大学でのカリキュラムの整備がほとんど追いついてない状況です。一方、ODSCは、現場のシニアエンジニアがワークショップ形式で教えるスタイルが主体のため、最新の技術や手法を学ぶのに最も優れているカンファレンスの一つで、今年は特にとても楽しみにしていました。

（各人が自分のPCを動かしながら講演を聞いています）

しかし生成AIと言っても、講演の一覧を見ると主たるものはChatGPTなどLLM（大規模言語モデル）をベースとしたものでした。一方、画像系生成AIの講演は、あまりなかったという印象です。

ただ一つ、画像生成AIのStable Diffusionについてのプレゼンがありましたので、ご紹介したいと思います。本件は、「Mastering Stable Diffusion」というテーマでした。３つの講演内容で構成され、長時間の内容でした。本レポートでは、1番目の「Embark on an Exciting Journey with Generative AI」についてご紹介したいと思います。プレゼンターは、Beans AI社におけるコンピュータビジョン部門の開発ヘッドである Sandeep Singh氏でした。

Stable Diffusion: A New Frontier for Text-to-Image Paradigm
https://odsc.com/speakers/stable-diffusion-a-new-frontier-for-text-to-image-paradigm/

Sandeepさんは画像AI分野の専門家です。単にStable Diffusionの解説のみならず、生成AIの歴史からさらには技術的な解説まで、自身が論文を読んで実際に自分でモデルを動かした経験をもとに、初心者向けに紐解いた内容で、とてもわかりやすく、興味深い内容でした。但し、本件はSandeep さんの独自の解釈であり、Stability AI社の公式な見解に基づく講演内容ではないことをお含みおきください。なお、プレゼン資料の原稿はSandeepさんから直接いただいており、ブログ記事で日本の読者向けにご紹介することも快諾を得ております。Sandeepさんありがとうございます！

立ち見が多数出るほどの人気でした。私も途中まで立ち見でした。

Stable Diffusionは、深層学習のテクニックを使って自動で画像を生成するものですが、単なる技術にとどまらず、知識、人間の興味、理解の探索などのシンフォニーである、というふうにSandeepさんは位置づけています。

Stable Diffusionの技術の基盤となるDeep Learningですが、様々なコンセプトと技術があります。

従来のAIは、データの分析から予測や意志決定を行うものですが、一方、生成AIは学習したパターンから何か新しいものを生み出すもので、従来型のAIを超えたものである、と位置づけています。そのためパラダイムシフトが生まれ、創造性を生む力を持つようになったということです。

生成AIですが、テキスト（LLM、ChatGPT、GoogleBARD、Cohereなど）、画像・映像（Stable Diffusion、Dell-e2、Midjourneyなど）、音声（MusicLMなど）等の適応分野があります。

2014年あたりから生成AIのモデルが登場しはじめ、次第に複雑で高度なものに進化していきました。2020年以降、生成能力が人間を超えるものが登場し、すでに専門家の間では話題となりつつありました。さらには2022年には一般ユーザが簡単に利用できるレベルのものが登場し、世界中の注目を集めることになりました。

画像生成の世界では、VAE、GAN、CLIP、GLIDEなどが次々と登場し、2022年夏頃にStableDiffusion、Dall-e2、Midjourney、Imagenなどが発表され、世間の認知度が一気に高まることになりました。

Stable Diffusionの登場
それでは、なぜStable Diffusionは注目すべきものなのでしょうか？それは、テキストからイメージを作ることができる驚異的な技術であることは言うまでもないことですが、Diffusion Model（拡散モデル）を使った世界初のオープンソースの技術であることです。元はと言えば、流体やガスの物理現象を応用したものです。同時期に登場したDalle2（OpenAI社）、Imagen（Google）なども類似の技術を使っているものと思われますが、残念ながら未公開です。

Stable Diffusion: Why care?
•Almost all Text-to-Image techniques are Inspired by This!
•Poster Child of Text-to-Image Model.
•First Open Source State of Art Diffusion Model.
•Inspired by Physics of Fluids/Gases
•Improved Image Reconstruction
•Robustness to Variability, more resilient to changes in illumination, contrast
•Enhanced Edge Preservation as in Image above.

Stable Diffusion：なぜ大事なのか？

ほとんどのText-to-Imageテクニックはこれにインスパイアされている！
Text-to-Imageモデルの「わかりやすい姿」（Poster Child）
初のオープンソースによる最先端の拡散モデル
流体/気体の物理学にインスパイアされています
画像再構成の改善
変化に強く、照明やコントラストの変化に強い
エッジ保存を強化している

2022年は、画像生成AIにとって驚異的な年となりました。OpenAIは4月にDalle2を発表しました。5月にはGoogleがImagenを発表しました。Midjorneyが7月に発表と、次々と高度なツールが発表されたのです。しかし、いずれも素晴らしいものではありましたが技術内容は未公開であったため、研究者やコミュニティによって評価を行うこと自体が困難でした。

そして、2022年8月Stable Diffusionが登場しました。Stable Diffusionは世界初のオープンソースモデルであることから、多くの研究者や技術者から注目されました。単純で美しいコードによるDiffusionアプローチには、興奮が沸き起こりました。さらに重要なこととして、コモディティ化されたハードウエアで動かすことが可能、ということがわかり、世界中の多くの研究者や技術者、そして一般人までが一気に飛びついたのでした。

ここから先の歴史についてはみなさんご存知のことも多いかと存じます。

生成AI（GenerativeAI）という言葉が世間で言われるようになったのはここ2、3年のことなので、2014年のAIというのは全く馴染みが無く、逆に新鮮に聞こえてしまいました。こうして振り返って見ると、とても短い期間に画像生成AIが広まっていったことが再確認できますね。

Kotone＆しらいはかせの感想

Kotone：VAE、GAN、CLIPなどはStable Diffusionをさわっていると時々視界に入る単語ですね！
はかせ：「AIとコラボして神絵師になる　論文から読み解くStable Diffusion」で解説したつもりだったのですが、公開から1年、さらに俯瞰する時期が来ているかもしれませんね。
Kotone：用語集助かります、整理して勉強していきたいとおもいます。
はかせ：私は東京工業大学総合理工学研究科知能システム科学という専攻で博士を取得したのですが、当時は「知能システム」という分野は1970年代からサイバネティックス、ロボット・制御工学といった分野で研究されていました。もちろん2000年ごろにはすでに機械学習といった分野も存在し、研究室では強化学習、バックプロパゲーションなどをシミュレーションしたり、VRで体験できるようにしたり、ソフトウェアロボットにしたり、それを人間の脳から筋骨格系への信号と比較したり…といった研究です。制御となると目標とすべき正解やゴールがありますが、私の分野のようにエンタテインメント、アート、インタラクティブといった分野は定義も難しく、推論をするにも正解は何なのか、といったところで議論が終わる事が多かったです。

画像生成AIの誕生と変遷(1)初期の画像生成技術
https://note.com/o_ob/n/ncc2c86708c6e

画像生成AIの誕生と変遷(2)画像生成技術の歴史年表
https://note.com/o_ob/n/n971483495ef3

講演は続きます、次回は Stable Diffusionの内部構造、仕組みについての解説になるそうです！

完全な記事を表示