https://note.com/aicu/n/na02326d588bf
Sakana AIは、日本の美を学んだAIとして、浮世絵風画像生成モデルEvo-Ukiyoeと、浮世絵カラー化モデルEvo-Nishikieを公開します。Sakana AIが進化的モデルマージによって構築した日本語対応画像生成モデルEvo-SDXL-JPを基盤とし、浮世絵画像を大規模に学習することで、日本語に対応し、かつ浮世絵の特徴を学んだ画像生成モデルができました。
このリリースの要点は以下の通りです。
今回公開するモデルは、プロンプトから画像を生成するEvo-Ukiyoeと、古典籍の挿絵をカラー化するEvo-Nishikieモデルです。これらのモデルが、歴史や文化を学ぶための新たなコンテンツ作成に利用され、浮世絵に関する興味を増すことにつながり、日本や世界の人々が浮世絵や日本文化に興味を持つきっかけを生み出すことを期待しています。
残念ながらHuggingFace SpacesでのデモはGPUが取得できないため、AICU media編集部での十分な動作確認できていませんが、 Evo-Ukiyoeは、入力した日本語プロンプトに沿った浮世絵風の画像を生成することができ、Evo-Nishikieは入力した単色摺の浮世絵(墨摺絵等)を日本語プロンプトに沿って多色摺の浮世絵(錦絵)風に変換した画像を生成することができるようです。
編集部での実験例
先行して公開されている日本特化の高速な画像生成モデル「EvoSDXL JP」は動作しています。非常に高速です。
https://huggingface.co/spaces/SakanaAI/EvoSDXL-JP
浴衣の男女が川岸で花火を見ています
与えたプロンプト
開発者
カラーヌワット・タリン(Sakana AI)
シーン誠(Sakana AI)
今宿祐希(Sakana AI)
協力者
赤間亮(立命館大学アート・リサーチセンター)
北本朝展(ROIS-DS人文学オープンデータ共同利用センター/国立情報学研究所)
Evo-UkiyoeはText-to-Imageモデルであり、画像データとキャプションのペアを学習データセットとします。そこで、浮世絵画像の内容を説明するキャプションを付与するために、大規模マルチモーダルモデルを用いて、Few-shot promptingによりキャプションを生成しました。そして、キャプションの間違い(人物の性別など)を人手で修正するとともに、Evo-SDXL-JPの最大プロンプト長(77トークン)に合わせて、キャプションを短くする、明確な特徴のみを加える、鳥籠模様や梅花模様などの複雑な専門用語を削除する、などの調整を行いました。
この学習データセットを用いて、Evo-SDXL-JPをベースモデルとして、LoRAによるファインチューニングを行いました。
生成時には、プロンプトを入力して画像を生成します。ただし、浮世絵により近い画像を生成するには、桜、富士山、着物、鳥など、浮世絵でよく取り上げられる要素をプロンプトに含めると効果的です。一方、江戸時代に存在しないもの(パソコンやハンバーガーなど)も生成はできますが、学習データセットに存在しないものを浮世絵風に生成することは難しく、全体として浮世絵らしくない画像が生成されることがあります。
「日本古典籍の挿絵をカラー化」として、大学共同利用機関法人 情報・システム研究機構(ROIS: Research Organization of Information Systems)により、「絵本玉かつら Evo-Nishikieカラー化」が公開されています。
http://codh.rois.ac.jp/tsukushi/evo-nishikie/200013861/
オリジナル画像
Evo-Nishikieカラー化画像
テキストから画像への拡散モデルに対する技術としては「DPO-SDXL」と呼ばれる技術が使われているようです。直接嗜好最適化 (Direct Preference Optimization: DPO) は、人間の比較データを直接最適化することで、拡散モデルをテキストの人間の嗜好に合わせる方法です。2023年11月に「Diffusion Model Alignment Using Direct Preference Optimization(直接嗜好最適化を使用した拡散モデルの調整)」として論文化された技法です。
https://huggingface.co/mhdang/dpo-sdxl-text2image-v1
https://huggingface.co/RunDiffusion/Juggernaut-XL-v9
学術・文化的な古典日本文化の貢献の横で、HuggingFaceには「Magicoder」といった小サイズのLLMも公開されています。
今後も様々な先端技術の公開が発信されると想像します。
Originally published at https://note.com on July 22, 2024.