Wan2.1の勢いがすごい!! Kohya氏によるLoRAツール「Musubi Tuner」が公開

先日2025年2月25日にAlibabaがリリースしたばかりの動画生成モデル「Wan2.1」ですが、その後3月5日にリリースされたTencent「Hunyuan I2V」に押されることなく、さらに大変な勢いで画像生成コミュニティが開発貢献を続けています。関連の最新動向を紹介します。

https://note.com/aicu/n/n661bd6e7bebb

https://note.com/aicu/n/n3a3c5fbbfeee

Wan2GP

まず2025年3月3日に低VRAMでも動作する「Wan2GP」がdeepbeepmeepさんよりリリースされました。さすがオープンソースコミュニティ！
Wan2GPは「14Bあるモデルで、量子化されていない状態で」8秒の480Pビデオを12GB VRAMで生成できるようです。

Wan2.1 GP: generate a 8s WAN 480P video (14B model non quantized) with only 12 GB of VRAM.https://t.co/DDJsGQrl0l

By popular demand, I have performed on Wan 2.1 the same optimizations I did on HunyuanVideoGP v5 and reduced the VRAM consumption of Wan2.1 by a factor of 2.…
— deepbeepmeep (@deepbeepmeep) March 2, 2025

多くの要望に応えて、HunyuanVideoGP v5 で行ったのと同じ最適化を Wan 2.1 でも実行し、Wan2.1 の VRAM 消費量を 2 分の 1 に削減しました。 HunyuanのImageToVideoが出るのを待つ間、この前菜をお楽しみください。 Wan2.1 GP では、通常の機能が提供されます: - ウェブインターフェース - 選択したモデルの自動ダウンロード - 複数のプロンプト / 複数の世代 - ロラスのサポート - 通常の最適化（sage、コンパイル、非同期転送、 ...)による非常に高速な生成

https://github.com/deepbeepmeep/Wan2GP

リポジトリの概要翻訳です。

【Wan2.1 GP by DeepBeepMeep】
Wan2.1 の Alibaba をベースにした GPUが貧弱な人向けのオープンで高度な大規模ビデオ生成モデル

Wan2.1 には、次の主要な機能があります:
・SOTA パフォーマンス: Wan2.1 は、複数のベンチマークで既存のオープンソースモデルや最先端の商用ソリューションを一貫して上回っています。
・コンシューマーグレードの GPU をサポート: T2V-1.3B モデルは 8.19 GB の VRAM しか必要としないため、ほぼすべてのコンシューマーグレードの GPU と互換性があります。RTX 4090 で 5秒間の 480P ビデオを約4分で生成できます (量子化などの最適化手法なし)。そのパフォーマンスは、一部のクローズドソースモデルに匹敵します。
・複数のタスク: Wan2.1 は、テキストからビデオ、画像からビデオ、ビデオ編集、テキストから画像、ビデオからオーディオへの変換に優れており、ビデオ生成の分野を前進させます。
・ビジュアルテキスト生成: Wan2.1 は、中国語と英語の両方のテキストを生成できる最初のビデオモデルであり、実用的なアプリケーションを強化する堅牢なテキスト生成を備えています。
・強力なビデオ VAE: Wan-VAE は、時間情報を保持しながら任意の長さの 1080P ビデオをエンコードおよびデコードすることで、並外れた効率とパフォーマンスを提供し、ビデオと画像の生成に理想的な基盤となります。

Musubi Tuner

さらに、LoRA学習ツールで世界的利用されているKohyaさんによる「Musubi Tuner」のWan2.1 LoRA対応がリリースされました。こちらは2024年12月31日にHunyuan VideoのLoRA学習スクリプトが公開され、2025年2年22日HunyuanVideoのファインチューニング「SkyReels V1」のテキストからの動画生成(t2v)と画像からの動画生成(i2v)がサポートされていましたが、3月4日にWan2.1の推論、さらに3月7日にWan 2.1のLoRA学習がサポートされました。

https://github.com/kohya-ss/musubi-tuner/blob/main/README.ja.md

このリポジトリは、HunyuanVideoおよびWan2.1のLoRA学習用のコマンドラインツールです。このリポジトリは非公式であり、公式のHunyuanVideoやWan2.1のリポジトリとは関係ありません。
Wan2.1については、Wan2.1のドキュメントも参照してください。

そして2025年3月7日、Musubi TunerにWan2.1のLoRA学習がサポートされました。

Musubi TunerでWan 2.1のLoRA学習をサポートしました。詳細はこちらをご覧ください。https://t.co/nxOmxO4C6u
— Kohya Tech (@kohya_tech) March 7, 2025

https://github.com/kohya-ss/musubi-tuner/blob/main/docs/wan.md

もともとWan2.1にはLoRAがあることが特徴の一つになっていましたが、この速さでツールが公開されたことは衝撃です。

https://note.com/aicu/n/ncb4fd8c45af5

Wan2.1、謎のLoRAが登場して、唐突にゲームチェンジャー説が浮上したな
— あるふ (@alfredplpl) March 7, 2025

Hunyuanからも Image2Videoがリリースされていますし、今後、コンシューマGPUで動作するモデルや量子化モデルなど、動画生成モデルがコミュニティで開発される可能性がぐっと広がっていきますね。

https://note.com/aicu/n/n3a3c5fbbfeee

AICUは、これからもオープンソースコミュニティの開発者を応援していきます！

Originally published at https://note.com on Mar 8, 2025.

LoRA, Wan, 学習

Wan2.1の勢いがすごい!! Kohya氏によるLoRAツール「Musubi Tuner」が公開

Wan2GP

Musubi Tuner

Share:

AICU Japan

Comments

Related posts