先日2025年2月25日にAlibabaがリリースしたばかりの動画生成モデル「Wan2.1」ですが、その後3月5日にリリースされたTencent「Hunyuan I2V」に押されることなく、さらに大変な勢いで画像生成コミュニティが開発貢献を続けています。関連の最新動向を紹介します。
https://note.com/aicu/n/n661bd6e7bebb
https://note.com/aicu/n/n3a3c5fbbfeee
Wan2GP
まず2025年3月3日に低VRAMでも動作する「Wan2GP」がdeepbeepmeepさんよりリリースされました。さすがオープンソースコミュニティ!
Wan2GPは「14Bあるモデルで、量子化されていない状態で」8秒の480Pビデオを12GB VRAMで生成できるようです。
Wan2.1 GP: generate a 8s WAN 480P video (14B model non quantized) with only 12 GB of VRAM.https://t.co/DDJsGQrl0l
— deepbeepmeep (@deepbeepmeep) March 2, 2025
By popular demand, I have performed on Wan 2.1 the same optimizations I did on HunyuanVideoGP v5 and reduced the VRAM consumption of Wan2.1 by a factor of 2.…
多くの要望に応えて、HunyuanVideoGP v5 で行ったのと同じ最適化を Wan 2.1 でも実行し、Wan2.1 の VRAM 消費量を 2 分の 1 に削減しました。 HunyuanのImageToVideoが出るのを待つ間、この前菜をお楽しみください。 Wan2.1 GP では、通常の機能が提供されます: - ウェブインターフェース - 選択したモデルの自動ダウンロード - 複数のプロンプト / 複数の世代 - ロラスのサポート - 通常の最適化(sage、コンパイル、非同期転送、 ...)による非常に高速な生成
リポジトリの概要翻訳です。
【Wan2.1 GP by DeepBeepMeep】
Wan2.1 の Alibaba をベースにした GPUが貧弱な人向け のオープンで高度な大規模ビデオ生成モデル
Wan2.1 には、次の主要な機能があります:
・SOTA パフォーマンス: Wan2.1 は、複数のベンチマークで既存のオープン ソース モデルや最先端の商用ソリューションを一貫して上回っています。
・コンシューマー グレードの GPU をサポート: T2V-1.3B モデルは 8.19 GB の VRAM しか必要としないため、ほぼすべてのコンシューマー グレードの GPU と互換性があります。RTX 4090 で 5秒間の 480P ビデオを約4分で生成できます (量子化などの最適化手法なし)。そのパフォーマンスは、一部のクローズドソースモデルに匹敵します。
・複数のタスク: Wan2.1 は、テキストからビデオ、画像からビデオ、ビデオ編集、テキストから画像、ビデオからオーディオへの変換に優れており、ビデオ生成の分野を前進させます。
・ビジュアルテキスト生成: Wan2.1 は、中国語と英語の両方のテキストを生成できる最初のビデオモデルであり、実用的なアプリケーションを強化する堅牢なテキスト生成を備えています。
・強力なビデオ VAE: Wan-VAE は、時間情報を保持しながら任意の長さの 1080P ビデオをエンコードおよびデコードすることで、並外れた効率とパフォーマンスを提供し、ビデオと画像の生成に理想的な基盤となります。
Musubi Tuner
さらに、LoRA学習ツールで世界的利用されているKohyaさんによる「Musubi Tuner」のWan2.1 LoRA対応がリリースされました。こちらは2024年12月31日にHunyuan VideoのLoRA学習スクリプトが公開され、2025年2年22日HunyuanVideoのファインチューニング「SkyReels V1」のテキストからの動画生成(t2v)と画像からの動画生成(i2v)がサポートされていましたが、3月4日にWan2.1の推論、さらに3月7日にWan 2.1のLoRA学習がサポートされました。
https://github.com/kohya-ss/musubi-tuner/blob/main/README.ja.md
このリポジトリは、HunyuanVideoおよびWan2.1のLoRA学習用のコマンドラインツールです。このリポジトリは非公式であり、公式のHunyuanVideoやWan2.1のリポジトリとは関係ありません。
Wan2.1については、Wan2.1のドキュメントも参照してください。
そして2025年3月7日、Musubi TunerにWan2.1のLoRA学習がサポートされました。
Musubi TunerでWan 2.1のLoRA学習をサポートしました。詳細はこちらをご覧ください。https://t.co/nxOmxO4C6u
— Kohya Tech (@kohya_tech) March 7, 2025
https://github.com/kohya-ss/musubi-tuner/blob/main/docs/wan.md
もともとWan2.1にはLoRAがあることが特徴の一つになっていましたが、この速さでツールが公開されたことは衝撃です。
https://note.com/aicu/n/ncb4fd8c45af5
Wan2.1、謎のLoRAが登場して、唐突にゲームチェンジャー説が浮上したな
— あるふ (@alfredplpl) March 7, 2025
Hunyuanからも Image2Videoがリリースされていますし、今後、コンシューマGPUで動作するモデルや量子化モデルなど、動画生成モデルがコミュニティで開発される可能性がぐっと広がっていきますね。
https://note.com/aicu/n/n3a3c5fbbfeee
AICUは、これからもオープンソースコミュニティの開発者を応援していきます!
Originally published at https://note.com on Mar 8, 2025.
Comments