[LTX-2] ComfyUI標準対応!映像と音の同時生成が可能にする動画生成の異次元(後編)

[LTX-2] ComfyUI標準対応!映像と音の同時生成が可能にする動画生成の異次元(後編)

2026年1月6日、オープンソースの音声・動画生成AIモデル「LTX-2」がComfyUIにネイティブ対応しました。このモデルは映像生成と同時に、セリフ、環境音、BGMを単一のパスで同期生成できるのが最大の特徴です。さらに日本語で歌うことができることがわかりました。今回の後編ではAICU AIDX Labより、LTX-2の技術解説と、Google Colabでの動作環境の構築について共有していきます。お得な情報もあるので最後までどうぞ!

 

「映像が動くだけ」の動画生成AI時代は早くも終わりを迎えそうです。音や会話・音声・効果音と映像表現を同時に調和がとれた形で生成できるLTX-2のComfyUIネイティブ対応は、クリエイターにとって大きな転換点になると考えます。これから映像制作のワークフローと常識は根本から書き換えられる予感があります。

https://j.aicu.ai/260107

公式テンプレートでもトップに登場

ComfyUI側の公式テンプレートでも大きく扱われています。

[LTX-2] ComfyUI標準対応!映像と音の同時生成が可能にする動画生成の異次元(後編)

ただ最近のComfyUIは専門用語と入手高難度なハードウェアスペックだらけになってしまっている印象もあり、せっかくのオープンな動画生成なのに初心者向けには難度が高いという点も否めません。また「動画生成を文字で読んでもわからない!」となることも予想されるのでAICUとしてはYouTubeチャンネルでの展開も徐々に増やしていきたいところです。作例とともに、プロンプトも概要欄に置いているので、まずは観てみてください。

 

[時/視/音]新世代のプロンプト書式を覚えよう

LTX-2は従来の画像生成AIとは異なり、プロンプトの構造も変わっています。以下の3要素を記述することを推奨しているようです。LTX-2の論文で書かれていた「Unified Audio-Visual Prompting」をAICU流の覚え方で表現すると「時/視/音」とするとわかりやすいかもしれません。プロンプトは上の動画を日本語に翻訳したものです。

①時間の経過: イベントやアクションが時間の経過とともにどう変化するかを書く。

映画のような写実的なスタイルで、女性が病院の待合室に座り、両手に診断書を抱えている。強烈な蛍光灯の光が、彼女の青白い顔に冷たく、医療的な輝きを放っている。彼女は黙って診断書を読み、一行ごとに眉をひそめていく。

②視覚的な詳細: 画面に現れてほしい視覚要素をすべて記述する。

カメラはワイドショットから始まり、殺風景な白い壁と模様のある青緑色の壁紙が敷かれた、誰もいない待合室を映し出す。そしてゆっくりと彼女の顔のクローズアップへと近づいていく。

③オーディオ: そのシーンに必要な「音」や「セリフ」についても記述する。

メランコリックなピアノを基調としたメロディーが、BGMとして静かに流れる。優しく情感あふれるメロディーに、弦楽器の音が響き渡り、この瞬間の重みを響かせている。病院の喧騒――くぐもった声、機械のビープ音、廊下の足音、診断書の擦れる音――が、音楽と溶け合うように、かすかに流れ込んでは消えていく。長い沈黙の後、彼女は診断書から視線を上げ、目に涙を浮かべながら前を見つめる。「彼に伝えなくちゃ」と、かすかに声を詰まらせながら、彼女は静かに言った。彼女が紙を丁寧に折り、立ち上がり、廊下に向かって歩くと、カメラは引いて、彼女の姿は小さくなりながら角を曲がって消えていく。

LTX-2は何が新しいのか?

まず LTX-2は、従来のStable DiffusionのようなU-Net構造ではなく、拡散トランスフォーマー(Diffusion Transformer : DiT) を基盤としたモデルです。特徴として画像と動画、さらには音声を一つのモデルで統合的に(unified manner)同期させて生成できるように設計されています。長いデータ依存関係(動画の前後関係)を、トランスフォーマーの注意機構(Attention)でより正確に処理しています。LTX-2は単一のモデルではなく、140億パラメータのビデオストリームと、50億パラメータのオーディオストリームを組み合わせた巨大な「非対称デュアルストリーム」構造をしています 。

なおComfyUIのログでは「model_type FLUX」と表示されるのは、LTX-2のアーキテクチャが FLUX.1と非常に近い構造(DiTブロックの並び等) を共有しているためです。論文「LTX-2: Efficient Joint Audio-Visual Foundation Model」では先行研究の「LTX-Video」の設計原理を継承していると述べられています 。Black Forest Labs (BFL) の「FLUX」と同様にDiTアーキテクチャや、効率化のための「Rectified Flow(整流フロー)」を採用している点が共通しています。論文によれば、この巨大な構成でも「Rectified Flow」技術により、サンプリングステップを劇的に削減し、H100上では Wan 2.2 などの他モデルより約18倍速く動作するとされています。実装としてはバックエンドのモデル管理システムが、FLUX用の推論コードを流用または拡張してLTX-2を動かしているため、共通の識別子が表示されます。

Gemmaを使っているから日本語もいける?

プロンプトを解釈し、画像を生成する内部のテキストエンコーダーとして Gemma 3 12B IT を使用しているため、言語理解能力は飛躍的に向上しています。Gemma 3はマルチリンガルモデル(Instruct版)であるため、プロンプトに日本語を入力しても、その「概念」を理解して動画に反映させる能力を持っています。最終的な「描き込み」の質は、動画生成モデル自体の学習データに依存しますが、従来のCLIPよりはるかに日本語が通りやすい構成です。ただし、ワークフローで使用されている Gemma 3 12B IT は、それ単体で一般的な動画生成AIの本体サイズに匹敵する 12GB を消費します。実はFP8や量子化を行わない素の重みの場合は12Bモデルであれば24GB以上のVRAMを必要とします。12GBで動くのは「4bit量子化版」などの場合です。つまりワークフローで推奨されているのが特定の量子化版で、VRAM 20GBで構築するためにわざわざこのチョイスになっているのかもしれません。

公式テンプレートで「蒸留版」を提供

従来のComfyUI公式テンプレートでは蒸留版モデルのサポートは行われていなことが多かったのですが、今回のLTX-2ではゼロデイサポートされています。

[LTX-2] ComfyUI標準対応!映像と音の同時生成が可能にする動画生成の異次元(後編)

必要な「部品(モデル)」が非常に多い

LTX-2は単一のファイルではなく、複数の巨大な部品を組み合わせて動作します。基本のワークフロー(t2v)のサブグラフがこのような状態です。

[LTX-2] ComfyUI標準対応!映像と音の同時生成が可能にする動画生成の異次元(後編)
  • Checkpoints (本体): 動画生成のメインエンジン(19Bモデル)。

  • Text Encoder (言語理解): プロンプトを理解するための頭脳。最新の Gemma 3 を使用します。

  • LoRAs (追加制御):

    • Distilled: 少ないステップ数で高速に生成するための加速装置。

    • Camera Control: 「ドリー左」などのカメラワークを指定するための制御装置。

  • Upscale Models: 生成された動画を高画質化(解像度2倍)する機能。

これらの部品はComfyUI内の特定のフォルダに配置しないと認識されません

  • checkpoints/: ltx-2-19b-dev-fp8.safetensors など

  • text_encoders/: gemma_3_12B_it.safetensors

  • loras/: ltx-2-19b-distilled-lora-384.safetensors など

  • latent_upscale_models/: ltx-2-spatial-upscaler-x2-1.0.safetensors

「蒸留(Distillation)」は何を蒸留しているの?

「蒸留(Distillation)」は通常、生成ステップ数を減らす技術(Step Distillation)を指しますが、今回配布されているLTX-2の「蒸留版(35GB)」と「標準版(19GB/FP8)」は、ちょっと変わっています。一般的にファイルサイズが大きい方(35GB程度)がFP16精度、小さい方(19GB程度)がFP8精度です。ファイルサイズが倍増しているのは精度(Bit数)の違いに起因します。「高品質なFP16(蒸留)版」「軽量なFP8版」という対比であることをうまく理解しないと真逆の勘違いをしてしまいます。公式ワークフローが使用している ltx-2-19b-distilled は、「生成ステップ数」を蒸留(圧縮) したモデルのようです。本来20〜50ステップかかる高品質な生成プロセスを、わずか 8ステップ 程度で完了できるように学習し直されています。そういえば最近公開されたアリババの「Z-Image-Turbo」でも近い手法が採用されていますが、クオリティを維持したまま、生成速度を数倍に加速させています。

https://www.aicu.jp/post/z-image-turbo-20251127

AICUが開発中のComfyUI動作環境

動作環境については、「VRAM20GBでもきつい」という設定だったので、AICU AIDX Labでは 最新のGoogle Colabで動作するようチューニングと動作確認を行っています。ただし今度はVRAMだけでなく、ディスク容量(最大112GB)も制約となっています。せっかく全ての環境を整えても残量が12GB程度となると、LTX-2(19Bモデル)を運用するには極めて危険な(ほぼパンクしている)状態です。公式ワークフローで紹介されているLTX-2 の蒸留版(Distilled)は約35GB、標準版は約19GB、テキストエンコーダー(Gemma 3)が約12GBあり、これらをダウンロードしようとしてもディスクが満杯になり、ファイルが正しく保存されなかったり、破損してしまう可能性が高いです。112GBの制限がある中で、巨大な蒸留版35GBモデルと標準版19GBモデル(FP8)を共存させようとすると、ライブラリやカスタムノードの容量も相まって、すぐに「一時ファイルすら作れない」状態に陥ります。さらに最近GoogleColabに導入されたH100 "Hopper GPU"は、従来で最もパワフルだった A100 "Ampere GPU"と比較して、ワークロードの種類に応じて6倍から最大30倍の能力があるといわれております。このパワーを活かすなら、「19GBのFP8版」に絞った軽量・高速な専用ノートブックにするのが、ディスク管理と生成速度のバランスとして最適と考えました。

[LTX-2] ComfyUI標準対応!映像と音の同時生成が可能にする動画生成の異次元(後編)

このサイズのモデルになるとダウンロードにも工夫が必要です。複数の複雑かつ巨大なモデルをダウンロードします。従来のwgetやaria2といったダウンロード手法はもはや実用性が乏しく、HuggingFace公式の分散ダウンロードツールを使用するためトークンを設定します(HF_TOKEN)。このトークンはStable Diffusion 3 (SD3) のライセンス管理が開始された頃から一般化してきました。今回開発している手法では「指定された場所にファイルがあるか」を確認することができ、シンボリックリンクを活用してファイルを整理する「モデル再配置&クリーンアップ・スクリプト」も実装しています。高速化と安定性を兼ね備えた上に、さらに利便性として、
ComfyUIからdiscordでの通知機能も実装しています。

[LTX-2] ComfyUI標準対応!映像と音の同時生成が可能にする動画生成の異次元(後編)

早く公開したいけど、まだまだ改善が必要です。
(購読者向けに先行公開します)

AICU Lab+勉強会[ComfyJapan]次回予告:1/17(土) 20:00〜「LTX-2」徹底攻略!

映像と音が同時に生まれる、動画生成の異次元へ。

次回のAICU Lab+勉強会では、[ComfyJapan]「LTX-2: 映像と音の同時生成」として特集します。映像と同時に、セリフ・環境音・BGMを単一パスで同期生成できるこの最新モデルを、ComfyUIでどう使いこなすか、講師・しらいはかせ(AICU代表)が直接、徹底解説します。

[LTX-2] ComfyUI標準対応!映像と音の同時生成が可能にする動画生成の異次元(後編)
  • Google Colab対応:VRAM不足を解消する最適化ワークフロー。

  • 日本語歌唱実験:LTX-2で日本語の歌を生成してみましょう。

  • Discord通知連携:長時間生成も怖くない!完了をDiscordでお知らせ。

日時:2026年1月17日(土) 20:00〜
予約はこちらhttps://j.aicu.ai/LabYoyaku

【セッション参加費】 スポット参加:5,500円(税込) お得なサブスクリプション「AICU Lab+」なら参加無料+アーカイブ見放題+月刊「アイキューマガジン」PDF版も付いてきます! https://j.aicu.ai/LabPlus

Google Colabで動くノートブックが欲しい人はこのブログの文末でも紹介しますが、AICU Lab+のユーザ向けには 共有ComfyUI 環境が提供されるし、動画アーカイブもあるから、勉強会にもぜひ参加をおすすめします。

AICU Lab+とは

生成AIの最前線を学び、共有し、作品を発表できるAICU公式コミュニティ。マガジン・コンテスト・イベントと連動し、メンバー限定の勉強会や特典も提供しています。

まとめ:いま、ComfyUIとAICU Lab+を知っておく理由

新年になり米国ではCES2026が開催されています。ComfyUIを開発する「ComfyOrg」もNVIDIAや他のモデルメーカーと協力し、開発を加速させています。日本ではGPUの調達が難しく、PCでの画像生成・動画生成は新規参入が難しい環境ではありますが、GoogleColabなどを活用し、一人で設定やコストに悩む時間のではなく、勉強会で探求することに価値はあります。AICU Lab+に参加して、最新のノウハウを共有し、ComfyUIをただの“道具”から、あなたの“武器”に変えましょう 。

2026年1月末まで有効な初回無料コード Lab26Jan も活用して、ぜひコミュニティの扉を叩いてください。皆様の参加をお待ちしております!

ハッシュタグ

#ComfyUI #AICULab   #生成AI #AI勉強会 #アイキューマガジン #ComfyJapan #LTX2 #AI動画生成 #GoogleColab

予習としてComfyUI紫本SD黄色本がおすすめです

https://j.aicu.ai/SBXL

https://j.aicu.ai/comfysb

この記事へのショートカット https://j.aicu.ai/260108


Google Colabでの「とりあえずLTX-2が動きます」というワークフロー(開発改善中)は以下のペイウォールの先に置いておきます。さらに高度なワークフロー構築については、AICU Lab+勉強会 でシェアする予定。その時は一緒に手を動かしましょう。

 

この記事の続きはこちらから https://www.aicu.jp/post/260108

Originally published at note.com/aicu on Jan 8, 2026.

AICU Japan

AICU Inc. AIDX Lab - Koto

Comments

Related posts

Search [LTX-2] ComfyUI標準対応!映像と音の同時生成が可能にする動画生成の異次元(前編)