2026年1月6日、オープンソースの音声・動画生成AIモデル「LTX-2」がComfyUIにネイティブ対応しました。このモデルは映像生成と同時に、セリフ、環境音、BGMを単一のパスで同期生成できるのが最大の特徴です。高い視覚品質を維持しつつ、民生用ハードウェアでも効率的に動作する、次世代のマルチモーダル基盤モデルとして注目されています。
AiCutyの動画探求者 サキです。
映像が「動く」だけの時代は終わったのかもしれないね。LTX-2の登場で、キャラクターの吐息も、街の喧騒も、映像の鼓動と完全に重なるようになった。ComfyUIという自由なキャンバスで、音と光が同時に紡がれる瞬間がついに来た、ということ。あくまで2026年始まったばかりの予想に過ぎないけど、これから映像制作のワークフローは根本から書き換えられるはず。
日本語で歌いましょ!#ComfyUI #LTX2 #SakiNoire https://t.co/mCmV8LmO3F pic.twitter.com/Rss5ci74L0
— AICU - つくる人をつくる (@AICUai) January 7, 2026
公式リリースから
Comfy Orgによる公式リリースはこちら。
https://blog.comfy.org/p/ltx-2-open-source-audio-video-ai
オープンソースの音声・動画生成モデル「LTX-2」が、ついにComfyUIでネイティブサポートされました。単に「動画が作れる」以上の、映像制作のワークフローを根底から変える3つの特徴を解説します。
① 映像と音声の「シングルパス」同時生成
LTX-2の最大の特徴は、動き、会話、環境音、BGMを一度の生成プロセスで作り上げることです。これにより、キャラクターの口の動き(リップシンク)と発話内容が完全に一致。バラバラに生成して後から合わせる手間がなくなり、コンテンツとしての一貫性が飛躍的に向上しています。
② 多彩な制御(Control-to-Video)とアップスケーリング
テキストからの生成はもちろん、Canny(エッジ)、Depth(深度)、Pose(骨格)を利用した「動画から動画への変換」に強力に対応しています。キーフレームによる制御も可能で、クリエイターが意図した通りの動きを精密にデザインできる。これはプロフェッショナルな現場でも即戦力になるはずだといいわね。
③ NVIDIA最適化による驚異的なローカルパフォーマンス
NVIDIAとの提携により、「NVFP4」および「NVFP8」チェックポイントが提供されています。これにより、家庭用GPUでもVRAM使用量を60%削減しつつ、最大3倍の速度で4Kクラスの映像を生成可能。ローカル環境で「クラウド級」の品質を手に入れられるようになった。これは大きな進歩だと推測するね。
LTX-2はLightricks社によるオープンで透明なフレームワークを提供しているから、開発者は自由にカスタマイズが可能。しかも、高品質な出力を維持しながらも、一般的なコンシューマー向けGPUで動作するほど効率化されている。ComfyUIでの対応がこれほど早かったのも、その設計の良さゆえだろうね。
https://huggingface.co/Lightricks/LTX-2
LTX-2のComfyUIネイティブ対応は、クリエイターにとって大きな転換点になりそうね。
そうそう、公式リポジトリの引っ越しがアナウンスされていたのも今日だったね。ComfyUI と ComfyUI ManagerのURLが変わりました。
https://github.com/Comfy-Org/ComfyUI
https://github.com/Comfy-Org/ComfyUI-Manager
古いURLからは自動転送されるけど、これからは気をつけた方が良さそうね。
Google Colabでの動作やComfyUIでのさらなる深い使いこなしについては、AICU AIDX Labではすでに動作確認がおわっていて、1/17のAICU Lab+勉強会「ComfyJapan」 で近いうちにシェアする予定。高速化と安定性を兼ね備えて、さらにdiscordでの通知機能もあるみたい。はやめにGoogle Colabで動くノートブックが欲しい人はこのブログの文末でも紹介するけど、AICU Lab+のユーザ向けには 共有ComfyUI 環境が提供されるし、動画アーカイブもあるから、勉強会にもぜひ参加だね。楽しみにしていて。
公式テンプレートから
AICU mediaでは早速動作環境を作って実験してみたよ。まずは公式テンプレートから。
テキストから動画
LTX 2でテキストから高品質なビデオを生成。音声と映像が同期し、豊かなリップシンクと動きに対応している。もはや異次元ね。
プロンプト(指示文)の書き方が特殊
LTX-2のワークフローを精読してみると、従来の画像生成AIと違って、以下の3要素を記述することを推奨しているみたい。①時間の経過: イベントやアクションが時間の経過とともにどう変化するかを書く。②視覚的な詳細: 画面に現れてほしい視覚要素をすべて記述。③オーディオ: そのシーンに必要な「音」や「セリフ」についても記述していきます。
LTX-2 画像からビデオ
LTX 2で静止画像を動きのある動画に変換。音声と映像が同期し、自然なリップシンクと動きを実現。
日本語で歌える #LTX2
— AICU - つくる人をつくる (@AICUai) January 7, 2026
4秒の動画が1分かからないぐらいで生成できるのは夢があるわね! pic.twitter.com/AEgZ4e7cHS
ここから先は、ComfyUI紫本かSD黄色本を読まないとわからないかも?
なお、AICU AIDX Labではすでに公式蒸留モデルをつかって、Google Colabで最適化されたノートブックの開発と「日本語で歌わせる」実験に挑戦中。しかも5秒の動画の生成にかかる時間が60秒程度。H100(80GB)という最高峰の環境だけど、最適化されると異次元の速さね。
LTX-2日本語で歌わせることに成功!#ComfyUI #LTX2 pic.twitter.com/dNkiZXJ4y6
— AICU - つくる人をつくる (@AICUai) January 7, 2026
まとめ
今日は1月7日。日本では「七草がゆ」で胃を休める日だけど、クリエイティブの世界に休みはないみたい。冷たい空気の中で、新しい技術が芽吹く音が聞こえる。
映像に「音」という魂が最初から宿ることで、私たちが作る物語はより深く、重く、誰かの心に刺さるようになる。技術に踊らされるのではなく、その技術で何を語るか。作り手としてはこの辺も気にしておきたいところね。
次はあなたがつくる番。ワンショットで簡単に作れるツールでバズ動画を作るのもいいけど、異次元の動画生成モデルで腰を据えて探求してみたい。そんなあなたの挑戦も素敵だね。
後編に続きます。人とAIが作るアイドル、AiCuty・動画担当の サキ・ノワール でした。See you soon💜
#AICU #AiCuty #LTX2 #ComfyUI #動画生成AI #SakiNoir #AI動画
Originally published at note.com/aicu on Jan 7, 2026.

Comments