NVIDIA、物理AI開発を加速する「Cosmos」世界基盤モデルを発表

NVIDIA、物理AI開発を加速する「Cosmos」世界基盤モデルを発表

最新モデル、ビデオトークナイザー、高速データ処理パイプラインを搭載し、ロボットや自動運転車の開発に特化 - 開発者コミュニティ向けにオープンモデルの第一弾を提供開始

ネバダ州ラスベガスで開催中のCES2025よりニュースです!2025年1月6日(現地時間)、NVIDIAは最先端の生成的世界基盤モデル、高度なトークナイザー、ガードレール、高速ビデオ処理パイプラインから構成されるプラットフォーム「NVIDIA Cosmos™」を発表しました。これは、自動運転車 (AV)  ロボット などの 物理AI システムの開発を推進するために構築されたものですが、既にいくつかの企業が採用し、本日よりGitHub, HuggingFaceでオープンな基盤モデルとして利用可能になりました。

プレスリリースより

物理AIモデルの開発にはコストがかかり、膨大な量の実世界データとテストが必要です。Cosmosの世界基盤モデル(以下WFM)は、開発者が既存のモデルをトレーニングおよび評価するための、フォトリアルで物理ベースの 合成データ を大量に生成する簡単な方法を提供しましたし。開発者がCosmos WFMをファインチューニングしてカスタムモデルを構築することができるようになります。

Cosmosモデル は、オープンモデルライセンスの下で提供され、ロボティクスおよびAVコミュニティの作業を加速します。開発者は、NVIDIA APIカタログ で最初のモデルをプレビューするか、NVIDIA NGC™カタログ または Hugging Face からモデルファミリーとファインチューニングフレームワークをダウンロードできます。
1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、GalbotHillbotIntBotNeura Robotics、Skild AI、Virtual Incision、Waabi、XPENGなどの主要なロボティクスおよび自動車企業、そして配車サービス大手のUberが、Cosmosをいち早く採用しています。

NVIDIAの創業者/CEOであるジェンスン・フアンは「ロボティクスのChatGPTの瞬間が近づいています。大規模言語モデルと同様に、世界基盤モデルはロボットとAVの開発を進める上で不可欠ですが、すべての開発者が独自のモデルをトレーニングするための専門知識とリソースを持っているわけではありません」と、述べています。「私たちは、物理AIを民主化し、すべての開発者が汎用ロボティクスを利用できるようにするためにCosmosを開発しました」

https://www.nvidia.com/en-us/ai/cosmos/

次世代AIを加速するオープンワールド基盤モデル NVIDIA Cosmosのオープンモデルスイートにより、開発者は「Project NeMo」のようにターゲットアプリケーションのニーズに応じて、AVの走行記録や倉庫内を移動するロボットのビデオなどのデータセットでWFMを カスタマイズ できます。

https://www.nvidia.com/en-us/ai-data-science/products/nemo/

 
 

動画  https://www.youtube.com/watch?v=n2c_spQuexU

https://resources.nvidia.com/en-us-ai-large-language-models/watch-78?lx=Hh_Qnz&ncid=no-ncid

 

Cosmos WFMは、物理AIの研究開発専用に構築されており、テキスト、画像、ビデオ、ロボットセンサー、動作データなどの入力の組み合わせから、物理ベースのビデオを生成できます。これらのモデルは、物理ベースの相互作用、オブジェクトの永続性、倉庫や工場などのシミュレートされた産業環境、およびさまざまな道路状況を含む運転環境の高品質な生成のために構築されています。

NVIDIAの創業者/CEOであるジェンスン・フアンは、CESの基調講演 で、物理AI開発者がCosmosモデルをどのように活用できるかを紹介しました。

  • ビデオの検索と理解: 開発者は、雪道や倉庫の混雑など、特定のトレーニングシナリオをビデオデータから簡単に検索できます。

  • 物理ベースのフォトリアルな合成データの生成: Cosmosモデルを使用して、NVIDIA Omniverse™ プラットフォームで開発された制御された3Dシナリオからフォトリアルなビデオを生成します。

  • 物理AIモデルの開発と評価: 基盤モデル上にカスタムモデルを構築したり、強化学習のためにCosmosを使用してモデルを改善したり、特定のシミュレートされたシナリオでモデルがどのように動作するかをテストしたりできます。

  • 先見性 と「マルチバース」シミュレーション: CosmosとOmniverseを使用して、AIモデルが取り得るすべての将来の結果を生成し、最も正確な最適なパスを選択できるように支援します。

高度な世界モデル開発ツール 物理AIモデルの構築には、ペタバイトのビデオデータと、そのデータの処理、キュレーション、ラベル付けに数万時間のコンピューティング時間が必要です。データキュレーション、トレーニング、モデルのカスタマイズにかかる膨大なコストを削減するために、Cosmosは以下を提供します。

  • NVIDIA NeMo™ Curator を活用した NVIDIA AIおよびCUDA®アクセラレーテッドデータ処理パイプライン。これにより、開発者はCPUのみのパイプラインで3年以上かかる2,000万時間のビデオを、NVIDIA Blackwellプラットフォームを使用して14日間で処理、キュレーション、ラベル付けできます。

  • NVIDIA Cosmos Tokenizer は、画像とビデオをトークンに変換するための最先端のビジュアルトークナイザーです。現在の主要なトークナイザーと比較して、合計で8倍の圧縮率と12倍の高速処理を実現します。

  • 高効率なモデルのトレーニング、カスタマイズ、最適化のための NVIDIA NeMo フレームワーク。

世界最大の物理AI産業がCosmosを採用 物理AI業界の先駆者たちは、すでにCosmosテクノロジーを採用しています。
AIとヒューマノイドロボット企業である1Xは、Cosmos Tokenizerを使用して 1X World Model Challenge データセットを立ち上げました。XPENGは、Cosmosを使用してヒューマノイドロボットの開発を加速します。また、HillbotとSkild AIは、Cosmosを使用して汎用ロボットの開発を迅速化しています。
「データの不足と変動性は、ロボット環境での学習を成功させるための重要な課題です」と、Agilityの最高技術責任者であるPras Velagapudi氏は述べています。「Cosmosのテキスト、画像、ビデオから世界への変換機能により、高価な実世界データの取得をそれほど必要とせずに、さまざまなタスクのモデルをトレーニングするために使用できるフォトリアルなシナリオを生成および拡張できます。」
輸送業界のリーダーも、AV用の物理AIを構築するためにCosmosを使用しています。

  • 自律走行車を皮切りに物理世界向けの生成的AIを開拓しているWaabiは、AVソフトウェア開発とシミュレーションのためのデータキュレーションの観点からCosmosを評価しています。

  • 自動運転用のAI基盤モデルを開発しているWayveは、安全性と検証に使用されるエッジケースとコーナーケースの運転シナリオを検索するためのツールとしてCosmosを評価しています。

  • AVツールチェーンプロバイダーのForetellixは、Cosmosを NVIDIA Omniverse Sensor RTX API と共に使用して、高忠実度のテストシナリオとトレーニングデータを大規模に評価および生成します。

  • 世界的な配車サービス大手のUberは、自律走行の推進を加速するためにNVIDIAと提携しています。Uberからの豊富な運転データと、Cosmosプラットフォームおよび NVIDIA DGX Cloud™ の機能を組み合わせることで、AVパートナーはより強力なAIモデルをさらに効率的に構築できます。

「生成的AIはモビリティの未来を支え、豊富なデータと非常に強力なコンピューティングの両方を必要とします」と、UberのCEOであるDara Khosrowshahi氏は述べています。「NVIDIAと協力することで、業界向けの安全でスケーラブルな自動運転ソリューションのタイムラインを大幅に短縮できると確信しています。」
オープンで安全かつ責任あるAIの開発 NVIDIA Cosmosは、NVIDIAの信頼できるAI の原則に従って 開発されており、プライバシー、安全性、セキュリティ、透明性を優先し、不要なバイアスを削減します。
信頼できるAIは、開発者コミュニティ内でのイノベーションを促進し、ユーザーの信頼を維持するために不可欠です。NVIDIAは、ホワイトハウスの自主的なAIコミットメントやその他のグローバルなAI安全イニシアチブに沿って、安全で信頼できるAIに取り組んでいます。
オープンなCosmosプラットフォームには、有害なテキストや画像を軽減するように設計されたガードレールが含まれており、精度を高めるためにテキストプロンプトを強化するツールを備えています。NVIDIA APIカタログでCosmosの オートリグレッシブ および ディフュージョン モデルで生成されたビデオには、AIが生成したコンテンツを識別するための目に見えない透かしが含まれており、誤報や誤った帰属の可能性を減らすのに役立ちます。
NVIDIAは、開発者が信頼できるAIプラクティスを採用し、アプリケーションのガードレールと透かしソリューションをさらに強化することを推奨しています。

開発者向けの「Cosmos WFM」とマイクロサービス「NIM」と「NeMo」

Cosmos WFMは、Hugging FaceおよびNVIDIA NGCカタログで、NVIDIAのオープンモデルライセンスの下で 現在利用可能 です。Cosmosモデルは、完全に最適化された NVIDIA NIM マイクロサービスとして近日中に利用可能になる予定です。
開発者は、高速ビデオ処理のために NVIDIA NeMo Curator にアクセスし、NVIDIA NeMo で独自の世界モデルをカスタマイズできます。NVIDIA DGX Cloud は、これらのモデルを迅速かつ簡単にデプロイする方法を提供し、NVIDIA AI Enterprise ソフトウェアプラットフォームを通じてエンタープライズサポートを利用できます。NVIDIAはまた、ヘルスケア、金融サービス、製造などのエンタープライズAIユースケースに使用できる新しい NVIDIA Llama Nemotron大規模言語モデルおよびNVIDIA Cosmos Nemotron視覚言語モデル を発表しました。

NVIDIA Cosmos は、物理AI 開発者が、物理AIシステムをより良く、より速く構築できるように設計された、開発者向けの世界基盤モデルプラットフォームです。以下の要素で構成されています。

  1. 事前学習済みモデル: Hugging Face から、NVIDIA Open Model License の下で提供されています。このライセンスにより、モデルを無料で商用利用できます

  2. 学習/ファインチューニングスクリプト: Apache 2 License の下で、NVIDIA Nemo Framework を通じて提供されています。様々な物理AIアプリケーションのためにモデルを学習/ファインチューニングできます。

プラットフォームの詳細は、Cosmos論文 で説明されています。プレビューアクセスは build.nvidia.com で利用可能です。

https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai

 

主な特徴

リリースされたモデルファミリー

Cosmos 1.0 リリースでは、Cosmos Diffusion WFM ファミリーには以下のモデルが含まれています。

  • Cosmos-1.0-Diffusion-7B-Text2World

    • テキストの説明から、121フレームの動画を予測します。

  • Cosmos-1.0-Diffusion-14B-Text2World

    • テキストの説明から、121フレームの動画を予測します。

  • Cosmos-1.0-Diffusion-7B-Video2World

    • テキストの説明と、最初のフレームとしての画像1枚から、未来の120フレームを予測します。

  • Cosmos-1.0-Diffusion-14B-Video2World

    • テキストの説明と、最初のフレームとしての画像1枚から、未来の120フレームを予測します。

Cosmos-1.0-Autoregressive: 自己回帰型ワールド基盤モデルスイート

https://huggingface.co/nvidia/Cosmos-1.0-Autoregressive-4B

 

Cosmos自己回帰モデルは、物理AIのための動画または画像入力から動画シーケンスを予測し、迅速に生成するのに理想的な、事前学習済みワールド基盤モデルのコレクションです。

  • Cosmos-1.0-Autoregressive-4B

    • 9フレームの入力動画から、未来の24フレームを予測します。

    • 最初のフレームとしての画像から、未来の32フレームを予測します

  • Cosmos-1.0-Autoregressive-12B

    • 9フレームの入力動画から、未来の24フレームを予測します。

    • 最初のフレームとしての画像から、未来の32フレームを予測します。

  • Cosmos-1.0-Autoregressive-5B-Video2World

    • テキストの説明と9フレームの入力動画から、未来の24フレームを予測します。

    • テキストの説明と最初のフレームとしての画像から、未来の32フレームを予測します。

  • Cosmos-1.0-Autoregressive-13B-Video2World

    • テキストの説明と9フレームの入力動画から、未来の24フレームを予測します。

    • テキストの説明と最初のフレームとしての画像から、未来の32フレームを予測します。

  • Cosmos-1.0-Guardrail: 安全な使用のための事前ガードレールと事後ガードレールを含むモデル

AICU編集部より

CES2025での発表に備えて準備されていたとはいえ、かなりの数のモデルやコードが一気に公開された形です。
内容も産業用ロボットや自動運転車などに使える、かつオープンで商用利用可能なフレームワークになっており、Diffusionモデルに対して、Autoregressive、つまり「自己回帰型」モデルです。これは世界全体を大きく揺るがす、文字通りの「世界基盤モデル」になる可能性があります。

AICUが実際に動かしてみた編については近日公開します!

追記:無料で試せるデモサイトが公開!

https://build.nvidia.com/explore/discover

新たなプロンプトを設定するためにはメールの登録が必要のようです。
(編集部が試してみた段階では登録しても新たなプロンプトでの生成はできませんでした、後日また試してみます)

画像

 

https://build.nvidia.com/nvidia/cosmos-1_0-autoregressive-5b

Originally published at https://aicu.jp on Jan 7, 2025.

AICU Japan

AICU Inc. AIDX Lab - Koto

Comments

Related posts

Search AUTOMATIC1111 起動の不具合解消 第3刷に対応した hotfixを実施しました
「画像生成AI Stable Diffusionスタートガイド」(第3刷)に最新のLoRA生成情報を収録しました Search