NVIDIA Cosmos 3発表──物理AIのためのオープンなオムニモデル
NVIDIAがGTC Taipei 2026でCosmos 3を発表。テキスト・画像・動画・音声・行動を単一モデルで扱い、物理AIの訓練サイクルを「数か月から数日」に短縮するとNVIDIAは主張している。Super・Nano・Edge(近日)の3バリアント構成で、オープンモデルとして公開された。
3行まとめ
- NVIDIAがCosmos 3をオープンモデルとして公開──テキスト・画像・動画・音声・行動の5モダリティを単一モデルで処理
- 物理AIの訓練・評価サイクルを「数か月から数日」に短縮するとNVIDIAは発表(条件の詳細は未公開)
- Agile Robots、Runway、Skild AIらとCosmos Coalitionを結成、ロボティクスとAVのエコシステム形成を狙う
何が発表されたか
NVIDIAは2026年5月31日(現地時間)、GTC Taipei 2026のキーノートでCosmos 3ファミリーを発表した。NVIDIAの発表によれば「世界初の物理AI向けオープンフロンティアオムニモデル」とされている。
Jensen Huang CEOは発表の中で次のように述べた。
"The Cosmos 3 family of open, frontier omnimodels gives developers a generational leap in ability to build robots, autonomous vehicles and vision AI that perceive, reason, plan and act."
(「Cosmos 3ファミリーのオープンなフロンティアオムニモデルは、知覚・推論・計画・行動ができるロボット、自律走行車、ビジョンAIを構築する能力において、開発者に世代的な飛躍をもたらす」)
モデル構成と技術的特徴
Cosmos 3は3つのバリアントで構成される。
| バリアント | 状態 | 用途 |
|---|---|---|
| Cosmos 3 Super | 公開済み | フルスケール開発向け |
| Cosmos 3 Nano | 公開済み | 軽量・エッジ寄りの推論 |
| Cosmos 3 Edge | 近日公開 | エッジデバイス向け |
NVIDIAの発表に記載された主な技術的特徴は以下の通り。
- 5モダリティの統合: テキスト、画像、動画、環境音、行動軌道をネイティブに理解・生成
- Mixture-of-Transformers(MoT)アーキテクチャ: 推論用トランスフォーマーと生成用エキスパートトランスフォーマーをペアにする構造
- 物理シミュレーション: 将来の状態を予測し、ロボットの行動軌道を生成
- 合成データ生成: 物理法則に基づいた合成データの生成
パラメータ数やトークン規模といった具体的な技術スペックは、NVIDIAの発表時点では公開されていない。訓練データは「テキスト・画像・動画・音声・行動軌道にまたがる数十億のマルチモーダルサンプル」とされている。
ベンチマーク性能について、NVIDIAはArtificial Analysis、Physics-IQ、PAI-Bench、R-Benchの各リーダーボードでオープンモデル中1位と主張している。ただし測定条件の詳細は本記事執筆時点で未確認。
Cosmos Coalitionとエコシステム
NVIDIAはCosmos 3の発表と合わせて「Cosmos Coalition」を発表した。参加企業は以下の通り。
- Agile Robots – ロボティクス
- Black Forest Labs – 画像・動画生成
- Generalist – 汎用エージェント
- LTX – 動画生成
- Runway – クリエイティブAI
- Skild AI – ロボット基盤モデル
インフラパートナーとしてBaseten、CoreWeave、Microsoft Azure、Nebius、Deep Infra、Classmethodが名前を連ねている。
モデルはbuild.nvidia.com、Hugging Face、GitHub、NVIDIA NIMマイクロサービスから利用可能とされている。
なぜ「オープン」が重要なのか
ロボティクスや自律走行車の開発では、1社のプロプライエタリモデルに依存すると、ハードウェアとの統合テストやカスタマイズで制約が生じやすい。オープンモデルであれば、各社が自社のロボットや車両に合わせてファインチューニングできる。NVIDIAがこの分野であえてオープンモデルを選んだのは、エコシステムの広がりがGPU需要に直結するという構造が背景にあると見るのが自然だろう。
正直に言うと
Cosmos 3の「訓練サイクルを数か月から数日に短縮」という主張は、どの条件下での比較かが明示されていない。何と比較して「数か月」なのか、「数日」はどの規模のタスクでの計測なのかが不明なままでは、この数字の意味を正確に評価するのは難しい。
また、ソフトウェア側のモデルがどれだけ進歩しても、物理AIの実用化にはハードウェア側のボトルネックが残る。アクチュエータの精度とコスト、バッテリー密度、レアアースの供給制約──これらはAIモデルの性能向上では解決しない領域だ。Cosmos 3が「ソフトウェア側の障壁を下げた」としても、ロボットが工場や家庭で実際に動くまでには、ハードウェアの制約を超える必要がある。モデルの発表だけで物理AIの実用化時期を判断するのは早計だろう。
パラメータ数が非公開である点も気になる。オープンモデルと謳う以上、重みの公開だけでなく、再現性に必要な技術詳細の開示が伴うかどうかは今後の確認事項になる。
出典・但し書き
- 本記事の情報はNVIDIA Newsroom(2026年5月31日付)の発表に基づく
- ベンチマーク順位はNVIDIAの自己申告であり、第三者による独立検証は本記事執筆時点で未確認
- パラメータ数・トークン規模・ライセンス条件の詳細は発表に記載がなかった
- GTC Taipeiキーノートは現地時間2026年6月1日に実施されたが、プレスリリースの日付は5月31日
関連情報を受け取る
この記事についての感想や「ここを深掘りしてほしい」があれば、YouTubeのコメントやサイトの問い合わせから教えてください。いただいた声は次の記事・動画に反映します。
📎 出典・一次ソース
このニュースの解説動画も作っています
解説動画はYouTube、速報はX(旧Twitter)で毎日更新中。
コメント
まだコメントはありません。最初のコメントを書いてみませんか?
AIについて聞きたいことはありますか?
質問箱で無料で受け付けています。回答は公開され、他の方の参考にもなります。
質問箱を見る →