ByteDance、動画生成AI「Seedance 2.0」公開──マルチモーダル入力で15秒映像を生成
ByteDanceのSEED Labが動画生成モデルSeedance 2.0を公開。テキスト・画像・音声・動画の4種同時入力に対応し、15秒のマルチショット映像をステレオ音声付きで生成する。
- ByteDanceのSEED Labが2026年2月12日にAI動画生成モデル「Seedance 2.0」を公開した
- テキスト・画像(最大9枚)・動画(最大3クリップ)・音声(最大3クリップ)の4モダリティ同時入力に対応
- フィギュアスケートのペア演技など複雑なインタラクションシーンで動きの整合性と物理的正確性が向上したと発表
何が発表されたか
ByteDanceの研究開発部門であるSEED Labは2026年2月12日、AI動画生成モデル「Seedance 2.0」を公開したと公式ブログで発表した。
Seedance 2.0の特徴は、テキスト・画像・音声・動画の4種類の入力を同時に受け付ける点にある。公式発表によると、1回のプロンプトでテキスト指示に加え、最大9枚の画像、3本の動画クリップ、3本の音声クリップを組み合わせた入力が可能だ。出力は15秒間のマルチショット映像で、デュアルチャンネルのステレオ音声が付随する。
動きの整合性と物理的正確性
SEED Labの公式発表では、Seedance 2.0で特に改善されたポイントとして「動きの整合性」(motion consistency)と「物理的正確性」(physical accuracy)が挙げられている。
具体例として、フィギュアスケートのペア演技のような複雑なインタラクションシーンが示されている。2人の人物が同期した動きを行う場面で、各フレーム間の動作のつながりが破綻しにくくなったと公式ブログは説明している。
キャラクターアニメーションの一貫性
もう一つの改善点として、動画編集や延長タスクにおけるキャラクターの外見・声・行動の論理的な流れの保持が挙げられている。公式発表によれば、被写体の見た目と声が動画全体を通じて維持され、アクションの論理的な流れが途切れにくくなった。
これは動画生成AIにおいて頻出する課題――生成されたキャラクターがフレームごとに服装や顔の特徴が変わってしまう問題――に対処するものと読み取れる。
動画生成AI市場における位置づけ
2026年に入り、動画生成AIの分野ではOpenAIのSora、Google DeepMindのVeo、Runway、Pika Labsなど複数のプレイヤーが競合している。ByteDanceがSeedance 2.0で4モダリティ同時入力と15秒マルチショット生成を打ち出したことは、入力の柔軟性という軸で差別化を図る動きといえる。
一方、生成された動画の品質は実際に使用して確認するまで判断できない部分が大きい。公式ブログに掲載されたデモ映像は選りすぐりの事例である可能性があり、一般的な利用シーンでの安定性は別途検証が必要だ。
出典・但し書き
出典:
- Official Launch of Seedance 2.0 - ByteDance Seed(一次ソース、2026年2月12日公開)
但し書き:
- 本記事の技術的特徴に関する記述は、ByteDance SEED Labの公式ブログ発表に基づいている。独立した第三者による検証結果ではない
- 一部報道ではArtificial Analysis Video Arenaでの高スコアが言及されているが、公式発表では未確認(報道段階)
- 本記事は2026年2月12日時点の発表内容を基に執筆している
📎 出典・一次ソース
このニュースの解説動画も作っています
解説動画はYouTube、速報はX(旧Twitter)で毎日更新中。
コメント
まだコメントはありません。最初のコメントを書いてみませんか?
AIについて聞きたいことはありますか?
質問箱で無料で受け付けています。回答は公開され、他の方の参考にもなります。
質問箱を見る →