人民網日本語版 2024年4月30日(火) 16時30分
拡大
2024中関村フォーラム年次総会で27日、中国が独自に開発した「長時間・高一貫性・高ダイナミクス」という特徴を持つ動画生成大規模AIモデル「Vidu」が初発表された。
テキストを入力するだけでリアルな動画を生成してくれる。動画生成大規模AI(人工知能)モデル「Sora」が今年初め、世界のAI業界の内外から広く注目された。2024中関村フォーラム年次総会で27日、中国が独自に開発した「長時間・高一貫性・高ダイナミクス」という特徴を持つ動画生成大規模AIモデル「Vidu」が初発表された。新華社が伝えた
会場で明らかになったところによると、この動画生成大規模AIモデルは清華大学と北京生数科技が研究開発したもので、テキストの記述に基づき、最長16秒で解像度1080pの高画質動画コンテンツを直接生成できる。現実の物理世界をシミュレーションできる上、豊富な想像力も合わせ持つ。
清華大学人工知能研究院副院長で、生数科技の首席科学者の朱軍(ジュウ・ジュン)氏は、「中国の動画生成大規模AIモデルの動画の長さは約4秒が大半だが、Viduは1度に16秒の動画を生成できる。動画はなめらかさを維持し、カメラの移動に伴い人物とシーンが時間と空間の中で高い一貫性を保つことができる」と述べた。
ダイナミクスの面では、Viduは複雑な動きのあるシーンを生成でき、単純にカメラを前後左右に動かす固定的なアングルに限られず、1本の動画の中で、ロングショット、クローズショット、ミディアムショット、アップショットなど異なるアングルも切り替えられる。長回しやフォーカストラッキング、トランジションなどの効果も含まれる。
「Viduは実際の物理世界をシミュレーションし、細部が複雑で物理法則に合致するシーンを生成できる。例えば合理的な光と影の効果や、細やかな人物の表情などだ。さらには深みと複雑性を持つ超現実主義的な内容も創出できる」。朱氏は、「『ワンステップ』の生成方法を採用しているため、動画のシーンが最初から最後まで連続的に生成され、明らかなフレーム挿入が見られない」と説明した。
このほか、Viduはパンダやドラゴンなどの映像も生成できる。
Viduの技術のブレークスルーは、チームの機械学習とマルチモーダル大規模AIモデルの長期的な蓄積によるものだ。その中核テクノロジーアーキテクチャはチームが早くも22年に打ち出すとともに、独自の研究開発を続けた。朱氏は「汎用視覚モデルとしてのViduは今後、より多様で長時間の動画コンテンツを生成し、異なる生成任務を模索する。そのフレキシブルなアーキテクチャはより多くのモーダルに対応し、マルチモーダル汎用能力の境界をさらに広げてくれると確信する」と述べた。(提供/人民網日本語版・編集/YF)
この記事のコメントを見る
Record China
2024/4/27
2024/4/24
2024/4/13
2024/4/11
Record Korea
ピックアップ
we`re
RecordChina
お問い合わせ
Record China・記事へのご意見・お問い合わせはこちら
業務提携
Record Chinaへの業務提携に関するお問い合わせはこちら
この記事のコメントを見る