视频生成模型“VideoWorld”开源：无需语言模型即可认知世界

网络阅读： 2025-02-10 15:17:39

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

今日，豆包大模型团队联合北京交通大学、中国科学技术大学共同发布了视频生成实验模型“VideoWorld”，并宣布其代码正式开源。与主流多模态模型如Sora、DALL-E和Midjourney不同，VideoWorld在业界首次实现了无需依赖语言模型即可认知世界。

现有模型大多依赖语言或标签数据来学习知识，而VideoWorld则专注于纯视觉信号的学习。例如，折纸、打领结等复杂任务难以通过语言清晰表达，而VideoWorld通过去除语言模型，实现了对这些任务的理解和推理。此外，该模型基于潜在动态模型，能够高效压缩视频帧间的变化信息，显著提升知识学习效率。

值得一提的是，VideoWorld在不依赖任何强化学习搜索或奖励函数机制的前提下，达到了专业5段9x9围棋水平，并能够在多种环境中执行机器人任务。这一创新为视频生成技术开辟了新的发展方向。

标签:

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。