视频生成模型“VideoWorld”开源:无需语言模型即可认知世界

网络 阅读: 2025-02-10 15:17:39
欧意最新版本

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

APP下载  官网地址

今日,豆包大模型团队联合北京交通大学、中国科学技术大学共同发布了视频生成实验模型“VideoWorld”,并宣布其代码正式开源。与主流多模态模型如Sora、DALL-E和Midjourney不同,VideoWorld在业界首次实现了无需依赖语言模型即可认知世界。

现有模型大多依赖语言或标签数据来学习知识,而VideoWorld则专注于纯视觉信号的学习。例如,折纸、打领结等复杂任务难以通过语言清晰表达,而VideoWorld通过去除语言模型,实现了对这些任务的理解和推理。此外,该模型基于潜在动态模型,能够高效压缩视频帧间的变化信息,显著提升知识学习效率。

值得一提的是,VideoWorld在不依赖任何强化学习搜索或奖励函数机制的前提下,达到了专业5段9x9围棋水平,并能够在多种环境中执行机器人任务。这一创新为视频生成技术开辟了新的发展方向。

本文 原创,转载保留链接!网址:https://licai.bangqike.com/cjnews/1038354.html

标签:
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

关注我们

扫一扫关注我们,了解最新精彩内容

搜索