字节跳动发布新模型，机器视觉技术显著提升

网络阅读： 2025-02-10 21:47:31

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

2月10日，字节跳动旗下豆包大模型团队发布视频生成实验模型“VideoWorld”，该模型由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。不同于Sora、DALL-E、Midjourney等主流多模态模型，VideoWorld在业界首次实现无需依赖语言模型即可认知世界。

受该消息影响，今日收盘，据Wind数据，机器视觉指数涨2.45%。成分股中，中光学涨停，格灵深瞳涨9.69%，宇瞳光学涨7.54%。

需注意的是，字节内部人士对记者表示，VideoWorld视觉模型属于学术研究项目，是在探索新的技术方法，目前并未应用至产品端。另外，尽管VideoWorld在围棋和模拟机器人操控环境中展现出较优性能，但在真实世界环境中的应用仍面临着高质量视频生成和多环境泛化等挑战。

据官方披露，为进行该视频模型研究，豆包团队构建了两个实验环境：视频围棋对战和视频机器人模拟操控。前者是因为围棋可以评估模型规则学习、推理和规划能力，且围棋关键信息仅有黑白两色及棋盘，可将外观、纹理等复杂细节与高级知识的评估分离。

同时，豆包团队还选取了机器人任务，以考察模型在理解控制规则和规划任务方面的能力。在模型训练环节，团队构建了一个包含大量视频演示数据的离线数据集，让模型“观看”学习，以此得到一个可以根据过往观测，预测未来画面的视频生成器。

经过一段时间的探索，豆包团队发现，视频序列的知识挖掘效率显著落后于文本形式，主要是因为视频中存在大量冗余信息，影响模型的学习效率。比如在学习棋子移动过程中，模型只需通过状态序列中少量位置标记编码，但面向视频数据，编码器则会产生过多冗余标记，不利于模型对复杂知识的快速学习，这也是VideoWorld模型诞生的背景，保留丰富视觉信息的同时，压缩关键决策和动作相关的视觉变化，实现更有效的视频学习。

VideoWorld并非字节发布的首款视频大模型。上周，字节跳动对外披露旗下一站式AI创作平台即梦AI将上线多模态视频生成模型OmniHuman，仅需一张图片与一段音频便可生成一条AI视频，该模型为字节自研闭源模型。此前，字节已发布文生视频大模型MagicVideo - V2、通用多模态大模型UniDoc等产品。

除了字节跳动，阿里、腾讯、快手等企业相继推出视频生成类产品，并披露在多模态领域布局。此前接受第一财经等媒体采访时，字节旗下火山引擎总裁谭待表示，企业做大模型是为了辅助人去做各种事情，需要语言、视觉等方面的完整能力，这就要求大模型具备多模态能力，才能端到端地帮助个人创业者与企业去解决具体问题。

中信证券研报分析称，头部厂商对于多模态大模型的开发继续呈现你追我赶的态势，军备竞赛仍然激烈。多模态大模型算法的突破将带来自动驾驶、机器人等技术的革命性进步。视频模态更符合C端用户的娱乐需求，尤其是与短视频业态有较高匹配度，因此更有希望催生高热度应用，但需要模型性能进一步成熟以及产品定义进一步摸索。

帮企客致力于为您提供最新最全的财经资讯，想了解更多行业动态，欢迎关注本站。

本文原创，转载保留链接！网址：https://licai.bangqike.com/cjnews/1038767.html

标签:

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。