生数科技朱军：视频生成模型期待“ChatGPT时刻”

网络阅读： 2025-03-29 21:47:48

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

2024年4月，清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军首次发布了中国版Sora——视频大模型Vidu。一年后的2025年3月29日，在中关村论坛上，Vidu高可控AI视频大模型Q1正式推出。

这次升级的关键在于“高可控”。采访中，朱军解释说，Q代表quality，意味着模型的高可控性，具体包括多主体细节可控、音效同步可控和画质增强。在实际视频生成过程中，位置可控一直是一个棘手难题，以往模型通常无法精准按照指令生成。如今，Vidu Q1借助融入参考图的视觉指令，在语义指令的基础上，实现了对场景中角色位置属性的更精准控制。

可控主体数量的增加也是一项技术突破。以往，AI视频生成在面对较多主体时，精准生成的难度极大。Vidu Q1增加了可控主体数量，并在多主体一致性以及符合物理规律等方面实现突破。另外，Vidu Q1的音效同步可控功能可以基于语义指令，在生成视频画面的同时生成精准可控的音效，控制每段音效的长短与出现的时间点。

从Vidu1.0到Vidu Q1，一年时间内，大语言模型赛道逐渐进入洗牌期，而视频大模型赛道仍处于旺盛成长期。快手可灵、字节即梦、MiniMax海螺AI不断迭代，OpenAI Sora正式上线，HeyGen、Pika、爱诗科技等完成融资。整个人工智能领域伴随技术的升级，发展路径逐渐从单一模态跨向多模态、跨模态，人机交互与产业应用的边界逐渐改变。

相较视频大模型专注于视频数据的特征，多模态大模型可处理文本、图像、视频等多种数据，通过数据对齐、融合与统一标识技术，执行视觉问答等复杂任务。对于多模态赛道的发展，朱军对第一财经记者表示，Vidu基座一开始就是多模态大模型，生数的定位也是多模态，视频只是表现形式之一。此次更新的音频功能与机器人可控数据操作均代表着不同的模态。对公司来讲，底层架构基本一样，无须过多修改即可实现多种模式。

目前，生数Vidu的商业化方向主要包括面向C端的SaaS与面向B端的MaaS模式。朱军认为，2025年是视频大模型商业化快速发展的一年，消费者对视频的需求非常广阔，这也是视频大模型与大语言模型的不同之处。朱军判断，目前头部视频模型平台各有特色与商业化路径，暂时没有走到大语言模型那么“卷”的状态。

谈及DeepSeek效应是否会在视频赛道出现时，朱军对记者表示，视频大模型大概率不会出现类似DeepSeek这种效率领先的模型，因为行业已经将DeepSeek主打的效率优势进行实践了。厂商更期待的是视频模型更加可控、更加好用，步入视频领域的“ChatGPT时刻”。

帮企客致力于为您提供最新最全的财经资讯，想了解更多行业动态，欢迎关注本站。

本文原创，转载保留链接！网址：https://licai.bangqike.com/cjnews/1098711.html

标签:

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。