生数科技朱军:视频生成模型期待“ChatGPT时刻”

网络 阅读: 2025-03-29 21:47:48
欧意最新版本

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

APP下载  官网地址

2024年4月,清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军首次发布了中国版Sora——视频大模型Vidu。一年后的2025年3月29日,在中关村论坛上,Vidu高可控AI视频大模型Q1正式推出。

这次升级的关键在于“高可控”。采访中,朱军解释说,Q代表quality,意味着模型的高可控性,具体包括多主体细节可控、音效同步可控和画质增强。在实际视频生成过程中,位置可控一直是一个棘手难题,以往模型通常无法精准按照指令生成。如今,Vidu Q1借助融入参考图的视觉指令,在语义指令的基础上,实现了对场景中角色位置属性的更精准控制。

可控主体数量的增加也是一项技术突破。以往,AI视频生成在面对较多主体时,精准生成的难度极大。Vidu Q1增加了可控主体数量,并在多主体一致性以及符合物理规律等方面实现突破。另外,Vidu Q1的音效同步可控功能可以基于语义指令,在生成视频画面的同时生成精准可控的音效,控制每段音效的长短与出现的时间点。

从Vidu1.0到Vidu Q1,一年时间内,大语言模型赛道逐渐进入洗牌期,而视频大模型赛道仍处于旺盛成长期。快手可灵、字节即梦、MiniMax海螺AI不断迭代,OpenAI Sora正式上线,HeyGen、Pika、爱诗科技等完成融资。整个人工智能领域伴随技术的升级,发展路径逐渐从单一模态跨向多模态、跨模态,人机交互与产业应用的边界逐渐改变。

相较视频大模型专注于视频数据的特征,多模态大模型可处理文本、图像、视频等多种数据,通过数据对齐、融合与统一标识技术,执行视觉问答等复杂任务。对于多模态赛道的发展,朱军对第一财经记者表示,Vidu基座一开始就是多模态大模型,生数的定位也是多模态,视频只是表现形式之一。此次更新的音频功能与机器人可控数据操作均代表着不同的模态。对公司来讲,底层架构基本一样,无须过多修改即可实现多种模式。

目前,生数Vidu的商业化方向主要包括面向C端的SaaS与面向B端的MaaS模式。朱军认为,2025年是视频大模型商业化快速发展的一年,消费者对视频的需求非常广阔,这也是视频大模型与大语言模型的不同之处。朱军判断,目前头部视频模型平台各有特色与商业化路径,暂时没有走到大语言模型那么“卷”的状态。

谈及DeepSeek效应是否会在视频赛道出现时,朱军对记者表示,视频大模型大概率不会出现类似DeepSeek这种效率领先的模型,因为行业已经将DeepSeek主打的效率优势进行实践了。厂商更期待的是视频模型更加可控、更加好用,步入视频领域的“ChatGPT时刻”。

帮企客致力于为您提供最新最全的财经资讯,想了解更多行业动态,欢迎关注本站。

本文 原创,转载保留链接!网址:https://licai.bangqike.com/cjnews/1098711.html

标签:
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

关注我们

扫一扫关注我们,了解最新精彩内容

搜索