GPT-3时代的视频生成大战:看不懂时,先行一步
网络 阅读: 2024-07-11 16:41:17
在最近的WAIC(世界人工智能大会)上,视频生成模型“可灵”引起了众多参观者的关注。这款由快手展台展示的模型,成为闭馆音乐响起时人们热议的焦点。
视频生成技术的发展受到了Sora的推动。今年2月,OpenAI发布的视频大模型Sora引发了一场视频领域的“百模大战”。自那以后,许多国内外的视频生成模型,如Runway、Pika、LumaAI和快手的“可灵”,都开始将焦点从文字、图片转向视频。
然而,尽管视频生成技术发展迅速,但仍处于早期阶段。目前,这一领域面临着诸多挑战,包括技术路线尚未达成共识、生成过程难以控制、以及生成效果与商业标准之间存在差距。许多业内人士都将视频生成技术与早期的语音和图像模型进行了比较。
新加坡南洋理工大学助理教授刘子纬认为,当前的视频生成技术相当于大语言模型GPT-3左右的时代。他预计,距离GPT-3.5和ChatGPT的爆发点还有大约半年的时间。智子引擎CEO高一钊也表示,目前的视频生成技术类似于图像生成的2022年前夕,即Stable Diffusion开源之前。他认为,视频生成领域目前还没有一个特别厉害的开源“Sora”发布。
尽管如此,许多创业者已经开始探索落地应用的可能性。毕竟,等到技术成熟再进入市场就太晚了。过去每一轮新技术的出现都是在大家还不完全理解的情况下开始的。
目前,视频生成领域的融资和产品发布活动非常活跃。仅在今年2月Sora发布后,就有多款视频生成模型相继问世。此外,头部视频生成模型公司也相继获得了融资。然而,在用户体验方面,目前的视频生成结果远远无法满足预期。许多用户反映,生成的视频往往存在各种问题,如人物消失、换脸混乱等。
视频生成技术的发展受到了Sora的推动。今年2月,OpenAI发布的视频大模型Sora引发了一场视频领域的“百模大战”。自那以后,许多国内外的视频生成模型,如Runway、Pika、LumaAI和快手的“可灵”,都开始将焦点从文字、图片转向视频。
然而,尽管视频生成技术发展迅速,但仍处于早期阶段。目前,这一领域面临着诸多挑战,包括技术路线尚未达成共识、生成过程难以控制、以及生成效果与商业标准之间存在差距。许多业内人士都将视频生成技术与早期的语音和图像模型进行了比较。
新加坡南洋理工大学助理教授刘子纬认为,当前的视频生成技术相当于大语言模型GPT-3左右的时代。他预计,距离GPT-3.5和ChatGPT的爆发点还有大约半年的时间。智子引擎CEO高一钊也表示,目前的视频生成技术类似于图像生成的2022年前夕,即Stable Diffusion开源之前。他认为,视频生成领域目前还没有一个特别厉害的开源“Sora”发布。
尽管如此,许多创业者已经开始探索落地应用的可能性。毕竟,等到技术成熟再进入市场就太晚了。过去每一轮新技术的出现都是在大家还不完全理解的情况下开始的。
目前,视频生成领域的融资和产品发布活动非常活跃。仅在今年2月Sora发布后,就有多款视频生成模型相继问世。此外,头部视频生成模型公司也相继获得了融资。然而,在用户体验方面,目前的视频生成结果远远无法满足预期。许多用户反映,生成的视频往往存在各种问题,如人物消失、换脸混乱等。
本文 原创,转载保留链接!网址:https://licai.bangqike.com/cjnews/636031.html
声明
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。


