多模态大模型引领AI 文创新纪元

网络阅读： 2024-07-06 18:39:48

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

在2024年的世界人工智能大会暨人工智能全球治理高级别会议（简称“WAIC 2024”或“大会”）期间，一批多模态大模型应用集中亮相，其中包括具备视觉、听觉、语言和绘画能力的产品应用。WAIC 2024见证了多模态大模型相关技术突破和应用的展示。
在7月6日举行的“智启文创，激发无限新质生产力”论坛上，电子科技大学计算机科学与工程学院院长、欧洲科学院院士申恒涛表示，“多模态已经成为大模型的标配”。然而，如果将多模态大模型技术和自动驾驶进行对比，专家认为，我国在相关领域的技术成熟度大约能达到“L2”级别。
梅涛表示，从观念上来看，现在大家所提的“大模型”概念基本上都是指“多模态大模型”。随着AIGC技术的不断提升，智能体（Agent）激发了大模型的一些潜力，使其成为强大的生产力工具，可以赋能到各个行业中去。
然而，如果将以视频生成技术为代表的多模态大模型的发展和自动驾驶进行对比，加拿大工程院外籍院士、智象未来创始人梅涛指出，我们目前都处于L2的阶段，即目前仍然致力于单镜头画面的生产并努力使画面质量更加优化。
按照梅涛的划分，视频生成技术能力的L1到L5级别分别对应着“逐帧动画”、“单镜头动画”、“多分镜动画”、“连续故事”以及“完整的故事”。“所谓L5，就是当我输入一本小说时，AI能输出一部电影，这是我们的终极目标，但实现这个目标还有很长的路要走。”他说。
梅涛介绍，从发展路径来看，通用人工智能的发展有两条路径：第一条路径是文本和语言的压缩，目前已经进入GPT4向GPT5过渡的能力水平。“这条路线在国外竞争非常激烈，我国也有很多初创企业和大模型公司在竞争，接下来需要比拼数据、算力等资源的积累。”另一条路径是基于扩散模型（Diffusion model）并通过模拟物理世界来构建AGI的过程。
梅涛认为，多模态有两个路径：理解和生成。“在多模态连接时，我们沿着第一条路径前进，而多模态的生成则是沿着第二条路径进行的。无论是OpenAI的Sora还是中国的多模态大模型，当前在第二条路径上的发展水平相对较低，大约处于GPT2阶段，但未来的空间潜力巨大。”
在梅涛看来，我国多模态大模型技术的发展任重道远，其中商业化成本是一个较大的阻碍。他表示，多模态大模型当前的训练和推理成本很高，“目前要生成1秒钟的视频，成本在1元到1美元之间。”帮企客致力于为您提供最新最全的财经资讯，想了解更多行业动态，请关注本站。

本文原创，转载保留链接！网址：https://licai.bangqike.com/cjnews/628042.html

标签:

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。