阿里云发布多模态旗舰模型Qwen2.5-Omni,全面支持文本、图像、音频及视频处理

网络 阅读: 2025-03-27 07:18:06
欧意最新版本

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

APP下载  官网地址

阿里云今日凌晨推出新一代端到端多模态模型Qwen2.5-Omni,并在Hugging Face、ModelScope等平台开源。该模型采用创新的Thinker-Talker架构,能无缝处理文本、图像、音频和视频输入,并实时生成文本及语音输出。

Qwen2.5-Omni通过TMRoPE技术实现音视频精准同步,在实时交互与语音生成方面表现优异。测试显示,其性能超越同类单模态模型及部分封闭源模型,在OmniBench多模态任务中达到SOTA水平,同时在语音识别、翻译、图像推理等单模态任务中表现突出。

阿里云表示,Thinker模块负责多模态语义理解,Talker模块则实现流式语音合成,形成高效统一的架构。目前,模型已在多个平台开放体验。

本文 原创,转载保留链接!网址:https://licai.bangqike.com/cjnews/1094555.html

标签:
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

关注我们

扫一扫关注我们,了解最新精彩内容

搜索