阿里云开源视觉生成模型万相 2.1,支持文生视频和图生视频
网络 阅读: 2025-02-25 23:18:03
阿里云今日宣布其视觉生成基座模型万相 2.1(Wan)正式开源。此次开源采用最宽松的Apache2.0协议,涵盖14B和1.3B两个参数规格的全部推理代码和权重,全球开发者可在Github、HuggingFace和魔搭社区下载体验。
万相 2.1 在指令遵循、复杂运动生成、物理建模等方面表现出色,在评测集VBench中以86.22%的成绩超越Sora、Luma、Pika等国内外模型,位列榜首。特别是1.3B版本不仅超过更大尺寸的开源模型,还能在消费级显卡上运行,仅需8.2GB显存即可生成480P视频,适用于二次开发和学术研究。
该模型基于DiT架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE和可扩展预训练策略,实现了无限长1080P视频的高效编解码,并在运动质量、视觉质量等多个维度测试中斩获5项第一。
本文 原创,转载保留链接!网址:https://licai.bangqike.com/cjnews/1056493.html
声明
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。