阿里云推出320亿参数推理模型QwQ-32B，性能媲美DeepSeek-R1

网络阅读： 2025-03-06 08:17:37

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

阿里云今日宣布推出全新的推理模型QwQ-32B，该模型拥有320亿参数，其性能可与具备6710亿参数的DeepSeek-R1相媲美。研究表明，强化学习能够显著提升模型的推理能力，QwQ-32B通过整合冷启动数据和多阶段训练，实现了深度思考和复杂推理。

这款新模型不仅在数学推理、编程能力和通用能力测试中表现出色，还在多个评测集中超越了其他领先模型。特别是在AIME24数学评测集和LiveCodeBench代码评估中，QwQ-32B的表现与DeepSeek-R1相当，远超o1-mini及相同尺寸的R1蒸馏模型。

此外，QwQ-32B集成了与智能体（Agent）相关的功能，使其能够在使用工具时进行批判性思考，并根据环境反馈调整推理过程。目前，QwQ-32B已在Hugging Face和ModelScope平台开源，并采用Apache 2.0开源协议。用户也可通过Qwen Chat直接体验这一先进模型。阿里云表示，这标志着他们在大规模强化学习以增强推理能力方面迈出了重要一步。

本文原创，转载保留链接！网址：https://licai.bangqike.com/cjnews/1065426.html

标签:

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。