智谱发布可持续工作 8 小时的旗舰模型 GLM-5.1

网络 阅读: 2026-04-08 10:59:03

4月8日消息,智谱今日正式发布新一代开源模型 GLM-5.1,官方称这是目前全球最强的开源模型。据官方介绍,其是唯一达到 8 小时级持续工作的开源模型,在最接近真实软件开发的 SWE-bench Pro 基准测试中,GLM-5.1 实现国产模型首次超越 Opus 4.6。

OpenRouter 显示,伴随此次发布,智谱 GLM 再度提价 10%。调价后,GLM-5.1 在 Coding 场景的缓存命中 Token 价格已接近 Anthropic 旗下 Claude Sonnet4.6 水平。这是国产大模型首次在核心场景实现与海外头部厂商的价格对齐。

官方详细介绍如下:

从 3 分钟的 Vibe Coding(氛围编程)到 30 分钟的 Agentic Engineering(智能体工程),再到本次我们带来的 8 小时 Long-Horizon Task(长程任务),GLM-5.1 再次取得突破。

GLM-5.1 是我们迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1 大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过 8 小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。

代码能力是模型智能水平进一步提升的关键。下图是业内最具代表性的三个代码评测基准的平均结果,包括衡量模型专业软件开发工作的 SWE-Bench Pro、操作命令行解决问题的 Terminal-Bench 2.0、从零构建完整代码仓库的 NL2Repo,GLM-5.1 取得全球模型第三、国产模型第一、开源模型第一。

在最接近真实软件开发的 SWE-bench Pro 基准测试中,GLM-5.1 刷新全球最佳成绩,超过 GPT-5.4、Claude Opus 4.6。SWE-Bench Pro 要求模型在真实 GitHub 仓库中定位并修复高难度工程 Bug,是衡量模型能否胜任专业软件开发的最硬指标。

本文 原创,转载保留链接!网址:https://licai.bangqike.com/cjnews/1402010.html

标签:
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

关注我们

扫一扫关注我们,了解最新精彩内容

搜索