太强了!GLM-5.1 第一手实测,平替Claude Opus 4.6?

张开发
2026/4/12 17:58:01 15 分钟阅读

分享文章

太强了!GLM-5.1 第一手实测,平替Claude Opus 4.6?
3月27号智谱GLM-5.1突然上线了这次来得太快、太猛距离GLM-5发布也才一个多月。这次发布官方公告很是低调只有寥寥一句话GLM-5.1现已面向GLM Coding Plan全部用户(Lite/Pro/Max)开放。别的没再多说只是默默甩出Coding Evaluation评测结果——在编程能力上跑分45.3,相比上一代GLM-5直接飙升近10分。甚至嘛距离当前全球最强编程模型Claude Opus 4.6也就只有2.6分之差换句话说一个开源模型做到了闭源天花板94.6%的水平。这不是渐进式的进步这是降维打击。此外值得一提的是此次的GLM-5.1版本率先向GLM Coding Plan所有用户开放是的你没听错面向所有GLM coding plan用户。Lite用户也能用了我要哭晕在厕所我花了大几千块钱的Max包年套餐是不是白开了一、GLM-5.1 模型升级了个啥翻看官方资料得知此次官方对GLM-5.1模型的升级定位它是面向长程任务的开源第一模型在长时间跨度、长链路依赖、多工具协同、持续执行、目标保持等关键能力方面有显著提升能像资深工程师一样交付完整工作的目标。**啥意思**❓什么是长程任务简单来说长程任务就是需要多轮交互、要分很多步骤一步步推进还得记住前面干了啥、后面该干啥的复杂任务。或者你可以理解为步骤多、链条长、强依赖、需要长期规划、具备状态记忆、跨文件工程、和持续跟进的端到端复杂项目交付任务。是否具备长程任务能力是衡量 AI Agent 从 “工具调用” 走向 “自主执行复杂任务” 的核心标尺。也是衡量模型真实智能的新门槛而GLM-5.1是当前长程任务的开源模型断档第一。接下来我用通俗且不失专业的方式帮你解释一下这次GLM-5.1主要升级的核心能力有哪些拥有更强的长程规划与目标保持就是说你给它一个目标它自己拆出整条路径。 GLM-5.1支持把复杂目标拆解为可执行的多阶段计划并在长链路执行中始终围绕最终交付推进——不是你说一步它做一步而是自主规划、自主推进、中途遇到意外自己修正减少跑偏、遗忘约束或陷入局部最优。模型能够自主完成需要数小时、跨十几个步骤的完整工程任务交付物可直接使用。更稳的多工具协同与持续执行不是会做一步而是能跑完全程。 模型在代码编写、工具调用、环境调试、API对接等多个环节之间实现了更稳定的衔接支持更长时间跨度的连续执行。过去开源模型在长任务后半程容易断链、需要人工介入的问题在GLM-5.1上得到了显著改善——中间环节出错时能自主排查修复而不是停下来等你。更好的状态延续与上下文整合干到第十步还记得第二步定的规矩。 面对长时间跨度、多轮反馈和大量上下文信息GLM-5.1能稳定地追踪已完成的内容、当前所处阶段和下一步关键动作持续整合新信息保持执行链路的一致性。不再出现做到一半忘了前面的约束的问题。上面讲了这么多文绉绉的内容作为国产AI大模型的拥立者这次GLM-5.1模型的发布没有啥好说的直接开测。二、先看看数据不吹不黑GLM-5.1如果从数据上来看这份成绩单可以说是直接把牌桌掀了编程能力编程评测得分45.3Claude Opus 4.6 为 47.9SWE-bench Verified77.8%——开源模型史上最高相比上代GLM-5提升了整整28%需要强调的是这个评测只有通过 Claude Code 接入的模型才有数据Gemini 3.1 Pro用 Antigravity和 GPT-5.4用 Codex并没有可比数据所以图里只展示了有真实成绩的模型。三、技术上到底做了什么GLM-5.1这次模型升级并不是简单的加参数、堆数据它此次的进化路线非常有章法, 先看张表格参数项规格总参数数量744B (MoE 架构256个专家)活跃参数40B上下文窗口200K tokens最大输出131,072 tokens架构特性MLA DeepSeek Sparse AttentionClaude Code 编码评分45.3 (Opus 4.6 为 47.9达 94.6%)什么你说你看不懂额那也没关系我直接来帮你解释一下架构升级从355B参数32B激活扩展到744B参数40B激活的MoE架构。注意激活参数只增加了8B但能力飞跃式增长——这说明架构效率极高。数据飞轮预训练数据从23T token扩展到28.5T token覆盖面更广、质量更高。长上下文支持集成了DeepSeek Sparse AttentionDSA在保持202K上下文窗口的同时大幅降低了部署成本。关键创新——Slime异步强化学习框架这是智谱自研的RL训练框架名字很有意思叫史莱姆。这套框架让模型在推理和代码能力上获得了质的飞跃而且智谱已经将其开源。四、价格才是真正的杀手锏技术牛不牛牛但对于大多数的开发者和普通用户来说更关注的是价格你牛但价格死贵也不见得所有人都愿意为你牛买单不是吗这次GLM 5.1更让人坐不住的是它的价格直接上对比模型输入价格/百万token输出价格/百万tokenGLM-5.1$1.00$3.20Claude Opus 4.6$5.00$25.00GPT-5.4$2.50$15.00GLM-5.1的输入成本是Claude Opus的1/5是GPT-5.4的1/2.5。输出成本更夸张——仅为Claude的1/7.8GPT-5.4的1/4.7。简单来说94.6%的Opus能力20%的价格。比GPT-5.4也便宜了一大半。五、多维能力表现单一维度看不出全貌我从代码生成、推理能力、上下文长度、工具调用、中文能力、性价比、代理能力七个维度给它们打了分注意这是我的个人主观评估不是官方数据雷达图能直观看出每个模型的偏科情况。GLM-5.1 在中文能力和性价比上遥遥领先但推理和上下文长度上还有差距。Gemini 3.1 Pro 在推理维度拉满了确实猛。六、真实案例测评牛不牛好不好用还是得用真实项目来检验考虑到大多数的读者都是测试/开发领域的小伙伴因此我们挑一个大家平常工作中最常接触一个提效场景【需求文档一键转换测试用例、测试代码】通过这个场景来验证一下GLM-5.1长程能力到底够不够强测评设计思路维度验证点长上下文理解能否处理万字级需求文档不遗漏关键信息结构化提取能否从非结构化文档中精准提取测试点多层级生成能否生成测试用例 测试代码 覆盖分析一致性保持长文档前后要求是否理解一致不生矛盾用例1、首先打开cc-switch将模型配置为GLM-5.12、打开命令行终端进入项目目录输入claude进入到Claude Code中3、先让AI帮我们生成一份需求文档用于测试GLM-5.1模型长程理解 需求转测试用例 / 测试代码的能力。比如此处我希望GLM-5.1帮我自动生成一份完整、规范、可用于测评的「微信支付场景需求文档」。生成需求文档提示词你也可直接复用你是一名产品经理请帮我生成一份完整、规范、可直接用于测试开发的【微信支付功能需求文档】。 场景为移动端 H5 页面 后端接口实现的微信支付完整流程。 要求 1. 文档结构清晰包含功能概述、业务流程、接口定义、字段说明、支付状态流转、异常处理、安全规则、边界约束。 2. 覆盖完整支付链路创建订单、调用微信支付、支付回调、订单状态更新、支付重试、支付超时、退款、关单。 3. 明确字段约束订单号、金额、商品描述、过期时间、支付状态码、回调签名校验、幂等机制。 4. 加入足够多的业务规则、异常场景、边界条件以便后续生成高质量测试用例。 5. 语言正式、逻辑严谨篇幅适中偏长用于测试大模型长文本理解与一致性能力。 请直接输出完整需求文档保存到word文档中不要提问、不要省略。如果你想让文档更长、更适合测 “长程能力”可以在末尾加一句可选按需请扩展为长篇详细需求包含完整业务规则、多端交互、安全策略、风控逻辑、退款流程、对账逻辑整体篇幅不少于10000字。将上述提示词复制发送到Claude CodeClaude Code调用GLM-5.1模型会先创建了一个Python脚本用于创建Word文档稍等了几分钟后就在当前工作目录下自动生成了一份微信支付功能需求文档PRD.docx打开看了一下需求文档中的很多内容细节还是写的非常详细的。当然生成需求文档这一步只是我们准备的测试素材在日常工作中这一步都是由产品经理来准备并不是此次我们测评的重点接下来我们就用它来验证一下GLM-5.1长文本理解、逻辑一致性、跨段落关联能力。4、验证GLM-5.1的长程能力可以有两种玩法第一种采取分段迭代策略需求文档 → 标准测试用例基于测试用例 → 可运行测试代码接口 / UI 二选一长文本压力测试验证 GLM-5.1 长程能力第二种就显得更为简单粗爆一些将所有的交付生成要求一次性喂给GLM-5.1。这种方式简单且更考验模型对长文本理解、逻辑一致性的能力。因此我们采用第二种方式。输入提示词可直接使用【角色设定】 你是一位资深测试架构师擅长需求分析、测试设计、自动化测试开发。你的任务是将产品需求文档转换为完整的测试交付物。 【输入材料】 《微信支付功能需求文档PRD.docx》 【任务要求】 请基于上述需求文档完成以下交付物 1. **测试用例集**Excel/JSON格式 - 按功能模块分组 - 每条用例包含ID、模块、标题、前置条件、测试步骤、预期结果、优先级P0-P3、关联需求章节 - 严格覆盖功能测试、边界测试、异常测试、参数校验、业务流程测试 - 必须基于需求原文不臆造功能不漏测核心逻辑 - 对长文本需求保持全程理解一致不出现前后矛盾 - 业务规则、流程、约束必须前后一致 - 确保需求文档中所有必须应当禁止等关键词都被覆盖 2. **自动化测试代码**Python Pytest - 测试用例与代码必须严格对齐需求不能冲突 - 代码需有详细注释且可直接运行结构规范 - 包含页面对象模型POM、测试数据构造、异常断言、日志记录 3. **覆盖度分析报告** - 列出需求文档中每个章节被哪些用例覆盖 - 标注未被覆盖的需求点及原因 - 给出测试策略建议哪些适合自动化、哪些适合人工 4. **风险识别** - 从需求文档中识别模糊、矛盾或难以测试的描述 - 提出需要产品/开发澄清的问题清单 【输出格式】 - 使用Markdown分章节输出 - 代码块需标注语言类型 - 关键决策点用【说明】标注你的思考过程 【约束条件】 - 必须基于文档原文不可臆测未提及的功能 - 若需求存在歧义列出多种理解方案而非猜测 - 保持与需求文档术语一致不自创概念生成速度很快几分钟后4份交付物就生成好了测试用例自动化测试代码覆盖率分析报告风险识别报告我们分别来验证一下这些交付物的内容质量。先来看一下测试用例集但当前只生成了一份json格式的用例并没有生成excel格式。可能还有人会不解为什么自动生成用例时要让它生成一份json格式呢给大家补充一下之所以要求生成JSON 格式的测试用例是因为目前绝大多数测试管理工具、用例平台都支持JSON 直接导入可以一键批量录入非常高效。同时现在很多团队习惯用思维导图编写用例而思维导图底层存储和交互的数据本质就是 JSON 结构。这意味着拿到标准 JSON 用例就能轻松转换成思维导图形式的用例格式互通、灵活复用。这里为了便于查看我们还是让它帮我们补充一份excel格式的用例。可以看到它在帮我们生成excel格式用例时也是以json格式作为基础来转换。很快几乎不到一分钟的时间就帮我们生成好了excel版的测试用例打开excel版的测试用例可以看到它帮我们生成的用例基本上都是接口类型的测试用例怎么说呢勉强还算可以吧用例生成的内容是否能达到我们直接可用的程度一方面与我们自身的测试目标有关另一方面与提示词本身的质量也有极大影响。我们再来核查一下生成的测试代码质量下面是生成的测试代码的效果大家自评生成好的代码可以直接打开一个编辑器比如PyCharm尝试运行一下什么报错了别紧张这是因为我们并没有一个真实在运行的服务且域名是https://api.example.com/api/v1, 在你的使用场景下你只需要将你需求文档和测试域名替换成你真实的即可。除了测试代码还生成了一份覆盖率分析报告主要罗列了哪些业务场景是有测试用例覆盖的、未覆盖的需求点原因是什么、哪些场景适合自动化、哪些又需要人工介入。而这些内容其实就是我们测试报告中要体现的一些内容。可以看到这个项目并不是一个真实在运行的项目测评起来还是差点意思因为无法直接看到真实场景下的实际效果。在AI 进化社中近期我们准备带着在家开始开发第四个实战项目一个全栈应用这个应用会对标企业真实的项目场景该项目也会作为后续大模型测评、AI测试、AI智能体学习的实战演练靶场项目。 如果你也对AI技术感兴趣想学习更系统的AI测试、AI编程、AI技能实战落地欢迎加入「狂师. AI进化社」一起探讨学习七、最后想说AI Coding正在经历一条非常清晰的能力跃迁路径。最早的AI coding本质上是程序员的效率工具。模型学会写代码、调用工具但它主要还是一个辅助者服务对象是专业开发者作用方式是局部提效。而之后的Vibe CodingCoding从专业行为变成一种更大众的表达方式。人们不需要理解每一行代码但可以借助更好的Coding Tools把想法快速变成产品原型。在这个阶段Code is Cheap拥有好的idea的值开始凸显。再后来则是 Agentic编程不再只是为了写出一个代码片段而是为了让 AI 像真正的工程师一样能够自主理解需求、制定计划、编写代码、测试并迭代修复。而我们认为下一个真正决定模型分层的阶段是long horizon(长程任务)。因为真实世界里最有价值的任务往往都不是一句提示词、一次调用可以解决的。它们需要跨步骤、跨工具、跨时间地持续推进需要记住上下文保持目标一致处理中途的意外并在必要时修正路径。模型能否胜任这类任务取决于是否具备更memory、更成熟的目标保持能力以及更接近资深专家的行为模式。如果说 AI coding 解决的是“让模型会做事”Vibe Coding 解决的是“让更多人能创造”Agentic 解决的是“让 AI 能执行”那么long horizon要解决的就是“让 AI 像一个资深专家一样持续工作、交付成果”。我相信这是智谱AI团队打造GLM-5.1的原因。GLM-5.1的发布让我看到了一个趋势开源模型的编码能力正在快速逼近闭源头部模型当它在 Claude Code 评测中达到 Opus 94.6% 的编码能力时那剩下的 5.4% 差距在大多数日常开发场景中是感受不到的。GLM-5.1 所代表的 long horizon 能力提升正在把模型进一步推向下一个阶段像一个资深工程师一样在更长时间尺度上持续工作协调复杂依赖并交付完整结果。长程任务是检验模型智能的下一个标准当模型能稳定搞定中高级工程任务人类工程师的不可替代性进一步减少。当GLM-5.1 做到了资深工程师的水准而我们人类需要找到新的不可替代性。

更多文章