GLM-4.7 在编程、推理与智能体三个维度实现了显著突破:编程能力:在 LMArena Code Arena 盲测中位列开源第一、国产第一,超过 GPT-5.2 ;在 SWE-bench-Verified 获得国产第一;在 LiveCodeBench V6 达到 84.8 的开源 SOTA 分数,超过 Claude Sonnet 4.5 。推理能力:在 AIME 2025 数学竞赛中取得开源 SOTA ,超过 Claude Sonnet 4.5 和 GPT-5.1 ;在 HLE (“人类最后的考试”)基准测试中获得 42% 的成绩,较 GLM-4.6 提升 38% ,接近 GPT-5.1智能体能力:在 BrowseComp 网页任务评测中获得 67 分;在 τ²-Bench 真实世界交互评测中实现开源 SOTA ,接近 Claude Sonnet 4.5 ( 84.