2026年6月21日 · 星期日

GLM‑5.2 全面崛起：中国开源模型首次正面挑战 GPT‑5.5 与 Opus 4.8

PostTrainBench 登顶、企业成本方程改写、自主 Agent 可连续运行数小时——智谱 AI 的新模型正以多维度对标全球前沿。

GLM‑5.2 在 PostTrainBench 基准测试中击败了 GPT‑5.5 和 Opus 4.8，成为首个在该测试上登顶的开源模型。更值得注意的是其基准稳定性——评论者指出，这是开源模型声称 SOTA 时表现最扎实的一次，不像以往只在特定榜单亮眼，而在 OOD 测试上落后数月。多位用户使用一天后表示，GLM‑5.2 频繁达到前沿模型水平。Claude 联合创始人 Clement Delangue 转发研究者的测试结果称，GLM‑5.2 在 OpenCode 上与 Claude Opus 性能接近，已属真正的 frontier 级别。

在 Agent 能力方面，用户首次观察到中国 Agent 能真正执行 /goal 指令，连续数小时持续优化，这一能力此前仅为 OpenAI 和 Anthropic 的实验室产物。在金融领域内部基准上，GLM 达到 80% 通过率。然而成本依然是一道坎——GLM‑5.2 的推理成本约为 DeepSeek V4 的 5 到 10 倍，供应能力也尚未能覆盖所有需求。

MiniMax M3 登顶 B.AI 排行榜

MiniMax 的新模型 M3 在 B.AI 排行榜上位列第一，孙宇晨转发并提及 B.AI 是面向 AI Agent 的底层经济基础设施。

AlphaFold 作者 John Jumper 离开 DeepMind 加入 Anthropic

诺贝尔奖得主在 Google DeepMind 工作近九年后宣布转投 Anthropic。

John Jumper 是 AlphaFold 的核心作者，他的离开被视为 Google DeepMind 最严重的人才流失信号之一。这一举动在 AI 圈引发广泛讨论，多位评论者将其与 Demis Hassabis 可能出走的风险并列，认为 Google 正面临 AI 人才生态的严峻挑战。

Vercel CEO：下一代编程语言是 Markdown

用 Markdown 定义 AI Agent，一键部署，编程门槛降至历史最低。

rauchg 提出极简 Agent 架构：一个 instructions.md 加若干 skills 目录的 Markdown 文件，一条命令即可部署到 Vercel。他认为这正在成为有史以来最易用的编程方式。这一观点迅速获得大量关注，被视为 Agent 开发平民化趋势的标志性表态。

若 Demis 离开，整个 DeepMind 将瓦解。Sundar 必须不惜一切代价留住他——取消 AI Overview、暂停 Gemini 计划、甚至中断与 Anthropic 的合同都在所不惜。
—— @teortaxesTex

AgentGym‑RL：LLM Agent 强化学习训练框架发布

新框架支持多轮交互决策训练，在 27 个多样化任务中达到商业模型水平，无需依赖监督微调。

AgentGym‑RL 采用模块化解耦架构，提出 ScalingInter‑RL 训练策略——早期限制交互次数强化利用，后期逐步增加交互步数鼓励探索，避免长时域下策略崩塌。完整框架、代码和数据集将开源。

GLM 首次实现真正自主的目标驱动 Agent

用户观察到 GLM Agent 可连续数小时持续优化，是首次见到中国 Agent 具备该能力。

评论者指出，虽然 Xiaomi、Kimi、Qwen、MiniMax 名义上也具备类似功能，但 GLM 是第一个在实际体验中让人感受到真正稳定的。不过 Zcode 中的权限弹窗频繁打断流程，仍是一个需要解决的痛点。

多方印证 · GLM‑5.2 多维度评测 06·21

金融基准

内部金融测试达 80% 通过率

Perplexity CEO Aravind Srinivas 转发测试结果，GLM 在金融领域表现稳定，通过率显著领先 DeepSeek V4 和 Kimi。

用户体感

使用一天后称接近 Opus 4.8 级别

研究者并行对比发现 GLM‑5.2 频繁达到前沿模型水平，差距已可忽略不计。

OpenCode 评测

本地部署后与 Claude Opus 接近

Patrick Toulme 使用 OpenCode harness 本地部署测试，结论是 GLM‑5.2 已达到真正的 frontier 级别。

内核工程

GLM‑5.2 已至内核工程前沿水平

澄清 KernelBench 上的 DNF 并非不能写内核，而是 API 速率限制导致。

企业成本

可能改变企业 AI 成本方程

评论称 GLM‑5.2 是第一个真正可能改变企业 AI 成本结构的开源模型。

市场规律

性能接近时，成本决定市场

一旦模型性能差距可忽略，市场将转向最低成本提供商。

ARC‑AGI‑2

GLM‑5.2 ARC‑AGI‑2 应得 50% 以上

目前中国最强模型 Kimi K2.5 仅得 11.8%，评论认为 GLM‑5.2 被低估。

成本优势

更少 token 达到 Opus 4.8 级质量

Demo 显示新模型在更少 token 下实现比 Opus 4.8 更高质量且更便宜。

生态落地

GGUF 量化版发布并上架 OpenRouter

GLM‑5.2 的 GGUF 量化版本已可通过 Hugging Face 和 OpenRouter 使用。

ZhipuAI 跻身全球前三 AI 实验室

评论者认为智谱 AI 已取代 Google DeepMind 成为全球顶级 AI 实验室。核心理由是 GLM‑5.2 从训练到推理的全栈能力，以及其在多个基准上的综合表现。

Claude 重置所有套餐使用限制

Claude 官方宣布重置所有用户的 5 小时和每周使用限制，周末畅用。这一举动被视为 Anthropic 在用户增长与基础设施扩容之间的阶段性调节信号。

Grok 推出视频生成功能

xAI 旗下 Grok 上线 Imagine 视频生成功能，用户可通过文字提示直接生成视频，进一步拓展多模态能力边界。

推测解码：AI 领域最接近免费午餐的方法

François Fleuret 盛赞推测解码的优雅和有效性，但对其在 AI 中未发挥更大作用表示意外。这一评论引发了对推理加速技术的广泛讨论。

Codex 推出跨设备任务迁移功能 Handoff

用户可在笔记本上中断编程任务，将其连同代码状态迁移到远程服务器继续运行，回家后再将任务拉回本地，实现跨设备无缝衔接。

AI 人才高流动率是创新关键

François Fleuret 认为 AI 研究人员在公司间的高流动性有助于信息流通和竞争，避免了单一 AI 服务商的垄断格局。

AI 自我改进加速产品发布节奏

Ethan Mollick 分析指出，Anthropic 和 OpenAI 的发布频率在加快，可能源于有限的 AI 自我改进能力。但其他实验室尚未出现类似加速。

KernelBench 发布单 GPU 测试结果

KernelBench‑Hard 和 Mega 的测试结果出炉，推理轨迹已完整开源。在 H100 和 B200 单卡上的表现备受关注。

DFlash：六个前沿推测解码模型发布

新论文提出「Speculation Is All You Need」方法，与 Z Lab 联合发布六个最先进的 DFlash 模型，推动推测解码技术进入实用阶段。

LiteParse 在 Markdown 解析上超越前沿 VLM

LlamaIndex 创始人称 LiteParse 在 Markdown 文档解析上甚至优于前沿视觉语言模型。

MiniT2I：极简文本到图像生成基线

论文挑战当前依赖大规模基础设施的主流方法，探索在刻意简化配方下能达到的效果，尝试降低模型训练门槛。

S‑Agent：空间工具激发空间智能推理

新论文提出利用空间工具使用来强化 AI 的空间推理能力，拓展 Agent 在三维环境中的理解与行动边界。

GLM‑5.2 推出 NVFP4 量化版本

用户 Luke Alonso 上传了 GLM‑5.2 的 NVFP4 量化版，467GB 可运行在 4 个 DGX Spark 上，约 2 万美元硬件即可部署。

AI 能源需求缺口巨大

AMP 电网运营商介绍，AI 计算所需的能源已锁定 1.3GW，但仍有 6GW 的缺口等待填补，能源供给正成为 AI 扩展的瓶颈。

AI 通过拉平绩效使合同劳动商品化

Ethan Mollick 引用的研究显示，AI 在拉平绩效水平的同时，也导致合同劳动的商品化趋势。

前沿实验室被批自我服务式炒作

Nathan Lambert 评论认为 AI 实验室存在过度包装，实际的知识传播更依赖于人才在公司和酒吧间的流动。

LFM2.5‑ColBERT‑350M：高可靠性工具选择模型

该模型在 151 个工具的复杂环境中实现了高度可靠的工具选择，推理速度远超同类方案。

Cowart：面向 Codex 的无限画布插件开源

基于 tldraw 的本地无限画布插件，支持可视化构思、标注和图片迭代，数据保存在项目 canvas 目录中。

GLM‑5.2 连续三日稳居 HF 趋势榜第二

GLM‑5.2 在 Hugging Face 趋势榜单上连续三天排名第二，社区热度持续攀升。

缩放法则的价值未被提前预见

François Fleuret 评论称，仅通过数据缩放就能如此精准地建模语言分布，并且模型可以被引导至接近思考的状态，这本身在事前是无法预料的奇迹。

ML 项目：评估占 50%，数据清洗占 40%

经验分享称机器学习项目中评估占 50%、数据清洗 40%、集成与训练各占小部分，颠覆「99% 是训练」的普遍认知。

对比研究解释潜意识学习机制

Neel Nanda 分享其研究团队对比先前工作以解释潜意识学习的工作，呼吁社区关注并参与讨论。

Agent 代码生成必须遵循软件工程原则

执行主体从人变成「人+Agent」，但需求分析、上下文管理和反复确认这些基本功不会变。

推文指出，让 Agent 生成准确代码的前提是自己先搞清楚要做什么，然后给 Agent 充足的上下文并反复确认，否则越做错越远。代码质量与正确的需求分析紧密相关——这一原则无论在传统软件工程还是 AI 辅助编程中始终成立。

短讯速递 · 产品与发布 06·21

REPLIT

Vibecon 纽约圆满落幕

两天活动，一个游乐场，展示 AI 编程的创意成果。

国际化

Replit 即将进入英国市场

AI 编程平台向欧洲拓展，伦敦办公室在筹备中。

KLING

Kling AI 发布新 MV 预告

完整 MV 将在三天内发布，以 AI 视频生成技术驱动。

RUNWAY

一人一天完成整支广告

使用 Runway AI 视频工具从创意到执行仅用一天。

PIXVERSE

上线《足球小将》AI 模板

上传照片即可生成动漫足球瞬间，支持多种经典技能动作。

开源

掌控自己的 AI 至关重要

TitanML CEO 称拥有自己的 AI 和采用开源模型是当下最重要的事。

开源模型

开源权重 AI 在特定任务取得 SOTA

Box CEO Aaron Levie 称开源 AI 进展令人瞩目。

HUGGINGFace

多个新模型在 Hugging Face 发布

研究团队在 HuggingFace 发布多个新模型供社区使用。

GLM‑5.2

被比作荒岛生存必备品

Thom Wolf 将 GLM‑5.2 与太阳能板和 Mac Studio 同列为「背包里的文明」。

B.AI

举办 AI Agent 经济基础设施活动

介绍面向 AI Agent 的支付与结算网络，赋予 AI 财务自主权。