2026年6月21日 · 星期日

GLM‑5.2 全面崛起:中国开源模型首次正面挑战 GPT‑5.5 与 Opus 4.8

PostTrainBench 登顶、企业成本方程改写、自主 Agent 可连续运行数小时——智谱 AI 的新模型正以多维度对标全球前沿。

GLM‑5.2 在各基准测试中的成本与性能对比

GLM‑5.2 在 PostTrainBench 基准测试中击败了 GPT‑5.5 和 Opus 4.8,成为首个在该测试上登顶的开源模型。更值得注意的是其基准稳定性——评论者指出,这是开源模型声称 SOTA 时表现最扎实的一次,不像以往只在特定榜单亮眼,而在 OOD 测试上落后数月。多位用户使用一天后表示,GLM‑5.2 频繁达到前沿模型水平。Claude 联合创始人 Clement Delangue 转发研究者的测试结果称,GLM‑5.2 在 OpenCode 上与 Claude Opus 性能接近,已属真正的 frontier 级别。

在 Agent 能力方面,用户首次观察到中国 Agent 能真正执行 /goal 指令,连续数小时持续优化,这一能力此前仅为 OpenAI 和 Anthropic 的实验室产物。在金融领域内部基准上,GLM 达到 80% 通过率。然而成本依然是一道坎——GLM‑5.2 的推理成本约为 DeepSeek V4 的 5 到 10 倍,供应能力也尚未能覆盖所有需求。

MiniMax M3 登顶 B.AI 排行榜

MiniMax 的新模型 M3 在 B.AI 排行榜上位列第一,孙宇晨转发并提及 B.AI 是面向 AI Agent 的底层经济基础设施。

MiniMax M3 登顶 B.AI 排行榜

AlphaFold 作者 John Jumper 离开 DeepMind 加入 Anthropic

诺贝尔奖得主在 Google DeepMind 工作近九年后宣布转投 Anthropic。

John Jumper 是 AlphaFold 的核心作者,他的离开被视为 Google DeepMind 最严重的人才流失信号之一。这一举动在 AI 圈引发广泛讨论,多位评论者将其与 Demis Hassabis 可能出走的风险并列,认为 Google 正面临 AI 人才生态的严峻挑战。

Vercel CEO:下一代编程语言是 Markdown

用 Markdown 定义 AI Agent,一键部署,编程门槛降至历史最低。

rauchg 提出极简 Agent 架构:一个 instructions.md 加若干 skills 目录的 Markdown 文件,一条命令即可部署到 Vercel。他认为这正在成为有史以来最易用的编程方式。这一观点迅速获得大量关注,被视为 Agent 开发平民化趋势的标志性表态。

若 Demis 离开,整个 DeepMind 将瓦解。Sundar 必须不惜一切代价留住他——取消 AI Overview、暂停 Gemini 计划、甚至中断与 Anthropic 的合同都在所不惜。

—— @teortaxesTex

AgentGym‑RL:LLM Agent 强化学习训练框架发布

新框架支持多轮交互决策训练,在 27 个多样化任务中达到商业模型水平,无需依赖监督微调。

AgentGym‑RL 采用模块化解耦架构,提出 ScalingInter‑RL 训练策略——早期限制交互次数强化利用,后期逐步增加交互步数鼓励探索,避免长时域下策略崩塌。完整框架、代码和数据集将开源。

GLM 首次实现真正自主的目标驱动 Agent

用户观察到 GLM Agent 可连续数小时持续优化,是首次见到中国 Agent 具备该能力。

评论者指出,虽然 Xiaomi、Kimi、Qwen、MiniMax 名义上也具备类似功能,但 GLM 是第一个在实际体验中让人感受到真正稳定的。不过 Zcode 中的权限弹窗频繁打断流程,仍是一个需要解决的痛点。

多方印证 · GLM‑5.2 多维度评测 06·21

ZhipuAI 跻身全球前三 AI 实验室

评论者认为智谱 AI 已取代 Google DeepMind 成为全球顶级 AI 实验室。核心理由是 GLM‑5.2 从训练到推理的全栈能力,以及其在多个基准上的综合表现。

Claude 重置所有套餐使用限制

Claude 官方宣布重置所有用户的 5 小时和每周使用限制,周末畅用。这一举动被视为 Anthropic 在用户增长与基础设施扩容之间的阶段性调节信号。

Grok 推出视频生成功能

xAI 旗下 Grok 上线 Imagine 视频生成功能,用户可通过文字提示直接生成视频,进一步拓展多模态能力边界。

推测解码:AI 领域最接近免费午餐的方法

François Fleuret 盛赞推测解码的优雅和有效性,但对其在 AI 中未发挥更大作用表示意外。这一评论引发了对推理加速技术的广泛讨论。

Codex 推出跨设备任务迁移功能 Handoff

用户可在笔记本上中断编程任务,将其连同代码状态迁移到远程服务器继续运行,回家后再将任务拉回本地,实现跨设备无缝衔接。

AI 人才高流动率是创新关键

François Fleuret 认为 AI 研究人员在公司间的高流动性有助于信息流通和竞争,避免了单一 AI 服务商的垄断格局。

AI 自我改进加速产品发布节奏

Ethan Mollick 分析指出,Anthropic 和 OpenAI 的发布频率在加快,可能源于有限的 AI 自我改进能力。但其他实验室尚未出现类似加速。

KernelBench 发布单 GPU 测试结果

KernelBench‑Hard 和 Mega 的测试结果出炉,推理轨迹已完整开源。在 H100 和 B200 单卡上的表现备受关注。

DFlash:六个前沿推测解码模型发布

新论文提出「Speculation Is All You Need」方法,与 Z Lab 联合发布六个最先进的 DFlash 模型,推动推测解码技术进入实用阶段。

LiteParse 在 Markdown 解析上超越前沿 VLM

LlamaIndex 创始人称 LiteParse 在 Markdown 文档解析上甚至优于前沿视觉语言模型。

MiniT2I:极简文本到图像生成基线

论文挑战当前依赖大规模基础设施的主流方法,探索在刻意简化配方下能达到的效果,尝试降低模型训练门槛。

S‑Agent:空间工具激发空间智能推理

新论文提出利用空间工具使用来强化 AI 的空间推理能力,拓展 Agent 在三维环境中的理解与行动边界。

GLM‑5.2 推出 NVFP4 量化版本

用户 Luke Alonso 上传了 GLM‑5.2 的 NVFP4 量化版,467GB 可运行在 4 个 DGX Spark 上,约 2 万美元硬件即可部署。

AI 能源需求缺口巨大

AMP 电网运营商介绍,AI 计算所需的能源已锁定 1.3GW,但仍有 6GW 的缺口等待填补,能源供给正成为 AI 扩展的瓶颈。

AI 通过拉平绩效使合同劳动商品化

Ethan Mollick 引用的研究显示,AI 在拉平绩效水平的同时,也导致合同劳动的商品化趋势。

前沿实验室被批自我服务式炒作

Nathan Lambert 评论认为 AI 实验室存在过度包装,实际的知识传播更依赖于人才在公司和酒吧间的流动。

LFM2.5‑ColBERT‑350M:高可靠性工具选择模型

该模型在 151 个工具的复杂环境中实现了高度可靠的工具选择,推理速度远超同类方案。

Cowart:面向 Codex 的无限画布插件开源

基于 tldraw 的本地无限画布插件,支持可视化构思、标注和图片迭代,数据保存在项目 canvas 目录中。

GLM‑5.2 连续三日稳居 HF 趋势榜第二

GLM‑5.2 在 Hugging Face 趋势榜单上连续三天排名第二,社区热度持续攀升。

缩放法则的价值未被提前预见

François Fleuret 评论称,仅通过数据缩放就能如此精准地建模语言分布,并且模型可以被引导至接近思考的状态,这本身在事前是无法预料的奇迹。

ML 项目:评估占 50%,数据清洗占 40%

经验分享称机器学习项目中评估占 50%、数据清洗 40%、集成与训练各占小部分,颠覆「99% 是训练」的普遍认知。

对比研究解释潜意识学习机制

Neel Nanda 分享其研究团队对比先前工作以解释潜意识学习的工作,呼吁社区关注并参与讨论。

短讯速递 · 产品与发布 06·21

© 2026 FAV0 · AI Daily