2026年6月22日 · 星期一

"Genuinely impressed, almost shocked, at how good GLM-5.2 by @zai_org is at coding. This changes things."

— @rauchg, Vercel CEO
GLM-5.2 专题2026.06.22
开源突破

GLM-5.2让开源模型在编码实用性上超越Gemini

Natolambert指出,在GLM-5.2推动下,开源权重模型首次在编码实用性方面全面超越Gemini,距Opus 4.5发布约200天。

推理速度

GLM-5.2在Blackwell上实现120 tok/s高吞吐

据可靠来源,GLM-5.2在两台联网Blackwell tinybox上以每秒120 tokens运行,总硬件成本约15万美元。

Claude对比

GLM-5.2在Claude Code中表现超越Opus 4.8

用户报告称GLM-5.2在Claude Code编程环境中性能超过Opus 4.8,多位测试者表示"令人震惊"。

研究加速

GLM-5.2在研究加速方面表现卓越

teortaxesTex指出GLM-5.2可能在研究加速场景中直接成为最佳选择,在某些任务上超越封闭源模型。

商业测试

GLM-5.2在Vending Bench上表现优异

GLM-5.2在Vending Bench商业运营基准测试中展示了强大的综合运营能力,给用户留下深刻印象。

上手体验

Natolambert初步测试GLM:设置简单表现扎实

Natolambert在Fireworks AI上仅用5分钟即完成GLM模型部署并在Claude Code中开始使用,称赞其易用性。

SWE聚焦

GLM-5.2侧重软件工程,DSV4.1将主攻数学

分析指出GLM-5.2主要面向软件工程场景,数学增益不稳定;DeepSeek V4.1将在数学领域展现惊人进步。

算力差距

中国开源模型仍远未达到LLaMA 3.1 405B预训练计算量

尽管表现亮眼,尚无一款中国开源模型使用过LLaMA 3.1 405B预训练计算量的三分之一,能力仍落后23个月前的Meta模型。

深度报道AI产业 · 前沿
Agent实战

MiniMax M3与Hermes Agent在虚幻引擎5.8展示Agent能力

MiniMax M3模型与Hermes Agent在Unreal Engine 5.8 MCP环境下进行了45分钟自主交互,完整展示Agent在复杂3D环境中的规划与执行能力。

DeepSeek

DeepSeek文锋被赞融资中拒绝中东LP,彰显开源承诺

投资者称赞文锋在融资中主动调查投资者背景并拒绝中东壳公司LP,展现了绝对的开源承诺和对投机资本的蔑视。

人事变动

传闻DeepSeek前员工因Agent方向分歧离开

消息称核心成员因未能说服文锋更早聚焦Agent而离开,如今DeepSeek全面投入Agent训练,团队仍在组建中。

AGI路径

工程路径:成为顶级AGI实验室只需组合现有技术

teortaxesTex提出纯工程路线:组合DeepSeek V3.2注意力、Kimi K2模型形状、100T token预训练和zAI Slime后训练框架,即可跻身前三AGI实验室。

芯片澄清

澄清:Zhipu的GLM-5并非完全基于国产芯片训练

据澄清,仅GLM-Image在Ascend芯片上训练,GLM-5仅适配了国产推理硬件,并未完全使用国产芯片进行预训练。

数据战争

揭秘:前沿AI实验室花费数十亿美元注释数据

前沿AI实验室正以数十亿美元雇用诗人、音乐家、会计师等大量专业人员,对各种格式进行大规模数据注释,这是一场蛮力押注。

开源战略

Clement Delangue认为开源AI领导力是通用AI领导力的前提

Hugging Face CEO预测:2016-2024美国领先开源,2024-2026中国领先开源,2024-2027美国领先通用AI。开源领导力是通用AI领导力的先决阶段。

Nvidia

观点:Nvidia是潜在的一流AI实验室

teortaxesTex认为Nvidia具备成为一级AI实验室的潜力,建议CEO Jensen Huang开始从其他实验室挖角人才。

递归改进

递归自我改进(RSI)的三个早期步骤总结

Anthropic将80%代码通过AI合并、其他AI公司也在实践递归自我改进,文章总结了RSI的早期步骤与关键节点。

研究:物理合理性信号隐藏在冻结图像编码器中

研究者发现可从未经视频训练或物理监督的冻结图像编码器几何结构中提取物理合理性信号,暗示了感知系统的新可能性。

用户测试全新AI系统模型,称"人类又朝前迈进了一步"

用户oran_ge在测试一款全新系统模型后表示激动,称其充满想象力,认为这标志着人类向前迈出了重要一步。

研究指出LLM逐步规划输出创造推理错觉

当LLM输出逐步计划时,会产生强大的机器推理错觉,但该研究指出实际机制可能并非真正的逻辑推理。

观点:LLM的世界理解是语言建模的副产品

François Fleuret认为目前LLM的任何"世界理解"都是语言建模的隐含副产品,类似于人类对抽象数学对象的理解。

LlamaIndex提出Agent原生文档格式需求

随着Agent生成大量文档,需要更适合Agent的文档格式,LlamaIndex讨论了两种主要候选方案。

报告称欧洲无法通过租赁实现AI主权

欧洲AI投资报告指出,欧洲不能仅靠租赁AI基础设施来实现技术主权,必须自主建设核心能力。

研究者称当前机器人学如同2023年语言模型热潮

机器人学研究者认为该领域处于类似语言模型2023年的状态——各方尝试多种方法,尚未收敛到统一范式。

DeepSeek被称为AI模型的"死亡门槛"

评论称如果某模型仅比DeepSeek略好则无法生存,因为DeepSeek定价极其低廉,形成市场化的准入门槛。

François Chollet认为AI普及推动SaaS需求增长

Keras作者认为尽管存在颠覆叙事,真正运营公司的人会发现AI应用实际上增加了对SaaS的需求。

讨论将Nvidia Blackwell推向物理极限的可能性

用户讨论了训练中矩阵问题的Alpha信息,以及如何将Nvidia Blackwell的计算能力推向物理极限。

Graham Neubig质疑递归自我改进公司的定义

研究者认为所有构建AI编码代理或LLM的公司都在使用自己的产品,那么所有AI公司都算递归自我改进公司吗。

研究员讨论图像与语言本质差异对LLM的挑战

François认为图像的强冗余性和组合性使其成为绝佳记忆库,而语言缺乏这些属性,给LLM带来巨大挑战。

AI4S研究趋势:自我进化循环与多智能体系统

当前AI for Science研究包括自我进化循环、多智能体系统、Agent技能和科学基准,旨在实现文献发现循环。

研究员对比新架构与标准Decoder Transformer性能

在正确归一化FLOPs和内存后,比较新架构与标准Decoder Transformer的性能差异。结果令人深思。

中国开源LLM被批评但不涉及政治宣传

用户指出中国开源LLM被鹰派批评传播价值观,但实际只有象征性微调,在国内可能才是更大的问题。

LottoLabs分享训练模型最佳读物

推荐一篇关于训练模型的优秀文章,适合希望开始模型训练的用户阅读入门。

开源Swift实现Codex Computer Use权限流程

名为permiso的开源Swift项目实现了Codex Computer Use的辅助功能权限对话框交互流程。

IIT Bombay和BharatGen参与开放AI建设

印度IIT Bombay和BharatGen宣布参与Project Tapestry,支持构建基于本土语言和知识的前沿AI。

今日短讯2026.06.22

FAV0 · AI Daily · 版权所有