2026年6月1日 · 星期一

GPT-5.5 登顶 DeepSWE 基准，超越 Claude Opus 4.8

在长周期编码基准 DeepSWE 上，GPT-5.5 以 70% pass@1 的成绩大幅领先 Claude Opus 4.8 的 58%，展示出顶级代码生成能力。

OpenAI 最新模型 GPT-5.5 在 DeepSWE 这一高难度长周期编码基准测试中取得了突破性成绩。70% 的 pass@1 通过率不仅刷新了该基准的最高纪录，更显著超越了此前保持领先的 Claude Opus 4.8。DeepSWE 基准以真实软件工程任务为评测目标，要求模型具备长期规划、多步骤推理和复杂代码生成能力。这一结果表明 GPT-5.5 在代码智能体方向的性能已达到全新高度，为 AI 辅助软件工程落地提供了更强支撑。业界分析认为，GPT-5.5 的成功意味着下一阶段大模型竞争的关键战场将从通用对话转向专业工程任务的实际完成度。

Step 3.7 Flash 上线在线演示，无需安装直接体验

阶跃星辰发布了 Step 3.7 Flash 的托管演示，用户无需编写任何代码，只需在浏览器中打开即可直接运行体验该模型。该演示基于 Gradio 构建，由社区开发者 @_akhaliq 协助搭建，现已上线 Hugging Face 平台。

vLLM 与红帽、Poolside 合作实现推理 2-3 倍加速

vLLM 联合 Red Hat 和 poolside 优化了 Laguna XS.2 模型的推理性能。通过 DPFlash 投机采样技术，每轮前向传播可生成 8 个 token，实现 2-3 倍解码加速且质量无损，同时支持 FP8、NVFP4 和 INT4 等多种量化格式。

PixVerse 集成 OpenClaw，支持文本与图像生成视频

PixVerse 作为官方外部插件正式加入 OpenClaw 平台，用户可直接在平台内通过文本或图片生成视频。该集成提供国际和中国双 API 端点，用户可灵活配置区域和基础 URL，为视频生成工作流带来更高灵活性。

OpenAI 宣布组建机器人团队，启动大规模招聘

Sam Altman 宣布 OpenAI Robotics 项目正式启动，面向全栈硬件、系统运营和 ML 工程师大规模招聘，目标制造对社会有实际用途的机器人。Altman 表示 AI 应当能够帮助物理世界中的人们，短期将聚焦于实用型机器人研发。

模型发布

HRM-Text 1B 推理语言模型发布

Sapient Intelligence 发布 HRM-Text，一个仅有 1B 参数但具备强通用推理能力的语言模型，展示了小参数规模模型在推理任务上的潜力。

基准方法

CursorBench：从生产用例挖掘失败案例的基准

新一代基准 CursorBench 通过从实际编码会话中提取失败案例来动态演化评估体系，使模型评测更贴近真实应用场景。Composer 2 技术报告详细阐述了该方法。

Dell 与 NVIDIA 向 CoreWeave 交付首台 Vera Rubin NVL72

Dell 与 NVIDIA 合作，向 CoreWeave 交付了首台 Vera Rubin NVL72 系统，标志着新一代 AI 计算基础设施部署正式启动，为大规模模型训练和推理奠定硬件基础。

观点：通用 Agent 将取代传统操作系统与 App

独立观察者预言通用 Agent 将演变为未来的操作系统，传统 App 要么消亡，要么转变为 MCP 协议或 CLI 供 Agent 调用，用户不再需要直接操作应用。

DeepMind 将 30+ 科学数据库打包为 Agent 技能

DeepMind 把 AlphaGenome、UniProt 等超过 30 个科学数据库整合为智能体可调用的技能，大幅降低科学查询中的幻觉和 Token 浪费问题。

华为 LogicFolding：EDA 软件优势实现互连密度跃升

技术分析指出华为 LogicFolding 设计主要得益于 EDA 软件创新，在不依赖先进光刻的条件下实现 16-36 倍芯片互连密度提升。

过去 18 个月里，全球精英群体对 AI 的态度出现根本性分化：一部分人已无法离开 AI 高效工作，另一部分人则固守 AI 无效的认知泡泡。双方均已越过不可逆转的临界点。
@teortaxesTex

阶跃星辰在 ClawCon 阐述 Step 3.7 Flash 与 Agent 未来

阶跃星辰开发者业务 GM EileenTal 在 ClawCon 澳门大会上介绍了 Step 3.7 Flash 的设计理念，提出智能体效率是下一个前沿。

Blackwell GPU 生命周期或成 Nvidia 史上最短

分析师认为 Blackwell 系列 GPU 可能拥有 Nvidia 历史上最短的有效生命周期。推理优化如 Dynamo 才刚刚成熟，而下一代硬件已蓄势待发。

NVIDIA GTC 台北即将开幕，黄仁勋发表主题演讲

NVIDIA 官方提醒 GTC 台北大会主题演讲将于周一上午 11 点开始，黄仁勋将在台北音乐中心发表讲话，届时可能有重要硬件发布。

Schulman 思考：提示接种训练可能引发反效果

John Schulman 表示，如果在强化学习中使用提示接种，模型可能反而变得精通沙箱逃逸和漏洞利用，因为整个 RL 过程都在练习这些行为。

MathArena 多数题目已无法区分前沿模型

分析指出 MathArena 的 40 道题中大多数已无法区分顶级模型，只有 3-4 道仍提供有意义的非零信号。这些剩余题目才是真正的评估金矿。

前沿实验室默契维持高利润率，避开价格战

评论指出前沿 AI 实验室之间心照不宣地维持超过 50% 的推理利润率，拒绝在定价上走入内卷式的恶性竞争。

今日简讯06·01

Voice AI

OpenAI 公布语音黑客马拉松决赛项目

OpenAI 的 Voice Hack Night 决赛项目出炉，展示了四款实时语音代理原型，全部在 6 小时内完成构建。

社区

Hugging Face 呼吁公开分享 Agent 追踪数据

Clement Delangue 呼吁社区分享更多编码与智能体轨迹数据，以构建更好的开源数据集和模型。

编程

AI 编码代理让 CEO 与 CTO 重燃编程热情

Vercel 创始人指出，Claude Code 等编码代理让多位公司高管重新爱上编程，积极使用 AI 开发产品。

商业

Fireworks AI 年营收突破 8 亿美元

AI 推理平台 Fireworks AI 已达到 8 亿美元年化营收，实现 4 倍同比增长。

推理

TokenSpeed Kernel 利用 CuteDSL 与 Triton 加速推理

LightSeq 团队的 TokenSpeed Kernel 通过 CuteDSL 和 Triton Gluo 实现了高效的推理加速。

产品

Codex Desktop 移除 Markdown 导出引用户不满

OpenAI Codex Desktop 新版移除了备受喜爱的 Markdown 聊天导出功能，GitHub issue 已有大量社区讨论。

算力

前沿实验室训练成本被高估

估算显示前沿实验室从未使用超过 300T token 预训练，GPU 租赁成本远低于传闻的 4 美元/小时。

市场

中国 AI 算力落后但初创融资活跃

分析指出中国在 AI 算力方面仍落后，但初创公司融资规模可观，有望带动产业生态整体发展。

评测

“50米到洗车房”被列为 LLM 最刁钻陷阱题

研究者列举 LLM 陷阱测试题，认为“50米到洗车房”最能暴露模型的情景理解失败。

趋势

评估初创公司迎来持续学习平台升级潮

2026 年许多评估和分析初创公司正从一次性基准向持续学习平台进行代际升级，部分将淘汰出局。

观点

Ethan Mollick：AI 代理应更懂在此时提问

沃顿教授认为全自动 AI 代理并非理想模式，AI 应在卡壳或需要人类判断时主动提出好问题。

产品

建议国内 AI 产品尽快转向 GUI 和通用 Agent

业界观点认为 Kimi Code、DeepSeek Harness 等应尽早开发图形界面和通用办公能力，避免过度内卷。

实时

GPT Realtime 2 被赞解锁真正魔力

GPT Realtime 2 被业界形容为解锁了真正的魔法，展现了全新的交互能力与实时响应体验。

Codex

Codex 计算机操作功能被称为极具冲击力

OpenAI 的 Codex 计算机使用功能被认为极具冲击力，令人印象深刻。

反思

AI 迫使人类重新定义何为独特性

个人反思认为 AI 正迫使人类重新审视“人类独特性”边界，许多专属人类的能力可能只是涌现模式。

理论

Agent 社会信任问题可能导致高智商并非最优

思考指出在互不信任的智能体社会中所有尺度都陷入纳什均衡，更高 IQ 可能不利于整体。