2026年6月5日 · 星期五

超80%代码由AI编写，递归自我改进比预期更快到来

Anthropic内部数据揭示AI加速自身的趋势：工程师代码产出增长8倍，任务时长每4个月翻倍。超过80%的代码已由Claude编写，通往AI自主设计更强后继者的路径正在逼近。

Anthropic内部数据显示，AI正以前所未有的速度加速自身发展。工程师人均季度代码产出已是2021-2025年平均水平的8倍。更引人注目的是，AI能够独立完成的任务时长每4个月翻倍——从最初仅4分钟的简单操作，一路延长至如今的12小时连续工作。

SWE-bench等软件工程基准测试在两年内即告饱和，CORE-Bench则在十五个月内被攻克。截至2026年5月，Anthropic内部超过80%的代码由Claude编写。这一趋势指向一个关键转折点：递归自我改进，即AI自主设计并构建更为强大的后继者系统。

目前这一能力尚未完全实现，但Anthropic研究团队指出，进展速度远超此前预期。该趋势不仅将重塑软件工程行业，更可能对科学研究方法论、AI治理框架乃至人类知识生产的底层范式产生深远影响。当构建AI的不是人类工程师，而是上一代AI本身，我们是否正在跨越一条不可逆的边界？

NVIDIA Nemotron 3 Ultra：550B MoE开放模型登场

总参数量550B、活跃参数55B的混合Transformer-Mamba MoE开放模型，专为长时运行智能体设计，推理速度提升5倍，成本降低30%。

NVIDIA正式发布Nemotron 3 Ultra，一款前沿智能开放模型。该模型采用混合Transformer-Mamba MoE架构，550B总参数量中仅55B为每次推理的活跃参数，支持高达100万Token的上下文窗口。模型专为需要规划、推理、工具使用和长时间运行的复杂智能体工作流而设计。

在推理性能方面，Nemotron 3 Ultra较前代提升5倍速度，智能体任务成本降低30%。vLLM在发布当天即提供Day-0稳定支持，体现了生态系统的快速响应能力。该模型适用于编程、科研与企业自动化等场景，标志着开放模型在智能体领域迈入新阶段。

黄仁勋：智能体正成为企业软件新层面

NVIDIA CEO黄仁勋阐述Cadence、CrowdStrike、SAP、ServiceNow等企业正在NVIDIA上构建智能体，合作伙伴机会巨大。

OpenAI API新增内联审核分数

OpenAI在Responses API和Completions API中推出内联审核分数，开发者可在生成请求的同时获取输入输出的内容审核信号，使用omni-moderation-latest模型免费提供。

NVIDIA在CVPR发布物理AI智能体技能

NVIDIA在CVPR 2026上宣布物理AI智能体技能，包括可组合工作流，自动化数据生成、仿真和策略训练，旨在加速自动驾驶与机器人开发。

LM Studio发布移动端应用

LM Studio推出移动应用版本，用户可在手机上直接运行本地AI模型，将离线推理能力装入口袋。

vLLM发布日即支持Nemotron 3 Ultra

vLLM在Nemotron 3 Ultra发布当天即提供稳定支持。该模型为550B总参数量、55B活跃参数的混合Transformer-Mamba MoE架构，支持1M上下文。

LlamaIndex发布ParseBench基准

LlamaIndex在CVPR 2026展示ParseBench，首个专为AI Agent构建的文档解析基准。团队认为文档理解本身就是AGI完备问题。

Perplexity与SBA推出AI加速器

Perplexity与美国小企业管理局合作，承诺2500万美元计算积分，向10万家公司每户提供250美元补贴。

Sakana AI计划构建日本首个1T参数模型

Sakana AI创始人透露将利用日本METI的GENIAC计划，构建日本首个1T参数的Agent原生模型，专门优化长周期深度研究。

Codex推出iOS构建插件

Codex新增Build iOS Apps插件，支持SwiftUI预览和热重载，在Codex环境内即可查看和测试iOS应用。

「通过狭窄控制实现的安全已多次被证明是失败的。需要在绝对前沿拥有更多透明度，并在紧随其后保持开放性。」
——Nathan Lambert，AI安全研究员

Nemotron Parakeet ASR印尼语准确率达97.7%

Rafiqspace.ai微调后的Nemotron Parakeet ASR模型在印尼语转写中达到97.7%准确率（2.3%词错误率），每小时成本降低90%。当法律监管依赖转录结果时，70-80%的准确率远远不够。

NVIDIA DGX Spark推理速度提升2.6倍

NVIDIA DGX Spark更新后支持本地代理工作流，借助NemoClaw实现2.6倍推理加速。基础设施是否已为智能体AI时代做好准备？

产品动态 06/05

Replit

Replit与Shopify合作，分钟级搭建在线商店

Replit Agent集成Shopify，用户描述产品即可自动构建店面并创建商店。

Runway

Runway Aleph 2.0精确视频编辑

仅更改指定部分，保持画面其余区域不变，编辑控制精度大幅提升。

Cursor

Cursor新增画布分享，团队协作更便捷

支持创建仪表盘、报告等画布应用，可发布为URL与团队共享。

Codex

Codex个人主页上线，展示Token使用数据

活动图、连续天数、生命周期Token数等统计尽览，默认私密可选择性分享。

Pika

Pika推出首个应用内群聊AI代理

AI代理可协助处理iPhone更新、制作表情包、协作微剧等。

Ollama

Ollama支持Gemma 4 12B模型

可在Claude Code、Hermes Agent、OpenClaw、Codex等环境中使用。

阶跃星辰

Step 3.7 Flash上线Fireworks AI

MTP辅助解码速度达400 tokens/s，专为智能体实时工作流设计。

行业观察

AI创业经济学：花千万买Token卖五百万

烧钱买Token再高价转卖的模式引发质疑，AI应用层盈利路径仍待验证。

观点

Nathan Lambert：美国开放模型实验室扭转局势

Nvidia、Ai2、Gemma等美国开放模型在过去一年从落后到反超。

企业动态与学术前沿 06/05

安全