2026年5月7日 · 星期四

xAI向Anthropic开放Colossus,22万GPU算力注入Claude

xAI宣布与Anthropic达成计算合作,将全球最大、部署最快的AI超级计算机之一Colossus 1开放给Anthropic使用,以增强Claude模型的训练与运行能力。Colossus 1搭载超过22万颗NVIDIA GPU。

Colossus 1是目前全球最大、部署最快的AI超级计算机之一。

xAI宣布与Anthropic达成新计算合作,将向其提供全球最大、部署最快的AI超级计算机之一Colossus 1的访问权限,以增强Claude模型的训练与运行能力。Colossus 1搭载超过22万颗NVIDIA GPU,此前由xAI自主运营,用于训练Grok等前沿模型。此次开放意味着Anthropic将获得前所未有的算力扩展空间,直接推动Claude系列模型的能力边界。英伟达对此合作表示祝贺,称"AI的未来运行在NVIDIA之上"。

在Anthropic同日举办的Code w/ Claude活动中,Anthropic透露API流量同比增长17倍,但并未发布新模型。活动同步宣布了三项关键产品更新:Claude Managed Agents新增多智能体编排、基于规则的自我改进循环及自学习功能;Claude Code的5小时使用限制翻倍,并取消高峰时段限速;Opus模型的API速率限制也大幅上调。这些举措标志着Anthropic正从模型竞赛转入基础设施与生态建设阶段。Anthropic工程负责人Boris Cherny透露,他现在大部分工作通过手机完成,Claude App中常驻5到10个会话、数百个Agent,夜间有数千个在跑深度任务,通过Loop机制用cron定时调度。


基础设施 · INFRASTRUCTURE

OpenAI联合AMD、英伟达等发布开源网络协议MRC

MRC旨在提升大规模AI训练集群的运行速度和可靠性,减少GPU时间浪费。

OpenAI与AMD、博通、英特尔、微软、英伟达合作发布开源网络协议MRC(Multipath Reliable Connection,多路径可靠连接)。该协议专为大规模AI训练集群设计,通过多路径传输和智能路由机制提升数据在数万芯片间的同步效率,显著减少因网络问题导致的GPU闲置时间。MRC已用于训练ChatGPT,现面向全行业开源,标志着AI训练基础设施的又一次关键标准化。

产品 · PRODUCT

Anthropic大幅提升Claude Code使用限制和API速率

5小时限制翻倍,取消高峰时段限速,Opus模型API速率大幅上调。

Anthropic宣布对Claude Code进行重大限制调整:Pro、Max、Team及按席位计费的Enterprise用户5小时滚动限额直接翻倍;Pro和Max用户在高峰时段的额度限制从即日起取消;Opus模型的API速率限制也大幅提高。这些变更反映了Anthropic在获得Colossus算力后的产能释放,直接惠及广大开发者。

智能体 · AGENTS

Claude Managed Agents新增多智能体编排与自学习

Anthropic在Claude Managed Agents中推出了多项新功能:多智能体编排支持多个Agent协同完成复杂任务;基于结果的自我改进循环让Agent能根据评估标准自动迭代优化;Dreaming功能允许Agent在后台进行自学习;此外还新增了webhooks集成。这些能力让Managed Agents从单任务工具升级为可自我进化的自动化平台。

推理引擎 · INFERENCE

Perplexity自研推理引擎ROSE,集成CuTeDSL加速GPU内核

Perplexity开发了自有推理引擎ROSE(Runtime-Optimized Serving Engine),可服务从嵌入模型到万亿参数LLM的完整谱系。引擎内集成了CuTeDSL,使Perplexity能够快速构建专用GPU内核,大幅缩短模型上线时间。ROSE的设计目标是在推理延迟和吞吐量之间取得最优平衡,服务覆盖Perplexity全线搜索与对话产品。


这项合作对Grok保持前沿模型地位的理念是一个打击。

— Ethan Mollick 评论 xAI 与 Anthropic 合作


模型与产品速览 · MODEL & PRODUCT BRIEFS 2026·05·07

推理 · INFERENCE

vLLM集成LightSeek的MLA库,优化智能体工作负载

vLLM作为LightSeek Tokenspeed的独家首发合作伙伴,集成了针对智能体工作负载优化的MLA库,专为Kimi 2.5/2.6和DeepSeek R1设计。

推理 · INFERENCE

vLLM与Mooncake集成实现大规模智能体工作负载服务

通过分布式KV缓存解决智能体工作负载中80K+ token上下文和94%+前缀复用问题,提升服务效率。

模型 · MODEL

Zyphra发布ZAYA1-8B推理MoE模型

采用DSMoE-MLA++架构,结合高端强化学习和测试时扩展,后续还有80B版本规划。

工具 · TOOLING

Cursor 3.3新增智能体上下文使用可视化

可查看上下文使用的详细分解,帮助诊断上下文问题并优化规则、技能、MCP和子智能体设置。

基准 · BENCHMARK

微软Gaia2:动态异步环境的LLM智能体评估基准

微软研究院推出Gaia2,聚焦动态、异步真实环境,要求智能体应对时间约束、噪声和动态事件。

检索 · IR

OBLIQ-Bench:最具雄心的IR基准测试

被研究者称为展示长上下文LLM在20万token后失效的最佳自然任务,LightOn的0.1B参数模型已击败多个大模型。

论文 · PAPER

SVGS:利用空间变化颜色增强高斯泼溅

为每个高斯基元引入空间变化颜色和不透明度函数,显著提升新视角合成效果。

开发者 · DEVELOPERS

Bun项目GitHub机器人robobun贡献量超过创始人

在Code w/ Claude活动中,Bun创始人Jarred Sumner透露其机器人robobun的代码贡献已超过他本人。

分析 · ANALYSIS

猜测:DeepSeek V4-Pro可能由Flash版专家蒸馏而来

多评估显示V4-Pro与V4-Flash性能基本一致,分析认为Pro可能由Flash蒸馏而来。

社区 · COMMUNITY

社区热议:哪个开源模型修改注意力后仍达81.8% SWE-Bench

一条引发热议的提问,探讨哪个开源模型在修改注意力机制后仍能在SWE-Bench Verified保持高分。

训练 · TRAINING

RLVE自适应可验证环境被用于ZAYA1训练管线

通过程序化生成问题和算法可验证奖励,动态调整难度匹配策略模型能力,已被Zyphra用于ZAYA1训练。

基准 · BENCHMARK

MiMo 2.5 Pro和GLM 5.1在基准测试中超越DeepSeek和Kimi

在最新基准测试中取得令人印象深刻的成绩,引发社区关注中国模型竞争格局变化。

产业 · INDUSTRY

梁文锋或将DeepSeek定位为硬件项目以获取国家资金

分析认为通过将DeepSeek定位为半导体项目的一部分,既获得资金支持又保持了AI研发自主权。

创意 · CREATIVE

Luma推出创意代理功能,自动生成定向广告

Luma Agents可根据受众定义与内容变体自动生成定向广告,覆盖规划、生成、迭代与优化全阶段。

活动 · EVENT

Simon Willison现场直播Anthropic Code w/ Claude活动

在活动上直播主题演讲,透露API流量同比增长17倍但未发布新模型,宣布与SpaceX合作等关键信息。

检索 · IR

LightOn的0.1B参数后期交互模型击败大模型

在OBLIQ-Bench上击败多个数量级更大的密集模型,但当前得分仅为8% nDCG@10,仍有巨大提升空间。