OpenAI联合AMD、英伟达等发布开源网络协议MRC
MRC旨在提升大规模AI训练集群的运行速度和可靠性,减少GPU时间浪费。
OpenAI与AMD、博通、英特尔、微软、英伟达合作发布开源网络协议MRC(Multipath Reliable Connection,多路径可靠连接)。该协议专为大规模AI训练集群设计,通过多路径传输和智能路由机制提升数据在数万芯片间的同步效率,显著减少因网络问题导致的GPU闲置时间。MRC已用于训练ChatGPT,现面向全行业开源,标志着AI训练基础设施的又一次关键标准化。
Anthropic大幅提升Claude Code使用限制和API速率
5小时限制翻倍,取消高峰时段限速,Opus模型API速率大幅上调。
Anthropic宣布对Claude Code进行重大限制调整:Pro、Max、Team及按席位计费的Enterprise用户5小时滚动限额直接翻倍;Pro和Max用户在高峰时段的额度限制从即日起取消;Opus模型的API速率限制也大幅提高。这些变更反映了Anthropic在获得Colossus算力后的产能释放,直接惠及广大开发者。
Claude Managed Agents新增多智能体编排与自学习
Anthropic在Claude Managed Agents中推出了多项新功能:多智能体编排支持多个Agent协同完成复杂任务;基于结果的自我改进循环让Agent能根据评估标准自动迭代优化;Dreaming功能允许Agent在后台进行自学习;此外还新增了webhooks集成。这些能力让Managed Agents从单任务工具升级为可自我进化的自动化平台。
Perplexity自研推理引擎ROSE,集成CuTeDSL加速GPU内核
Perplexity开发了自有推理引擎ROSE(Runtime-Optimized Serving Engine),可服务从嵌入模型到万亿参数LLM的完整谱系。引擎内集成了CuTeDSL,使Perplexity能够快速构建专用GPU内核,大幅缩短模型上线时间。ROSE的设计目标是在推理延迟和吞吐量之间取得最优平衡,服务覆盖Perplexity全线搜索与对话产品。
这项合作对Grok保持前沿模型地位的理念是一个打击。
— Ethan Mollick 评论 xAI 与 Anthropic 合作
Google DeepMind与EVE Online合作探索AI智能体新前沿
利用复杂玩家驱动宇宙作为安全沙盒,测试智能体的记忆、持续学习和长期规划。
Google DeepMind宣布与EVE Online开发商CCP Games达成合作,将利用EVE复杂的玩家驱动宇宙作为AI智能体的试验场。EVE的经济系统、政治联盟和战争动态构成了一个自组织的复杂环境,是测试AI在记忆跨度和长期策略规划方面的理想沙盒。研究者将关注智能体如何在信息不完整、环境持续变化的条件下学习和适应。
英伟达与ServiceNow合作交付企业级自主AI智能体
英伟达与ServiceNow合作,交付可在企业工作流中自主行动的AI智能体。在ServiceNow Knowledge 2026大会上,ServiceNow推出了Project Arc——一个长运行桌面智能体,构建于开放架构之上,具备治理、审计和安全执行能力。该方案旨在让企业AI智能体既能自主执行任务,又满足严格的合规和安全要求。
混元Hy3预览版登顶OpenRouter周榜
发布两周后以3.66万亿token处理量登顶,周环比增长298%,在总体使用、工具调用和编码方面均排名第一,市场份额达15.4%。
推出开源机器人应用商店,含200+应用
为机器人Reachy Mini推出开源应用商店,旨在降低机器人开发门槛,让用户像下载手机应用一样为机器人添加功能。
利用早期Composer模型为RL训练自动搭建环境
自动安装系统利用早期版本Composer模型为强化学习搭建开发环境,使后续模型专注解决更复杂问题。
GPT-5.5 Instant成为ChatGPT默认模型
法律、金融、医学等领域的幻觉率明显下降,图片理解和文档解析能力提升,日常任务表现增强。
发布Uni-1.1 API,通过简报而非token进行推理
无需中间件或提示工程,在时尚、建筑、漫画等多个垂直领域生成电影级质量结果。
Agent API新增金融搜索功能
开发者可通过一次工具调用获取授权金融数据集、实时市场数据和引用网络来源。
vLLM集成LightSeek的MLA库,优化智能体工作负载
vLLM作为LightSeek Tokenspeed的独家首发合作伙伴,集成了针对智能体工作负载优化的MLA库,专为Kimi 2.5/2.6和DeepSeek R1设计。
vLLM与Mooncake集成实现大规模智能体工作负载服务
通过分布式KV缓存解决智能体工作负载中80K+ token上下文和94%+前缀复用问题,提升服务效率。
Zyphra发布ZAYA1-8B推理MoE模型
采用DSMoE-MLA++架构,结合高端强化学习和测试时扩展,后续还有80B版本规划。
Cursor 3.3新增智能体上下文使用可视化
可查看上下文使用的详细分解,帮助诊断上下文问题并优化规则、技能、MCP和子智能体设置。
微软Gaia2:动态异步环境的LLM智能体评估基准
微软研究院推出Gaia2,聚焦动态、异步真实环境,要求智能体应对时间约束、噪声和动态事件。
OBLIQ-Bench:最具雄心的IR基准测试
被研究者称为展示长上下文LLM在20万token后失效的最佳自然任务,LightOn的0.1B参数模型已击败多个大模型。
SVGS:利用空间变化颜色增强高斯泼溅
为每个高斯基元引入空间变化颜色和不透明度函数,显著提升新视角合成效果。
Bun项目GitHub机器人robobun贡献量超过创始人
在Code w/ Claude活动中,Bun创始人Jarred Sumner透露其机器人robobun的代码贡献已超过他本人。
猜测:DeepSeek V4-Pro可能由Flash版专家蒸馏而来
多评估显示V4-Pro与V4-Flash性能基本一致,分析认为Pro可能由Flash蒸馏而来。
社区热议:哪个开源模型修改注意力后仍达81.8% SWE-Bench
一条引发热议的提问,探讨哪个开源模型在修改注意力机制后仍能在SWE-Bench Verified保持高分。
RLVE自适应可验证环境被用于ZAYA1训练管线
通过程序化生成问题和算法可验证奖励,动态调整难度匹配策略模型能力,已被Zyphra用于ZAYA1训练。
MiMo 2.5 Pro和GLM 5.1在基准测试中超越DeepSeek和Kimi
在最新基准测试中取得令人印象深刻的成绩,引发社区关注中国模型竞争格局变化。
梁文锋或将DeepSeek定位为硬件项目以获取国家资金
分析认为通过将DeepSeek定位为半导体项目的一部分,既获得资金支持又保持了AI研发自主权。
Luma推出创意代理功能,自动生成定向广告
Luma Agents可根据受众定义与内容变体自动生成定向广告,覆盖规划、生成、迭代与优化全阶段。
Simon Willison现场直播Anthropic Code w/ Claude活动
在活动上直播主题演讲,透露API流量同比增长17倍但未发布新模型,宣布与SpaceX合作等关键信息。
LightOn的0.1B参数后期交互模型击败大模型
在OBLIQ-Bench上击败多个数量级更大的密集模型,但当前得分仅为8% nDCG@10,仍有巨大提升空间。