NVIDIA 发布专为 AI 工厂而生的 Vera CPU
在 GTC Taipei 上,黄仁勋展示了面向 AI 时代的新一代处理器 Vera,Agent 任务完成速度较 x86 快 80%,标志着 AI 计算从通用 CPU 向专用架构演进的关键转折。
NVIDIA 正式发布 Vera,一款面向 AI 时代设计的全新 CPU。在 GTC Taipei 的主题演讲中,黄仁勋展示了这款专为 AI 工厂构建的处理器——在 Agent 任务完成速度上比主流 x86 架构快 80%。Vera 的意义远不止性能数字:它标志着 AI 基础设施正从"用通用 CPU 凑合跑推理"的阶段,迈向专用化、系统级优化的新范式。NVIDIA 正携手超过 80 家合作伙伴构建涵盖计算、电源、散热和互连的完整生态系统,这场发布被业界视为"AI 工厂操作系统"从概念走向量产的里程碑。
Google DeepMind 发布 Co-Scientist 多智能体系统
基于 Gemini 构建的 Co-Scientist 系统能够生成、辩论和进化科学假设,AI 正在从工具变成研究伙伴。
Google DeepMind 推出 Co-Scientist,一个基于 Gemini 的多智能体系统,旨在成为科研人员的专用 AI 研究伙伴。该系统不同于单纯的文献检索或数据分析工具——它能够针对复杂科学问题自主生成新假设,并通过多智能体之间的辩论与竞争机制不断进化和完善。这种设计模拟了科学共同体内部的同行评议与思想碰撞过程,最终输出经过多轮筛选的高质量假设。Co-Scientist 的发布标志着 AI 在科学发现中的角色从"辅助"向"协作"的根本转变,有望加速从药物发现到材料科学的突破。
OpenAI 推出 Codex Sites,一键将想法变成网站
OpenAI 在 Codex 中推出 Sites 功能,可将工作、想法和计划快速转化为可交互的网站或应用,率先面向 Business 和 Enterprise 计划开放。这一功能大幅降低了从创意到原型的门槛,团队无需编码即可获得可分享的 URL。
StepFun 发布 Step 3.7 Flash,面向快速 Agent 编码
StepFun 推出 Step 3.7 Flash,196B 参数 MoE 模型,每 token 仅激活约 11B 参数,256K 上下文,原生支持分级推理与工具调用,以 Apache 2.0 许可开放。该模型专为代理编码场景优化,在工具调用可靠性上表现突出,已获得 Kilo Code 等团队的深度评测认可。
AI 编码 Agent 让代码量飙升 17.3 倍,但发布仅增 30%
基于 GitHub 数据的大规模研究表明:AI 自动补全使代码量增 2.2 倍,本地 Agent 增 7.4 倍,远程 Agent 增 17.3 倍。然而人为瓶颈——代码审查、测试、集成——导致实际发布量仅提升 30%,揭示出"写得快"与"发得出"之间的结构性断层。
Anthropic 扩展 Project Glasswing,向 15 国开放 Claude Mythos
Claude Mythos Preview 访问权限扩大至 15 个国家约 150 个新组织,Anthropic 同步披露项目未来路线图。
Anthropic 宣布 Project Glasswing 的下一阶段扩展计划,向超过 15 个国家的约 150 个新组织开放 Claude Mythos Preview 的访问权限。这一扩展标志着 Claude 的进阶推理能力正从有限测试走向更广泛的行业验证,Anthropic 同时在博客中暗示了该项目的长期规划。
Claude 推出平台 CLI 工具 ant,所有 API 终端可运行
ant 让开发者从终端调用 Messages API 和 Claude Managed Agents,结果可管道化输出至 shell。
Claude 发布名为 ant 的 CLI 工具,支持从终端直接调用 Messages API、启动 Claude Managed Agents,并将结果以管道方式输出至 shell。ant CLI 已被编码 Agent(如 Claude Code)通过 claude-api skill 良好理解,实现了"用 AI 工具编排 AI 工具"的递归工作流。
Perplexity Computer 将推出混合 Agent 推理
Perplexity 宣布 Computer 支持混合 Agent 推理,将任务拆分至本地模型与云端前沿模型——本地模型处理隐私数据并最大化 token 效率,云端模型提供更大规模与上下文。该架构兼顾效率与隐私,即将上线。
Cursor 团队分享云 Agent 开发一年经验:环境质量是关键
Cursor 团队在博客中总结了为期一年的云 Agent 开发经验,指出优秀的云 Agent 体验远不止将本地 Agent 迁移到服务器——还需要持久执行平台、强大的工具链以及提供真实开发环境的基础设施。环境质量、持久执行和合适的边界设定是提升 Agent 自主性能的核心杠杆。
OpenAI 扩展 Codex 插件,无需编码定制专家助手
Codex 插件系统进一步扩展,支持一次安装即可将 Codex 转化为特定角色的专家助手——覆盖销售、数据分析、创意制作等领域,已接入 62 款流行应用和 110 项技能,完全无需编写代码。
Gemini 2.5 在法律问答中胜率 75%,专家评价危害更小
一项盲法研究将 Gemini 2.5 与法学教授置于同一问答场景——Gemini 取得了 75% 的胜率,且其答案被盲审法学家评定为比人类教授的答案危害更小。这一结果表明大模型在专业领域的可信度正在逼近甚至超越人类专家。
Runway 发布 Aleph 2.0 API,精准视频编辑直达应用
Runway 通过 API 发布了 Aleph 2.0,支持在第三方应用中直接进行精确视频编辑——可处理多镜头 1080p 视频,仅修改目标内容而保留其余画面不变,编辑窗口最长 30 秒。
微软与 NVIDIA 联合发布端到端 Agent AI 开发栈
在 MSBuild 上,微软与 NVIDIA 推出统一的 Agent AI 开发栈,覆盖从 Windows 设备到云到本地的全链路。亮点包括 RTX Spark(专为个人 Agent 设计的 Windows PC)与 NVIDIA NIM,实现每层加速。
LLM 强化学习的规模扩展正在逼近预训练的可预测性——研究者通过超过 40 万 GPU 小时的实验,拟合出 S 形计算-性能曲线,并提出了分析预测 RL 计算扩展的框架 ScaleRL。
MiniMax M3 现已在 GMI Cloud 上提供
MiniMax 的开放权重模型 M3 正式上线 GMI Cloud,支持 1M 上下文、原生多模态和高效推理,成为当前开放权重模型的性能标杆。
NVIDIA MGX 平台亮相 GTC Taipei
黄仁勋展示 MGX 平台,80 多家合作伙伴共同展示面向 Agent 时代构建 AI 工厂的系统方案,涵盖 Vera Rubin 架构与 800 VDC 供电设计。
NVIDIA DGX Station 开始交付,数据中心级性能上桌面
DGX Station 系统已开始送达开发者和研究人员手中,借助 GB300 在桌面端提供数据中心级 AI 性能,合作伙伴包括 ASUS、Dell、HP 等。
区域 AI 领导者借助 NVIDIA Nemotron 推进主权 AI
在 GTC Taipei 上,多国 AI 领导者利用 Nemotron 构建面向本地语言、文化和经济的主权 AI 模型与 Agent 应用,服务全球数十亿用户。
NVIDIA 推出 AI for Media,合成视频检测准确率 92%
AI for Media 平台为媒体工作流带来实时 AI 性能,其中 Synthetic Video Detector 的检测准确率达 92%,延迟低至 22ms,用于 AI 视频真实性校验。
Conductor 编码 Agent 现可远程运行于 Vercel Sandbox
Conductor 的并行编码 Agent 已扩展至 Vercel Sandbox 远程运行,用户关闭电脑后 Agent 仍持续工作——Vercel 表示"SaaS 性能之快让客户感觉不到差异"。该方案已被 Notion、Linear 和 Ramp 等团队采用。
Anthropic 回应白宫 AI 行政命令,表示期待合作
Anthropic 表示欢迎美国白宫签署的 AI 创新与安全行政命令,认为这是加强美国 AI 领导地位的重要一步,并期待与白宫合作推动实施。
JetBrains 开源 Mellum2-12B MoE 模型,仅激活 2.5B 参数
JetBrains 发布 Mellum2-12B-A2.5B-Thinking,12B 参数的 MoE 模型仅激活 2.5B,支持 128K 上下文,代码与自然语言通吃,从第一天起原生兼容 vLLM。
通用原子精度制造是制造业的圣杯——而让这一圣杯成为可能,正是这场 AI 竞赛的核心目标之一。
Claude Code 更新 /fork 命令,支持后台 Agent 执行
新版 /fork 可在后台运行携带完整上下文的 Agent(含 system prompt、工具、历史记录和 prompt cache),结果自动返回当前会话;原功能移至 /branch。
MiniMax-M3 在 Vals AI 榜单排名第六,开放权重新 SOTA
MiniMax-M3 升至 Vals AI 总榜第六位,成为当前性能最强的开放权重模型。
Replit 与微软合作,组织可一键发布工具到 Microsoft Fabric
Replit 宣布与 Microsoft 合作,组织可使用 Replit 构建内部工具、工作流或数据仪表盘,并直接发布到 Microsoft Fabric,内置安全认证和治理。
Perplexity 接入 Apple Health,健康智能功能扩展
Perplexity 新增 Apple Health 连接,用户可在 Computer 中使用睡眠、活动、HRV 数据。同时 Perplexity Health 加入 Function 功能,支持查询生物标记物及血液检测结果。
Perplexity CEO 确认:将引入本地模型在个人硬件上运行 AI
Arav Srinivas 透露 Perplexity Computer 将支持本地模型运行于个人硬件,提供隐私保护和每瓦 token 效率,同时在需要时无缝切换至云端前沿模型。
Codex 角色专属插件上线:数据分析、创意制作与产品设计
OpenAI 发布面向数据分析、创意制作和产品设计的 Codex 角色专属插件,内置该领域工具和上下文——这些插件已由 OpenAI 内部团队实际使用和打磨。
五人在两周内用 Codex 完成全栈产品工作流
五人团队 Proaction 使用 Codex 同时推进销售演示、客户支持跟进、营销物料和工程开发——展示出 AI 原生产品构建的速度优势。
Claude Code 自我检查工作流:让你的 Agent 闭环校验
Claude 团队展示了如何在 Claude Code 中将人工质量检查编码为自动化流程——Claude 在交付前会自行完成校验循环,实现 Agent 工作的自我闭环。
MiniMax 与 BAI 合作为自主 Agent 构建交易层
MiniMax 联手 Web3 API 平台 BAI,为自主 Agent 提供支付、交易与使用服务的交易层——Agent 需要的不只是大脑,还需要能在经济系统中运作。
MiniMax M3 冲向前沿:开放权重模型的新高度
MiniMax 发布 M3 技术演示视频,展示其 1M 上下文和原生多模态能力在实际任务中的表现。
台湾构筑全球 AI 工厂基础设施
台积电、富士康、广达等利用加速计算与数字孪生技术,正将台湾打造成世界 AI 工厂的制造中枢。
HF CEO 呼吁关注美国开源 AI 公司 Arcee
Clement Delangue 表示 Arcee AI 是美国少数优秀的开源 AI 模型公司之一,应获更多行业关注。
MiniCPM-o 4.5 全模态模型集成至 vLLM-Omni
9B 参数全模态模型支持文本/图像/音频/视频输入及语音输出,首批集成实现单工非流式服务。
"YES-CODE":编码 Agent 永久改变了代码的稀缺性
rauchg 指出整个 "no-code" 品类的假设——"代码昂贵、困难、稀缺"——已被编码 Agent 彻底颠覆。
ViBench 成衡量 App 构建能力的专门基准
Replit CEO amasad 指出 SWE benchmark 未必能衡量应用构建能力,ViBench 可以。
Alibaba Wan 作品获北影节 AIGC 短片奖
以离异家庭儿童为题材的 AI 短片荣获第 16 届北京国际电影节 AIGC 单元最佳短片。
Replit 并行 Agent 加速开发流程
Replit 展示如何使用多个并行 Agent 在平台内大幅加速开发速度。
MiniMax MSA 稀疏注意力成技术焦点
M3 的 MiniMax Sparse Attention 不同于压缩 KV cache 的方案,保留完整未压缩 KV 并实现高效注意力计算。