MiniMax M3 开源发布:稀疏注意力开启新范式
约428B总参数、23B激活参数,MSA 稀疏注意力架构支持 1M token 上下文,权重已在 Hugging Face 开放。
MiniMax 发布 M3 开源模型,以约 428B 总参数中仅激活 23B 的高效架构,同时覆盖前沿编程、长时智能体任务与原生多模态(文本、图像、视频)。核心创新 MSA 稀疏注意力架构在长序列上实现显著加速。M3 是目前极少数同时具备全部上述能力的开放权重模型。发布当日即获得 SGLang、Fireworks AI、Modular、Unsloth 等多家平台首日支持,NVIDIA 亦提供免费 GPU 加速端点供社区体验。
计算正经历六十年来最大的转变——从检索走向生成,这是一次数万亿美元级别的机遇。
—— 黄仁勋,NVIDIA CEO
Delangue 批评 AI 评估体系偏向闭源 API
路由、降级与集成优化缺乏透明性,开源模型被系统性置于不利位置。
Hugging Face 联合创始人 Clement Delangue 公开质疑当前 AI 评估体系。他指出闭源 API 可通过路由、降级、集成与优化在评估中获得结构性优势,而开源模型缺乏这些隐藏机制。他以 Artificial Analysis 的对比图表为例,质疑"用一个模型对比两个模型"的公平性。Delangue 进一步讨论了"分割谬误":即使去掉降级机制后 Opus 4.8 单项得分较低,总平均分也不一定更高。这番评论引发了模型评估透明度的广泛讨论。
NVIDIA 联合推出首个 Agent 基础设施基准
AgentPerf 专为评估智能体工具使用与上下文迭代能力而设计。
NVIDIA 与 Artificial Analysis 联合发布 AgentPerf,业界首个针对智能体 AI 基础设施的基准。现有基准未考虑智能体链式调用数十甚至上百次模型、使用工具、收集上下文并迭代执行的特点。AgentPerf 专门评估复杂工具调用和长链推理场景下的基础设施表现,标志着 AI 评估从单一模型能力向智能体系统能力的范式转移。
Vercel 发布 HarnessAgent 统一编排抽象层
基于 AI SDK 构建,解除模型与 Agent 锁定,提供跨平台可移植体验。
Vercel 推出 HarnessAgent,一套统一编排抽象,允许开发者将任意 Agent 的"大脑"集成到应用之中。该方案解除模型和 Agent 供应商锁定,在跨平台可移植性之外保持了优雅的开发体验。这一发布标志着 AI 应用开发正在从"选模型"转向"编排 Agent"的新阶段。
Claude Code + Fable 重建失传经典 SimRefinery
基于幸存截图,完整复刻为可玩的 3D 炼油厂模拟,展示 AI 编程能力跃迁。
开发者 Emollick 利用 Claude Code 搭配 Fable,基于 1990 年代 Maxis/Chevron 合作的失传培训游戏 SimRefinery 的幸存截图与文档,成功重建了完整可玩的 3D 版本。新版本包含学习模式与自由建造,采用 three.js 构建,可模拟炼油厂运营、维护和爆炸场景。与 10 个月前旧版对比,AI 编程能力进步惊人。
M3 前沿编程+长时智能体+多模态
仅约 428B 参数、23B 激活,支持 1M 上下文,在开放权重模型中独树一帜。
Gemini Omni Flash 登顶视频生成
在 Video Arena 的文本到视频和图像到视频双项排名中均获第一。
零挫败感的 Vibe Coding 体验
Fable 登陆 Replit 后,CEO 分享首次完全沉浸在编码心流中。
策略梯度系列深度解析
系统介绍 PPO、REINFORCE、RLOO、GRPO 等 RLHF 算法及其实现。
华为在昇腾上预训练大语言模型
使用超节点优化训练,证明国产硬件可完成大模型预训练。
PixVerse Canvas 正式上线 Web
AI 视频生产工作空间,可在同一平台规划、精炼和交付视频内容。
Codex 速率限制重置功能
Go、Plus、Pro、Business 用户可免费获得一次重置,邀请好友可获额外次数。
OpenAI 推出新版文档助手
帮助开发者快速查找产品答案并直接跳转到相关文档页。
Claude Managed Agents 部署指南
新增 Blaxel、E2B、GCP、Namespacelabs、Superserve 等沙盒运行指南。
机器人加速器计划启动
15 家初创获选,将获 AI 栈、Gemini Robotics 和团队支持,为期三个月。
SGLang GB300 NVL72 创纪录
单 GPU 超 12K token/s,驱动 DeepSeek V4 Pro 1.6T 模型推理。
"Loops"开发模式分享
不再传统提示,通过编排并行 Agent、代码验证与安全检查循环工作。
SpenseGPT: 一次性剪枝 GEMM
用于 LLM 推理的实用一次性剪枝方法,支持稀疏与密集 GEMM。
新基准: Agent's Last Exam
针对智能体系统的综合考试,评估多维度推理与执行能力。
前沿模型在医疗上超专用工具
研究比较三种评估,通用前沿 LLM 全面超过临床 AI 工具。