2026年5月17日 · 星期日

xAI 集成 Grok 与 Hermes Agent

支持 X Premium 订阅与平台搜索能力，Hermes Agent 成为首个获官方接入 Grok 的开源自改善代理

xAI 已将 Grok 与 Nous Research 的开源自改善 Hermes Agent 集成。用户现可在 Hermes Agent 中使用 X Premium 订阅，该代理也获得了搜索 X 平台帖子的能力。这标志着开源 Agent 框架首次获得顶级闭源模型的官方 API 接入，为开发者提供了更灵活的工具链组合。

vLLM v0.21.0 发布

vLLM v0.21.0 带来 KV Offload、HMA、推测解码思考预算、TOKENSPEED_MLA 等新特性，并支持 DeepSeek V4 流水线并行。Mooncake 分布式 KV 与 C++20 迁移成为工程亮点，覆盖从 Blackwell GPU 到推理模型的完整管线优化。

从 Gemma 4 到 DeepSeek V4 —— 现代 LLM 长上下文架构演进图解

视觉解读 LLM 长上下文架构新演进

Sebastian Raschka 发布博客，以 Gemma 4、DeepSeek V4 为例，详解跨层 KV 共享、逐层注意力预算等长上下文效率优化方法

该博客概述了近期开源 LLM 在长上下文效率方面的架构改进，重点分析了四种关键技巧：Gemma 4 的跨层 KV 共享（后层复用前层的键值投影）与逐层嵌入；Laguna XS.2 的逐层注意力预算分配；ZAYA1-8B 的压缩卷积注意力；以及 DeepSeek V4 的多头压缩（mHC）与压缩注意力。这些设计均以降低 KV 缓存大小、内存带宽和注意力计算成本为目标，从而在有限硬件上支持更长的推理上下文。

30B-A3B 推理模型：物理数学奥赛达金牌水平

30B 总参数仅激活 3B 的推理模型，在物理与数学奥林匹克评估中双双斩获金牌级成绩

共一作者发布的 30B-A3B 推理模型采用了稀疏激活架构，以仅 3B 的活跃参数量在物理和数学奥林匹克基准测试中同时达到金牌级别表现，展现了稀疏推理模型在高难度学科推理上的突破潜力。

DCI 检索方法登顶 HF 每日论文榜首

无需嵌入模型或向量索引，以 grep、bash 等通用工具直接搜索原始文本，大幅超越传统基线

DCI（直接语料交互）方法让智能体使用 grep、bash 等通用工具直接搜索原始文本，无需嵌入模型、向量索引或离线索引。在 BRIGHT、BEIR 等多个检索基准和端到端智能体搜索任务中，DCI 显著优于传统稀疏、稠密及重排序基线，平均提升 11% 至 30.7%。研究表明，检索质量不仅依赖推理能力，更取决于模型与语料交互接口的分辨率。

Codex 键盘快捷键现可自定义

OpenAI 根据用户反馈更新 Codex，用户现可在设置中自定义快捷键以匹配个人工作流。

NVIDIA 发布论文审阅数据集

NVIDIA 在 Hugging Face 上发布包含 APRES、Agents4Science 和 Sakana v2 子集的论文审阅数据集。

INF 开源模型登顶文档理解榜

INF 发布 InfiMM 和 InfiMM-Web 两个开源权重模型，在文档理解排行榜上取得领先成绩。

如果你不为自己正在研究的问题本身着迷，你不太可能成功。内在动机远比外部奖励更强大。
— François Chollet

新加坡外长使用 NanoClaw 管理外交与议会事务

新加坡外交部长 Vivian Balakrishnan 在 AI Engineer 大会上公开分享他使用 NanoClaw on Raspberry Pi 的工作流。他通过 WhatsApp 集成和 SQLite 图谱记忆系统，"vibe coding" 出一套涵盖外交沟通、议会事务调度的个人 Agent 工具链，引发社区对 Ai Engineer 进入公权力场景的关注。