2026年5月31日 · 星期日

vLLM v0.22.0发布：DeepSeek V4硬化与Rust前端

来自230位贡献者的459次提交，DeepSeek V4硬化成为最大亮点：NVFP4融合MoE、CUDA图完整支持、ROCm接入，实验性Rust前端以in-tree方式交付，批量不变Cutlass FP8将端到端延迟降低28.9%。

vLLM v0.22.0由230位贡献者（其中63位为新贡献者）在459次提交中打磨而成。DeepSeek V4的硬化是本次升级的核心：NVFP4融合MoE将稀疏专家并行效率推向生产级，完整与分段CUDA图模式同时覆盖训练与推理全流程，ROCm支持更是将AMD GPU正式纳入vLLM生产推理生态。实验性Rust前端以in-tree方式随版本发布，为未来低延迟、高并发推理服务栈提供了语言级基础。批量不变的Cutlass FP8量化是本次发布中最具工程价值的突破——端到端延迟降低28.9%，对在线服务场景意义重大。Model Runner V2的持续演进则暗示了下一代推理引擎架构的雏形已现。

NVIDIA发布修复版DeepSeek-V4-Pro-NVFP4模型

@clementdelangue 转推 @julien_c

NVIDIA在Hugging Face上发布了修复版的DeepSeek-V4-Pro-NVFP4模型，旨在通过开源和开放科学推动AI普及。该模型以NVFP4格式量化，面向高性能推理场景，修复了先前版本中的关键问题。

英国AI安全研究所开源评估数据集与模型

英国AI安全研究所在Hugging Face公开了其评估、数据集和模型，涵盖谎言检测数据集、经思维链训练后说谎的模型、欺骗检测探针等，供全球研究人员审查和复现。@clementdelangue 评论称：「AI安全不能关起门来做。」

AI safety can't happen behind closed doors.
@ClementDelangue · Hugging Face CEO

北大数学「黄金二代」苏炜杰官宣加入OpenAI

宾夕法尼亚大学沃顿商学院统计与数据科学系正教授苏炜杰（兼计算机系、数学系、生物统计学系联合教职）已正式加入OpenAI。苏炜杰是斯坦福校友，北大数院「黄金二代」代表人物之一，同时担任宾大机器学习研究中心（PRiML）联合主任。此消息由@yuyy614893671在社交媒体首次披露，引发AI学术界广泛关注。

Codex更新：支持Windows下Computer Use及远程控制

Codex发布大量体验更新，包括支持Windows的Computer Use功能，以及通过移动端ChatGPT远程控制Windows上的Codex。不过与Mac版不同，Windows上的Computer Use在模型操控期间用户无法同时操作。@op7418 评价称：「Windows有救了？」

NVIDIA与阶跃星辰合作在DGX Station运行Step-3.7-Flash

NVIDIA与阶跃星辰合作，在配备Blackwell架构的DGX Station上通过vLLM推理引擎运行Step-3.7-Flash模型，支持本地部署或作为NVIDIA NIM容器在生产环境中使用。

晚交互稀疏检索方法：无监督稀疏自编码器+神经元级倒排索引

提出一种晚交互稀疏检索方法，利用无监督稀疏自编码器和神经元级倒排索引，效果显著优于直接训练的稀疏检索器。@lateinteraction 称其思路由@Veritas2026与@yifeiwang77启发。

Anthropic被指控蒸馏中国模型（Kimi/Qwen），引发热议

有消息称Anthropic的Claude模型可能蒸馏了国内模型Kimi和Qwen，证据逐渐增多，引发业内讨论。@oran_ge 写道：「这魔幻的世界已经难辨真假。」

阶跃星辰Step 3.7 Flash对Hermes Agent用户免费30天

StepFun宣布Step 3.7 Flash模型向NousResearch的Hermes Agent用户免费开放30天。@StepFun_ai 调侃道：「What could possibly go wrong？」

ColBERTv2月下载量达2000万，作者建议迁移至LateOn

ColBERTv2模型月下载量创下新纪录，原作者@lateinteraction建议用户迁移至更新的LateOn colbert模型以获得更好性能。

当前AI模型训练成本估算：最多约10亿美元

@teortaxesTex分析指出，当前一代模型训练成本最多约为10亿美元（以DeepSeek V4 Pro为基准），而非此前流传的20至40亿美元。即便以Mythos估算，最高也仅约10亿。

LangChain报告：三分之一AI团队使用开源权重模型

LangChain最新Signal报告显示，三分之一AI团队运行了开源权重模型，开放模型正迎来高光时刻。@LangChain 称：「Open Models are having a moment。」

代码智能体基准测试任务数过小引担忧

@cwolferesearch指出，当前主流代码智能体基准测试规模太小——DeepSWE仅113个任务，TerminalBench-2.0仅89个任务——影响评估可靠性，呼吁建立更大规模公开基准。

AI 短讯 05·31

观点

Ship the best product. Use lots of AI, some AI, maybe no AI. Just be the best.

@rauchg在社交媒体上发表简洁有力的产品观：交付最好的产品，AI用量可多可少，甚至不用，关键是做到最好。此贴获得1,655个喜欢、157次转发。

工具

AI Gateway推出每API Key消费上限功能

@rauchg宣布AI Gateway新增按API Key设置消费上限的功能，帮助团队管理AI API调用成本。

芯片

TERAFAB目标年产1000至2000亿颗定制AI与存储芯片

@LaceyPresley通过@elonmusk转发透露，TERAFAB全面投产后将年产1000至2000亿颗定制AI与存储芯片。

产品

Grok Build is moving fast

@elonmusk宣布Grok Build进展迅速，获得近28,000个喜欢。

分析

开源与闭源模型之争：智能边际价值的对决

@natolambert发文分析开源vs闭源模型的核心分歧：闭源模型将始终略胜一筹，但开源模型更便宜。关键在于边际智能提升是否具备不成比例的价值。

对比

Claude在技术搜索中表现懒惰，GPT 5.5则极为彻底

@natolambert观察发现，Claude在聊天中（尤其技术搜索主题）表现懒惰，而GPT 5.5及OpenAI近期模型则非常彻底，不会轻易放弃。

推特上的劣质Agent与1991年Word Art如出一辙

@francoisfleuret辛辣点评：推特上制造劣质Agent的人与1991年用Word Art做花哨标题的人属于同一品种，简单将丑陋之物拼凑便自觉了不起。

技术

Immich自托管相册已使用SigLIP进行AI图像搜索

@giffmana在调研自托管相册方案时发现，Immich已使用SigLIP模型进行图像搜索，并计划尝试加入更强版本。

发布

Recraft V4.1达到真实客户交付标准

@recraftai宣布V4.1版本以真实客户交付场景为质量标准，在实际使用中通过了测试。

研究

ESMFold2引起学界热议

@SylvainGariel通过@ylecun转发，讨论ESMFold2引发的研究热潮及其基准测试数据的解读。

学术

如果大家都用AI审稿，至少用个好点的AI

@gneubig感叹：「If everyone is going to use AI to review papers anyway, I wish they would at least use good AI。」

研究

SakanaAI Labs最新研究获Elon Musk关注

@SakanaAILabs发推感谢Elon Musk对其最新研究的关注。@hardmaru进行了转发。