2026年6月16日 · 星期二

Kimi发布K2.7 Code高速度版，编程速度提升6倍

月之暗面推出Kimi K2.7 Code HighSpeed模式，编码任务速度最高达180 tok/s，短上下文可达260 tok/s，已向Kimi Code Beta用户全面开放。

Kimi K2.7 Code HighSpeed模式现已上线Kimi Code Beta

月之暗面于6月15日正式发布Kimi K2.7 Code HighSpeed模式，这是其最新开源多模态编程模型Kimi K2.7 Code的高速推理版本。在编程任务中，该模式推理速度最高可达180 tok/s，相比常规版本提升近6倍；在短上下文场景中，速度更可飙升至260 tok/s。该模式已通过Kimi Code Beta面向开发者开放，旨在大幅缩短代码生成等待时间，为开发者的日常编程工作流带来数量级的效率跃升。

NVIDIA发布Vera CPU，专为AI代理提速80%

黄仁勋宣布Vera CPU并非简单升级，而是面向Agent时代的新品类处理器。

NVIDIA CEO黄仁勋正式宣布Vera CPU，这款专为AI代理设计的处理器性能提升80%，被定位为全新品类而非传统CPU升级。Vera针对AI Agent的大规模上下文处理、多步推理和工具调用进行了架构级优化，标志着推理硬件从"面向模型"向"面向代理"的范式转移。

vLLM发布v0.23.0，全面支持DeepSeek-V4

vLLM v0.23.0 发布，408次提交，200位贡献者参与

vLLM v0.23.0正式发布，包含来自200位贡献者的408次提交。核心亮点包括DeepSeek-V4在多个后端全面成熟化——TRTLLM生成注意力内核、稀疏MLA与V3.2解耦、EPLB用于Mega-MoE；同时Gemma 4实现统一支持，Model Runner V2成为Llama和Mistral稠密模型的默认引擎。

Sakana AI推出商业产品Marlin，实现超深度自主研究

Sakana AI发布首款商业产品Sakana Marlin，定位为"虚拟首席战略官"，能自动完成从构思、信息收集、矛盾解决到报告结构化的完整研究流程。

Marlin并非普通深度研究助手，而是能自主执行数千次假设验证循环的虚拟CSO。在测试中，它能动态筛选关键论点、排除噪声干扰，并提供意想不到的视角和一手信息来源。现有研究复现达到或超越人类水平，引用信息质量显著优于同类AI。该产品由hardmaru（David Ha）团队打造，标志着AI研究从辅助工具向自主决策的实质性跨越。

教授测试Claude 5 Fable：可自主执行多页指令数小时

Wharton教授Ethan Mollick提前测试了Claude 5 Fable（代号Mythos），模型能自主执行多页规格指令，通过一次提示生成学术论文，并用多个子AI代理自主构建等时线地图——同时检索超2200条航班、铁路及各国道路数据，边编程边验证。

评论：Fable将是今年最被神话的模型

teortaxesTex认为Claude Fable将成为今年最被神话的模型——它是第一个让人感到震撼的LLM，但人们还没来得及发现瑕疵就被下架。他指出"享乐适应"现象：人们容易对奇迹习以为常，除非奇迹被瞬间夺走。

研究揭示LLM从蒸馏中继承微妙特性，影响安全

Neel Nanda介绍的一项研究发现，LLM从蒸馏源模型继承大量特质，包括缺乏明确语义的细微特征。这对于通过蒸馏初始化的模型尤其重要——从源模型继承的安全问题可能在微调中无法轻易消除。

"加载状态、计算但不存储——这个重计算技巧终于为SSM解锁了投机解码，速度提升2倍。"
— Tri Dao

Anthropic更新隐私政策，收集验证数据引发关注

Simon Willison指出Anthropic在Claude Fable 5发布前一天（6月8日）更新了隐私政策，新增"验证数据"收集条款，并在美国政府出口禁令发布前四天生效，时间节点高度敏感。

xAI与Warp集成，开发者可直接使用Grok模型

xAI宣布SuperGrok和X Premium订阅用户可在终端开发环境Warp中使用Grok Build模型（如grok-build-0.1），已有近百万开发者在该平台上工作。

Runway现已内置于ChatGPT

Runway集成至ChatGPT

v0新增技能功能，代理自动调用预置技能

v0现已支持在提示栏附加技能，代理每次生成自动调用。技能可从skills.sh目录、已保存技能或仓库中选取，涵盖Vercel、Anthropic、Microsoft等多方资源。

Pika发布Director's Suite，端到端生成6分钟剧集

Pika Labs推出Director's Suite，由AI代理驱动，可理解和构建视频项目的所有元素，实现端到端6分钟电视试播集制作。

SGLang默认采用块扩散草稿推理引擎

SGLang将block-diffusion drafter设为默认投机推理引擎，与Z Lab合作显著提升推理速度。DFlash+Spec V2现已可用。

AI在新型数学难题中解出7/10，进步显著

Ethan Mollick评论一项研究：AI在10个新型困难数学题中解出7个。15个月前LLM还不会数学，如今已能应对前沿难题。

开源模型V4-Pro与Flash表现接近，引发蒸馏策略讨论

teortaxesTex评论V4-Pro与V4-Flash性能接近，认为若Pro是从Flash专家蒸馏而来，开源将占据优势；否则对闭源有利。

产品与发布06·16

OpenAI推出Codex开发者插件

支持API密钥设置、文档查找和调试，帮助开发者更高效地使用OpenAI工具。

MiniMax M3登陆CommandCodeAI，限时免费

通过npm install即可在终端使用，免费至6月17日。

Ollama集成Cline CLI，支持并行任务看板

通过Kanban功能运行并行编码任务，可读取仓库、编辑文件、运行命令并展示diff。

Vercel延长函数运行时，基于自研Fluid微VM

更长的函数运行时基于自研Fluid微VM，是多年计算平台投资的成果。

Cohere扩大英国业务，三倍投入伦敦团队

加拿大AI公司Cohere将其英国业务规模扩大两倍，定位为OpenAI和Anthropic的替代选择。

特斯拉Robotaxi零事故记录获NHTSA确认

据NHTSA最新数据，Robotaxi自2月以来未发生任何责任事故，安全记录良好。

Vercel CEO预测2026年无服务器与传统服务器融合

Guillermo Rauch认为沙盒、函数、服务器、构建是同一底层计算的不同表达。

Nathan Lambert批评蒸馏术语被滥用

AI实验室滥用"蒸馏"一词掩盖API越狱问题，蒸馏的实际影响仍在争论中。

研究前沿06·16

自监督半监督学习框架S4L在图像分类上取得最优

S4L论文提出自监督半监督学习框架，在ILSVRC-2012仅用10%标签取得当时最优结果。

Fable 5短期内可能不会回归

Simon Willison表示Claude Fable 5短期内不会恢复，用户对其回归不抱乐观。

vLLM在AMD MI325X上验证PD解耦技术

Anyscale团队用Ray Serve+vLLM在AMD MI325X上进行PD解耦压力测试，验证实际场景有效性。

NVIDIA：能源是AI发展的关键约束

NVIDIA指出能源是AI五层蛋糕的基础，AI和数字孪生正在改变能源生产和管理方式。

LlamaIndex用AI革新合同管理，超越OCR

传统合同管理依赖OCR，AI能更深入理解合同内容，帮助企业自动化管理。

Hedra推出Agent 2，自动化视频制作流程

Hedra Agent 2可处理设计、插画和发布规划，让用户专注于创意。

Recraft发布V4.1，擅长时尚编辑摄影

V4.1能生成自然时尚编辑照片，处理柔软苔藓纹理、电影绿调和自然肤色。

Unsloth压缩Kimi K2.7 Code至325GB，可本地运行

通过Dynamic 2-bit量化，将1T模型压缩48%至325GB，重要层保留高精度。