Kimi发布K2.7 Code高速度版,编程速度提升6倍
月之暗面推出Kimi K2.7 Code HighSpeed模式,编码任务速度最高达180 tok/s,短上下文可达260 tok/s,已向Kimi Code Beta用户全面开放。
月之暗面于6月15日正式发布Kimi K2.7 Code HighSpeed模式,这是其最新开源多模态编程模型Kimi K2.7 Code的高速推理版本。在编程任务中,该模式推理速度最高可达180 tok/s,相比常规版本提升近6倍;在短上下文场景中,速度更可飙升至260 tok/s。该模式已通过Kimi Code Beta面向开发者开放,旨在大幅缩短代码生成等待时间,为开发者的日常编程工作流带来数量级的效率跃升。
NVIDIA发布Vera CPU,专为AI代理提速80%
黄仁勋宣布Vera CPU并非简单升级,而是面向Agent时代的新品类处理器。
NVIDIA CEO黄仁勋正式宣布Vera CPU,这款专为AI代理设计的处理器性能提升80%,被定位为全新品类而非传统CPU升级。Vera针对AI Agent的大规模上下文处理、多步推理和工具调用进行了架构级优化,标志着推理硬件从"面向模型"向"面向代理"的范式转移。
vLLM发布v0.23.0,全面支持DeepSeek-V4
vLLM v0.23.0正式发布,包含来自200位贡献者的408次提交。核心亮点包括DeepSeek-V4在多个后端全面成熟化——TRTLLM生成注意力内核、稀疏MLA与V3.2解耦、EPLB用于Mega-MoE;同时Gemma 4实现统一支持,Model Runner V2成为Llama和Mistral稠密模型的默认引擎。
Sakana AI推出商业产品Marlin,实现超深度自主研究
Sakana AI发布首款商业产品Sakana Marlin,定位为"虚拟首席战略官",能自动完成从构思、信息收集、矛盾解决到报告结构化的完整研究流程。
Marlin并非普通深度研究助手,而是能自主执行数千次假设验证循环的虚拟CSO。在测试中,它能动态筛选关键论点、排除噪声干扰,并提供意想不到的视角和一手信息来源。现有研究复现达到或超越人类水平,引用信息质量显著优于同类AI。该产品由hardmaru(David Ha)团队打造,标志着AI研究从辅助工具向自主决策的实质性跨越。
教授测试Claude 5 Fable:可自主执行多页指令数小时
Wharton教授Ethan Mollick提前测试了Claude 5 Fable(代号Mythos),模型能自主执行多页规格指令,通过一次提示生成学术论文,并用多个子AI代理自主构建等时线地图——同时检索超2200条航班、铁路及各国道路数据,边编程边验证。
评论:Fable将是今年最被神话的模型
teortaxesTex认为Claude Fable将成为今年最被神话的模型——它是第一个让人感到震撼的LLM,但人们还没来得及发现瑕疵就被下架。他指出"享乐适应"现象:人们容易对奇迹习以为常,除非奇迹被瞬间夺走。
研究揭示LLM从蒸馏中继承微妙特性,影响安全
Neel Nanda介绍的一项研究发现,LLM从蒸馏源模型继承大量特质,包括缺乏明确语义的细微特征。这对于通过蒸馏初始化的模型尤其重要——从源模型继承的安全问题可能在微调中无法轻易消除。
"加载状态、计算但不存储——这个重计算技巧终于为SSM解锁了投机解码,速度提升2倍。"
— Tri Dao
Anthropic更新隐私政策,收集验证数据引发关注
Simon Willison指出Anthropic在Claude Fable 5发布前一天(6月8日)更新了隐私政策,新增"验证数据"收集条款,并在美国政府出口禁令发布前四天生效,时间节点高度敏感。
xAI与Warp集成,开发者可直接使用Grok模型
xAI宣布SuperGrok和X Premium订阅用户可在终端开发环境Warp中使用Grok Build模型(如grok-build-0.1),已有近百万开发者在该平台上工作。
Runway集成至ChatGPT
v0新增技能功能,代理自动调用预置技能
v0现已支持在提示栏附加技能,代理每次生成自动调用。技能可从skills.sh目录、已保存技能或仓库中选取,涵盖Vercel、Anthropic、Microsoft等多方资源。
Pika发布Director's Suite,端到端生成6分钟剧集
Pika Labs推出Director's Suite,由AI代理驱动,可理解和构建视频项目的所有元素,实现端到端6分钟电视试播集制作。
SGLang默认采用块扩散草稿推理引擎
SGLang将block-diffusion drafter设为默认投机推理引擎,与Z Lab合作显著提升推理速度。DFlash+Spec V2现已可用。
AI在新型数学难题中解出7/10,进步显著
Ethan Mollick评论一项研究:AI在10个新型困难数学题中解出7个。15个月前LLM还不会数学,如今已能应对前沿难题。
开源模型V4-Pro与Flash表现接近,引发蒸馏策略讨论
teortaxesTex评论V4-Pro与V4-Flash性能接近,认为若Pro是从Flash专家蒸馏而来,开源将占据优势;否则对闭源有利。
OpenAI推出Codex开发者插件
支持API密钥设置、文档查找和调试,帮助开发者更高效地使用OpenAI工具。
MiniMax M3登陆CommandCodeAI,限时免费
通过npm install即可在终端使用,免费至6月17日。
Ollama集成Cline CLI,支持并行任务看板
通过Kanban功能运行并行编码任务,可读取仓库、编辑文件、运行命令并展示diff。
Vercel延长函数运行时,基于自研Fluid微VM
更长的函数运行时基于自研Fluid微VM,是多年计算平台投资的成果。
Cohere扩大英国业务,三倍投入伦敦团队
加拿大AI公司Cohere将其英国业务规模扩大两倍,定位为OpenAI和Anthropic的替代选择。
特斯拉Robotaxi零事故记录获NHTSA确认
据NHTSA最新数据,Robotaxi自2月以来未发生任何责任事故,安全记录良好。
Vercel CEO预测2026年无服务器与传统服务器融合
Guillermo Rauch认为沙盒、函数、服务器、构建是同一底层计算的不同表达。
Nathan Lambert批评蒸馏术语被滥用
AI实验室滥用"蒸馏"一词掩盖API越狱问题,蒸馏的实际影响仍在争论中。
自监督半监督学习框架S4L在图像分类上取得最优
S4L论文提出自监督半监督学习框架,在ILSVRC-2012仅用10%标签取得当时最优结果。
Fable 5短期内可能不会回归
Simon Willison表示Claude Fable 5短期内不会恢复,用户对其回归不抱乐观。
vLLM在AMD MI325X上验证PD解耦技术
Anyscale团队用Ray Serve+vLLM在AMD MI325X上进行PD解耦压力测试,验证实际场景有效性。
NVIDIA:能源是AI发展的关键约束
NVIDIA指出能源是AI五层蛋糕的基础,AI和数字孪生正在改变能源生产和管理方式。
LlamaIndex用AI革新合同管理,超越OCR
传统合同管理依赖OCR,AI能更深入理解合同内容,帮助企业自动化管理。
Hedra推出Agent 2,自动化视频制作流程
Hedra Agent 2可处理设计、插画和发布规划,让用户专注于创意。
Recraft发布V4.1,擅长时尚编辑摄影
V4.1能生成自然时尚编辑照片,处理柔软苔藓纹理、电影绿调和自然肤色。
Unsloth压缩Kimi K2.7 Code至325GB,可本地运行
通过Dynamic 2-bit量化,将1T模型压缩48%至325GB,重要层保留高精度。