Kimi Work 发布:桌面本地 AI 智能体集群,支持 300 代理并行
Kimi 推出桌面端本地 AI 智能体集群 Kimi Work,可在本机并行运行多达 300 个智能体,并通过 WebBridge 扩展操控浏览器,将云端 Agent 能力带入个人桌面。
Kimi Work 是 Kimi 团队推出的桌面版本地 AI 智能体集群工具。其核心亮点是原生智能体集群架构——最多 300 个 AI 代理可在用户本机并行运行,不再依赖云端 GPU 调度。配合 WebBridge 浏览器扩展,这些代理能够自主导航网页、执行搜索、滚动页面并完成任务。对开发者而言,这意味着在个人笔记本上就能搭建一个轻量级 Agent Farm,用本地算力完成复杂的信息检索与工作流自动化。Kimi Work 的发布标志着 AI 智能体正从云端 API 调用走向本地自主执行,降低了 Agent 部署的门槛与延迟。
Apple 扩展私有云计算至 Google Cloud,采用 NVIDIA GPU
Private Cloud Compute 首次延伸至苹果数据中心之外,携手 Google Cloud 与 NVIDIA,使用 GPU 运行 Apple Intelligence 工作负载,同时保持行业领先的隐私标准。
Apple 宣布将 Private Cloud Compute(PCC)从自有数据中心扩展至第三方基础设施,与 Google Cloud 和 NVIDIA 建立合作,在 Google Cloud Platform 上运行 Apple Intelligence 工作负载并采用 NVIDIA GPU。这是 PCC 架构自发布以来首次突破苹果物理边界。PCC 最初设计用于在苹果自研芯片服务器上以无状态模式处理 AI 请求,保证即便 Apple 自身也无法访问用户数据;此次扩展意味着苹果相信 Google Cloud 的机密计算环境足以承载同样级别的隐私保护。与 NVIDIA 的合作则补齐了苹果在 AI 推理算力上的短板——苹果自研芯片在处理大规模 Transformer 模型时仍面临吞吐量瓶颈,而 NVIDIA GPU 的高内存带宽与成熟推理栈可显著提升 Siri 等服务的响应速度。这一合作信号清晰:Apple 在 AI 基础设施上正从"完全自建"转向"有选择的开放"。
Perplexity 与哈佛联合研究:Computer 智能体完成任务快 87%、成本低 94%
三个月实地研究显示,使用 Computer 自主智能体执行知识工作任务,比传统多步搜索节省 87% 时间,成本降低 94%,用户满意度更优。
Perplexity 与哈佛大学联合发布了一项覆盖三个月实地部署的研究,评估 Computer 自主智能体在真实知识工作场景中的表现。结果令人瞩目:使用 Computer 完成任务比纯搜索方式快 87%,每任务成本降低 94%,且用户满意度更高。研究指出,Computer 智能体不仅能执行多步搜索,还能跨学科整合信息,提供比"人肉搜索"更高的自主性与质量。这项研究被视为 AI 交互从聊天界面迈向自主代理的重要里程碑——用户不再需要逐一提问,而是委托智能体完成整条探究链路。
Sam Altman 公布 OpenAI 当前规划
Sam Altman 发布博文概述 OpenAI 目前的计划,涵盖公司战略方向和使命实现路径。在多位高管近期离职、竞争加剧的背景下,这份规划被视为 OpenAI 试图重新聚焦的战略信号。
Anthropic 探讨 AI 在编程与生物学领域进展差异
Anthropic 发布科学博客,分析 AI 在编程领域迅速进步但在生物学受阻的原因。作者将生物数据库比作"汽车发明之前的城市"——其基础设施并非为 AI 智能体设计。文章呼吁构建智能体可用的生物数据基础设施,以释放 AI 在药物研发和生命科学中的潜力。
Claude Code 一周年回顾:从内部演示到自动模式的进化
Claude Code 团队回顾工具发布一年来的经验演化——首次内部演示仅在 Slack 获得两个回应,如今已成为重要开发工具。团队分享了验证最佳实践、自动模式(auto mode)设计哲学、例程与循环机制,以及未来路线图。
Runway 推出 Aleph 2.0 编辑模型,场景智能填充适应多格式
Runway 发布新编辑模型 Aleph 2.0:用户上传一段视频后,AI 可智能填充扩展场景内容,自动适配任意宽高比,如同拍摄时就已为每个平台定制。这对短剧创作者和社交媒体运营而言是一大利器。
Perplexity "十亿美元建造"大赛:8 强决战 6 月 9 日,奖金 200 万美元
1500 支队伍经过 7 周建设,8 支决赛队伍将于 6 月 9 日现场路演。评审团包括七届 F1 世界冠军 Lewis Hamilton、Perplexity CEO Arav Srinivas 及 Android 联合创始人 Rich Miner。冠军将获得 200 万美元奖金。
Grok Imagine 1.5 登顶图生视频排行榜,ELO 1404
Grok Imagine 1.5 模型正式上线 Higgsfield 平台,在 Artificial Analysis 图生视频排行榜上以 1404 Elo 位列第一。模型在图像细节保真、光影连贯性、布料动态、水面模拟及玻璃渲染方面均有可测量提升。
Ideogram 4.0 发布并开源权重,品牌同步焕新
Ideogram 发布 4.0 模型并以开放权重形式提供,同时携手设计工作室 How&How 打造全新品牌标识与 Logo。开源权重意味着社区可自行部署微调,对中小团队而言是重大利好。
Hugging Face CEO 援引斯坦福研究:本地模型准确率达 71.3%
Clement Delangue 引用斯坦福大学最新研究,显示本地模型在现实聊天和推理查询中的准确率从 2023 年的 23.2% 跃升至 71.3%,而成本仅为前沿 API 的零头。他称这一发现是"叙事破坏"——多数场景并不需要巨型云端模型,本地部署足以胜任。
METR 评估发现:SWEBench 超半数代码不可合并
METR 发布 FrontierCode 评估报告,揭示 SWEBench 中超过一半的 AI 生成代码实际无法被项目合并——它们或是"残次品"级别的垃圾代码。FrontierCode 包含 1000 多个小时人工验证的软件工程任务,目前前沿模型远未有能力解决其中的高质量要求。
vLLM-Omni v0.22.0 发布:支持世界模型与机器人推理
vLLM-Omni 大版本更新,加入对 NVIDIA Cosmos 3 世界模型的全模态支持(文本、图像、音频、视频、动作),并集成 DreamZero 机器人实时 API 和生产级 TTS 服务。
vLLM-Omni GitHub 突破 5000 星,支持 30+ 多模态模型
从社区自发启动到 5K 星,vLLM-Omni 现已支持 Qwen3-Omni、HunyuanImage-3.0、Wan 2.2、Flux2 等 30 多个模型,跨 NVIDIA、AMD、华为昇腾、Intel 多硬件平台运行。
VLA-JEPA 模型发布,视觉-语言-动作联合预测
VLA-JEPA 模型在 LeRobot 机器人框架中正式集成。该模型不仅从观察中学习动作,更具备视觉-语言-动作联合预测能力,Yann LeCun 与 Saining Xie 相继转发关注。
微信将引入 AI Agent 能力,可控制小程序
微信发布《开发者接入微信 AI 生态指引》,引导小程序开发者让 AI 直接操控小程序。社区解读这可能是微信向 AI 入口转型的关键一步——未来用户可通过 AI 代理直接完成任务,无需手动打开小程序。
但亦有评论指出微信格局有限:年轻一代正跳过超级 App,直接向 AI 助手提问。依赖小程序生态的 AI 策略或难适应入口变迁。
DeepSeek 目标建设从兆瓦到吉瓦级 AI 基础设施
分析显示 DeepSeek 正将其基础设施规划从兆瓦级推进至吉瓦级。与业界预期不同,DeepSeek 并未计划采购华为 Ascend 950 预装模块,而是自研全套系统设计。这是 DeepSeek 首次公开其电力规模的明确信号。
Ilya Sutskever 曾暗示存在优于 Shampoo 的优化器
研究者 Arohan 透露,Ilya Sutskever 在 2024 年会议期间即表示存在优于 Shampoo 族(即 Muon 等)的优化器。如今实验证实该优化器相比 AdamW 的提升幅度与 Shampoo 同级。不过 Arohan 也警示领域常有"近邻挖矿"现象:Adam → Badam/Dadam/Madam, Shampoo → Muon → Duon/Buon,而非质疑原始公式是否正确。
OpenAI 和 Anthropic 均已向 SEC 提交机密 S-1 文件
Simon Willison 指出 OpenAI 与 Anthropic 双双提交保密 S-1 申请,其中 Anthropic 于 6 月 1 日提交。两大 AI 领军企业同步走向 IPO 通道,标志着 AI 行业资本化进入新阶段。
沃顿商学院论文:AI 生产力需提升 2.7 倍才能维持科技公司回报
沃顿研究指出,AI 必须快速将生产力提升 2.7 倍,否则科技公司当前巨额投入将面临回报风险。Yann LeCun 转发了该研究,暗示其对行业具有一定的警示意义。
NVIDIA 推动金融交易基础模型,将原始数据转化为智能
NVIDIA 发布基于数十亿金融事件(支付、转账、行为信号)训练的交易基础模型。Revolut 和 Mastercard 等金融机构已在使用 NVIDIA 加速计算训练自有基础模型。
Claude 为 MCP 连接器开发者推出可观测性仪表盘
Claude 新增连接器可观测性仪表盘(Observability Dashboard),面向通过 MCP 将第三方工具和数据接入 Claude 的开发者,帮助他们监控连接器运行状态与性能指标。
Notion 公开批评 Anthropic Opus 4.7/4.8 性能下降
Notion 直接点名 Anthropic 模型性能下降问题,指出 Opus 4.7 和 4.8 的表现不如预期。虽然 Anothropic 表示问题已恢复,但对比 OpenAI 和 Google,Anthropic 连 99% 可用性都难以保证。这引发了对 AI 模型稳定性与商业可靠性的新一轮讨论。
Ethan Mollick 评 Apple Siri AI:本地模型有限需云端补充
Wharton 教授 Ethan Mollick 指出,Apple 上次详细阐述了 Siri 的本地与云端模型分工,但这次信息甚少。在设备端运行 Gemma 级模型固然方便,但若无法在需要时调用更智能的云端模型,能力将严重受限。
Realtime API 开发者构建体验展示
OpenAI Devs 分享了开发者使用 Realtime API 构建的多种应用案例,强调其能力与潜力。
Kimi Code 开源编码智能体重大升级
支持一行 CLI 安装、零配置快速启动,优化开发者体验。
v0 Max 现已由 Claude Opus 4.8 驱动
Vercel v0 Max 底部模型切换至 Claude Opus 4.8,生成能力显著提升。
MMAE:首个大规模多任务音频编辑基准发布
腾讯混元联合多所高校提出 MMAE 基准,首次系统评估语音、音乐、音效等全模态音频编辑能力。
Qwen3.5 首次发布量化检查点
Qwen3.5 系列协同推理引擎设计量化版本,已在 Hugging Face 发布供高效部署。
Mellum2 模型发布,平衡编码与语言性能
Mellum2 在编码和语言任务上表现出色,兼具低延迟高吞吐,已在 Hugging Face 上线。
OpenEnv RL 接口库迁移至 HF 并成立委员会
OpenEnv 现由 Hugging Face 托管,Meta-PyTorch 等组成委员会协调,简化 RL 后训练流程。
Vidu 上线运动控制与风格迁移
参考视频驱动角色动画,加之一键风格迁移,AI 视频创作灵活度大幅提升。
通义万相 Character X:一键生成独特面孔
通义万相新增 Character X 功能,快速创建定制头像、全新角色或独特身份。
NotebookLM 新增跨源文件搜索
Sundar Pichai 转发,NotebookLM 可扩展搜索至用户自有文件之外,增强信息获取。
Graham Neubig 分享个人智能体工作流
从邮件、Slack、GitHub 拉取待办,依优先级排序,逐项委托 AI 处理的日常实践。
DSPy:声明式构建 LLM 应用框架
DSPy 自动处理提示构建与优化,使小型廉价模型有时可达手工提示前沿模型的效果。
SGLang 下载量 3 个月增长 744%,累计 3.04 亿次
推理引擎 SGLang 过去三个月下载量猛增 744%,社区认可度显著提升。
新型卷积权重依赖输入,注重实际性能
该工作类似 Conv 层但权重依赖输入,包含 Triton 内核,兼顾真实时钟时间。
Ascend 950DT 进度提前,HBM 瓶颈有望突破
华为 950DT 计划较去年路线图提前,分析认为是首次解决 HBM 供应问题的信号。
AutoScientist 挑战赛首轮录取已发
自动科学家挑战赛首轮接收通知已发出,周三将进行下一轮评审。
CADGenBench:评估 AI 生成工程级 3D 零件
新基准测试 CADGenBench 评估 AI 系统生成可用于制造的 3D 零件的能力。
GMI Agent Box 发布,面向生产级 AI 智能体
MiniMax 关联产品正式推出,原生 Docker 支持、灵活部署,提供完整智能体基础设施堆栈。
'Build Small' 黑客松启动,推广 MiniCPM 小模型
OpenBMB 发起黑客松,推荐 MiniCPM 系列在小设备上本地运行,提供免费 API。
Recraft V4.1 成为 Logo 设计师新宠
Recraft V4.1 在 Logo 设计领域获好评,成为设计师常用的 AI 工具。
多模型工作负载成 AI 成熟标志
Clement Delangue 表示更多公司使用数十种模型并进行后训练和优化。
Nathan Lambert:持续学习痴迷走偏了
Lambert 认为 AI 领域太执着于弥补弱点而非聚焦优势。
评论:微信格局有限,未来入口属性减弱
dotey 认为微信试图让 AI 操作小程序是局限的,未来用户将通过 AI 直接获取信息。
Brian Armstrong:80% 负载将用最便宜模型
Coinbase CEO 猜测对智能需求无限,但大部分工作会用便宜模型处理。
长时间运行 Agent 需自验证,否则仅是浪费 Token
dotey 强调智能体长时间运行时的自我验证能力是关键。
一年前我们最接近智能体的是 o3
Ethan Mollick 回顾称一年前 AI 智能体的标杆仍是 o3,发展速度惊人。
Demis Hassabis 预测新文艺复兴时代
Nobel 奖得主认为未来十年 AI 将推动人类知识全面进步。
François Chollet 回顾神经网络框架史
从纯 C 到 Theano 的编程经历,强调好框架注重好的 API 设计原则。
Clement Delangue 飞行中用本地 AI 和 llamacpp
无网络飞行中依靠本地 AI 和 llamacpp,凸显本地模型实用性。
MiniMax-M3 在 Artificial Analysis 指数中得分 55
MiniMax-M3 取得 55 分,权重即将开放,有望成为领先模型。