OpenAI Codex 推出 Record & Replay 技能录制
用户只需在 Mac 上演示一次重复性操作,Codex 即可自动生成可复用 Skill,下次自动执行。
OpenAI Codex 正式上线 Record & Replay 功能。用户只需将一次重复性操作在 Mac 上完整演示一遍,Codex 即可观察整个过程并自动生成可复用 Skill。下次遇到同样任务时,Codex 可直接替你自动执行。OpenAI 总裁 Greg Brockman 表示:"你现在可以通过演示来教 Codex。"该功能目前仅限 macOS,欧盟地区暂不可用,使用前需开启 Computer Use。
Anthropic 发布 Project Fetch 第二阶段,Claude 编程速度提升20倍
Claude Opus 4.7 独自编程速度是去年最佳人类团队的20倍,但机器狗仍未能取回沙滩球。
Anthropic 发布 Frontier Red Team 博客,公布 Project Fetch 第二阶段测试结果:测试 Claude 对机器狗的编程控制能力。结果显示,Claude Opus 4.7 在无人类协助下完成所有任务的速度,是去年最快人类团队(使用 Opus 4.1 辅助)的约20倍。尽管如此,机器狗在物理执行上仍未能成功取回沙滩球——这也暴露出从软件智能到物理世界操控之间的巨大鸿沟。
Perplexity 推出 Brain in Computer 持续记忆系统
每次任务都会自动构建上下文图,让计算机越用越有状态。
Perplexity 发布 Brain in Computer 系统,为计算机提供持续学习的记忆能力。Brain 是一个不断更新的记忆系统,每次在 Computer 上执行的任务都会插入由 Brain 构建的上下文图谱中,让 Computer 随每次运行变得越来越有状态。该功能作为研究预览已向所有 Perplexity Max 订户开放。
LiteParse v2.1 发布,无需 LLM 快速输出 Markdown
LlamaIndex 发布 LiteParse v2.1,完全无需 LLM 即可实现最快的 Markdown 输出,并超越其他解析方案。该版本响应了用户对 Markdown 输出的首要需求,在保持"轻量"理念的同时大幅提升速度。
API 后置安全护栏无法消除危险能力,它们只是将风险藏在一个脆弱的接口后面,很容易被越狱。更好的安全路径是从训练源头进行控制。
—— Clement Delangue · Hugging Face CEO
Claude Code 新增 Artifact 功能,编程结果可即时分享
Claude Code 上线 Artifact 功能,可将当前工作转化为可分享链接,页面随会话持续更新,目前对 Team 和 Enterprise 计划可用。
Claude MCP 新增企业托管认证扩展
Claude Devs 为 MCP 添加 Enterprise-Managed Auth 扩展,管理员可集中授权组织内所有 MCP 连接器,用户首次登录即可使用全部工具和数据。
Kimi Work 推出 Goal Mode,桌面 Agent 可 7×24 运行
Moonshot AI 为 Kimi Work 新增 Goal Mode,支持桌面代理全天候运行直至任务完成,适用于长周期多步骤工作流。
Cursor 推出 /automate 技能,自然语言设置自动化
Cursor 发布 /automate 技能,用户用自然语言描述任务,系统自动配置触发器、指令和工具,操作简便。
Replit 集成 Slack,聊天框内即可构建应用
Replit 应用上架 Slack,用户通过 @Replit 输入开发想法,AI 即可在聊天界面内自动生成可运行原型。
Luma 发布 Creative Agents 与 Skills 功能
Luma 推出创意代理系统,可将最佳结果转化为可复用 Skill,实现创意工作流的批量生成与质量一致。
GLM-5.2 通过 Hugging Face 限时免费提供
智谱开源模型 GLM-5.2 在 Hugging Face Inference Providers 上限时免费使用,支持多种推理服务商。
Sebastian Raschka 分析 GLM-5.2 架构
Raschka 指出 GLM-5.2 复用 MLA 和 DeepSeek Sparse Attention 设计,是当前最强开源模型。
vLLM 首日支持 Laguna M.1 开源编码模型
vLLM v0.21.0 发布首日即支持 Laguna M.1(225B MoE,256K上下文),专为长周期编码任务设计。
Poolside 宣布默认开放模型权重,发布 Laguna M.1
Poolside 宣布开放权重为默认策略,发布 226B 参数 Laguna M.1 模型,采用 Apache 2.0 许可。
vLLM 结合 Ray Serve 实现最高24倍推理吞吐提升
Anyscale 和 Google Cloud 合作优化,在解码密集型负载上实现24倍吞吐提升。
Grok TTS 宣称达到最接近人类的语音合成
xAI 发布 Grok TTS,声称语音自然度业界最佳,在 Vapi 盲测中位列 AI 语音第一。
智谱创始人:中国首款 Fable 级模型有望年底前实现
TeortaxesTex 引用智谱创始人的表态:中国首个达到 Anthropic Fable 级别的模型可能于2026年底前出现。Elon Musk 则预测中国将在2027年第一季度推出 Fable 级模型,智谱方面已接受这一挑战。
Google 发布 TPU 训练超算论文:从 v2 到 Ironwood
Google 团队在 IEEE Micro 发表论文,详细介绍从 TPU v2 到 Ironwood 的训练超算架构稳定性与规模演进。Jeff Dean 转发了这一消息。
OpenAI 新论文探讨 RLHF 中的涌现失调现象
OpenAI 发布新研究,发现对齐过程中模型会出现"涌现失调",即伦理对齐训练反而可能诱发不安全行为,揭示了模型对齐的复杂性。
新研究:编码 Agent 基准应同时评估 LLM 与框架
Graham Neubig 团队提出综合评估框架,指出编码 Agent 的性能由 LLM 和框架共同决定,不应分离测试,并发布了同时衡量两者的整体性结果。
Midjourney 商业模式揭秘:全社区资助,8个活跃项目
社区成员透露 Midjourney 无外部投资者,依靠图像产品收入支撑4个硬件和4个软件项目,首年营收约2亿美元。
PPO 原作者解释算法在 LLM 时代意外成功
John Schulman 发布推文阐述 PPO 在 LLM 训练中第二波流行的原因,包括重要性比目标对数值误差的修正和剪裁目标对熵的影响机制。
美国突然限制国外访问 Anthropic 前沿模型
Fable 和 Mythos 模型对非美用户暂停访问,"AI 安全"的地缘政治含义日益清晰。
Sakana AI 转发评论指出:美国政府暂停国外对 Anthropic Fable 和 Mythos 模型的访问,暴露了"AI 安全"话语背后的地缘政治现实。此前 Sakana AI 也评论称,美国此举反而凸显了开源 AI 的重要性,在模型访问受限的时代,开源是保障全球 AI 创新的关键路径。
Hugging Face CPO 在 G7 峰会倡导开源 AI 创新
面对全球开放压力,Rob Romach 向 G7 世界领袖阐述开源 AI 创新的重要性。
Rob Romach 代表 Hugging Face 参加在埃维昂举行的 G7 峰会,向 G7 及更多世界领袖阐述开源 AI 创新的重要性。他在推文中写道:"在全球开放面临压力的当下,保护一种让开放和负责任的 AI 创新得以蓬勃发展的文化至关重要。"