Google DeepMind 发布 Nano Banana 2 Lite 与 Gemini Omni Flash
Google 推出最快的 Gemini 图像模型和视频生成编辑模型,已通过 API 和 AI Studio 提供。
Nano Banana 2 Lite 是 Google 最快最便宜的 Gemini 图像模型,生成一张图像仅需约 4 秒,每张 0.034 美元(模型 ID:gemini-3.1-flash-lite-image);Gemini Omni Flash 则面向开发者支持高质量视频生成与编辑,已通过 Gemini API 和 Google AI Studio 提供。两项发布标志着 Google 在多模态生成 AI 领域的加速布局,Runway 等第三方平台已同步接入。
美国商务部解除对 Fable 5 与 Mythos 5 出口管制
Anthropic 宣布收到美国商务部通知,已正式解除对 Claude Fable 5 和 Mythos 5 的出口管制,相关访问权限将于明天起恢复。Anthropic 在公告中对用户的耐心和在此期间提供支持的各方表示感谢。此次管制解除预计将加速 Anthropic 两大旗舰模型在全球市场的部署。
NVIDIA 推理软件令 DeepSeek V4 性能提升 5 倍
NVIDIA 宣布通过 Blackwell 平台上的软件优化,仅一个月内就将 DeepSeek V4 推理性能提升高达 5 倍,令牌成本降至之前约五分之一。这表明推理软件持续优化可在硬件部署后大幅降低运营成本。
OpenAI 推出 GeneBench-Pro 生物数据基准
OpenAI 发布 GeneBench-Pro,一个旨在衡量智能体处理复杂生物数据、选择分析路径并做出判断的高难度基准。该基准聚焦于真实计算研究中所需的决策能力,标志着 AI 在生命科学领域评估体系的重要进展。
Vercel 与 Shopify 重建 Hydrogen:Agent 优先
Vercel 宣布与 Shopify 合作,从零重建开源无头电商框架 Hydrogen。新版以 Agent 优先、运行时无关,支持任何 JavaScript 环境。Vercel 作为该项目设计合作伙伴提供支持,现已推出基于 Next.js 的开发者预览版。
ASPIRE:机器人技能库自我进化,积累永不归零
研究者提出 ASPIRE 框架,让机器人通过编码代理观察多模态感官痕迹,自动生成并累积可复用的技能。当机器人解决第 100 个任务时,不再像第一个那样生疏,而是能调用此前积累的技能库。该框架从仿真和真实机器人两个维度获取感官数据,使技能库能够无限期自我进化与复合增长。
循环(Loop)已成为智能体在软件构建中长程迭代的关键。Claude Code 的创建者 Boris Cherny 和 OpenClaw 的创建者 Peter Steinberger 在社交媒体上提及后,"Loop Engineering"成为热门概念。
吴恩达(Andrew Ng)
vLLM 开源语义路由器:按意图智能路由 LLM 查询
vLLM 推出基于混合模型(MoM)架构的开源语义路由器 vLLM-SR,根据请求意图将 LLM 查询分发给最合适模型,实现资源优化分配,支持文本分类与 PII 检测,开发者可像自定义代码一样定制路由策略。
Claude Desktop 推出 Linux 公测版
Claude Desktop 现已在 Ubuntu 和 Debian 上推出公测版,付费用户可在桌面体验 Claude Code、Claude Cowork 和聊天功能。至此开发者可在浏览器、终端和桌面三端获得一致的 Claude 使用体验。
Cursor 接入 Claude Sonnet 5,性能提升明显
Claude Sonnet 5 已可在 Cursor 中使用,在 CursorBench 上得分 57%,比 Sonnet 4.6 的 49% 有显著提升。Sonnet 5 被定位为从 4.6 的"有意义的一步提升"。
OpenAI 排查数据基础设施崩溃:发现隐藏 18 年的开源 Bug
OpenAI 分享了排查数据基础设施一年来持续崩溃的经验。团队在硬件中发现一个问题,同时在开源代码中发现一个存在 18 年从未被注意的 Bug,核心转储流行病学般的排查过程最终定位了根因。
Anthropic 发布 Claude Science:面向科学家的 AI 工作台
Anthropic 推出 Claude Science,定位为生命科学领域的 Claude Code,旨在复制 Claude Code 在编程领域改变开发者工作方式的效果。CEO Dario Amodei 认为该产品能在生命科学领域产生同样深远的影响。
开源项目《Claude Code From Scratch》用 4300 行代码复现核心架构
该电子书提供 TypeScript 和 Python 双版本,以约 4300 行代码复现 Claude Code 的核心 Agent Loop、13 个工具(含并行执行)等功能,让开发者无需阅读 50 万行源码即可理解其架构。
Vercel Services 统一部署前后端
Vercel Services 允许将前端和多个后端服务作为单一项目部署,支持原子化部署回滚、单个预览 URL 及服务间私有网络,路由与环境变量自动配置。
Seed Audio 1.0 支持变声与多语言配音
Higgsfield 推出 Seed Audio 1.0 音频模型,支持改变声音、文本叙述和视频配音成 18 种语言,已上线平台和 Claude MCP。
Simon Willison 解析 Sonnet 5 Tokenizer 成本变化
Claude Sonnet 5 新分词器使英语输入成本增加约 1.4 倍,西班牙语增 1.33 倍,中文几乎不变。API 不再支持 temperature 等采样参数,默认开启自适应思考。
Ethan Mollick:AI 能力提升导致工作方式突变
AI 单次提示可完成的人类编程工时持续攀升,Opus 4.7 独立运行 14 小时完成需 2-17 周的工作。OpenAI 内部 25% 员工每周同时运行超 4 个智能体。
Claude Managed Agents 多项更新上线
新增流式会话增量、按会话代理覆盖、新 webhook 事件类型、反向分页及凭据注入范围控制等功能。
Seedance 2.0 Mini 快速视频生成上线
Luma 发布 Seedance 2.0 Mini,支持快速生成视频并在同一画布中迭代精炼,借助 Luma Agents 在创意各阶段规划生成。
LlamaParse MCP:Agent 可提取结构化数据
LlamaParse MCP 现在不仅解析分类文件,还能自动从合同、发票、报告中提取结构化数据,让智能体直接访问知识库。
Claude Sonnet 5 登陆 Perplexity
Perplexity 面向 Pro 和 Max 订阅者提供 Claude Sonnet 5,并可将其选为 Computer 中的 orchestrator 模型。
桥水基金通过 Tinker 微调模型筛选金融新闻
桥水作为 Tinker 客户分享微调经验,其定制模型在关注有趣金融新闻方面效果优于任何前沿模型且成本更低。
OSWorld2.0:长时程真实世界任务基准
OSWorld2.0 发布,面向长期真实世界任务,用于评估计算机使用智能体在多步骤现实场景中的性能。
Ornith-1.0-35B 在 Claude Code 中可用
Ornith-1.0-35B 模型通过 hf-claude 集成到 HuggingFace Claude 中,用户可直接在 Claude Code 中调用该模型。
《从零构建推理模型》出版:440 页全彩
作者 rasbt 历时 18 个月写作出版《Build a Reasoning Model (From Scratch)》,涵盖推理缩放、强化学习和蒸馏技术,440 页全彩。
小米 MiMo 代码库含持久 Agent 提示 "beast.txt"
小米 MiMo 代码中公开多种模型系统提示词,包括为极其持久自主 Agent 设计的 beast.txt,强调"必须迭代直至问题解决"。
Claude Code 被指控给中国代理用户"打水印"
Reddit 和 GitHub 报告指 Claude Code 会检查用户是否通过中国代理访问,并在系统提示词中嵌入几乎不可见的 Unicode 标记。
特斯拉 Cybercab 无方向盘在奥斯汀行驶
马斯克发布 Cybercab 在奥斯汀行驶视频,该车无方向盘和踏板,展示特斯拉全自动驾驶进展。
OpenAI Devs 谈 Agent 工程新方向
随着智能体承担更长期工作,工程转向设定方向、审查工作以及围绕模型设计更好的系统。
Runway 集成 Gemini Omni Flash 视频生成
Runway 现支持使用 Gemini Omni Flash 通过提示词、图片或视频生成并编辑视频,用户可通过 Agent 使用该模型。
Runway 与日本游戏巨头 MIXI 达成战略合作
Runway 宣布与日本游戏娱乐公司 MIXI 合作,共同探索世界模型在游戏等领域的应用。
Kling AI 作品在戛纳狮子奖摘三座奖杯
Kling AI 制作影片获得电影类银奖和 AI 工艺类铜奖,标志着 AI 生成内容在创意领域的认可。
Step 3.7 Flash 在 OpenRouter 月度使用量排名前十
本月处理 4.29T token,被开发者用于真实智能体任务、编码和长上下文工作流。
Replit CEO:Etched 是首个为现代推理设计的芯片
Replit CEO 指出 AI 运行昂贵部分因为大多工作负载运行在通用硬件上,Etched 是从头为现代推理设计的首个系统。
Tri Dao 推荐:开放/封闭模型经济学分析文章
Tri Dao 推荐了一篇分析开放与封闭模型经济可持续性的文章,帮助理解不同模式背后的经济逻辑。
Tri Dao 评 Etched:定制硬件将智能成本降低 10 倍
Tri Dao 赞叹 Etched 两年内完成芯片设计与流片,将注意力硬编码进硅片,有望将智能成本降低 10 倍。
Natolambert 参访美团:各类公司投身模型开发
Natolambert 称美团是优秀的开放模型构建者,展示了各类型公司如何在 AI 领域取得成功的路径。
LongCat-2.0 模型即将在 Hugging Face 发布
LongCat-2.0 即将上架 Hugging Face,具体细节待公布。
代码世界模型能否提升编码智能体?研究显示可以
研究者探讨代码世界模型,认为编码智能体与具身智能体类似,世界模型可提升其在终端环境中的表现。
前 Gemini 员工赞赏 Etched 芯片流片与基准表现
曾任职 Gemini 的研究者对 Etched 展示印象深刻,芯片已流片并展示实时基准,同时希望芯片不限于推理用途。
shot-scraper 新增视频录制,支持 Storyboard
Simon Willison 的浏览器自动化工具 shot-scraper 1.10 新增 video 命令,可通过 storyboard YAML 文件录制 Web 应用演示视频。
Ethan Mollick:高智能 AI 需新组织设计捕获价值
Mollick 提出未来企业需像拥有高人力资本那样设计组织,以捕获强大 AI 带来的价值。
LLM 通用性:提升编码也改善伦理与医学
Ethan Mollick 指出更大 LLM 在编码、构思、伦理和数学上同步提升,这种通用性非常特别。
Twitter 推出 MCP 协议,AI 可自动整理分析数据
Twitter MCP 接口开放,用户可让 AI 自动整理、总结和分析推文数据,需注册 Twitter API 并按量付费。
Cursor iOS 版上线,锁屏可显示进度并发送截图
Cursor 推出 iOS 版,完成度高,锁屏展示任务进度,完成后发送界面视频和图片供用户审核。
如何用 AI Agent 为微服务做系统设计
开发者提出将多微服务放同一 workspace 并配文档,让 AI 了解职责边界实现合理设计。
Epoch AI:美国最大 GPU 集群近 100 万 H100
Epoch AI 开放数据库利用卫星数据展示 AI 数据中心算力与能耗,美国最大集群接近 100 万块 H100 GPU。
Etched 芯片:10 倍推理速度,10 亿美元订单
Etched 从几年前首次被关注到如今拥有 10 亿美元订单和 10 倍于竞争对手的推理速度,创新速度令人震撼。