2026年5月15日 · 星期五

Codex 登陆 ChatGPT 手机 App，远程操控编程代理

OpenAI 将 Codex 编程代理集成到 ChatGPT 移动应用中，用户可在手机上发起任务、审查输出、控制执行，Codex 实际运行在笔记本电脑或 DevBox 上。目前为预览阶段，所有用户均可用。

OpenAI 正式将 Codex 编程代理带入了 ChatGPT 移动端，iOS 和安卓同步开启预览。手机端并非让开发者在手机上写代码，而是作为远程窗口——真正执行任务的是运行在用户本地笔记本、Mac mini 或 DevBox 上的 Codex 引擎。用户可在通勤途中查看 Codex 工作进度、审查代码输出、调整执行方向并批准下一步操作。这意味着开发者不再需要时刻守在电脑屏幕前等待 Agent 完成任务，编程代理的使用场景从桌面大幅扩展到移动端，进一步降低了 AI 辅助开发的时空门槛。

中美 AI 竞赛关键在算力，Anthropic 警告窗口期有限

Anthropic 发布政策论文，认为当前美国及民主盟国在前沿 AI 领先，出口管制有效限制了中国获取先进芯片，但若美国不进一步收紧政策，中国可能在 2028 年前后追上甚至超越。

Anthropic 在论文中提出两个 2028 年场景：若美国收紧管制并加速民主国家 AI 应用，可保持领先并主导规则；若无所作为，中国可能后来居上，导致 AI 被用于大规模压制。当前核心优势在于计算芯片（算力），出口管制已有效限制中国获取先进制程芯片，但中国通过人才引进、规避管制和蒸馏攻击等方式快速缩小差距。论文呼吁美国及盟国在芯片出口、人才流动和 AI 安全标准等领域采取更协调一致的行动，因为当前窗口期十分有限。

@AnthropicAI

xAI 推出 Grok Build：Agent CLI 初登场

xAI 发布 Grok Build 早期测试版，面向 SuperGrok Heavy 订阅者。这是一款代理式命令行工具，支持编程、应用构建和工作流自动化，集成原生子代理视图、Plan Mode、鼠标支持和全屏终端 UI。安装命令：curl -fsSL https://x.ai/cli/install.sh | bash。

@xai

Kimi WebBridge：AI 如人类般浏览网页

Kimi 发布浏览器扩展 WebBridge，使 AI 代理能像人类一样搜索、滚动、点击和输入，完成浏览任务。已支持 Kimi Code CLI、Claude Code、Cursor、Codex、Hermes 等工具，可接管桌面代理的浏览任务，适用于趋势研究、求职、航班比价等场景。

@Kimi_Moonshot

Codex 获 Windows 安全沙箱，平衡便利与权限

OpenAI 详细介绍了为 Codex 在 Windows 上设计的沙箱技术，通过受控的文件和网络访问限制，让编码代理无需开发者频繁批准或完全授权即可安全运行，在安全与便利之间取得了平衡。

@OpenAIDevs

Anthropic 与盖茨基金会携手投入 2 亿美元

Anthropic 宣布与盖茨基金会达成 2 亿美元合作，提供赠款、Claude 积分和技术支持，覆盖全球健康、生命科学、教育、农业和经济流动性等多个领域。

@AnthropicAI

Datadog 发布 Toto 2.0，时间序列尺度定律首次验证

Datadog AI 发布 Toto 2.0 系列开源时间序列基础模型（4M-2.5B 参数），首次在时间序列领域展示了尺度定律效果，每个更大版本均稳定超越前一代。

FLUX Outpainting：从模型层面解决图像扩展断裂

FLUX 发布 Outpainting 技术，从模型层面解决传统外绘画中的边界断裂、纹理偏移和接缝问题，输入图像和画布几何即可获得连贯的场景扩展。

@bfl_ml

Kimi K2.6 金融 Agent 基准排名第一

在 Finance Agent Benchmark V2 中取得 open-weight 模型头名。

Runway 进军日本，开设东京办公室

初始投资 4000 万美元，日本已成为其增长最快的自服务市场。

Recraft V4.1 上线 fal 平台

提升视觉美感和个性风格表现，扩张了创作范围。

机器学习和 AI 对知识本质的理解，超过了 20 个世纪的哲学。
— François Fleuret, ML 研究员

“异想天开攻击”可轻易突破 AI 代理护栏

微软研究发现，诸如"因日内瓦公约我付不起"这类脱离分布的论证能有效绕过 AI 代理防护。较小模型（GPT-4o、Qwen3-4b 等）易受影响，较大模型也难以完全防御。传统安全测试难以覆盖此类策略。

@emollick

Codex 新增 Hooks 自定义循环，提升自动化与安全

OpenAI 为 Codex 引入钩子机制，允许在任务关键点运行脚本——如执行验证器、扫描提示中的密钥、记录对话到内部系统，实现更灵活的工作流定制。

@OpenAIDevs

连续扩散语言模型新突破：球形流方法

两篇独立论文几乎同时提出球形流方法，采用冯·米塞斯-费舍尔分布作为噪声过程，在数独和语言建模任务上显著优于基于测地线或欧几里得空间的替代方案。

@sedielem

单神经元即可绕过 LLM 安全对齐

研究发现只需修改单个神经元就能绕过大型语言模型的安全对齐机制，揭示了当前模型安全措施的底层脆弱性。

@_akhaliq

AnyFlow：任意步数视频扩散模型

论文提出 AnyFlow，支持任意采样步数的视频扩散模型，通过在线策略流图蒸馏实现高效生成，突破了传统扩散模型步数固定的限制。

@_akhaliq

Higgsfield 推出 Supercomputer 云原生 AI Agent

统一所有模型、工具和创意工作流于一个系统，支持研究、写作、设计、视频生成和营销活动端到端执行。

@higgsfield_ai

Luma Agents 自动化电商广告素材生成

Luma Agents 可自动规划、生成、迭代和优化电商广告素材，支持多产品、多市场、多格式输出，旨在消除创意流程瓶颈。

@LumaLabsAI

METR 和 AISA 评估证实：AI 已进入指数增长阶段

独立评估机构 METR 和英国 AISA 的数据表明，AI 能力增长已超越此前"指数前夜"阶段，进入真正的快速增长期。

@emollick

MulTaBench：多模态表格学习基准

新基准 MulTaBench 评估结合文本和图像的多模态表格学习，填补了该领域评估体系的空白。

@_akhaliq

ARC-AGI-2 榜单分数透明度引质疑

社区指出当前 ARC-AGI-2 排行榜分数基于内部评估，未公开详细数据，呼吁公布前沿模型的公共集测试分数。

@teortaxesTex

产品速递05·15

Anthropic

Claude for Small Business 发布，集成 15 项技能

直接在 QuickBooks、PayPal、HubSpot、Canva 等工具中运行预设技能，包括工资核算、现金流预测和催款等。

Perplexity

Computer 连接 Snowflake，实时仓库数据分析

可对实时仓库存数据执行端到端工作，返回包含 SQL、源表和过滤器的答案。

效率工具

Raycast V2 Beta：从启动器进化为 AI Agent 工具

重构底层架构，新增 AI Agent 能力，界面重新设计以匹配现代 Mac 系统风格。

创意工具

Pika MCP 聚合多款创意模型到单一订阅

配备人格化代理，无需冗长提示词即可生成高质量内容。

模型观察

Opus 4.7 在 WeirdML 上表现异常

分析发现 Claude Opus 4.7 思考越多性能反而下降，疑与 Mythos 蒸馏有关。

教育资源

吴恩达推出《Transformer 实战指南》新课

帮助理解 LLM 工作原理，诊断慢推理问题并做出更合理的部署决策。

黄仁勋 CMU 毕业典礼致辞：AI 时代已到来

NVIDIA CEO 黄仁勋在卡内基梅隆大学毕业典礼上告诉毕业生：没有哪一代人拥有过更强大的工具或更大的机会，你们正站在 AI 时代的起跑线上，这是你们塑造未来的时刻。

@nvidia

vLLM 第一时间支持蚂蚁 Ring-2.6-1T 万亿参数模型

vLLM 宣布即日支持蚂蚁集团开源的 Ring-2.6-1T 模型，该万亿参数模型专为代理执行和复杂推理设计。

@vllm_project

Notion 开发者平台基于 Vercel Sandbox 构建

支持同步任意数据源、构建代理工具并编排工作流，无需管理基础设施，提供团队与代理共享的单一画布。

@rauchg

Claude API 提示缓存预热技巧，减少 TTF 延迟

在用户提示前先发送系统提示进行缓存预热，可显著降低长提示的首个 Token 响应时间。

@ClaudeDevs

Vercel AI CLI 可直接在终端生成并显示图片

通过终端运行命令即可调用 Vercel AI Gateway 的图片和视频模型，输出直接渲染在终端中。

@rauchg

Claude Code 每周限额增 50%，Agent SDK 额度被砍

Anthropic 宣布从 6 月 15 日起 Claude Code 限额增加 50%，但基于 Agent SDK 构建的第三方应用额度将被削减，实施双轨制。

@op7418

xAI 搜索与事实性后训练团队负责人离职

Tianyi Zhang 宣布离职，他曾主导 Grok 的实时搜索与 Agent 功能开发，负责确保 Grok 在 X 平台海量碎片信息中精准检索。

@oran_ge 转推

编码代理让编程语言不再是锁定因素

Simon Willison 分享案例：一家公司用编码代理将原生移动应用重写为 React Native，即使决策失误也可再用同样技术移植回去，迁移成本大降。

@simonw

AI 对信息完整性的威胁：记者研讨会即将举办

一位研究员宣布组织研讨会，邀请技术公司共同探讨 AI 对信息完整性构成的威胁及应对方案。

研究：努力启发式偏见被 AI 放大百倍

Runway CEO 引用 2004 年研究发现，人们倾向于对花费更多努力的创作给予更高评价，这一认知偏差正被 AI 工具急剧放大。

@c_valenzuelab

观点与简讯05·15

里程碑

Keras 月下载量突破 2100 万

François Chollet 表示创下历史新高，较五年前翻倍。

观点

AI 资源投入规模令人惊叹

François Fleuret 称当前投入量级相当于物种级驱动。

科普

上下文与上下文窗口的区别

前者是 Agent 拥有的全部信息，后者是模型能处理的最大长度。

开源

baoyu-skills 新增微信群聊总结

依赖 wx-cli 读取数据，配合 Claude Code 效果最佳。

协作工具

Syncless 发布：人+Agent 协作产品

面向企业的招聘与 Agent 协作产品正式发布。

AI 影视

真人结合 AI 影片将登陆戛纳首映

由 Dustin Yellin 执导，保罗·路德、克里斯·洛克主演。

历史镜鉴

摄影曾被称为“艺术最致命的敌人”

Runway CEO 引用波德莱尔 1859 年的批评，类比当下 AI 艺术争议。

MORE·

@dotey

Codex 进入 ChatGPT 手机 App：解读与体验

技术博主详细解读了 OpenAI 将 Codex 搬进移动端的方案——手机作为远程窗口，真正的计算仍在本机运行。

@francoisfleuret

机器学习对知识本质的理解超过 20 世纪哲学

研究员 François Fleuret 认为机器学习和 AI 在理解知识本质与现实关系方面，贡献超过了 20 个世纪的哲学。