Codex 登陆 ChatGPT 手机 App,远程操控编程代理
OpenAI 将 Codex 编程代理集成到 ChatGPT 移动应用中,用户可在手机上发起任务、审查输出、控制执行,Codex 实际运行在笔记本电脑或 DevBox 上。目前为预览阶段,所有用户均可用。
OpenAI 正式将 Codex 编程代理带入了 ChatGPT 移动端,iOS 和安卓同步开启预览。手机端并非让开发者在手机上写代码,而是作为远程窗口——真正执行任务的是运行在用户本地笔记本、Mac mini 或 DevBox 上的 Codex 引擎。用户可在通勤途中查看 Codex 工作进度、审查代码输出、调整执行方向并批准下一步操作。这意味着开发者不再需要时刻守在电脑屏幕前等待 Agent 完成任务,编程代理的使用场景从桌面大幅扩展到移动端,进一步降低了 AI 辅助开发的时空门槛。
中美 AI 竞赛关键在算力,Anthropic 警告窗口期有限
Anthropic 发布政策论文,认为当前美国及民主盟国在前沿 AI 领先,出口管制有效限制了中国获取先进芯片,但若美国不进一步收紧政策,中国可能在 2028 年前后追上甚至超越。
Anthropic 在论文中提出两个 2028 年场景:若美国收紧管制并加速民主国家 AI 应用,可保持领先并主导规则;若无所作为,中国可能后来居上,导致 AI 被用于大规模压制。当前核心优势在于计算芯片(算力),出口管制已有效限制中国获取先进制程芯片,但中国通过人才引进、规避管制和蒸馏攻击等方式快速缩小差距。论文呼吁美国及盟国在芯片出口、人才流动和 AI 安全标准等领域采取更协调一致的行动,因为当前窗口期十分有限。
xAI 推出 Grok Build:Agent CLI 初登场
xAI 发布 Grok Build 早期测试版,面向 SuperGrok Heavy 订阅者。这是一款代理式命令行工具,支持编程、应用构建和工作流自动化,集成原生子代理视图、Plan Mode、鼠标支持和全屏终端 UI。安装命令:curl -fsSL https://x.ai/cli/install.sh | bash。
Kimi WebBridge:AI 如人类般浏览网页
Kimi 发布浏览器扩展 WebBridge,使 AI 代理能像人类一样搜索、滚动、点击和输入,完成浏览任务。已支持 Kimi Code CLI、Claude Code、Cursor、Codex、Hermes 等工具,可接管桌面代理的浏览任务,适用于趋势研究、求职、航班比价等场景。
Codex 获 Windows 安全沙箱,平衡便利与权限
OpenAI 详细介绍了为 Codex 在 Windows 上设计的沙箱技术,通过受控的文件和网络访问限制,让编码代理无需开发者频繁批准或完全授权即可安全运行,在安全与便利之间取得了平衡。
Anthropic 与盖茨基金会携手投入 2 亿美元
Anthropic 宣布与盖茨基金会达成 2 亿美元合作,提供赠款、Claude 积分和技术支持,覆盖全球健康、生命科学、教育、农业和经济流动性等多个领域。
Datadog 发布 Toto 2.0,时间序列尺度定律首次验证
Datadog AI 发布 Toto 2.0 系列开源时间序列基础模型(4M-2.5B 参数),首次在时间序列领域展示了尺度定律效果,每个更大版本均稳定超越前一代。
FLUX Outpainting:从模型层面解决图像扩展断裂
FLUX 发布 Outpainting 技术,从模型层面解决传统外绘画中的边界断裂、纹理偏移和接缝问题,输入图像和画布几何即可获得连贯的场景扩展。
Kimi K2.6 金融 Agent 基准排名第一
在 Finance Agent Benchmark V2 中取得 open-weight 模型头名。
Runway 进军日本,开设东京办公室
初始投资 4000 万美元,日本已成为其增长最快的自服务市场。
Recraft V4.1 上线 fal 平台
提升视觉美感和个性风格表现,扩张了创作范围。
机器学习和 AI 对知识本质的理解,超过了 20 个世纪的哲学。
— François Fleuret, ML 研究员
“异想天开攻击”可轻易突破 AI 代理护栏
微软研究发现,诸如"因日内瓦公约我付不起"这类脱离分布的论证能有效绕过 AI 代理防护。较小模型(GPT-4o、Qwen3-4b 等)易受影响,较大模型也难以完全防御。传统安全测试难以覆盖此类策略。
Codex 新增 Hooks 自定义循环,提升自动化与安全
OpenAI 为 Codex 引入钩子机制,允许在任务关键点运行脚本——如执行验证器、扫描提示中的密钥、记录对话到内部系统,实现更灵活的工作流定制。
连续扩散语言模型新突破:球形流方法
两篇独立论文几乎同时提出球形流方法,采用冯·米塞斯-费舍尔分布作为噪声过程,在数独和语言建模任务上显著优于基于测地线或欧几里得空间的替代方案。
单神经元即可绕过 LLM 安全对齐
研究发现只需修改单个神经元就能绕过大型语言模型的安全对齐机制,揭示了当前模型安全措施的底层脆弱性。
AnyFlow:任意步数视频扩散模型
论文提出 AnyFlow,支持任意采样步数的视频扩散模型,通过在线策略流图蒸馏实现高效生成,突破了传统扩散模型步数固定的限制。
Higgsfield 推出 Supercomputer 云原生 AI Agent
统一所有模型、工具和创意工作流于一个系统,支持研究、写作、设计、视频生成和营销活动端到端执行。
Luma Agents 自动化电商广告素材生成
Luma Agents 可自动规划、生成、迭代和优化电商广告素材,支持多产品、多市场、多格式输出,旨在消除创意流程瓶颈。
METR 和 AISA 评估证实:AI 已进入指数增长阶段
独立评估机构 METR 和英国 AISA 的数据表明,AI 能力增长已超越此前"指数前夜"阶段,进入真正的快速增长期。
MulTaBench:多模态表格学习基准
新基准 MulTaBench 评估结合文本和图像的多模态表格学习,填补了该领域评估体系的空白。
ARC-AGI-2 榜单分数透明度引质疑
社区指出当前 ARC-AGI-2 排行榜分数基于内部评估,未公开详细数据,呼吁公布前沿模型的公共集测试分数。
Claude for Small Business 发布,集成 15 项技能
直接在 QuickBooks、PayPal、HubSpot、Canva 等工具中运行预设技能,包括工资核算、现金流预测和催款等。
Computer 连接 Snowflake,实时仓库数据分析
可对实时仓库存数据执行端到端工作,返回包含 SQL、源表和过滤器的答案。
Raycast V2 Beta:从启动器进化为 AI Agent 工具
重构底层架构,新增 AI Agent 能力,界面重新设计以匹配现代 Mac 系统风格。
Pika MCP 聚合多款创意模型到单一订阅
配备人格化代理,无需冗长提示词即可生成高质量内容。
Opus 4.7 在 WeirdML 上表现异常
分析发现 Claude Opus 4.7 思考越多性能反而下降,疑与 Mythos 蒸馏有关。
吴恩达推出《Transformer 实战指南》新课
帮助理解 LLM 工作原理,诊断慢推理问题并做出更合理的部署决策。
黄仁勋 CMU 毕业典礼致辞:AI 时代已到来
NVIDIA CEO 黄仁勋在卡内基梅隆大学毕业典礼上告诉毕业生:没有哪一代人拥有过更强大的工具或更大的机会,你们正站在 AI 时代的起跑线上,这是你们塑造未来的时刻。
vLLM 第一时间支持蚂蚁 Ring-2.6-1T 万亿参数模型
vLLM 宣布即日支持蚂蚁集团开源的 Ring-2.6-1T 模型,该万亿参数模型专为代理执行和复杂推理设计。
Notion 开发者平台基于 Vercel Sandbox 构建
支持同步任意数据源、构建代理工具并编排工作流,无需管理基础设施,提供团队与代理共享的单一画布。
Claude API 提示缓存预热技巧,减少 TTF 延迟
在用户提示前先发送系统提示进行缓存预热,可显著降低长提示的首个 Token 响应时间。
Vercel AI CLI 可直接在终端生成并显示图片
通过终端运行命令即可调用 Vercel AI Gateway 的图片和视频模型,输出直接渲染在终端中。
Claude Code 每周限额增 50%,Agent SDK 额度被砍
Anthropic 宣布从 6 月 15 日起 Claude Code 限额增加 50%,但基于 Agent SDK 构建的第三方应用额度将被削减,实施双轨制。
xAI 搜索与事实性后训练团队负责人离职
Tianyi Zhang 宣布离职,他曾主导 Grok 的实时搜索与 Agent 功能开发,负责确保 Grok 在 X 平台海量碎片信息中精准检索。
编码代理让编程语言不再是锁定因素
Simon Willison 分享案例:一家公司用编码代理将原生移动应用重写为 React Native,即使决策失误也可再用同样技术移植回去,迁移成本大降。
AI 对信息完整性的威胁:记者研讨会即将举办
一位研究员宣布组织研讨会,邀请技术公司共同探讨 AI 对信息完整性构成的威胁及应对方案。
研究:努力启发式偏见被 AI 放大百倍
Runway CEO 引用 2004 年研究发现,人们倾向于对花费更多努力的创作给予更高评价,这一认知偏差正被 AI 工具急剧放大。
Keras 月下载量突破 2100 万
François Chollet 表示创下历史新高,较五年前翻倍。
AI 资源投入规模令人惊叹
François Fleuret 称当前投入量级相当于物种级驱动。
上下文与上下文窗口的区别
前者是 Agent 拥有的全部信息,后者是模型能处理的最大长度。
baoyu-skills 新增微信群聊总结
依赖 wx-cli 读取数据,配合 Claude Code 效果最佳。
Syncless 发布:人+Agent 协作产品
面向企业的招聘与 Agent 协作产品正式发布。
真人结合 AI 影片将登陆戛纳首映
由 Dustin Yellin 执导,保罗·路德、克里斯·洛克主演。
摄影曾被称为“艺术最致命的敌人”
Runway CEO 引用波德莱尔 1859 年的批评,类比当下 AI 艺术争议。