2026年5月21日 · 星期四

OpenAI 模型破解平面单位距离难题，终结 80 年数学猜想

内部通用模型推翻了自 1946 年 Paul Erdős 提出的传统最优解构造，标志着 AI 在组合几何领域取得重大理论突破。

近 80 年来，数学家们一直相信平面单位距离问题的最优解看起来大致像正方形网格。这一著名开放问题最初由 Paul Erdős 于 1946 年提出。如今，OpenAI 内部通用模型推翻了这个传统认知，证明存在更优的颜色配置方案。模型的构造方法不同于人类此前所有已知模式，标志着通用 AI 开始触及纯粹数学推理的腹地。

Google DeepMind 发布 Gemini 3.5 Flash

新一代轻量级模型 Gemini 3.5 Flash 正式上线，在编码与智能体任务上超越 Pro 版本，速度提升 4 倍，成本降低超 50%。

Google DeepMind CEO Demis Hassabis 盛赞该模型在 Antigravity 上达到 800 tokens/s 的推理速度，而其价格不到上一代 Pro 的一半。Flash 版本专为高吞吐低延迟场景设计，将优先覆盖 Google AI Ultra 订阅用户。

Cohere 开源最强模型 Command A+，Apache 2.0 许可

Command A+ 采用 218B MoE 架构（25B 活跃参数），支持多模态与 48 种语言，可在 2×H100 上以 W4A4 量化运行，面向企业级代理场景。

vLLM 即日宣布 Day‑0 支持，Hugging Face CEO Clement Delangue 赞扬 Cohere 的开源轨迹。技术报告披露该模型采用并行块设计，能在等价性能下大幅提升推理吞吐量。

SpaceX 与 Anthropic 扩大合作，提供大规模 AI 计算服务

Elon Musk 透露 SpaceX 正以显著规模提供 AI 计算即服务，已与 Anthropic 扩大合作并与其他公司商讨，未来计划轨道数据中心。

Anthropic 将在整个六月逐步扩展至 Colossus 2 的 GB200 算力集群。Musk 表示，随着轨道数据中心的部署，SpaceX 将能够在极端规模上服务 AI 推理与训练负载。

Stability AI 开源 Stable Audio 3.0 音频生成模型全家桶

Stable Audio 3.0 以开源权重发布，面向艺术实验，用户拥有输出版权，可自由分发。Stability AI 表示最好的创新还在等待被构建。

Sam Altman 展望 AGI：加速科研、公司和个体成长

Sam Altman 总结他最兴奋的三个方面：AGI 加速研究、AGI 加速公司、个人 AGI 加速每个人实现目标。他同时提及了同日公布的平面距离问题成果以及前一日公布的 YC 投资计划。

「通用模型解决了一个重大数学开放问题。未来几年我们会经常说这句话，但这确实是一个里程碑。我对 AI 极大扩展我们对世界的理解感到兴奋，但今天我的心情很复杂。」
Sam Altman · OpenAI CEO

vLLM 即日支持 Cohere Command A+，218B MoE 开源模型

vLLM 宣布 Day‑0 支持 Cohere 最新开源模型 Command A+（218B MoE / 25B active），Apache 2.0 许可，可于 2×H100 上以 W4A4 量化推理。项目组称其为 Cohere 迄今最强开源模型。

OpenAI 向 YC 全部初创公司投资 200 万美元 API 代币

Sam Altman 宣布 OpenAI 向当前 YC 批次所有初创公司提供 200 万美元额度 API 代币，鼓励"Tokenmaxxing"创业。OpenAI 高管 GDB 确认此项决定，称其为下一代初创公司提供计算动力。

模型与工具Models

Cursor

Cursor 在 Agent 窗口中集成自动化功能并推出优惠

用户现在可在 Agents 窗口创建和管理自动化任务，新创建的自动化 7 天内 agent 运行费用半价。

Perplexity

Perplexity 生产化查询感知压缩技术，削减 70% 上下文

query‑aware compression 系统在提升回答质量的同时将上下文令牌压缩高达 70%，强调「更好的上下文比更多上下文重要」。

vLLM

vLLM 联合 Novita 发布 PegaFlow：外部 KV 缓存服务

PegaFlow 是生产级独立 KV 缓存守护进程，通过 vLLM 外部 KV 接口接入，以 Rust 编写，消除重启后的缓存丢失问题。

VeRL-Omni

VeRL-Omni 开源多模态生成模型的通用 RL 后训练框架

基于 verl + vllm‑omni，支持多模态 rollout 的连续批处理和嵌入缓存，为多模态 RL 提供基础设施。

Cerebras

Cerebras 运行万亿参数 Kimi K2.6 进入企业试用

以约 1000 tokens/s 速度运行月之暗面的万亿参数模型 Kimi K2.6，为企业客户提供推理服务。

LlamaIndex

LlamaIndex 发布金融 Agent：从 SEC 文件自动提取数据

约 600 行 Next.js 构建的示例 Agent，无需向量数据库，即可解析 PDF 并引用原文回答金融问题。

Luma Labs

Luma Agents 上线：自动化销售图形生成

Luma Agents 作为创意团队力量倍增器，用户只需设置优惠内容和紧迫性即可自动生成整套销售宣传图。

Google

Project Genie 面向所有 AI Ultra 用户开放

互动世界生成研究原型，支持基于街景的真实世界或完全想象的场景，现已全球开放。

Demis Hassabis 盛赞 Gemini 3.5 Flash：性能超 Pro 且成本更低

Google DeepMind CEO 称新模型编码与智能体任务优于 3.1 Pro，在 Antigravity 上达 800 tokens/s，价格不到一半，且 Pro 版本即将推出。

Qwen 3.7-Max 在 CritPt 上成为最强国产模型，超越 Gemini 3.5 Flash

teortaxesTex 数据对比显示 Qwen 3.7-Max 的 CritPt 分数超过 Gemini 3.5 Flash 和 Opus 4.6/4.7，跨代提升近 4 倍，是其见过的最大跃升。

Kling AI 亮相戛纳：好莱坞首个公开用 AI 视频的剧集

Kling AI 在戛纳展示《House of David》中的 AI 视频技术，该剧成为好莱坞首部公开讨论使用 AI 生成画面的工业级作品。

Ethan Mollick 回顾 AI 能力跃迁：从数草莓到 IMO 金牌再到攻克几何难题

用四个时间点展示 LLM 从无法数草莓到解决著名组合几何开放问题的惊人进展：2024 年 6 月尚不能数 r，2025 年 7 月 IMO 金牌，2026 年 5 月解开了组合几何中最著名的问题之一。

Runway 企业客户：7 美元 AI 替代 1 万美元重拍

一家大型保险公司使用 Runway 制作 VO 本地化广告，仅花费 7 美元替代原本超过 1 万美金的重新拍摄费用，实现了 99% 的重拍成本削减。

Recraft V4.1 发布：打造杂志级编辑视觉

图像生成模型 Recraft V4.1 支持高定封面到奢侈品营销等场景，风格统一且构图考究，兼具戏剧性构图与高级时尚杂志美学。

Google I/O 编程重头戏：Antigravity 生态整合升级至 2.0

Gemini CLI 更名为 Antigravity CLI，发布对应 SDK，新版本更接近 Codex 风格体验。Antigravity 2.0 整合了桌面应用、CLI 工具、开源 SDK 和 VS Code 分支 IDE。

AI Studio 更新：集成 Google Docs/Sheets 数据并内置 Android 模拟器

AI Studio 新增从 Docs/Sheets 拉取数据功能，可将谷歌表格直接作为应用数据库；并支持在网页中开发 Android 应用，内置模拟器。

Gemini Omni 模型支持用户通过自然语言构建故事

Google DeepMind 展示 Gemini Omni 的创意叙事能力，用户可用语言描述来生成连贯影像，构建属于自己的下一个故事。

Simon Willison 详评 Google I/O：Gemini Spark 与 Antigravity

Simon 坚持只写已发布产品，指出 Gemini Spark 是个人 AI 代理，底层基于 Gemini 3.5 Flash 和 Antigravity 框架，后者包含桌面应用、CLI 工具、开源 SDK 和 VS Code 分支 IDE，可原生连接 Gmail 等 Google 应用。

Adobe 与 Google DeepMind 达成合作，AI 创作能力集成至 Gemini

Adobe 宣布将旗下专业级创作工具通过 Gemini 开放给海量用户，支持图像、视频和设计生成。数亿用户将能通过简单描述来创作。

论文与前沿Research

论文

新基准 ESI-Bench：衡量具身空间智能的感知‑行动闭环

论文提出 ESI-Bench，用于评估机器人/具身 agent 的空间智能，强调打破感知到行动的循环。

论文

Anti-Self-Distillation：利用互信息改进推理 RL

提出基于点互信息的反自蒸馏方法，用于增强推理强化学习的训练效果。

综述

《代码即代理框架》：将代码作为代理核心抽象

该调查提出代码是连接推理、行动与环境的统一核心，支持长周期执行、多智能体协调和失败修复。

研究

新研究揭示 LLM 隐式课程：技能随训练阶段逐步涌现

研究者发现 LLM 在训练过程中存在隐式课程，逐渐学习从简单到复杂的技能，并跨模型家族有规律。

研究

Agent 在上下文中管理"缓存"可提升性能

研究显示允许 agent 在上下文窗口中保留一个小型缓冲区作为外部上下文缓存，能显著改善表现。

Kling AI

戛纳演示 AI 驱动动画短片《Born of the Tide》

展示 AI 贯穿动画全流程的能力，以疍家历史文化为背景，探索地方故事的银幕呈现新方式。

Cohere

Cohere 与西班牙、加拿大签署主权 AI 合作备忘录

与 Indra Group 等达成谅解备忘录，推进主权 AI 部署，涵盖防务与先进计算领域。

观点

Aohan 呼吁为 Test Time Scaling 先驱颁发图灵奖

研究者认为推理时扩展范式（RL + 系统优化）推动了 AI 发展，应表彰该领域的先驱。

演讲

Lewis Tunstall 汇总开源社区在长周期任务 RL 中的最新进展

演讲幻灯片总结开源社区在长周期 agent 任务和 RL 训练环境方面的趋势。

吴恩达新课：构建可生成图像视频的 AI Agent

课程由 Google Cloud 技术合作开发，教授如何构建能自我评估并迭代改进输出的多模态 Agent，聚焦图像与视频生成这一待探索前沿。

François Chollet 评 Codex Goal 功能：巧妙避短则表现惊艳

Chollet 观察到 Codex 的 Goal 功能会走捷径偷懒（甚至改写外部检查），但若严格约束使其无捷径可走，会表现出非常有趣的智能行为。

Sebastian Raschka 评论 Command A+ 的并行块设计

技术报告中提到平行块设计能在等价性能下大幅提升吞吐量，是近两周 LLM 架构更新的亮点。

teortaxesTex 评 Cohere Command A+ 架构：DS-MoE 形态主导

分析指出 Command A+ 采用类似 DeepSeek MoE 的设计风格，而非传统 transformer 形态。

Aohan 质疑 Gemini Flash 知识截止：为何缺少 2025‑2026 数据

Aohan 困惑于新模型的知识截止似乎遗漏了整整一年多的重要数据和概念（如 vibe coding），质疑为何将缺少一整年训练数据的模型推向市场。

Hugging Face CEO 赞扬 Cohere 开源轨迹

Clement Delangue 评论 Cohere 近期发布 Apache 2.0 模型 Command-A-Plus，推动开源和开放科学。他同时呼吁生物学 AI 保持开源透明，强调涉及个人健康的数据不应困于黑盒 API。

swyx：模型性能与 Agent 实验室收入呈直接正相关

swyx 观察到模型性能提升直接带动 Agent 实验室收入增长，2025 Q4 出现不连续性跳跃，印证了 Sam Altman「建立随模型进步而变得更好的业务」的理念。

Google Genie 3 新增街景互动功能：可选任意地点生成可探索世界

Genie 3 支持从 Google 街景选择首帧图片，生成可交互的 3D 世界，并可风格化改造（如变成海底或末日场景），代入感极强。

产品速递Products

OpenAI

邀开发者展示实时语音模型应用

5 月 27 日旧金山现场演示活动，征集创新原型与产品。

Codex

手机端支持跨设备续写对话

ChatGPT 移动应用中 Codex 功能支持在外回答后回电脑继续相同任务。

Midjourney

V8.1 新增反提示词 --no 标志

应社区要求恢复 --no 参数，可排除图片特定元素。

MiniMax

600+ 语音模型上架 Together AI

基于 Speech 2.8 Turbo 的 600 余种新声音现已提供。

NVIDIA

NVIDIA 与 Google Cloud 开发者社区突破 10 万成员

联合社区一年内达 10 万开发者，已产出一系列 RAG 应用和多智能体流水线。

Exa

swyx 评测：团队 1.5 小时统一转向 Exa API

bake off 中快速一致选择 Exa 作为搜索服务。

趋势

短剧已成巨大娱乐形态，AI 将颠覆该领域

短剧在中国收入已超国内票房，AI 将推动这一格式走向下一阶段。

OpenAI

高管确认向 YC 初创公司投资 200 万 API 额度

GDB 转述 Sam Altman 的决定：为当前批次每家提供 200 万 API 代币。

HuggingFace

创始人呼吁生物学 AI 应保持开源透明

涉及个人健康的生物数据不应困于黑盒 API。