2026年5月16日 · 星期六

Isomorphic Labs 获 21 亿美元融资，AI 药物研发加速

DeepMind 联合创始人 Demis Hassabis 创立的 AI 制药公司完成巨额融资，将蛋白质结构预测与分子设计推向产业化新阶段。

Isomorphic Labs 基于 AlphaFold 等研究，利用 AI 预测蛋白质结构并设计全新分子，有望将数年研发周期压缩至数月。

Google DeepMind 联合创始人 Demis Hassabis 为其 AI 药物发现公司 Isomorphic Labs 完成了 21 亿美元的新一轮融资。Isomorphic Labs 自创立以来，一直致力于将 AI 技术系统性地应用于药物研发全流程——从蛋白质结构预测到全新分子设计，再到临床前验证。该公司基于 AlphaFold 等突破性研究成果，构建了一套端到端的 AI 驱动药物发现平台，能够在虚拟空间中模拟数亿种分子与靶点蛋白的相互作用，从而大幅缩短传统制药行业漫长而昂贵的试错周期。本轮融资规模在 AI 生物技术领域位居前列，投资方包括多家顶级风投与主权基金。Hassabis 在声明中表示，这笔资金将用于扩展计算基础设施、招募顶尖跨学科人才，并推进多条内部药物管线进入临床试验阶段。分析人士认为，此举标志着 AI 制药已从学术概念正式进入大规模产业化时代，或将重塑全球制药行业的竞争格局。

统一缩放方法训练出奥赛金牌级推理模型

基于 30B-A3B 骨干，经反向困惑度课程 SFT 与两阶段强化学习，SU-01 在 IMO 2025 等竞赛中达到金牌水平，支持超 10 万 token 稳定推理。

SU-01 模型在数学与物理奥赛中的表现：IMO 2025 金牌级、USAMO 2026 金牌级、IPhO 2024/2025 金牌级，并展现在其他科学领域的泛化能力。

一篇新论文提出了一种系统性的通用方法，将后训练推理模型转化为奥林匹克级别的解题器。该方法包含三个核心组件：首先，通过反向困惑度课程进行监督微调（SFT），在约 34 万条 8K 以内的轨迹上灌输严谨的证明搜索与自我检查行为；其次，采用两阶段强化学习——从可验证奖励 RL 过渡到证明级 RL——进一步扩展这些推理行为；最后，利用测试时缩放策略提升实际表现。基于 30B-A3B 骨干模型，经过 200 步 RL 训练后得到的 SU-01 模型，能够生成超过 10 万 token 的稳定推理链。在 IMO 2025、USAMO 2026 等数学竞赛和 IPhO 2024、IPhO 2025 等物理竞赛中，SU-01 均达到了金牌水平，并且展现出向其他科学领域泛化的能力。代码和模型已在 Hugging Face 上开源发布。

Codex 集成 ChatGPT 应用，支持手机远程控制 Mac

OpenAI 将编程智能体 Codex 深度集成至 ChatGPT 应用中，用户可通过手机远程操控 Mac 完成编程任务。

OpenAI 宣布旗下编程智能体 Codex 现已集成至 ChatGPT 应用，为用户带来全新的移动端编程体验。通过这一集成，开发者可以直接在手机上启动 Codex，远程控制自己的 Mac 电脑执行编码、调试、部署等任务。该功能打破了编程对桌面设备的强依赖，让开发者在外出、会议间隙等场景下也能随时响应需求。Codex 在 ChatGPT 应用中保留了完整的上下文理解与代码生成能力，同时支持文件系统访问、终端命令执行和浏览器自动化操作。这一更新使 ChatGPT 从对话式 AI 助手进一步演进为具备实际操作能力的智能体平台，也为移动端编程开辟了新的可能。

X 平台开源"为你推荐"算法，代码发布至 GitHub

Elon Musk 宣布 X 平台的推荐算法已在 GitHub 上开源，开发者可自由查看与贡献代码。

Elon Musk 宣布 X 平台（原 Twitter）的"For You"推荐算法已正式开源，代码托管在 GitHub 上的 xai-org/x-algorithm 仓库中。该算法负责驱动 X 平台信息流中的个性化内容推荐，是社交平台最核心的技术组件之一。此次开源使外部开发者首次得以窥见大型社交平台推荐系统的完整实现细节，包括候选召回、排序模型、多样性控制等关键模块。Musk 表示，开源推荐算法是提升平台透明度和社区信任的重要一步，同时允许开发者提交改进建议和代码贡献。此举也延续了 xAI 一贯的开放策略，此前 Grok 模型的权重也已对外开放。社区反响热烈，该仓库在发布数小时内即获得数千星标。

不同推理设置下若未考虑熵差异，同一模型的相对性能可能截然不同——评估扩散语言模型需要采用基于 KL 散度的原则性框架，而非仅依赖生成困惑度等单一指标。

Gemini Deep Think 驱动 Aletheia 自主解决数学难题

Aletheia 系统借助 Gemini Deep Think 的强大推理能力，实现了数学问题的自主求解。该研究标志着 AI 在数学推理领域迈出了关键一步——系统能够独立理解题目、规划证明路径并生成严谨的解答，而非仅依赖预设模板。这为 AI 参与更复杂的科学发现打开了大门。

OpenAI 内部调整：ChatGPT 与 Codex 合并为统一产品

OpenAI 周五对内宣布新一轮组织调整，联合创始人兼总裁 Greg Brockman 正式接管产品战略。ChatGPT、Codex 编程智能体和开发者 API 业务被整合进同一核心产品团队。Brockman 在内部备忘录中表示，公司决定将 ChatGPT 和 Codex"合并成一个统一的体验"，这意味着未来的 ChatGPT 将原生具备编程与执行能力，用户无需在多个产品间切换。

Grok 订阅可集成至 Hermes Agent 使用

xAI 宣布 Grok 订阅现已可集成至 Nous Research 的开源自我改进智能体 Hermes Agent 中。用户可通过 Grok 账户在 Hermes 内直接调用 Grok 的推理与对话能力，为 Agent 工作流提供模型后端支持。这一跨平台集成进一步降低了智能体开发的门槛。

MiniMax M2.7 模型上线 OrcaRouter

MiniMax 的 M2.7 模型已在 OrcaRouter 上架，开发者可通过单一 OpenAI 兼容 API 访问。该模型在多模态任务中表现优异，提供统一的调用接口，降低了接入门槛。OrcaRouter 作为模型路由平台，帮助开发者灵活选择和切换不同模型。

NVIDIA DC 揭秘万亿参数模型 Agent 推理服务

NVIDIA DC 展示了如何在万亿参数模型上以每用户 400 tokens/s 的速度服务 Agent 工作负载，同时兼顾推理质量与计算性能。该方案专为 Agent 场景优化，解决了大规模模型在实时交互场景下的延迟瓶颈，为 Agent 在生产力环境中的部署提供了关键基础设施参考。

v0 推出 Browser Use 功能，自主测试与修复 Web 应用

v0 新推出的 Browser Use 功能使其可以打开自己构建的应用，主动测试、批评设计、调试复杂流程并实时修复问题，同时向用户发送操作截图。这标志着 AI 开发工具从"代码生成"向"自主测试与维护"的跨越。

vLLM 首日支持 Intern-S2-Preview 多模态科学模型

Intern-S2-Preview 是一款开源科学多模态基础模型（36B 总参、3B 激活），基于 Qwen3.5 继续预训练，采用混合注意力机制，支持 262K 上下文长度，可生成材料晶体结构。vLLM 实现了 Day-0 推理兼容。

vLLM-Omni 在生产环境中实现全模态推理

vLLM-Omni 扩展框架已由 Baseten 投入生产环境运行，支持流式多模态和实时 TTS 等此前通常依赖闭源 API 的工作负载。该框架开源、成本高效，已兼容 HuggingFace 上主流全模态模型，基于 Apache 2.0 许可。

Runway Agent 上线：从产品照片到完整广告

Runway 推出 Agent 模式，用户可在一场会话中从产品照片和创意出发，生成包含视觉、剪辑、配乐的完整广告片。Agent 自动完成分镜、生成、合成等步骤，大幅降低了视频广告的制作门槛和周期。

模型与工具速览2026·05·16

情感 TTS

LTX-2.3 音频微调实现 SOTA 情感控制 TTS

研究人员从 LTX-2.3 中提取音频部分并微调，实现情感可控的文本转语音，达到 SOTA 水平，已在 Hugging Face 提供试用。

图像生成

微软发布 3.8B 参数文本到图像模型 Lens

微软在 Hugging Face 发布 Lens 模型，3.8B 参数，高效训练且图像质量出色，可通过文本描述直接生成图像。

新模型

微软发布 Fara-7B 模型，聚焦浏览器 OS 环境

微软推出 Fara-7B 模型，在 browserOS 环境下表现优异，获开发者高度评价。模型旨在推动开放科学与 AI 普及。

基础设施

Ollama 大幅增加 Blackwell GPU 服务 GLM-5.1

Ollama 为 GLM-5.1 模型新增大量 NVIDIA Blackwell GPU，并持续为其他模型扩容，同时支持 Claude Code 和 Codex 应用的运行。

产品更新

Ollama 0.24 起支持 Codex 应用，可选用开放模型

Ollama 0.24 版本新增对 Codex 应用的支持，用户运行 ollama launch codex-app 后即可选择开放模型进行编程辅助。

产品特性

ChatGPT 为 Pro 用户推出个人财务管理功能

美国 Pro 用户可在 ChatGPT 中安全连接银行、投资和信用卡账户，查看统一资产仪表盘并基于真实数据提问。

数据研究

开放式编程训练数据不再是瓶颈，AI 可自我扩展

研究表明 AI 可自行扩展开放性编码任务，甚至超越人工标注数据质量，突破传统数据瓶颈。

数据集

SWE-ZERO-12M 轨迹数据集发布，规模最大

SWE-ZERO-12M 包含 1200 万条智能体轨迹，是此前最大数据集的 5.7 倍，全部开源供社区使用。

AI 创作

AI 可从单张图片生成交互式 3D 世界

在 Cursor 中上传图片，AI 代理自动生成 3D 环境、物体网格、碰撞体和音效，将 2D 概念快速转化为交互式 3D 场景。

模型动态

Grok 基础模型 8 到 9 进步巨大

消息人士称 Grok 基础模型从版本 8 到 9 的提升幅度巨大，引发业界广泛关注，具体技术细节尚未公开。

创作工具

Luma 发布 Creative Agents，可生成折纸风格作品

LumaAI 推出创作智能体，支持规划、生成、迭代全流程。示例展示名为 Origami 的折纸风格视频——"两只鸟，一把剑"。

论文方法

评估扩散语言模型需注意的关键陷阱

博客指出评估扩散语言模型时需注意熵差异与 ELBO 不可比等问题，建议采用基于 KL 散度的原则性评估框架，避免单一生成指标产生误导。

行业动态2026·05·16

多智能体

MiniMax 模型用于 open-multi-agent 框架

MiniMax 模型被应用于开放多智能体框架，可自动将目标分解为 DAG 任务并并行执行。

本地部署

Hermes Agent 可在 DGX Spark 上全本地运行

NVIDIA AI PC 发布教程，演示通过 Ollama 在 DGX Spark 上完全本地运行 Hermes Agent。

模型对比

Recraft V4.1 与 Midjourney V8.1 对比评测

Recraft 发布对比结果，两模型在构图、情绪、纹理等方面做出不同创意选择，各擅胜场。

大会预告

Vercel 伦敦 Ship 大会聚焦 Agent 应用

6 月 17 日伦敦，Google DeepMind、ElevenLabs 等展示视频 Agent、实时语音 Agent 及生产实践。

创意 AI

Vibecon 纽约创意 AI 大会 6 月举办

6 月 17-18 日纽约举办 Vibecon，聚焦代码与文化交汇，嘉宾包括导演 Spike Jonze、艺术家 Refik Anadol 等。

产品评价

Runway Agent 模式获好评，可构建复杂故事

评论称赞 Runway 新 Agent 模式仅通过简短文本就能构建复杂故事，效果令人印象深刻。

产品应用

Luma Agents 自动生成网站横幅

Luma Agents 根据用户定义的信息与美学自动构建网站横幅，提升创意团队效率。

跨平台集成

ChatGPT 订阅可在 Zed 编辑器的 Agent 中使用

Zed 编辑器集成 ChatGPT 订阅，用户在 Codex 中的使用量和速率限制可直接在 Zed Agent 中沿用。

AI 视频

Synthesia 可将演示文稿即时转为 AI 视频

Synthesia 支持将任何幻灯片一键转化为 AI 生成的视频，面向 B2B 场景的演示与培训需求。

特效工具

Higgsfield 推出病毒式视频预设模板库

Higgsfield 内置棒球赛、霓虹城市、龙幻境等热门视频格式预设，一键套用即可生成电影级短片。