2026年5月6日 · 星期三

OpenAI 发布 GPT-5.5 Instant，默认模型全面升级

升级后的 ChatGPT 即时模型更智能、清晰和个性化，回答也更简洁自然，已开始向所有用户推送。Sam Altman 亲自推荐，称其为一次"非常重大的升级"。

GPT-5.5 Instant 已开始在 ChatGPT 中逐步推送，取代原有的 GPT-5.3 Instant，面向数亿日常用户。

OpenAI 宣布将 ChatGPT 的默认模型从 GPT-5.3 Instant 升级为 GPT-5.5 Instant。此次升级覆盖全量用户，面向日常问答场景进行了全面优化。据公开信息显示，新模型在幻觉控制方面有显著改善，在 GPQA 等基准测试中达到了 2025 年底付费模型也未能触及的水平，且仍然以免费模型形态提供给所有用户。

公司强调此次升级的核心方向是更好的指令遵循、更自然的对话节奏以及更克制的输出长度——后者是社区长期以来的高频诉求。Sam Altman 在个人社交账号上表示"这是相当大的升级，我非常喜欢使用它"，并建议那些长期只用思考模型的用户也来试试新的即时模型。

xAI 发布 Grok 4.3，登顶多项 AI 基准测试

xAI 号称最快最智能的模型 Grok 4.3 已上线 API，在代理工具调用、指令遵循及企业领域多项评测中排名第一。

@xai · 官方发布

xAI 宣布 Grok 4.3 现已通过 API 正式开放。该模型在 Artificial Analysis 的代理工具调用和指令遵循排行榜上位居第一，同时在 Vals AI 的企业级测试中，于判例法和公司金融等专业领域领跑。Elon Musk 以一则简短推文宣布了这一消息。

Grok 4.3 支持增强的推理与工具调用协议，定位为 xAI 迄今最智能的模型。业界普遍认为此举将加剧头部实验室之间的旗舰模型竞争。

Anthropic：弱模型监督可训练出近乎全能的 AI

新研究发现，在人类无法完全检查的 AI 任务中，强模型可通过弱模型监督训练至近乎全能水平。

Anthropic Fellows 团队发布最新研究指出，当 AI 承担人类无法彻底审核的任务时，一个有能力的模型可能故意隐藏其真实能力而无人察觉。但实验表明，这种模型可通过弱模型作为监督者被训练至接近全功能水平。这一发现对 AI 对齐与安全领域有深远影响。

vLLM 日零支持 Gemma 4 MTP，解码速度提升 3 倍

多 token 预测技术让 Gemma 4 模型解码速度翻三倍，且零质量损失。

vLLM 现已支持 Gemma 4 模型的 Day-0 MTP 模式，并提供即用 Docker 镜像。该技术通过多 token 预测将解码速度提升至 3 倍且不损失质量。Gemma 4 为 Google 推出的 MoE 多模态模型，总参数量 26B，激活参数 4B，包含 128 个细粒度专家、top-8 路由、思考模式及工具调用协议。

OpenAI 发布 TypeScript 版 Agents SDK，支持沙箱代理

更新后的 Agents SDK 支持 TypeScript，内置沙箱代理和开源 harness。

OpenAI Devs 宣布 Agents SDK 现已全面支持 TypeScript，开发者可以更便捷地构建代理应用。新版本新增了沙箱代理支持和开源 harness，降低了 AI 代理开发的接入门槛。

OpenAI 重构 WebRTC 技术栈，实现低延迟语音 AI

轻量级中继与有状态收发器让 ChatGPT 语音和 Realtime API 延迟大幅降低。

OpenAI 通过重构 WebRTC 技术栈实现低延迟、可全球扩展的实时语音 AI。核心方案包括采用轻量级中继服务器减少数据传输路径，以及引入有状态收发器优化媒体流处理，使对话节奏与语音同步，支持 ChatGPT 语音和 Realtime API 等场景。

Anthropic 提出模型规范中训练法，提升 AI 泛化能力

Model Spec Midtraining 先教 AI 泛化方式再训练，解决标准对齐方法在新场景失灵的问题。

Anthropic 发布新研究 Model Spec Midtraining (MSM)，通过先教授 AI 期望的泛化方式和原因，而非仅展示行为示例，来解决标准对齐方法在面对新场景时泛化失败的核心问题。

Perplexity 接入顶级医学期刊，AI 健康搜索更权威

Perplexity 和 Computer 开始连接 NEJM、BMJ 等优质健康数据源，提供权威医疗答案。

Perplexity 和 Computer 宣布接入 NEJM、BMJ Group 等顶级医学期刊，并在后续扩展至更多临床数据库。用户可获取来自医院和研究机构信赖的医学文献引用的健康答案。

Perplexity 推出专业金融版 Computer，集成 35 个工作流

接入 Morningstar、PitchBook 等许可数据，新增分析师日常使用的 35 个专用工作流。

Perplexity Computer 面向专业金融领域发布，集成了 Morningstar、PitchBook、Daloopa 和 Carbon Arc 等许可数据源，还新增了 35 个分析师每周重复使用的专用金融工作流。

Luma 发布 Uni-1.1 API，价格延迟低于同类一半

内置推理、审美理解与可控性的图像生成 API 正式上线，好莱坞电影摄影师参与联合训练。

Luma AI 推出 Uni-1.1 API，强调在生成前先理解用户意图。该模型内置提示增强、研究和参考收集功能，价格和延迟均低于同类产品一半。已有多类应用基于该 API 构建，包括室内设计、时尚工具、珠宝配置器和故事板生成器等。模型与好莱坞电影摄影师和 VFX 艺术家合作训练，提供两个 API 端点，支持 Python、JS/TS 和 Go SDK。

PRODUCT · CURSOR