2026年5月8日 · 星期五

OpenAI 发布 GPT-Realtime-2 语音模型，具备 GPT-5 级推理能力

OpenAI 在 API 中推出其最智能的语音模型，GPT-5 级别推理能力可实现实时协作解决复杂问题，标志着语音 Agent 迎来关键一跃。

GPT-Realtime-2 在 Big Bench Audio 基准测试中从上一代的 81.4% 跃升至 96.6%，语音推理能力大幅领先业界。同时上线的还有 GPT-Realtime-Translate 和 GPT-Realtime-Whisper 两款模型，分别支持 70 种输入语言翻译为 13 种输出语言，以及更快速的实时转录。CEO Sam Altman 表示，人们正越来越多地使用语音与 AI 交互——尤其是当有大量上下文需要倾吐时，语音交互效率远超打字。GPT-Realtime-2 是语音 Agent 从"能听懂"到"能思考"的关键转变，它不仅能理解指令，还能在通话过程中自主推理并采取行动，为客服、教育、医疗等垂直场景打开了全新的产品可能。

Anthropic 新研究：自然语言自编码器可翻译模型内部激活

Claude 用文字交流但以数字思考。Anthropic 训练 Claude 将内部数值激活翻译为人类可读文本，为模型可解释性打开全新窗口。

Anthropic 发布了一项突破性的可解释性研究成果——自然语言自编码器。模型如 Claude 在推理时产生大量数值激活向量，这些数字编码了模型的"思维"，但长期以来研究人员无法直接解读。Anthropic 训练 Claude 将自身激活翻译为自然语言文本，使开发者能够"阅读"模型的内部推理过程。实验表明，该方法不仅能解释单次决策，还能发现模型推理链中的隐藏逻辑和潜在偏见。这一进展为模型对齐与安全审计提供了前所未有的工具视角，也让 AI 系统的透明度迈出了实质性一步。该研究的完整论文已公开发表。

OpenAI Codex 推出 Chrome 扩展，支持后台多标签并行运行

OpenAI 的编程 Agent Codex 现可直接在 Chrome 浏览器中工作，支持后台多标签并行执行，不再占用用户浏览器界面。通过新的 Chrome 插件，Codex 可跨标签页收集上下文、高效使用 DevTools，并将测试结果有序整理。对于全栈开发者而言，这意味着调试、测试、代码审查等繁琐工作可交由 Agent 在后台自主完成，仅在需要决策时才通知用户，大幅提升研发效率。Codex 现已在 macOS 和 Windows 的 Chrome 浏览器中可用，安装插件后即可启用后台并行工作模式。

Perplexity 推出 Mac 版 Personal Computer

Perplexity 的 Personal Computer 现通过全新 Mac 应用向所有用户开放。这是一个升级版的计算代理，可在 Mac 本地文件、原生 Mac 应用、网页和 Perplexity 安全服务器之间执行任务。用户无需切换环境即可让 AI 操作本地文档、表格和应用，将桌面变成了可被智能驱动的生产工具。该产品是 Perplexity 从搜索向全方位计算平台扩展的关键布局。

图像生成

xAI API 推出 Image Generation Quality Mode，已生成超 3 亿张图片

xAI 在 API 中上线 Image Generation Quality Mode，该模型已在 Grok 上支撑超 3 亿张图片的生成。新功能显著提升了图像真实感和文字渲染能力，为商业用户和专业创作者提供了更强的创意控制力。从营销插图到产品设计原型，高保真图像生成正在成为企业的标准配置。

开源对齐

Anthropic 将开源对齐工具 Petri 捐赠给非营利组织

Anthropic 宣布将其开源对齐工具 Petri 捐赠给非营利组织 Meridian Labs，以确保项目独立发展。Petri 是一套测试大语言模型是否具有欺骗、谄媚等有害倾向的工具，自 Claude Sonnet 4.5 起用于评估所有 Claude 模型。同期发布的第三版重大更新大幅提升了测试的适应性、真实性和深度，并由 Meridian Labs 整合至 Inspect 和 Scout 等评估框架中，为整个 AI 行业提供公共安全基础设施。