2026年5月8日 · 星期五

OpenAI 发布 GPT-Realtime-2 语音模型,具备 GPT-5 级推理能力

OpenAI 在 API 中推出其最智能的语音模型,GPT-5 级别推理能力可实现实时协作解决复杂问题,标志着语音 Agent 迎来关键一跃。

GPT-Realtime-2 现已通过 OpenAI API 向开发者开放。

GPT-Realtime-2 在 Big Bench Audio 基准测试中从上一代的 81.4% 跃升至 96.6%,语音推理能力大幅领先业界。同时上线的还有 GPT-Realtime-Translate 和 GPT-Realtime-Whisper 两款模型,分别支持 70 种输入语言翻译为 13 种输出语言,以及更快速的实时转录。CEO Sam Altman 表示,人们正越来越多地使用语音与 AI 交互——尤其是当有大量上下文需要倾吐时,语音交互效率远超打字。GPT-Realtime-2 是语音 Agent 从"能听懂"到"能思考"的关键转变,它不仅能理解指令,还能在通话过程中自主推理并采取行动,为客服、教育、医疗等垂直场景打开了全新的产品可能。


Claude 内部激活向量可视化:数字思维正在被翻译成人类可读的自然语言。

Anthropic 新研究:自然语言自编码器可翻译模型内部激活

Claude 用文字交流但以数字思考。Anthropic 训练 Claude 将内部数值激活翻译为人类可读文本,为模型可解释性打开全新窗口。

Anthropic 发布了一项突破性的可解释性研究成果——自然语言自编码器。模型如 Claude 在推理时产生大量数值激活向量,这些数字编码了模型的"思维",但长期以来研究人员无法直接解读。Anthropic 训练 Claude 将自身激活翻译为自然语言文本,使开发者能够"阅读"模型的内部推理过程。实验表明,该方法不仅能解释单次决策,还能发现模型推理链中的隐藏逻辑和潜在偏见。这一进展为模型对齐与安全审计提供了前所未有的工具视角,也让 AI 系统的透明度迈出了实质性一步。该研究的完整论文已公开发表。


人们真正开始用语音与 AI 交互了,尤其是他们有大量上下文要倾吐时。GPT-Realtime-2 今天上线 API,这是相当大的一步。

Sam Altman · OpenAI CEO
AI 研究前沿2026·05

Google DeepMind 的 AlphaEvolve 加速量子、生物技术等领域研究

由 Gemini 驱动的编码 Agent AlphaEvolve 在过去一年中加速了量子计算、生物技术、物流及 Google 自身 AI 基础设施的研究进展。

xAI 推出 Grok Voice Think Fast 1.0 语音客服 Agent

专为真实世界客服设计,能在嘈杂环境中处理复杂工作流,从多步骤故障排除到大批量工具调用均保持速度和准确性。

吴恩达推出新课程:构建可生成自定义 UI 的 Agent

与 CopilotKit 合作的短期课程,教授构建不仅能回复文本、还能按需生成图表、表单和白板等自定义 UI 的 Agent。

构建 LLM 的大部分算力消耗在配方开发而非最终训练

研究表明,LLM 训练的极大部分算力用于配方开发而非最终运行,公开训练配方是推动研究社区进步的关键杠杆。

OpenAI 上线官方命令行工具 openai-cli

开源的 openai-cli 允许开发者直接在终端调用 API,支持资源化命令结构,可通过 Homebrew 或 Go 安装。

xAI 与 Anthropic 数据中心交易细节:环境记录与模型关停引发关注

Anthropic 获得 Colossus 1 全部算力但环境记录极差;xAI 保留更大的 Colossus 2,并提前两周关闭了 Grok 4.1 Fast 等多款旧模型。

OpenAI 政变之夜内部短信首次曝光

马斯克诉 OpenAI 案庭审第二周,前 CTO Mira Murati 视频证词与 2023 年 11 月政变之夜内部短信首次公开,还原硅谷史上最戏剧化的权力斗争。

Anthropic 漏洞赏金计划在 HackerOne 公开上线

此前仅在安全研究社区私下运行的漏洞赏金计划现已公开,任何人都可提交漏洞报告并获得奖励。

腾讯混元 Hy3 预览版 Token 用量增长 10 倍,编码和 Agent 驱动增长

Hy3 预览版 Token 用量较前代增长 10 倍,内部 WorkBuddy、CodeBuddy、QClaw 三款产品 Token 用量增长超 16.5 倍。