OpenAI 发布 GPT-Realtime-2 语音模型,具备 GPT-5 级推理能力
OpenAI 在 API 中推出其最智能的语音模型,GPT-5 级别推理能力可实现实时协作解决复杂问题,标志着语音 Agent 迎来关键一跃。
GPT-Realtime-2 在 Big Bench Audio 基准测试中从上一代的 81.4% 跃升至 96.6%,语音推理能力大幅领先业界。同时上线的还有 GPT-Realtime-Translate 和 GPT-Realtime-Whisper 两款模型,分别支持 70 种输入语言翻译为 13 种输出语言,以及更快速的实时转录。CEO Sam Altman 表示,人们正越来越多地使用语音与 AI 交互——尤其是当有大量上下文需要倾吐时,语音交互效率远超打字。GPT-Realtime-2 是语音 Agent 从"能听懂"到"能思考"的关键转变,它不仅能理解指令,还能在通话过程中自主推理并采取行动,为客服、教育、医疗等垂直场景打开了全新的产品可能。
Anthropic 新研究:自然语言自编码器可翻译模型内部激活
Claude 用文字交流但以数字思考。Anthropic 训练 Claude 将内部数值激活翻译为人类可读文本,为模型可解释性打开全新窗口。
Anthropic 发布了一项突破性的可解释性研究成果——自然语言自编码器。模型如 Claude 在推理时产生大量数值激活向量,这些数字编码了模型的"思维",但长期以来研究人员无法直接解读。Anthropic 训练 Claude 将自身激活翻译为自然语言文本,使开发者能够"阅读"模型的内部推理过程。实验表明,该方法不仅能解释单次决策,还能发现模型推理链中的隐藏逻辑和潜在偏见。这一进展为模型对齐与安全审计提供了前所未有的工具视角,也让 AI 系统的透明度迈出了实质性一步。该研究的完整论文已公开发表。
OpenAI Codex 推出 Chrome 扩展,支持后台多标签并行运行
OpenAI 的编程 Agent Codex 现可直接在 Chrome 浏览器中工作,支持后台多标签并行执行,不再占用用户浏览器界面。通过新的 Chrome 插件,Codex 可跨标签页收集上下文、高效使用 DevTools,并将测试结果有序整理。对于全栈开发者而言,这意味着调试、测试、代码审查等繁琐工作可交由 Agent 在后台自主完成,仅在需要决策时才通知用户,大幅提升研发效率。Codex 现已在 macOS 和 Windows 的 Chrome 浏览器中可用,安装插件后即可启用后台并行工作模式。
Perplexity 推出 Mac 版 Personal Computer
Perplexity 的 Personal Computer 现通过全新 Mac 应用向所有用户开放。这是一个升级版的计算代理,可在 Mac 本地文件、原生 Mac 应用、网页和 Perplexity 安全服务器之间执行任务。用户无需切换环境即可让 AI 操作本地文档、表格和应用,将桌面变成了可被智能驱动的生产工具。该产品是 Perplexity 从搜索向全方位计算平台扩展的关键布局。
xAI API 推出 Image Generation Quality Mode,已生成超 3 亿张图片
xAI 在 API 中上线 Image Generation Quality Mode,该模型已在 Grok 上支撑超 3 亿张图片的生成。新功能显著提升了图像真实感和文字渲染能力,为商业用户和专业创作者提供了更强的创意控制力。从营销插图到产品设计原型,高保真图像生成正在成为企业的标准配置。
Anthropic 将开源对齐工具 Petri 捐赠给非营利组织
Anthropic 宣布将其开源对齐工具 Petri 捐赠给非营利组织 Meridian Labs,以确保项目独立发展。Petri 是一套测试大语言模型是否具有欺骗、谄媚等有害倾向的工具,自 Claude Sonnet 4.5 起用于评估所有 Claude 模型。同期发布的第三版重大更新大幅提升了测试的适应性、真实性和深度,并由 Meridian Labs 整合至 Inspect 和 Scout 等评估框架中,为整个 AI 行业提供公共安全基础设施。
人们真正开始用语音与 AI 交互了,尤其是他们有大量上下文要倾吐时。GPT-Realtime-2 今天上线 API,这是相当大的一步。
Sam Altman · OpenAI CEO
OpenAI 推出三款新语音模型:对话、翻译与转录
Cursor 推出 /orchestrate 技能,递归生成 Agent 处理复杂任务
Anthropic 将 Claude 全面集成到 Microsoft 365 插件
智谱发布 GLM-5V-Turbo 技术报告:面向多模态 Agent 的原生基础模型
报告总结了模型设计、多模态训练、强化学习、工具链扩展及 Agent 框架集成方面的关键改进,朝着原生多模态 Agent 基座迈出重要一步。
PhysForge:生成物理可交互 3D 资产的新框架
PhysForge 通过物理蓝图规划和物理引导扩散模型,生成功能合理、可直接用于仿真的 3D 资产,为交互式虚拟世界与具身智能提供数据引擎。
RLDX-1:面向灵巧操作的通用机器人策略,成功率 86.8%
RLDX-1 基于多流动作 Transformer 架构,在 ALLEX 人形机器人任务中成功率达 86.8%,远超 π0.5 和 GR00T N1.6 的约 40%。
Mozilla 验证 Claude Mythos 在 Firefox 安全加固中表现优异
Mozilla 使用 Claude Mythos 预览版进行 Firefox 安全加固,发现其并非营销炒作,能复现真实 Bug 并排除误报,证明好模型擅长的远不止一类任务。
Stream-R1:面向流式视频生成的奖励蒸馏方法
Stream-R1 通过自适应重加权蒸馏目标,在 rollout 和时空区域层面提升流式视频的视觉质量、运动质量和文本对齐效果,无需额外计算开销。
Anthropic 研究院 TAI 发布研究议程,聚焦四大方向
TAI 将聚焦经济扩散、威胁与韧性、野外 AI 系统及 AI 驱动研发四个方向,公开分享 AI 社会影响的独立研究成果。
Google DeepMind 的 AlphaEvolve 加速量子、生物技术等领域研究
由 Gemini 驱动的编码 Agent AlphaEvolve 在过去一年中加速了量子计算、生物技术、物流及 Google 自身 AI 基础设施的研究进展。
xAI 推出 Grok Voice Think Fast 1.0 语音客服 Agent
专为真实世界客服设计,能在嘈杂环境中处理复杂工作流,从多步骤故障排除到大批量工具调用均保持速度和准确性。
吴恩达推出新课程:构建可生成自定义 UI 的 Agent
与 CopilotKit 合作的短期课程,教授构建不仅能回复文本、还能按需生成图表、表单和白板等自定义 UI 的 Agent。
构建 LLM 的大部分算力消耗在配方开发而非最终训练
研究表明,LLM 训练的极大部分算力用于配方开发而非最终运行,公开训练配方是推动研究社区进步的关键杠杆。
OpenAI 上线官方命令行工具 openai-cli
开源的 openai-cli 允许开发者直接在终端调用 API,支持资源化命令结构,可通过 Homebrew 或 Go 安装。
xAI 与 Anthropic 数据中心交易细节:环境记录与模型关停引发关注
Anthropic 获得 Colossus 1 全部算力但环境记录极差;xAI 保留更大的 Colossus 2,并提前两周关闭了 Grok 4.1 Fast 等多款旧模型。
OpenAI 政变之夜内部短信首次曝光
马斯克诉 OpenAI 案庭审第二周,前 CTO Mira Murati 视频证词与 2023 年 11 月政变之夜内部短信首次公开,还原硅谷史上最戏剧化的权力斗争。
Anthropic 漏洞赏金计划在 HackerOne 公开上线
此前仅在安全研究社区私下运行的漏洞赏金计划现已公开,任何人都可提交漏洞报告并获得奖励。
腾讯混元 Hy3 预览版 Token 用量增长 10 倍,编码和 Agent 驱动增长
Hy3 预览版 Token 用量较前代增长 10 倍,内部 WorkBuddy、CodeBuddy、QClaw 三款产品 Token 用量增长超 16.5 倍。