2026年6月24日 · 星期三

OpenAI 半年内发布30+模型与API功能更新

GPT-5.5、GPT-5.4 mini/nano、GPT-Realtime-2 等新模型及多项功能升级悉数登场，API 产品线加速扩张

OpenAI 在最新开发者回顾中梳理了过去六个月的 API 迭代轨迹。期间上线的旗舰模型 GPT-5.5、轻量级 GPT-5.4 mini 与 GPT-5.4 nano，以及 GPT-Realtime-2、GPT-Realtime-Whisper 等实时语音模型，覆盖了从高端推理到低成本微端的多条产品线。此次批量发布标志着 API 在推理深度、成本效率和实时交互三个维度上的全面拓展，也反映出 OpenAI 在开发者工具侧的高频交付节奏。

Claude Code 团队内部使用效果：AI 编写65%产品代码

Anthropic 披露 Claude Tag 已嵌入日常开发流程，大部分 Claude Tag 自身代码也由 AI 生成

Claude Code 团队透露，Claude Tag 作为内部工具已随主产品全年交付使用。当前该 AI 工具已编写了团队约 65% 的产品代码，包括构建 Claude Tag 本身的大部分工程。团队展示了多个日常使用场景，表明 AI 深度嵌入开发流程已经从实验阶段进入工程常态。

NVIDIA 占据 TOP500 超算81%，AI训练吞吐量超其他平台总和2倍

最新超算排名：NVIDIA 动力系统占 TOP500 的81%，新建系统占89%。

最新超算排名榜单显示，NVIDIA 动力系统在 TOP500 中占比达 81%，新建系统占比更达 89%。AI 训练吞吐量超过其他所有平台总和的两倍，推理吞吐量为三倍。Green500 能效榜单前8名也全部由 NVIDIA 系统占据，进一步巩固了其在 AI 基础设施领域的统治地位。

Mistral OCR 4 提供结构化输出，包括边界框、块分类和内联置信度分数。

Mistral 发布 OCR 4：支持170种语言、边界框与置信度

Mistral AI 正式推出新一代光学字符识别模型 Mistral OCR 4。该模型以结构化输出为核心特性，能够为文档内容生成边界框、完成块分类标注，并在每个识别结果旁边提供内联置信度分数。覆盖 170 种语言的能力使其在跨语种文档数字化场景中具备显著优势，有望重新定义 OCR 领域的精度标准。

这是一种与组织中其他人类活动深度融合的交互新范式，需要大量底层工程才能实现"开箱即用"。
— Andrej Karpathy 评 Claude Tag

OpenAI 2026 开发者大会开放申请，9月旧金山举行

DevDay 2026 将于9月29日在旧金山举办，活动包括技术讲座、实操演示与工作坊

OpenAI DevDay 2026 现已开放参会申请。活动定于 9 月 29 日在旧金山举行，内容涵盖技术讲座、实操演示、工作坊以及与 OpenAI 开发工具团队的面对面交流。申请截止日期为 2026 年 7 月 10 日。

Runway 上线 Seedance 4K、Mini 及 Kling 3.0 Turbo

Runway 将 Seedance 4K、Seedance Mini 和 Kling 3.0 Turbo 整合至同一平台，号称世界最佳视频生成模型齐聚一处。首三个月使用优惠码可享七折。

DFlash 在 NVIDIA Blackwell 上实现最高15倍吞吐量提升

SGLang 集成块扩散草稿 DFlash，在 NVIDIA Blackwell 上实现高达 15 倍吞吐量提升，从 EAGLE 迁移只需切换配置，无需代码修改。

vLLM 集成 NVIDIA DFlash 投机解码，配置即可切换

vLLM 项目通过开源 Speculators 投机解码库接入 DFlash，用户可无代码地将 EAGLE-3 检查点替换为 DFlash。

Nathan Lambert 发布合成数据与蒸馏文献新讲座

Nathan Lambert 发布新讲座，从 Hinton 2015 年蒸馏论文一路梳理到现代多教师在线策略蒸馏，配套视频累计7.4小时。

NVIDIA Agent Toolkit 发布，助力企业构建专业AI代理

NVIDIA Agent Toolkit 整合 Nemotron 开源模型、工具、技能与安全运行时，帮助企业团队构建面向特定领域的专业 AI 代理。

康奈尔大学使用 Claude 财务技能追回10万美元欠款

康奈尔大学 AI 创新中心与财务部门合作，利用基于 Claude 开发的自动化调查工具识别并追回了10万美元的未识别付款。

Engram 公司成立：从PhD退学创业，聚焦持续学习

jxmnop 退出博士项目并共同创立 Engram，致力于训练能够随时间学习、记忆和持续适应变化的 AI 模型。

GLM 支持 Perplexity Agent API

Perplexity 的 Agent API 现已支持 GLM，Arav Srinivas 亲自确认。

Krea AI 开源 Krea-2-Raw 模型

Krea-2-Raw 及 Turbo 模型权重已发布至 Hugging Face。

SGLang 服务 DeepSeek-V4：吞吐量提升5倍

lmsys 博客介绍在 GB300 上用 SGLang 服务 DeepSeek-V4 实现5倍吞吐量。

百度发布 Unlimited-OCR 模型

百度开源 Unlimited-OCR 模型，用户可轻松试用，在 OCR 领域引发关注。

Ling and Ring 2.6 技术报告：万亿参数智能体

技术报告发布，声称实现高效、即时的智能体智能，规模达万亿参数。

产品速报06.24

TOOLS

Cursor 新增团队插件/技能/MCP 排行榜

Cursor 推出团队内流行插件、技能和 MCP 的排行榜，可从新 Customize 页面一键添加。

VIDEO AI

Seedance 2.0 达到生产级 AI 视频模型水平

Seedance 2.0 在原生 4K 下运行，被 Higgsfield 宣传为真正可用于生产的 AI 视频模型。

VISION

Gemini 视觉技能通过黑蚁复杂场景测试

fofrAI 测试 Gemini 视觉识别能力，在多物体复杂场景中表现令人印象深刻。

AUDIO

新声音模型迎来"Seedance 时刻"

oran_ge 体验全新智能声音模型，认为其与以往 TTS 完全不同，是语音模型的里程碑。

OPINION

Ilya Sutskever 称预训练扩展正在触及数据墙

karlmehta 转发 Sutskever 观点，认为预训练 Scaling Law 因有限数据即将面临瓶颈。

MODEL

Krea 2 开源图像模型排名第一

Krea 2 在独立实验室 Artificial Analysis 的文本到图像排名中位列第一。

当前 AI 栈存在3-4个数量级的数据低效和4-5个数量级的计算低效。近最优的 AI 将由符号学习实现。
— François Chollet 预测2040年AI走向

华为全 CPU 超算登顶 Top500 榜首

使用华为自研芯片的全 CPU 超级计算机在最新 Top500 排名中位列第一，标志着中国超算硬件能力的新高度。

研究：通过贝尔曼方程逆推恢复智能体世界模型

Google DeepMind 研究员发现可反转贝尔曼方程以从价值函数恢复智能体的世界模型，该发现具有理论意义。

Hugging Face 成为机器人与视频AI数据存储首选

Clement Delangue 指出 HF 正成为大规模数据的首选存储地，机器人数据集从1000个激增至60000个。

DeepSeek V4 Flash 可完成约80%的 Claude/Codex 任务

jpschroeder 认为 DeepSeek V4 Flash 在许多场景下可替代更大型号，提醒别忽视小模型的价值。

今日短讯06.24

TELECOM

NVIDIA 为电信运营推7x24小时AI代理

NVIDIA 在 DTW Ignite 展示电信自主网络代理工作流栈。

IBM

IBM 发布开源 Agent 框架 CUGA

CUGA 旨在解决AI代理从演示到生产环境的关键问题。

VERCEL

Claude Design 一键部署至 Vercel

Vercel CEO rauchg 展示从 Claude Design 一键部署到生产环境的功能。

INDUSTRY

DeepSeek 面临规模挑战，与 zAI 竞争需扩张

teortaxesTex 分析 DeepSeek 规模相对较小，且招人标准极高。

VIDEO

Seedance 2.0 4K 微距拍摄效果惊人

Higgsfield 展示 Seedance 2.0 在 4K 下的微距镜头生成效果。

即梦

Seedance 2.0 4K 在即梦上线，面向商业制作

15秒视频消耗1200积分，码率50M，适合商业短片。

OPEN SOURCE

OpenAI 开源生态投入：资助维护者、投资Rust

过去一周 OpenAI 直接资助开源维护者，投资 Rust 生态，推出安全项目 Patch the Planet。

GOOGLE

Google 员工因用 Rust 写 Workspace CLI 被开除

Justin Poehnelt 因在官方 GitHub 发布用 Rust 编写的 Workspace CLI 工具遭解雇，引发争议。

OCR

百度 OCR 模型与 Mistral OCR 4 对比指南上线

NielsRogge 制作对比指南帮助开发者选择 OCR 方案。

PAPER

世界动作模型综述论文发表

关于世界动作模型的最新综述论文，涵盖相关方法与进展。

API

GLM-5.2 现已上线 Perplexity Agent API

与 Search SDK 结合使用时功能强大。

STANDARD

建议开源模型标准化 tokenizer

_arohan_ 指出开源模型 tokenizer 不统一不利于生态。