2026年6月24日 · 星期三

OpenAI 半年内发布30+模型与API功能更新

GPT-5.5、GPT-5.4 mini/nano、GPT-Realtime-2 等新模型及多项功能升级悉数登场,API 产品线加速扩张

OpenAI 过去六个月为 API 累计发布了30余个模型、功能和工具升级。

OpenAI 在最新开发者回顾中梳理了过去六个月的 API 迭代轨迹。期间上线的旗舰模型 GPT-5.5、轻量级 GPT-5.4 mini 与 GPT-5.4 nano,以及 GPT-Realtime-2、GPT-Realtime-Whisper 等实时语音模型,覆盖了从高端推理到低成本微端的多条产品线。此次批量发布标志着 API 在推理深度、成本效率和实时交互三个维度上的全面拓展,也反映出 OpenAI 在开发者工具侧的高频交付节奏。

Mistral OCR 4 提供结构化输出,包括边界框、块分类和内联置信度分数。

Mistral 发布 OCR 4:支持170种语言、边界框与置信度

Mistral AI 正式推出新一代光学字符识别模型 Mistral OCR 4。该模型以结构化输出为核心特性,能够为文档内容生成边界框、完成块分类标注,并在每个识别结果旁边提供内联置信度分数。覆盖 170 种语言的能力使其在跨语种文档数字化场景中具备显著优势,有望重新定义 OCR 领域的精度标准。

这是一种与组织中其他人类活动深度融合的交互新范式,需要大量底层工程才能实现"开箱即用"。

— Andrej Karpathy 评 Claude Tag
产品速报06.24

当前 AI 栈存在3-4个数量级的数据低效和4-5个数量级的计算低效。近最优的 AI 将由符号学习实现。

— François Chollet 预测2040年AI走向
今日短讯06.24
TELECOM

NVIDIA 为电信运营推7x24小时AI代理

NVIDIA 在 DTW Ignite 展示电信自主网络代理工作流栈。

IBM

IBM 发布开源 Agent 框架 CUGA

CUGA 旨在解决AI代理从演示到生产环境的关键问题。

VERCEL

Claude Design 一键部署至 Vercel

Vercel CEO rauchg 展示从 Claude Design 一键部署到生产环境的功能。

INDUSTRY

DeepSeek 面临规模挑战,与 zAI 竞争需扩张

teortaxesTex 分析 DeepSeek 规模相对较小,且招人标准极高。

VIDEO

Seedance 2.0 4K 微距拍摄效果惊人

Higgsfield 展示 Seedance 2.0 在 4K 下的微距镜头生成效果。

即梦

Seedance 2.0 4K 在即梦上线,面向商业制作

15秒视频消耗1200积分,码率50M,适合商业短片。

OPEN SOURCE

OpenAI 开源生态投入:资助维护者、投资Rust

过去一周 OpenAI 直接资助开源维护者,投资 Rust 生态,推出安全项目 Patch the Planet。

GOOGLE

Google 员工因用 Rust 写 Workspace CLI 被开除

Justin Poehnelt 因在官方 GitHub 发布用 Rust 编写的 Workspace CLI 工具遭解雇,引发争议。

OCR

百度 OCR 模型与 Mistral OCR 4 对比指南上线

NielsRogge 制作对比指南帮助开发者选择 OCR 方案。

PAPER

世界动作模型综述论文发表

关于世界动作模型的最新综述论文,涵盖相关方法与进展。

API

GLM-5.2 现已上线 Perplexity Agent API

与 Search SDK 结合使用时功能强大。

STANDARD

建议开源模型标准化 tokenizer

_arohan_ 指出开源模型 tokenizer 不统一不利于生态。

FAV0 · AI Daily