2026年7月3日 · 星期四

NVIDIA推出TwoToken模型，并行token生成

将30B模型一分为二，并行生成token取代逐token顺序生成，推理速度有望大幅提升。

NVIDIA AI发布了Nemotron-Labs-TwoToken，这是一项全新的模型推理架构创新。研究团队将30B参数的模型拆分为两部分进行并行工作，同时重构了模型以支持并行token生成，替代了传统的一次生成一个token的顺序方式。该方法在保持输出质量不变的前提下，显著缩短了长文本生成的时间。

该架构的核心在于将注意力机制和前馈网络分别部署到两个子模型中，通过精心设计的交叉通信协议实现了高效的流水线并行。早期基准测试表明，与同规模的标准自回归模型相比，生成效率最高可提升至接近两倍。对于企业级部署而言，这意味更低的延迟和更高的吞吐。

vLLM优化DeepSeek V4成本降低5倍

内核、调度、服务三层优化叠加，一个月内token成本降至原来的五分之一。

vLLM社区在一个月内对DeepSeek V4进行了密集优化，涵盖内核、调度和服务三个层面。从day-zero的适配方案到持续的底层优化，社区贡献者的每一次PR都在累积。最终实现的5倍token成本降低，不仅降低了推理门槛，也证明了开源协作在推理效率竞赛中的关键作用。

DSpark推测解码登陆vLLM

vLLM正式原生集成DeepSeek的DSpark推测解码技术。该方案采用半自回归起草器，结合非因果滑动窗口注意力，一次提出多个候选token，随后在单次前向传播中统一验证。输出与原始模型完全一致，但解码步骤显著减少，特别适合低延迟、高交互性的推理场景。

GLM 5.2在APEX-SWE上开源模型首秀夺冠

Pass@1达到55.3%，成为首个在该基准集成类别中领先的开源模型。

GLM 5.2在APEX-SWE的Integration类别中获得了55.3%的Pass@1成绩，成为第一个在该软件工程基准上领跑的开源模型。这一里程碑标志着开源模型在复杂代码生成与集成任务上已具备与闭源前沿模型竞争的实力。该模型同步登陆Microsoft Foundry平台并支持AMD MI300X GPU运行，进一步拓展了部署选项。

ICML Spotlight论文：超越语言建模

原生多模态预训练实证洞察，从表示学习到扩展性全面梳理。

一篇题为《Beyond Language Modeling》的ICML Spotlight论文系统性地探讨了原生多模态预训练，从表示学习、数据构建、模型架构和扩展性四个维度提供了实证洞察。论文由David Fan和John Nguyen等人合著，聚焦多模态模型在训练过程中各因素的实际影响。网页介绍了博客文章的研究内容，为该领域的实践者提供了关键的实验参考。

Fchollet预测：AI将收敛到符号世界模型

"符号建模让系统用最少的数据构建紧凑、可重用、高度泛化的心智模型。"

François Chollet认为AI最终将走向直觉引导的符号世界建模，即深度学习引导的程序合成。他称这一方向"不可避免"，并指出符号建模能够让系统构建紧凑、高度泛化的问题空间心智模型，仅需极少量数据。这一论述呼应了Chollet长期以来的ARC研究路线。

Claude API速率限制提升5倍，层级简化

Claude Platform API大幅提升速率上限，最高层级可达原限制5倍，同时简化分层结构，不再依据API历史消费额。最新的Sonnet和Haiku模型在高层级可获得大幅速率提升，所有用户均受益。

Claude Code Artifacts扩展至Pro/Max用户

Claude Code的Artifacts功能现向Pro和Max计划开放。用户请求Artifact后，Claude编写代码并实时发布到claude.ai，同时在工作过程中持续更新。页面为账户私有且完全自包含。

NVIDIA推进AI工厂商业模式，收入分成

AI正从模型训练转向持续token生产，这一转变需要全新的商业模式。NVIDIA与AI云服务商合作部署大规模多租户AI工厂，通过收入分成和信用支持模式，将计算资源开放给更广泛的开发者群体。

Runway推出Agent Skills自动化营销

Runway推出Agent Skills功能，用户通过简单命令即可创建广告、制作商业广告、本地化内容。输入"/"选择技能后Agent开始工作，实现按需扩展营销活动。一个月的工作量可在一天内完成。

Higgsfield推Explainer，AI自动解说视频

Higgsfield发布Explainer工具，基于Claude Fable 5和Gemini Omni Flash，自动研究主题、多语言叙述、渲染最长10分钟的无面纪录片。支持Higgsfield、MCP和Supercomputer平台。

CMU开设新课程：AI Agents

CMU今年秋季推出全新AI Agents课程，内容涵盖创建scaffold、构建评估体系以及使用强化学习训练Agentic LLM，兼顾理论与实践，引入现代框架与最佳实践。

最终，AI的大部分进展将收敛到直觉引导的符号世界建模上，即深度学习引导的程序合成。这不可避免。
François Chollet

Meta发布Autodata框架，自动化高质量训练数据

AI前沿的瓶颈之一是高质量训练数据。Meta推出Autodata框架，自动化高质量训练数据生成流程，直接回应了这一挑战。该框架旨在打破训练数据瓶颈，为大规模预训练提供可持续的数据供给方案。

微软与CMU发Agent制作PPT基准

新基准测试评估AI Agent生成和修改PowerPoint的能力，对幻灯片操作进行严格评估。

vLLM移除PagedAttention模块

vLLM核心开发者宣布移除PagedAttention，标志vLLM注意力机制技术演进进入新阶段。

GLM 5.2 DSpark Speculator训练进展

GLM 5.2 DSpark speculator全面训练中，epoch-1 checkpoint已发布可用于GPU。

Bridgewater测试引发前沿实验室警惕

全球最大对冲基金Bridgewater发布了Gemini等模型的测试数据，让前沿AI实验室感到压力。

产品与生态Product & Ecosystem

xAI

Grok Build入驻Railway沙箱

xAI的Grok Build开发环境现已可在Railway沙箱中安装使用。

高通

高通与Hugging Face扩大AI合作

Qualcomm和Hugging Face深化合作，共同推动开源开发者主导的AI创新。

HF趋势

PII过滤模型GLiNER2下载5.5万次

fastino/gliner2-privacy-filter-PII-multi上线Hugging Face约6周，下载量达5.5万次。

成本优化

Harness优化实现7倍成本降低

新博客介绍通过harness优化，以7倍成本改进实现与Sonnet 4.6相当的性能。

语音

TTS Arena盲测平台上线

全新文本转语音盲测平台，用户可比较匿名模型的语音输出。

Replit

Fable 5重回Replit平台

Replit重新上线Fable 5，支持高努力模式，适用于更长更复杂的项目。

视频

Vidu Q3 Mix入驻Pixmax平台

Vidu Q3 Mix作为全能平衡模型加入Pixmax，支持原生音视频输出，覆盖商业创作场景。

OCR

Unlimited-OCR登顶HF趋势第一

Unlimited-OCR模型在Hugging Face平台趋势排名第一。

日本

Sakana AI成立RSI实验室

Sakana AI宣布成立递归自我改进实验室，推动自主进化的优化循环，现招聘项目管理人才。

框架

Eve框架：面向Agent的Next.js

evedev发布eve框架，专为构建Agent设计，支持持久化运行。

Claude

Claude举办生命科学黑客马拉松

Anthropic与Gladstone研究所联合举办“Built with Claude: Life Sciences”全球虚拟黑客马拉松。

Vercel

Vercel AI Gateway：Token CDN模式

Vercel CEO将AI Gateway比作AI模型的CDN，支持动态路由免重新部署。

数据集与学术Datasets & Academia

数据集

80TB天体物理数据集上线HF

Thom Wolf指出AI科学每周都有大发布，本次为80TB天体物理学数据。

游戏

CS2-10k游戏视频数据集发布

Reka实验室发布60多万第一人称游戏视频、1万小时时长，每帧配文字说明。

GLM

GLM 5.2在AMD MI300X运行

前沿模型现可在Microsoft Foundry上以AMD MI300X GPU运行，结合Codex实现开放目标。

评估

CRUX项目：长期AI研发评估

CRUX项目运行开放式世界评估，定期更新AI研发进展。

Grok

Grok Build新增语音转文本输入

Grok语音转文本功能现已上线，用户可直接语音输入提示给代码Agent。

开源

《Python Cookbook》开源书发布

Stas Bekman将多年Python速查表转化为开源食谱书，免费提供。

RedHat

GLM 5.2首个非DeepSeek DSpark

RedHatAI发布GLM-5.2-speculator.dspark-preview，首个面向非DeepSeek前沿模型的DSpark speculator。

数据

DeepSeek用开源数据集训练DSpark

DeepSeek利用Maxime Labonne的open-perfectblend数据集训练新DSpark起草器。

能源

核初创Valar为NVIDIA Spark供电

Valar Atomics成为首个实现发电的核初创公司，成功为NVIDIA Spark计算平台供电。

模型

Laguna XS 2.1获SGLang首日支持

Poolside AI的33B MoE模型Laguna XS 2.1面向Agentic Code，上线SGLang。