vLLM优化DeepSeek V4成本降低5倍
内核、调度、服务三层优化叠加,一个月内token成本降至原来的五分之一。
vLLM社区在一个月内对DeepSeek V4进行了密集优化,涵盖内核、调度和服务三个层面。从day-zero的适配方案到持续的底层优化,社区贡献者的每一次PR都在累积。最终实现的5倍token成本降低,不仅降低了推理门槛,也证明了开源协作在推理效率竞赛中的关键作用。
DSpark推测解码登陆vLLM
vLLM正式原生集成DeepSeek的DSpark推测解码技术。该方案采用半自回归起草器,结合非因果滑动窗口注意力,一次提出多个候选token,随后在单次前向传播中统一验证。输出与原始模型完全一致,但解码步骤显著减少,特别适合低延迟、高交互性的推理场景。
ICML Spotlight论文:超越语言建模
原生多模态预训练实证洞察,从表示学习到扩展性全面梳理。
一篇题为《Beyond Language Modeling》的ICML Spotlight论文系统性地探讨了原生多模态预训练,从表示学习、数据构建、模型架构和扩展性四个维度提供了实证洞察。论文由David Fan和John Nguyen等人合著,聚焦多模态模型在训练过程中各因素的实际影响。网页介绍了博客文章的研究内容,为该领域的实践者提供了关键的实验参考。
Fchollet预测:AI将收敛到符号世界模型
"符号建模让系统用最少的数据构建紧凑、可重用、高度泛化的心智模型。"
François Chollet认为AI最终将走向直觉引导的符号世界建模,即深度学习引导的程序合成。他称这一方向"不可避免",并指出符号建模能够让系统构建紧凑、高度泛化的问题空间心智模型,仅需极少量数据。这一论述呼应了Chollet长期以来的ARC研究路线。
Claude API速率限制提升5倍,层级简化
Claude Platform API大幅提升速率上限,最高层级可达原限制5倍,同时简化分层结构,不再依据API历史消费额。最新的Sonnet和Haiku模型在高层级可获得大幅速率提升,所有用户均受益。
Claude Code Artifacts扩展至Pro/Max用户
Claude Code的Artifacts功能现向Pro和Max计划开放。用户请求Artifact后,Claude编写代码并实时发布到claude.ai,同时在工作过程中持续更新。页面为账户私有且完全自包含。
NVIDIA推进AI工厂商业模式,收入分成
AI正从模型训练转向持续token生产,这一转变需要全新的商业模式。NVIDIA与AI云服务商合作部署大规模多租户AI工厂,通过收入分成和信用支持模式,将计算资源开放给更广泛的开发者群体。
Runway推出Agent Skills自动化营销
Runway推出Agent Skills功能,用户通过简单命令即可创建广告、制作商业广告、本地化内容。输入"/"选择技能后Agent开始工作,实现按需扩展营销活动。一个月的工作量可在一天内完成。
Higgsfield推Explainer,AI自动解说视频
Higgsfield发布Explainer工具,基于Claude Fable 5和Gemini Omni Flash,自动研究主题、多语言叙述、渲染最长10分钟的无面纪录片。支持Higgsfield、MCP和Supercomputer平台。
CMU开设新课程:AI Agents
CMU今年秋季推出全新AI Agents课程,内容涵盖创建scaffold、构建评估体系以及使用强化学习训练Agentic LLM,兼顾理论与实践,引入现代框架与最佳实践。
最终,AI的大部分进展将收敛到直觉引导的符号世界建模上,即深度学习引导的程序合成。这不可避免。
François Chollet
Meta发布Autodata框架,自动化高质量训练数据
AI前沿的瓶颈之一是高质量训练数据。Meta推出Autodata框架,自动化高质量训练数据生成流程,直接回应了这一挑战。该框架旨在打破训练数据瓶颈,为大规模预训练提供可持续的数据供给方案。
微软与CMU发Agent制作PPT基准
新基准测试评估AI Agent生成和修改PowerPoint的能力,对幻灯片操作进行严格评估。
Grok Build入驻Railway沙箱
xAI的Grok Build开发环境现已可在Railway沙箱中安装使用。
高通与Hugging Face扩大AI合作
Qualcomm和Hugging Face深化合作,共同推动开源开发者主导的AI创新。
PII过滤模型GLiNER2下载5.5万次
fastino/gliner2-privacy-filter-PII-multi上线Hugging Face约6周,下载量达5.5万次。
Harness优化实现7倍成本降低
新博客介绍通过harness优化,以7倍成本改进实现与Sonnet 4.6相当的性能。
TTS Arena盲测平台上线
全新文本转语音盲测平台,用户可比较匿名模型的语音输出。
Fable 5重回Replit平台
Replit重新上线Fable 5,支持高努力模式,适用于更长更复杂的项目。
Vidu Q3 Mix入驻Pixmax平台
Vidu Q3 Mix作为全能平衡模型加入Pixmax,支持原生音视频输出,覆盖商业创作场景。
Unlimited-OCR登顶HF趋势第一
Unlimited-OCR模型在Hugging Face平台趋势排名第一。
Sakana AI成立RSI实验室
Sakana AI宣布成立递归自我改进实验室,推动自主进化的优化循环,现招聘项目管理人才。
Eve框架:面向Agent的Next.js
evedev发布eve框架,专为构建Agent设计,支持持久化运行。
Claude举办生命科学黑客马拉松
Anthropic与Gladstone研究所联合举办“Built with Claude: Life Sciences”全球虚拟黑客马拉松。
Vercel AI Gateway:Token CDN模式
Vercel CEO将AI Gateway比作AI模型的CDN,支持动态路由免重新部署。
80TB天体物理数据集上线HF
Thom Wolf指出AI科学每周都有大发布,本次为80TB天体物理学数据。
CS2-10k游戏视频数据集发布
Reka实验室发布60多万第一人称游戏视频、1万小时时长,每帧配文字说明。
GLM 5.2在AMD MI300X运行
前沿模型现可在Microsoft Foundry上以AMD MI300X GPU运行,结合Codex实现开放目标。
CRUX项目:长期AI研发评估
CRUX项目运行开放式世界评估,定期更新AI研发进展。
Grok Build新增语音转文本输入
Grok语音转文本功能现已上线,用户可直接语音输入提示给代码Agent。
《Python Cookbook》开源书发布
Stas Bekman将多年Python速查表转化为开源食谱书,免费提供。
GLM 5.2首个非DeepSeek DSpark
RedHatAI发布GLM-5.2-speculator.dspark-preview,首个面向非DeepSeek前沿模型的DSpark speculator。
DeepSeek用开源数据集训练DSpark
DeepSeek利用Maxime Labonne的open-perfectblend数据集训练新DSpark起草器。
核初创Valar为NVIDIA Spark供电
Valar Atomics成为首个实现发电的核初创公司,成功为NVIDIA Spark计算平台供电。
Laguna XS 2.1获SGLang首日支持
Poolside AI的33B MoE模型Laguna XS 2.1面向Agentic Code,上线SGLang。