2026年7月5日 · 星期日

DeepSeek V4即将到来：Pro和Flash版本曝光，仍按token计费？

内部消息显示DeepSeek V4的Pro和Flash版本已接近发布，且保持按Token计费模式，但仍需验证。

来自社区的爆料显示，DeepSeek的下一代模型V4已在路上。曝光的两个版本分别为deepseek-v4-pro-202606和deepseek-v4-flash-202605，这意味着Pro和Flash双版本策略将在V4代继续沿用。更引人关注的是，消息称V4仍将采用按token计费的模式，而非业界此前猜测的订阅制或混合定价方案。如果属实，这将是DeepSeek继续通过高性价比策略蚕食市场份额的重要信号。与OpenAI的Opus系列和Anthropic的Fable系列相比，DeepSeek的低价路线已在V3代积累了庞大的开发者基础，V4若能延续这一优势，将进一步重塑大模型API市场的竞争格局。

Sakana AI在ICML2026发表球形黑盒优化器研究

Sakana AI最新研究"Bridging Spherical Black-Box Optimizers"被ICML2026接收。该研究旨在连接不同的球形黑盒优化算法，为高维空间的参数优化提供新思路。黑盒优化是大模型训练和超参数调优中的关键技术之一，这项工作的突破可能影响未来的训练效率。论文将在7月6日至11日于首尔举行的ICML会议上进行展示。

AI助力癌症免疫治疗：从一万肿瘤样本中学习

Yann LeCun转发了Eric Topol团队的研究成果。该研究使用AI从10,000个肿瘤样本的转录组数据中学习，覆盖33种癌症类型，旨在改善免疫治疗的效果预测。这项工作展示了AI在精准医疗领域的巨大潜力——通过从海量基因表达数据中提取模式，AI可以帮助医生更好地判断哪些患者将受益于免疫疗法。此前类似的研究通常局限于单一癌种，此次跨癌种的系统性分析标志着该领域的重要进步。

原始的缩放定律论文由于一个bug导致结论出错，可能使业界在过度训练不足的模型上浪费了巨大算力——而且那时候还没开始考虑推理成本。

蒸馏Claude Fable 5推理轨迹至Qwen3-4B，实现100%自洽性

研究团队从Claude Fable 5中蒸馏了230万条推理轨迹到Qwen3-4B模型，在512个样本下达到100%自洽性，输出0.00比特错误。这一成果表明，通过知识蒸馏，较小模型也可以继承前沿大模型的推理能力，大幅降低部署成本。

LongCat权重发布：最大规模非西方芯片预训练模型

LongCat模型权重已在Hugging Face上发布，这是已知的最大规模在非西方芯片上完成预训练的模型。该发布有助于评估华为芯片栈在大规模训练中的实际表现，也为非英伟达算力生态提供了重要参照。在出口管制日趋收紧的背景下，LongCat的出现是算力多元化的一个标志性进展。

Tau Law V2：华为LogicFolding技术提升高端AI计算能效

分析指出，华为的LogicFolding技术可以在同性能水平下提升高端AI芯片的能效上限，同时开辟新的低温高效运行层级。当前910C架构产品面临全面淘汰的风险，新技术将显著改写国产芯片的竞争力版图。

Seedance 2.0开源模型发布：4K视频生成能力全面开放

Higgsfield AI展示了Seedance 2.0生成的4K视频，并开放了完整开源项目和提示词。该模型在视频生成质量和分辨率上较前代有显著提升，且开源策略使得开发者和创作者可以自由部署和定制。这标志着视频生成领域的开源生态正加速追赶闭源商业模型。

如果模型本身就是路由器：智能委托给更便宜的模型

Ethan Mollick提出了一种未来AI架构的设想：由前沿大模型充当智能路由器，自行判断任务复杂度并将简单任务委托给更便宜的小模型处理。这种模式可以实现高效分工——让最聪明的AI做规划，让专用小模型做执行，大幅降低推理成本。他同时指出，人们低估了当前前沿模型自主委托任务的能力，这种能力正在快速提升。这一思路与业界正在探索的MoE路由和模型级联策略不谋而合。

Llama Index推出新一代检索工具，专为Agent设计

Llama Index的Jerry Liu发布了一款全面检索工具Retrieval Harness，旨在为2026年的现代Agent检索提供持久化数据支持。该工具提供了一种标准化的数据计算和评估框架，解决了Agent在复杂任务中面临的检索质量不可控问题。随着Agent应用从原型走向生产，检索的稳定性和可复现性正成为关键工程挑战。

AI公司获取算力比开发前沿模型更容易

teortaxesTex总结了过去两年的观察：从一家无算力的AI公司成长为拥有大量全球算力的公司，比从拥有算力但无前沿模型跨到两者兼备要容易得多。这反映出当前AI行业的深层矛盾——算力可以通过资本和基础设施建设获取，但真正的前沿模型能力仍然是极度稀缺的。市场上算力供需关系和模型能力的分布正在经历结构性重塑。

今日速讯07·05

HUGGING FACE

Diffusers发布新版本，新增Ideogram4等图像视频管线

新版本包含Ideogram4、MotifVideo等多个新图像和视频pipeline，图像生成与视频生成工具链进一步统一。

开源集成

GLM-5.2现可在Claude Code中通过Hugging Face推理提供者使用

ZAI官方宣布GLM-5.2已集成至Claude Code，开源模型在开发者工具链中的接入方式持续改善。

ICML 2026

Sakana AI将在ICML2026展示11篇论文，涵盖多智能体协调

Sakana AI团队携11篇论文赴首尔ICML2026，主题包括多智能体协调，展示了日本AI实验室在基础研究方面的持续产出。

性价比

GLM 5.2成本远低于Opus和Fable，性价比突出

Thoughtful Lab比较称，GLM 5.2比Opus 4.8便宜5倍，比Fable 5便宜11倍，但在PostTrainBench上排名第一。

路由系统

vLLM语义路由：开源路由系统提升模型调度效率

Clement Delangue推广vLLM项目的语义路由系统，推动开源路由与模型调度的进步。

平台生态

Replit上Spellbook应用3年逼近1亿美元ARR

Spellbook应用利用Replit内置认证，在3年内有望突破1亿美元年化收入，展示了AI开发平台孵化商业应用的能力。

Dreamina Seedance 2.5即将登陆剪映，支持50种多模态参考

CapCut官方宣布Dreamina Seedance 2.5将在剪映上线，提供无缝生成和编辑，最多支持50个多模态参考输入。

Luma Labs Ray3.2：用AI直接生成你的创意视觉

Luma Labs转发用户演示，展示Ray3.2如何通过AI将设计创意直接渲染为视觉成果。

Blackwell带宽提升使GLM 5.2达300tps，期望150tps成新常态

Blackwell增加的内存和通信带宽，加上DeepSeek的megamoe算子，使得GLM 5.2实现300 tokens/s不再困难。

Moonshot实验室：专注于突破性架构，系统集成非重点

Moonshot实验室负责人表示重心在突破性架构而非系统工程集成，被认为是充分吸取DeepSeek经验的机构。

V4翻译中文PDF创纪录：138 tokens/s，推理时间61秒

V4-flash以138 tokens/s完成翻译，推理时间仅61.1秒；V4-pro质量更优，速度84 tokens/s。

中国AI研究从未落后太多：百度发布首个缩放定律论文

teortaxesTex认为人们高估了通过间谍活动获取前沿算法的重要性，百度早已发布首个缩放定律论文。

MiniMax入选开放模型生态，生态系统持续向好

MiniMax官方表示很高兴被纳入开放模型生态系统，该生态正在不断改善。

我们正告别旧代码时代：AI让编程从手工艺变为商品

Ethan Mollick比喻称，AI使编程商品化，不再需要委托代码工匠手工打造程序。

精致的思维工具被简陋CLI碾压，后者提供商品化思考

Swyx感叹十年打造的漂亮思维工具被低对比度的CLI彻底打败，因为后者提供了开箱即用的思考能力。

前沿实验室降本秘诀？Giffmana调侃：降低视觉分辨率永远有效

研究员独立日宅家研读Nemotron和Arcee Trinity技术报告

如果产品没有即时反馈功能，用户会用Claude替代你

研究员robertskmiles表示，如果软件产品不能在几分钟内实现用户的功能请求，他会忍不住用Claude替代整个产品。

AI短波07·05

人才动向