2026年6月27日 · 星期六

如果你的基准依赖于静态数据集或从训练时已知的静态分布中采样,那么它本质上测量的是记忆与检索——不要把它和智能混为一谈。

François Chollet

vLLM正式支持GLM-5.2 NVFP4推理

NVIDIA官方NVFP4量化版GLM-5.2上线vLLM,内存占用低于FP8但准确率不降,支持推理、编码和长上下文基准。

@vllm_project

Gemma 4发布2.5个月下载量突破2亿

Google DeepMind转推确认Gemma 4在短短2.5个月内达到2亿次下载,表明开放模型需求极为强劲。

@GoogleDeepMind 转推

Photoroom开源PRX Pixel 7B文本到图像模型

PRX Pixel是一个在像素空间直接生成图像的开源7B模型,由Photoroom团队发布。Yann LeCun转推了这一消息。

@ylecun 转推

SGLang v0.5.14发布,支持GLM-5.2、Kimi-K2.7等多款新模型

新版本支持GLM-5.2、LiquidAI LFM2.5、Kimi-K2.7-Code、Poolside Laguna-M.1等多款模型,并迎来55位新贡献者。

@sgl_project

TRL v1.7.0发布:连续批处理使GRPO和RLOO训练快1.25倍

TRL框架更新,连续批处理使GRPO和RLOO训练快1.25倍且节省16GB内存,同时支持MoE模型后训练。

@huggingface 转推

Cohere开源使用AI agent维护vLLM fork的实践

Cohere展示用AI agent将vLLM fork同步自动化的实践方案:自动rebase上游、运行测试、诊断修复,将数周工作大幅缩短。

@cohere 转推

SakanaAI联合发布CoffeeBench:评估LLM代理长期经营能力

CoffeeBench模拟咖啡供应链多代理环境,测试代理90天经营能力。高表现代理积极沟通议价,低表现代理出现"思考但不行动"的停滞。

@hardmaru 转推

阿里发布Qwen-Image-Agent:弥合图像生成上下文差距

Qwen-Image-Agent是一个连接上下文差距的智能体框架,用于现实世界图像生成,可规划、推理和行动。

@_akhaliq 转推

研究:推理数据应提前注入预训练,平均提升19%

首篇系统研究推理数据注入时机的论文:预训练阶段注入推理模式可带来19%平均性能提升,后期SFT无法完全复制这一能力。

@_arohan_ 转推

Neel Nanda呼吁建立模型取证科学以检测AI欺骗

Nanda担心即使发现AI作恶也无法解释原因,呼吁建立"模型取证"科学。相关论文提出了可能的研究方法路径。

@NeelNanda5

产品与工具2026.06.27

面对AI能力的快速提升,人类的第一反应从来不是执行理性计划——而是"胡乱应付"。这在快速变化的复杂情境中是一种普遍的人类行为,而AI领域正在上演这一点。

Ethan Mollick
政策与安全监管前沿

MiniMax M3模型在NVIDIA NVFP4格式下可用

MiniMax M3现可用于NVIDIA NVFP4格式,为开源生态提供更多选择。

@MiniMax_AI

Cohere推出Apache 2.0编码模型,20GB内存即可本地运行

Cohere的开源Apache 2.0编码模型只需20GB内存即可本地运行,强调免费使用。

@cohere 转推

Artificial Analysis发布AA-Briefcase基准

新基准AA-Briefcase评估AI在复杂项目中的实际任务能力。

@nvidia 转推

Sebastian Raschka:30B MoE模型本地达40 tok/s

Raschka测试了Qwen-Code、Codex等模型,发现30B MoE模型在Mac或DGX Spark上以约40 tok/s运行,可解决挑战性问题。

@rasbt

François Chollet:自主性是学习能力,不是无需监督

Chollet定义自主性为在没有人类瓶颈的情况下学习的能力,而非无需人类监督的独立行动能力。完全依赖人类训练数据的系统只是人类知识的印记。

@fchollet

Unitree人形机器人新型号价格降至4100美元

相当于一个消费级GPU的价格,人形机器人成本大幅下降。

@teortaxesTex

NVIDIA展示Zaha Hadid Architects如何利用本地计算和定制AI

Zaha Hadid Architects通过本地计算、微调AI模型和NVIDIA技术构建定制AI工具,加速设计并保障数据安全。

@nvidia

ByteDance Seed Audio 1.0语音和音效质量惊艳

TomLikesRobots初步测试显示Seed Audio 1.0在配音和拟音方面效果出色。

@TomLikesRobots

Agentic RL中环境管理与拓展的挑战

一篇线程总结agentic强化学习中扩展环境的难点,包括环境设计与规模化问题。

@cwolferesearch

teortaxesTex:LLM推理实质是内部状态构建而非真正的推理

认为LLM在检索事实知识时的推理多半是构建内部状态的"闲聊",本质是预热与归位机制,并提出如何优化这一过程。

@teortaxesTex

PixVerse的Seedance 2.0实现原生4K和简化VFX

Seedance 2.0可从绿幕和单一盒子生成完整场景,保留原始运动和构图,电影级VFX变得极为简单。

@PixVerse_

LlamaParse现为n8n官方社区节点,将文档智能带入低代码世界

LlamaParse平台成为n8n官方验证社区节点,将文档解析和智能能力带入低代码世界。

@llama_index

YC支持创业公司REBOLT:让公司所有数据一键可查

REBOLT使企业数据通过一个提示即可查询和构建,创始人为Y Combinator校友。

@javilopen

对AI基准文化的深刻批判与建设性提议

一篇论文对AI基准文化提出新批评视角,包括重要观点和建设性提议,由Sobhan Lotfi和Ava合著。

@random_walker

ViQ:文本对齐的视觉量化表示,支持任意分辨率

新方法ViQ将文本对齐的视觉量化表示扩展到任意分辨率,提高多模态对齐质量。

@_akhaliq

Runway 2026 AI电影节获奖作品揭晓

Runway AI Festival公布获奖影片及最佳作品,Ron Howard等参与讨论。

@runwayml

短讯2026.06.27

FAV0 · AI Daily · 2026年6月27日刊