2026年6月6日 · 星期六

Meta SAM 3D 获 CVPR 最佳论文荣誉，开源 3D 生成模型

单图秒变完整三维物体，开源模型在遮挡场景人类偏好测试中取得 5:1 胜率。

CVPR 2026 · 最佳论文荣誉提名

SAM 3D 从单张图片生成完整三维物体（几何、纹理、布局），擅长处理自然图像中的遮挡与杂乱场景。

SAM 3D 提出一种从单张图像生成三维物体的生成模型，通过人机协同标注形状、纹理与姿态，构建大规模高质量三维重建数据，并采用"合成预训练+真实对齐"多阶段训练框架突破数据瓶颈。在真实物体与场景的人类偏好测试中取得至少 5:1 的胜率。

研究团队将开源代码、模型权重、在线 demo 及全新的野外三维物体重建基准，供社区验证与扩展。该工作获 CVPR 2026 最佳论文荣誉提名，标志着单图 3D 生成从学术研究走向实用部署的关键一步。

Ideogram 4.0 发布：9.3B 参数开源文生图模型

从零训练的 9.3B Diffusion Transformer，配合 8B VLM 文本编码器，nf4 量化版可在 24GB 消费级显卡运行。

Ideogram 4.0 基于 Diffusion Transformer 架构，专为创意与创新场景打造。

团队发布技术博客详细介绍了训练过程与架构设计。该模型旨在推动开源文生图领域进步，让更多开发者和创作者能够使用前沿的图像生成技术。

Claude 4.7 在化学 NMR 解析上超越专用软件

Anthropic 发布科学博客，使其成为化学家的得力助手。

化学家分析分子结构主要依赖核磁共振（NMR）光谱技术。实验表明，Claude Opus 4.7 在部分 NMR 解析任务上达到甚至超越专用软件的水平，这一突破意味着大语言模型正进入科学仪器的核心分析流程。

Anthropic 研究团队表示，让 Claude 理解分子结构是通往 AI 驱动科学研究的重要一步。该成果展示了基础模型在专业领域中的深度推理能力。

Perplexity 上线 Nemotron 3 Ultra，面向长周期 Agent

NVIDIA 开放模型专为长时间运行的 Agent 任务设计。

Perplexity 宣布其 Pro 与 Max 订阅用户现可使用 Nemotron 3 Ultra 模型。该模型由 NVIDIA 开发，旨在支持需要持续推理与多步执行的长周期 Agent 工作负载。

Nemotron 3 Ultra 的加入使 Perplexity 模型阵容进一步扩展，覆盖从快速问答到深度 Agent 执行的全场景需求。

Sakana AI 在东京成立 RSI 实验室，构建自我改进的 AI

递归自我改进（RSI）实验室专注于能自主迭代优化的 AI 系统。

Sakana AI 创始人 hardmaru 宣布正式在东京成立 RSI 实验室。该实验室建立在过去两年的研究成果之上，包括 ShinkaEvolve（仅用 150 个样本解决复杂问题）和 ALE-Agent（超越 804 名人类专家）。

其核心理念借鉴日本制造业持续改进思想，在有限计算资源下追求样本效率，而非依赖大规模算力堆砌。实验室利用日本主权 AI 战略和中等规模算力约束作为设计动力。

Amp 发布 GPT-5.5 深度与极速模式，效率提升 40%

基于 GPT-5.5 的 Deep 与 Rush 模式可显著加速任务完成。

Amp 宣布其 Deep 与 Rush 模式基于 GPT-5.5 重新构建，可将工作完成速度提升高达 40%。升级后的架构使 Agent 能在更短时间内产出同等质量的成果。

这一改进对高频使用场景的开发者尤为实用，意味着从代码审查到文档生成等日常任务的时间成本将进一步降低。

Token costs are why there will be no SaaS apocalypse — good dev tools are cached intelligence for agents.
Clem Delangue · Hugging Face CEO

Cursor 推出 Design Mode：点、画、说即可更新 UI

Cursor 的 Design Mode 允许用户通过点击、绘图或语音直接修改界面，将设计意图实时转化为代码变更。

Recraft V4.1 发布，提升品牌一致性与真实细节

Recraft V4.1 带来更锐利的美学、更强的品牌一致性和更逼真的细节，从产品广告到生活方式摄影开箱即用。

PixVerse Originals 发布，支持 10 国创作者 AI 电影

PixVerse 资助来自印尼、加拿大、中国、乌克兰等国的创作者，使用 AI 制作原创短片。

腾讯混元与人大开源 PlanningBench 框架

PlanningBench 提供可扩展、可验证的评估框架，用于评测和训练 LLM 的规划能力，由腾讯混元与人大高瓴人工智能学院联合推出。

LM Studio 支持 Gemma 4 QAT，显存需求降低

Google 推出 Gemma 4 量化感知训练版本，LM Studio 已上线全部规格，在保持模型质量的同时降低显存需求。

Google 推荐 vLLM 部署 Gemma 4 QAT

vLLM 成为 Google 推荐的 Gemma 4 QAT 推理引擎，单一引擎同时支持研究与生产部署。

NitroGen 获 CVPR 最佳论文荣誉提名，迈向通用具身 Agent

NitroGen 在通用具身智能体方面取得进展，在真实及模拟物理场景中表现优异，获 CVPR 2026 Honorable Mention。

华为计划 2030 年推出 30KW 单芯片 AI 处理器

华为预期在 2030/31 年部署 LogicFolding 技术的 Ascend，单芯片功耗高达 30KW，暗示走向 Cerebras 式晶圆级引擎路线。

CritPt 将 AI 实验室分层：前沿、科学家、Agent 派

分析者使用 CritPt 评估不同 AI 实验室，揭示了从绝对前沿到 ngmi 俱乐部的清晰梯队差距。

Nemotron 3 Ultra 量化版由 Red Hat 发布，vLLM 即装即用

Red Hat 发布 Nemotron 3 Ultra 的 FP8 Dynamic、FP8 Block 和 W4A16 G128 量化检查点，全部可与 vLLM 推理引擎开箱即用。

Vercel 与 Shopify 合作，v0 可生成 Next.js 商店

Vercel 宣布与 Shopify 整合，用户可通过 v0 提示生成基于 Next.js 的 Shopify 商店，过去"简单一体"或"昂贵无头"的取舍不再存在。

Vercel 发布 Skills API：Agent 能力的 npm 注册表

Vercel 推出免费的开放 Skills API，作为 Agent 能力的注册表，帮助所有平台和 Agent 变得更智能。类比 npm 之于 JavaScript 生态。

Compositional Muon 优化器：控制组合操作扰动

Tilde Research 提出 Compositional Muon，通过动态伙伴白化更新规则改善神经网络中 QK、OV 等组合操作的谱行为。

AI 产品与平台2026.06.06

模型发布

MiniMax M3 模型在 DGrid 上可用

前沿编码能力、原生多模态、1M token 上下文，通过 DGrid 平台提供。

基础设施

NVIDIA 助力 Sarvam AI 全栈印度制造 AI 平台

基于 4096+ H100 GPU 训练 100B+ 参数 MoE 模型，支持毫秒级多语言语音。

服务事件

OpenAI 部分用户账号被错误暂停，已恢复

因系统故障，部分账号被错误暂停，团队已逐步恢复访问并处理订阅问题。

产品更新

Codex 新增设置搜索，按分类分组结果

Codex 设置支持搜索功能，结果按类别分组，简化配置与自定义流程。

云计算

NVIDIA 称 AI 计算需求不减，全球 AI Cloud 扩展

AI 云基础设施加速全球部署，将加速计算带给开发者、企业和初创公司。

AI 创意

Runway 展示完全 AI 生成的游戏过场动画

单人一周内使用 Runway 制作了"50 Crowns"游戏过场，展示 AI 影视潜能。

开发工具

Replit Canvas 发布：用 AI 设计 UI 并生成应用

新功能允许用户设计 UI、生成资源，数分钟内将设计转换为可上线的应用。

移动端

LM Studio 推出移动端，本地模型随身携带

LM Studio 移动版发布，用户可在手机上运行本地模型。

安全合规

Synthesia 与 Cinder 合作强化信任与安全

AI 视频平台 Synthesia 与内容审核公司 Cinder 合作，扩展信任与安全体系。

研究前沿2026.06.06

创意工具

Adobe Firefly 集成 GPT Image 精准文字生成

Firefly Boards 可使用 GPT Image 模型，生成内嵌清晰文字的品牌素材。

视频生成

阿里 Wan2.7 模型在 Venice 上线

阿里的视频生成模型 Wan2.7 现已通过 Venice 平台提供。

基础设施

Vercel 推出解耦虚拟存储

Agent 文件系统可与计算独立读写挂载，存储生命周期与 Sandbox 解耦。

世界模型

PSI 发布物理世界模型，SOTA 推理

单一概率世界模型在 SpelkeBench 等基准达到最优，已发布 PSIv0.5。

代码 AI

Code2LoRA：超网络生成代码适配器

新方法使用超网络为代码模型生成 LoRA 适配器，应对软件持续演化。

Agent 评测

ArcANE：评估角色扮演 Agent 稳定性

新基准评估角色扮演语言 Agent 在正确时机保持角色一致性的能力。

ML 工具

AutoScientist 加速 ML 研究，从月到天

今年夏天将在 10 个领域支持构建前沿模型，全部模型将开源到 Hugging Face。

可解释性

Activation Oracles 改进：提升可靠性

Neel Nanda 的学生改进了 Activation Oracles，使其作为解释工具更具体可靠。

Agent 工程

技能问题：编码 Agent 提升工具使用能力

AI Engineer 发文讨论让 Agent 实际使用工具的"技能问题"与解决经验。

开发实践

AI Vibe Coding 中文档即 Harness

开发者分享：在 AI Vibe Coding 中，文档体系就是 Harness，重要性远超其他。

AI 电影

AI 电影 Nexus 预告发布，3 人 2 周完成

使用 Dreamina AI 制作的 5 分钟预告片，展示 AI 在影视制作中的巨大潜力。

创意编码

Codex Skill 自动生成文本图解

输入文章或代码，Skill 即可生成带 blob 角色的说明图形。

Coding Agent 零指令自主解决任务

演示显示 coding agents 在仅收到"自己解决"指令后即可完成复杂任务。

Gemini 3.5 Flash 自动运行 Stable Diffusion 1.5

Agent 在 20 分钟内自动完成从安装、调试到生成图像的完整流程。

三大 AI 实验室优势明显，追赶者难超前

分析认为微软、Meta 等发布的开源模型尚未赶上 OpenAI、Anthropic、Google 的前沿水平。

开源模型发布节奏或影响前沿差距

研究者指出若中国实验室停止发布开源权重，本地微调模型可能被前沿越甩越远。

OpenAI 与 Anthropic 与其余玩家差距拉大

分析预测两大主导者及其他实验室的分化将很快进一步加剧，格局趋于固化。

Sonnet 4.6 表现不如 Sonnet 4：Claude 轨迹观察

分析者质疑 Sonnet 4.6 的质量回退，认为 Anthropic 的模型演进在最后阶段有波折。

Replit 推出 Shopify 集成与 SEO Agent

Replit 整合 Shopify 并提供新的 SEO Agent，帮助用户优化商店可见性。

Vibe Jam 2026 游戏超百万玩家

AI 游戏赛事 Vibe Jam 2026 的游戏已被超过一百万人游玩，X 平台近五千万次曝光。

Claude Desktop 内置网页预览支持多 Panel

Claude Desktop 的网页预览功能可同时显示多个面板，设计令人惊喜。

编程改进自然语言：代码推理是通用能力

自 GPT-3 起，编码能力的提升促进了通用自然语言智能，代码推理能力外溢。

华为 Ascend SuperCluster 规格：64K m²，524K NPU

华为在 2025 全联接大会宣布的超级集群，系统面积 64,000 平方米，总 BOM 巨大。

华为 950 SuperCluster 功耗或超 500 MW

对比 Cerebras WSE-3，华为更大集群功耗 500MW 以上，2030 单芯片可达 30KW。

从业者将"可验证任务"等同于"简单任务"

Observations suggest practitioners conflate verifiability with simplicity in agent tasks.

Hermes Agent Desktop 支持中文

来自社区的 PR 贡献使 Hermes Agent Desktop 新增中文界面支持。

Hugging Face 举办"Build Small"黑客松

鼓励开发者构建小型 AI 应用，探索小而美的模型与产品方向。

Deli 开源"论文"生成技能集

开发者开源了用于生成论文式风格内容的技能集。

Soumith Chintala 祝贺 Flourish AI Labs 创业

PyTorch 创始人期待其在 AI 样本效率与能耗方面的突破。

如何停止发布低质量 RL 环境

开发者分享强化学习环境的常见缺陷与修复方法，帮助开发者提升 RL 质量。