2026年7月4日 · 星期六

Vidu 发布 S1 模型，号称世界最先进实时 AI 交互模型

Vidu AI 推出 S1 模型，支持语音驱动的实时角色控制，能理解、反应并响应真实交互。

Vidu AI 正式发布 S1 模型，宣称这是世界上最先进的实时交互式视频 AI。S1 引入语音驱动的实时角色控制，超越传统的唇形同步技术，能够实时生成角色行为。角色可以理解语音指令、对场景做出反应，并通过动态视频输出回应用户。这标志着视频生成从单向输出迈向双向实时交互的关键突破。

腾讯阿图因 AI 漏洞挖掘超越 Anthropic Mythos

腾讯玄武实验室的阿图因 AI 在漏洞挖掘上全面超越 Anthropic 的 Mythos，在 curl 项目中发现中危漏洞，CyberGym 得分 84% 略高于 Mythos。

腾讯玄武实验室开发的阿图因 AI 在漏洞挖掘上全面超越 Anthropic 的 Mythos 模型。在 curl 项目中，阿图因发现一个被 Mythos 遗漏的中危漏洞 CVE-2026-9079，已被 curl 官方定级确认。在 CyberGym 漏洞挖掘测试中，阿图因得分 84% 略高于 Mythos。此外，阿图因还在 cryptography、OpenSSL 等多个加密算法库以及 AI 生态软件中发现了严重逻辑漏洞，最高评分达 10 分的满分水平。

Fable 5 在超级计算机上实现从 3D 场景到视频的惊人效果

Higgsfield 展示用 Fable 5 配合 Seedance 2.0，从 3D 场景记录到电影级视频渲染的完整工作流。创作者构建应用，录制真实摄影机运动轨迹，再通过 Seedance 2.0 渲染为视频。仅需 15 秒即可生成携带精确轨迹、节奏和构图的黏土风格片段，展示了 AI 视频生成从"给一句提示词"到"借 3D 场景精确控制"的范式升级。

Vercel 推出 Eve Agent 框架，支持自我改进

Vercel 的 Eve agent 框架内置可观察性，允许代理分析历史运行并生成新指令和技能，实现自我改进。

Vercel 发布开源 agent 框架 Eve，采用文件系统组织方式：instructions.md 定义角色与行为，skills、tools、channels 等模块按需添加。Eve 支持持久化执行、沙箱隔离、多通道交付、人工审核、子代理和评估。核心亮点是代理自我改进——通过内置可观察性，代理可以内省过往运行，发现低效、错误和冗余的工具调用，并据此生成新的提示词与技能。Eve 原生集成 Next.js，可自托管部署。

让模型自行判断何时使用低功耗模型，可以大幅节省 Token。
—— Simon Willison 分享 Claude Fable 最佳实践

Vercel Sandbox 支持 Docker 和 FUSE，助力 Agent 运行

Vercel Sandbox 现可无限制运行 Docker 和 FUSE，基于微虚拟机实现即时启动。配合 S3 支持的文件系统，仅需 10 行代码即可为 agent 提供完整运行时环境。这是 Vercel Fluid compute 基础设施的重要里程碑，为 agent 执行提供真正无约束的运算空间。

Le Chaton 发布 Leanstral 1.5，代数基准达 SOTA

Le Chaton（Leanstral 1.5）模型正式发布，在研究生级代数基准测试上达到 SOTA 性能。Arthur Mensch 领导的相关团队发布了这款专注数学推理的模型，在代数证明和推理领域展现了强大的专业能力，为学科专用模型的路线提供了有力验证。

Recraft 发布 V4.1 模型，强调情感与质感捕捉

Recraft V4.1 图像生成模型发布，宣称能捕捉光、纹理、运动、温暖、宁静等情感细节。

Recraft 推出 V4.1 模型，称其不再只是复制场景，而是捕捉瞬间背后的情感。光线、材质、运动、温度、宁静——这些让图像"像是被记住而非被生成"的细微元素，成为 V4.1 的核心竞争力。团队试图在 AI 图像生成中注入摄影与绘画才有的情感质地，推动生成图像从"酷炫"走向"动人"。

阿里万相视频新增「音乐跳舞」功能，可生成节奏同步舞蹈

阿里万相视频推出 Music to Dance 功能，上传角色和音乐即可生成与节奏同步的舞蹈视频，支持街舞、踢踏、拉丁、K-Pop、中国古典舞等多种风格。

vLLM 详解 Qwen3-Omni 实时推理管道优化

vLLM 团队分享为阿里通义千问 Qwen3-Omni 多模态模型提供实时推理服务的管道优化经验。Qwen3-Omni 分为 Thinker、Talker、Code2Wav 三阶段，每阶段瓶颈不同，团队通过逐层优化实现高效实时交付。

Higgsfield 展示 Fable 5 与 Sonnet 5 在 Agent 提示上的对比

Higgsfield AI 对 Fable 5 和 Sonnet 5 在 agentic prompting 上进行对比，两者均使用 Seedance 2.0 生成视频，展示了不同模型在代理任务中的表现差异。

Gemini Omni Flash 登顶 Video Arena 排行榜

Google DeepMind 的 Gemini Omni Flash 模型在 Video Arena 榜单以 Elo 1404 排名第一，树立了视频理解能力的新标杆。Demis Hassabis 转发此消息予以关注。

Google DeepMind 推出 COrigami 协同设计管道

Google DeepMind Discovery 团队发布了 COrigami，一个用于协同设计蛋白质和 RNA 的端到端管道，由 Tzahavy 主导研发。

Sakana AI 论文《基于 Sheaf-ADMM 的多智能体协调》被 ICML 2026 接收

Sakana AI 的论文 Learning Multi-Agent Coordination via Sheaf-ADMM 将于 ICML 2026 展示，由 hardmaru 转发。该工作探索基于代数拓扑的 Sheaf-ADMM 方法实现多智能体协调。

华为 Ascend 950 白皮书展现独特技术路线

分析认为华为 Ascend 950 的白皮书揭示了与西方不同的技术树，展现出独特的架构设计思路。评论指出这与中国走苏联式技术路线的阶段相似，预期到 970 代将在大幅修订 FP4 后出现更明显分化。

华为 910C 性能达 800 系列 90%，美团 35T 参数集群估算

分析估算华为 910C 单卡性能约为 Nvidia P800 的 90%。以此推算，DeepSeek 训练 V3 时的集群若换用 910C（规模约 10 倍放大），美团 35T 参数的预训练可望在 5 到 6 周内完成。虽然存在 FP8/FP16 混合精度和 CANN 框架的折算因素，但整体效率可观。