2026年7月4日 · 星期六

Vidu 发布 S1 模型,号称世界最先进实时 AI 交互模型

Vidu AI 推出 S1 模型,支持语音驱动的实时角色控制,能理解、反应并响应真实交互。

Vidu AI 正式发布 S1 模型,宣称这是世界上最先进的实时交互式视频 AI。S1 引入语音驱动的实时角色控制,超越传统的唇形同步技术,能够实时生成角色行为。角色可以理解语音指令、对场景做出反应,并通过动态视频输出回应用户。这标志着视频生成从单向输出迈向双向实时交互的关键突破。


腾讯阿图因 AI 漏洞挖掘超越 Anthropic Mythos

腾讯玄武实验室的阿图因 AI 在漏洞挖掘上全面超越 Anthropic 的 Mythos,在 curl 项目中发现中危漏洞,CyberGym 得分 84% 略高于 Mythos。

腾讯阿图因 AI 在漏洞挖掘测试中的表现对比。

腾讯玄武实验室开发的阿图因 AI 在漏洞挖掘上全面超越 Anthropic 的 Mythos 模型。在 curl 项目中,阿图因发现一个被 Mythos 遗漏的中危漏洞 CVE-2026-9079,已被 curl 官方定级确认。在 CyberGym 漏洞挖掘测试中,阿图因得分 84% 略高于 Mythos。此外,阿图因还在 cryptography、OpenSSL 等多个加密算法库以及 AI 生态软件中发现了严重逻辑漏洞,最高评分达 10 分的满分水平。


让模型自行判断何时使用低功耗模型,可以大幅节省 Token。







产品与平台2026·07·04
开放模型

GLM-5.2 现可通过 Hugging Face 在 Claude Code 中使用

GLM-5.2 开放模型现已可通过 Hugging Face Inference Providers 在 Claude Code 中选择,标志着开放模型在主流工具链中的集成度持续提升。

部署安全

Cohere 强调模型直接部署至客户以求数据安全

Cohere 表示将模型部署到客户环境中而非让客户发送数据,虽然增加了复杂度但确保了企业数据安全。

框架集成

LlamaIndex 发布与 Eve Agent 框架集成模板

LlamaIndex 为 Vercel 新发布的 Eve agent 框架构建了集成模板,提供只读文件系统工具以增强代理能力。

平台更新

Replit 上线视频生成功能

Replit CEO Amjad Masad 提醒用户可尝试在 Replit 平台上进行视频生成。

基础设施

Runway 团队分享七年 AI 工程基础设施经验

Runway 平台团队分享其七年来构建的稳健研究基础设施和工具,这是他们能训练和部署模型的关键。

Agent 技能

SGLang 将工程经验编码为可执行 Agent 技能

SGLang 团队将数月积累的工程经验(基准测试、CUDA 内核调优等)编码为可执行 Agent 技能,让开发者专注更复杂决策。

AI 产业

Sam Altman 在 CNBC 上提出向美国赠送 OpenAI 5% 股份

Yann LeCun 转引分析:Sam Altman 在 CNBC 上提出将 OpenAI 5% 股份赠予美国的叙事策略。

AI 创造

用户让 Claude Fable 反复升级游戏至 AAA 品质,结果惊人

一位用户让 Claude Fable 不断将游戏升级至 AAA 品质,Fable 自动添加图形、Boss 战、自定义音效和配乐,直到触及 WebGL 极限。


论文与学术ICML · ECCV · 预印本
CausalMix

将数据混合视为语言模型训练的因果推断

新论文 CausalMix 提出将数据混合视为语言模型训练的因果推断问题,探索数据配比的新方法论。

编程范式

Program-as-Weights 论文提出模糊函数编程范式

新论文提出"程序即权重"编程范式,用于模糊函数,探索神经网络权重编码与程序语义的统一表达。

ACL 2026

研究:训练早期 tokenizer 设计影响模型后训练语言适应性

研究表明,训练早期的 tokenizer 设计等低成本干预可以提升模型后训练时适应新语言的"语言可塑性"。

ECCV 2026

SPEAR 物理 AI 模拟器被 ECCV 2026 接收

Manycore Tech 的 SPEAR 下一代物理 AI 模拟器论文被 ECCV 2026 接收,代码已开源。

DART

单次视觉语言动作适应环境变化

首尔大学研究显示,权重空间适应可帮助视觉-语言-动作模型应对环境变化。

ECCV 2026

新论文被 ECCV 2026 接收,代码已开源

一篇论文被 ECCV 2026 接收,作者已发布代码。

EdgeBench

EdgeBench 基准测试:研究 Agent 长期环境学习

EdgeBench 基准测试旨在研究代理如何在至少 12 到 72 小时运行中从环境中学习,探索长期自主智能体行为。

课程公开

CMU 高级 NLP 全部课程已免费公开

CMU 高级自然语言处理课程的全部 23 讲已在 YouTube 上公开,并提供幻灯片和代码示例。

趋势

Coding Agents 已成 Hugging Face Hub 主要流量来源

数据显示,Claude Code 等编码代理已占 Hugging Face Hub 代理流量的约 24%,成为平台真实用户。


开源语音转语音进展惊人,建议更新认知

Hugging Face 转发 Thom Wolf 观点:开源语音转语音技术已取得令人惊讶的进步,建议行业更新对它的认知。

观点:小型推理模型才是真正的英雄

有评论指出,虽然大家都关注 Fable、GPT5.6 等大模型,但真正重要的是小型推理模型的发展。

Hugging Face 博客:不训练模型,进化框架

一篇博客提出,使用冻结的开放模型并改进其外部框架可能比训练模型更有效。

用 Claude Fable 将文字小说改编成电影片段

用户让 Claude Fable 利用 ElevenLabs 和 Hugging Face 的 API,将公版书籍《Last and First Men》制作成 10 到 15 分钟电影片段。

为何单文件 HTML 演示不能揭示前沿与开源的差距

技术评论认为,单纯依靠单文件 HTML 演示无法准确评估前沿模型与开源模型之间的实际差距。

Fable 的思维链可能已用于多智能体训练

有观点认为 Fable 的思考过程可能已经在其多智能体训练中使用,未来唯一面向用户的模型可能是 CoT 摘要器。

为何使用 Kimi Linear megakernel 而非 Qwen 3.6

技术分析解释为何选择 Kimi Linear megakernel 而非参数更多的 Qwen 3.6 的原因。

PixVerse 使 AI 视频模板细节可控

PixVerse 推出新功能,允许用户在已有 AI 视频模板基础上控制细节,实现个性化调整。

PixVerse 推出营销中心,助力电商本地化广告

Marketing Hub 帮助电商团队快速创建本地化广告变体,无需拍摄和剪辑。

阿里万相推出 Wan Skills 功能,可将照片转为数字日记

Wan Skills 功能可轻松将标准照片转变为个性化数字日记,包含手写风格等特色。

用户通过几次点击即可解锁手写风格相册和个性化数字日记等功能。


FAV0 · AI Daily — 版权所有