2026年5月5日 · 星期二

Runway 发布实时视频智能体：单图生成 24fps 高清对话视频

Runway 推出 Runway Characters，将单张图片转化为全表情、可对话的实时视频智能体，端到端延迟仅 1.75 秒。

Runway Characters 以 24fps 高清流式传输实时对话视频，延迟不到两秒。

Runway 今日发布了一项颠覆性的产品——Runway Characters。用户只需输入一张静态人像照片，系统即可实时生成一个带有完整面部表情和自然对话能力的视频智能体。视频以每秒 24 帧的高清画质流式输出，从输入到输出的总延迟控制在 1.75 秒以内。这是实时视频生成领域的里程碑，标志着 AI 从静态内容创作迈向动态交互时代。该技术基于 Runway 自研的生成模型，将单帧图像扩展为具备语音、表情和实时响应能力的虚拟形象。Runway 的这条消息迅速引爆社区，截至发稿已获得超过 5 万次观看。

xAI 推出 Grok Voice API 语音克隆功能

xAI 发布了 Grok Voice API 的语音克隆功能，支持从短录音中克隆带有自然情感的语音，并可通过控制台管理语音目录，为品牌提供个性化语音定制。该功能现已正式上线，旨在让品牌通过定制化语音与用户建立更深层的情感连接。

Ollama 支持 Claude Desktop，打通第三方推理

Ollama 宣布现已支持 Claude Desktop 的内置第三方推理功能。用户可通过 `ollama launch claude-desktop` 命令，将 Ollama Cloud 上的所有模型（包括 Claude Cowork 和 Claude Code）直接接入 Claude Desktop 应用，打通了本地部署与云端推理的管道。

Vercel 推出开源智能体编排器 deepsec，用于深度安全审查

Vercel CEO rauchg 宣布开源 deepsec，这是一款专为深度安全审查设计的智能体编排器。该工具最初为内部使用而构建，在多个主要 OSS 项目上验证后决定开源。deepsec 让编码智能体能够自动发现代码中的关键安全漏洞。

Perplexity Computer 集成 Microsoft Teams

Perplexity Computer 现已可在 Microsoft Teams 中使用。用户无需离开 Teams 工作区即可进行研究、分析和文档创建，将 AI 驱动的知识工作流直接嵌入到日常协作环境中。这标志着企业级 AI 搜索与分析工具的进一步平台化。

Luma 推出创意代理，自动将想法转化为完整广告系统

Luma Agents 可围绕用户定义的概念和方向，自动完成从规划、生成到迭代优化的全流程，将创意想法转化为完整的广告系统。用户只需设定简报和美学方向，AI 智能体负责生成和优化客户提案。

将中国实验室通过越狱 API 提取模型信号称为"蒸馏攻击"，会污名化蒸馏这一对 AI 扩散、学术研究和开源生态至关重要的技术。

Nathan Lambert · Interconnects 创始人

GB300 Ultra NVL72 性能曝光：比 GB200 快 2.7 倍

SemiAnalysis 报告称，GB300 Ultra NVL72 在行业标准推理基准上比 GB200 NVL72 快 2.7 倍，性能大幅跃升。

DeepSeek-V4 混合注意力+稀疏 MoE 减少 90% KV 缓存，支持百万 token 上下文

DeepSeek-V4 采用混合注意力和稀疏 MoE 架构，将 KV 缓存减少高达 90%，从而支持百万 token 的上下文长度，这是长上下文推理领域的重大突破。

模型与工具2026·05·05

自动化训练

nanowhale：由智能体完全预训练的小型 DeepSeek 模型

受 Karpathy 的 nanochat 启发，nanowhale 是一个由智能体完全预训练的小型 DeepSeek 模型，展示了自动化模型训练的新方向。

IBM Granite 4.1-8B 模型发布，适配 8-16GB 显存硬件

IBM Granite 4.1-8B 在 Hugging Face 开源，专为 8 至 16GB 显存硬件优化，旨在通过开源推动 AI 普及化。

NVIDIA 将 AI 比作五层蛋糕

NVIDIA 指出 AI 基础设施由能源、芯片、基础设施、模型和应用五层构成，能构建完整堆栈的国家和企业将主导下一个工业时代。

XGrammar-2 发布：面向复杂智能体框架的结构化生成

XGrammar-2 是一种用于复杂智能体框架的结构化生成技术，支持严格的工具调用格式和内置 DeepSeek 集成。

论文与产品2026·05·05

《Python 深度学习》作者 François Chollet 宣布全书免费在线阅读

该书已售出 12 万册，帮助数万人开启 AI 职业生涯，现可免费在线阅读。

Web2BigTable：双层多智能体系统实现互联网规模信息提取

在 WideSearch 基准上 Avg@4 成功率达 38.50，远超第二名。

UniVidX：统一多模态框架实现多功能视频生成

利用扩散先验实现多功能视频生成，在 RGB 和 RGBA 层合成任务上达到 SOTA 水平。

Replit 推出全自动演示文稿生成功能

用户只需描述需求即可生成完整演示文稿，支持迭代修改和导出为多种格式。

Luma Agents 自动生成客户提案板，提升中标率

用户只需设定简报和美学方向即可生成高质量提案。