2026年6月26日 · 星期五

Gemini 3.5 Flash原生支持计算机视觉操作

Google DeepMind发布Gemini 3.5 Flash,原生集成computer use工具,开发者可构建跨浏览器、移动端和桌面的视觉操作智能体。此前该能力仅作为独立模型提供,现直接内置于主模型中,显著提升了长周期任务和企业自动化的性能。

Gemini 3.5 Flash的computer use能力现可直接通过Gemini API及Enterprise Agent Platform使用,为降低提示注入风险,模型采用了增强的安全防护机制。

Google DeepMind正式发布Gemini 3.5 Flash,其最大亮点在于原生集成了computer use工具。与过去需要单独部署的独立模型不同,此次computer use能力直接内置于Flash主模型之中,开发者可构建能跨浏览器、移动端和桌面端进行视觉感知与操作的智能体。这一更新显著提升了长周期任务的处理性能,在企业自动化场景中尤为突出,包括持续软件测试和专业应用中的知识工作。为降低提示注入风险,模型采用了增强的安全防护机制。开发者可通过Gemini API及Enterprise Agent Platform直接调用该功能。

当执行成本下降时,品味、策略与架构视野的价值将飙升。过去你把大部分认知预算花在微观上,现在你可以自由地专注于宏观。

François Chollet

Runway发布Agent 2.0,从提示到营销资产全自动

Runway推出Agent 2.0,用户可通过简单提示生成完整的营销简报和推广素材,并跨平台、格式和市场规模化创意。

Agent 2.0将简单提示转化为完整营销资产,并支持跨平台规模化部署与数据分析优化。

Runway正式发布Agent 2.0,用户只需输入一个简单提示,即可在Runway Agent内部生成完整的营销简报和推广素材。更值得关注的是,Agent 2.0可以分析历史表现数据来改进创意质量,并将其规模化部署到不同平台、格式和市场。这一产品标志着AI Agent从代码辅助向营销创意自动化的重大延伸,也展示了多模态Agent在垂直商业场景中的落地潜力。

Vercel发布AI SDK 7,为Agent与AI平台铺路

Vercel推出AI SDK 7,引入审批、持久性、遥测等特性,为Agent和AI生产平台奠定基础。该版本专为生产环境中的Agent和AI平台设计。

HuggingFace年收入突破1亿美元里程碑

HuggingFace CEO Clement Delangue宣布公司年化运行率(ARR)突破1亿美元,强调公司优先考虑长期价值而非短期收入最大化。目前HuggingFace存储并服务于数百PB的模型。

Codex与DigitalOcean集成,一键启动云端开发环境

Codex新增DigitalOcean插件,用户可通过一个提示在DigitalOcean账户中创建持久云端开发环境,离开后仍可继续运行。

Revolut利用NVIDIA全栈平台构建交易基础模型

Revolut使用NVIDIA加速平台在Nebius上训练交易基础模型,信用风险准确率提升2.3倍,训练速度最高提升5倍。

Midjourney推出V8.2预览和批量草稿模式升级

Midjourney新增--preview参数可预览V8.2美学效果,同时更新批量草稿模式,支持--sref random探索风格空间,速度提升24倍。

v0设计系统2.0发布,支持导入GitHub/Figma等

v0推出Design Systems 2.0,支持从GitHub、npm、Storybook、Figma等导入设计系统,使用真实组件、颜色和字体构建产品。

Replit Agent支持450+集成,一句话连接各类工具

Replit Agent现在支持超过450个集成,用户只需描述需求,即可自动连接支付、消息、数据、CRM等工具。

LiteParse开源文档解析工具获1万GitHub星标

run-llama团队开源的LiteParse文档解析方案声称速度最快,目前已在GitHub上获得1万星标。

Emollick:聊天机器人时代结束,Agent系统降临

Ethan Mollick引用OpenAI内部数据指出,聊天机器人时代已经过去,Agent系统正在超越工程任务,技能成为评估AI使用的标准方式。

Gemma 4模型下载量2.5月突破2亿次

Google Gemma 4模型在发布仅2.5个月内下载量达到2亿次,增速远超过去Gemma系列总和。

Agent编码迫使开发者设计清晰接口和文档

François Chollet强调Agent编码需要良好的API契约和文档,因为Agent无法读取团队的心理模型,只能读取API合同和文档字符串。

Rauch谈如何将设计标准植入编码Agent

Vercel CEO Guillermo Rauch探讨如何让编码Agent继承产品设计标准,实现高质量代码生成。

Greg Brockman:Agent正在快速加速工作

OpenAI总裁Greg Brockman指出Agent技术正在快速普及并加速工作,并引用公司内部使用案例加以说明。

Matrix智能体平台:创建零人员公司的自动化方案

Matrix是一个可创建零人员公司的智能体平台,用户设定目标后,Matrix协调多个智能体部门协作并交付成果,依据证据完成任务关闭。

vLLM第零天支持LFM2.5-230M模型推理

vLLM宣布即日起支持Liquid AI的LFM2.5-230M模型,该模型基于LFM2架构,预训练19T token、32K上下文,专为Agent任务设计。

GenAI经济过去12个月销售额达1100亿美元

报告显示生成式AI经济在过去一年创造了1100亿美元销售额,年化增长率惊人。

Wan-Streamer v0.1发布:端到端实时交互基础模型

阿里团队发布Wan-Streamer v0.1,一个支持端到端实时交互的基础模型。

Emollick:现有模型能力过剩已使未来5年巨变不可避免

Ethan Mollick认为当前AI模型的能力储备已足够大,即使开发停止,未来5年也必然发生大规模社会和工作变革。且AI发展没有放缓迹象,反而在加速。

今日速览06·26
政策

Anthropic加入RAISE US联盟推动AI劳动力转型

Anthropic成为RAISE US创始合作伙伴,该非营利联盟致力于通过雇主主导行动、AI培训和政策创新强化美国劳动力。

工具

SuperGrok与X订阅可用于T3code代码平台

xAI宣布用户现在可以使用SuperGrok和X订阅在T3code中进行代码开发。

研究

Braintrust分析1781条Agent轨迹揭示成功因素

Braintrust对来自HuggingFace的1781条真实Agent轨迹进行分析,揭示了不同模型和基准下Agent成功的关键驱动因素。

模型

PP-OCRv6模型上线HuggingFace,支持多种推理后端

PaddleOCR 3.7推出的PP-OCRv6模型已在HuggingFace上线,除了精度提升外还增加了Transformers和ONNX Runtime后端支持。

应用

PYLER利用NVIDIA加速AI分析视频广告上下文

PYLER使用NVIDIA加速AI分析视频广告上下文,提升品牌安全和广告投放效果。

生物

NVIDIA发布BioNeMo新工具包加速AI药物发现

NVIDIA在BIO2026上展示BioNeMo工具包,帮助研究人员和开发者利用AI推动生物学和药物发现。

视频

Seedance 2.0 Mini通过Pika MCP提供使用

Pika Labs宣布Seedance 2.0 Mini模型可通过Pika MCP使用,兼具低价、快速和高质量优势。

视频

Seedance 2.0 4K及Mini版正式上线MiniMax Hub

MiniMax推出Seedance 2.0 4K和Seedance 2.0 Mini,原生4K视频生成,720P低至0.035美元/秒。

产品

Perplexity结合Base MCP支持代币研究与交易

Perplexity Computer新增Base MCP支持,可在平台上研究代币并直接设置入场点。

框架

Next.js新增"修复方案"按钮,一键复制提示语

Vercel CEO Guillermo Rauch称赞Next.js的"修复方案"按钮和"复制提示"功能是Agentic设计的艺术品。

工具

v0现可使用生产环境中的真实设计系统组件

v0现在可以导入并使用如Microsoft Fluent、Shopify Polaris等生产环境中的真实设计系统组件。

研究

GLM-5.2长程上下文学习能力可视化:GPT-5需300天

长期多轮任务数据显示GLM-5.2在前150天无明显进步,但随后开始上下文学习;GPT-5则需要300天。

2026 FAV0 · AI Daily