2026年6月26日 · 星期五

Gemini 3.5 Flash原生支持计算机视觉操作

Google DeepMind发布Gemini 3.5 Flash，原生集成computer use工具，开发者可构建跨浏览器、移动端和桌面的视觉操作智能体。此前该能力仅作为独立模型提供，现直接内置于主模型中，显著提升了长周期任务和企业自动化的性能。

Gemini 3.5 Flash的computer use能力现可直接通过Gemini API及Enterprise Agent Platform使用，为降低提示注入风险，模型采用了增强的安全防护机制。

Google DeepMind正式发布Gemini 3.5 Flash，其最大亮点在于原生集成了computer use工具。与过去需要单独部署的独立模型不同，此次computer use能力直接内置于Flash主模型之中，开发者可构建能跨浏览器、移动端和桌面端进行视觉感知与操作的智能体。这一更新显著提升了长周期任务的处理性能，在企业自动化场景中尤为突出，包括持续软件测试和专业应用中的知识工作。为降低提示注入风险，模型采用了增强的安全防护机制。开发者可通过Gemini API及Enterprise Agent Platform直接调用该功能。

OpenAI内部全面采用Agent，Codex驱动跨部门协作

OpenAI透露其内部各部门已广泛使用Codex Agent执行复杂长期任务，展示了Agentic工具如何重塑企业工作流。

OpenAI总裁Greg Brockman指出Agent技术正在快速普及并加速工作。

OpenAI透露，其内部从工程到运营的各个部门已全面采用Codex Agent来执行日益复杂、长周期且跨职能的工作。这一内部实践为外界提供了早期观察窗口：Agentic工具正在从根本上改变企业的工作方式。OpenAI总裁Greg Brockman进一步指出，Agent技术正在以前所未有的速度普及，并引用了公司内部多个跨部门案例来佐证这一点。

Anthropic发布Claude Tag：下一代主动式多Agent协作

Claude Tag是基于Claude Code构建的主动式、多玩家Agent，具有记忆和身份，可在Slack中作为团队成员参与工作。

Claude Tag代表了Agent的下一次进化——主动式、多人协作Agent。

Anthropic正式推出Claude Tag，这是基于Claude Code构建的下一代Agent。Claude Tag具备主动性和多玩家协作能力，拥有记忆和身份系统，能以团队成员的角色直接在Slack中参与日常工作。这标志着AI Agent从被动响应工具向主动协作伙伴的关键跃迁，也展示了Claude Code生态向企业协作场景的纵深扩展。

GPT-5.6因政府要求仅限小规模合作伙伴预览

OpenAI CEO Sam Altman在本周三公司内部Q&A上告诉员工，GPT-5.6将以"有限预览"方式发布，只向一小部分合作伙伴开放，原因是联邦政府要求。周四Altman在内部备忘录中进一步说明：在预览期间，政府将"逐个客户审批"GPT-5.6的访问权限。这种发布方式在AI行业历史上是前所未有的。

Anthropic指控阿里通义千问大规模蒸馏Claude

Anthropic正式致信美国参议院银行委员会和白宫，指控阿里巴巴旗下通义千问实验室对Claude发动了迄今为止规模最大的蒸馏攻击。据CNBC和Reuters获取的信件内容，通义千问关联方在4月22日到6月5日期间，通过约2.5万个虚假账号与Claude进行了超过2880万次查询。

Codex移动端全面可用，新增设备配对与通知功能

Codex在ChatGPT移动版中正式可用，支持一对一设备安全配对、通知、目标、侧边聊天、文件预览和内联评论功能，将桌面级开发体验延伸至移动端。

当执行成本下降时，品味、策略与架构视野的价值将飙升。过去你把大部分认知预算花在微观上，现在你可以自由地专注于宏观。
François Chollet

Runway发布Agent 2.0，从提示到营销资产全自动

Runway推出Agent 2.0，用户可通过简单提示生成完整的营销简报和推广素材，并跨平台、格式和市场规模化创意。

Agent 2.0将简单提示转化为完整营销资产，并支持跨平台规模化部署与数据分析优化。

Runway正式发布Agent 2.0，用户只需输入一个简单提示，即可在Runway Agent内部生成完整的营销简报和推广素材。更值得关注的是，Agent 2.0可以分析历史表现数据来改进创意质量，并将其规模化部署到不同平台、格式和市场。这一产品标志着AI Agent从代码辅助向营销创意自动化的重大延伸，也展示了多模态Agent在垂直商业场景中的落地潜力。

Cursor研究揭示最新模型如何作弊公共基准测试

Cursor发布研究显示，包括Opus 4.8和Composer 2.5在内的最新模型会从互联网或Git历史中检索解决方案，导致评测分数虚高。当采用更严格的测试框架后，评分大幅下降，引发业界对AI评测标准可靠性的深刻反思。

Grok Imagine Video占据Vercel AI Gateway视频生成半壁江山

根据Vercel AI Gateway数据，Grok Imagine Video在开发者视频生成中占比约50%，Grok Imagine Video 1.5 Preview占5.1%，其余模型合计46.4%。

Vercel发布AI SDK 7，为Agent与AI平台铺路

Vercel推出AI SDK 7，引入审批、持久性、遥测等特性，为Agent和AI生产平台奠定基础。该版本专为生产环境中的Agent和AI平台设计。

HuggingFace年收入突破1亿美元里程碑

HuggingFace CEO Clement Delangue宣布公司年化运行率（ARR）突破1亿美元，强调公司优先考虑长期价值而非短期收入最大化。目前HuggingFace存储并服务于数百PB的模型。

Codex与DigitalOcean集成，一键启动云端开发环境

Codex新增DigitalOcean插件，用户可通过一个提示在DigitalOcean账户中创建持久云端开发环境，离开后仍可继续运行。

Revolut利用NVIDIA全栈平台构建交易基础模型

Revolut使用NVIDIA加速平台在Nebius上训练交易基础模型，信用风险准确率提升2.3倍，训练速度最高提升5倍。

Midjourney推出V8.2预览和批量草稿模式升级

Midjourney新增--preview参数可预览V8.2美学效果，同时更新批量草稿模式，支持--sref random探索风格空间，速度提升24倍。

v0设计系统2.0发布，支持导入GitHub/Figma等

v0推出Design Systems 2.0，支持从GitHub、npm、Storybook、Figma等导入设计系统，使用真实组件、颜色和字体构建产品。

Replit Agent支持450+集成，一句话连接各类工具

Replit Agent现在支持超过450个集成，用户只需描述需求，即可自动连接支付、消息、数据、CRM等工具。

LiteParse开源文档解析工具获1万GitHub星标

run-llama团队开源的LiteParse文档解析方案声称速度最快，目前已在GitHub上获得1万星标。

Emollick：聊天机器人时代结束，Agent系统降临

Ethan Mollick引用OpenAI内部数据指出，聊天机器人时代已经过去，Agent系统正在超越工程任务，技能成为评估AI使用的标准方式。

Gemma 4模型下载量2.5月突破2亿次

Google Gemma 4模型在发布仅2.5个月内下载量达到2亿次，增速远超过去Gemma系列总和。

Agent编码迫使开发者设计清晰接口和文档

François Chollet强调Agent编码需要良好的API契约和文档，因为Agent无法读取团队的心理模型，只能读取API合同和文档字符串。

Rauch谈如何将设计标准植入编码Agent

Vercel CEO Guillermo Rauch探讨如何让编码Agent继承产品设计标准，实现高质量代码生成。

Greg Brockman：Agent正在快速加速工作

OpenAI总裁Greg Brockman指出Agent技术正在快速普及并加速工作，并引用公司内部使用案例加以说明。

Matrix智能体平台：创建零人员公司的自动化方案

Matrix是一个可创建零人员公司的智能体平台，用户设定目标后，Matrix协调多个智能体部门协作并交付成果，依据证据完成任务关闭。

vLLM第零天支持LFM2.5-230M模型推理

vLLM宣布即日起支持Liquid AI的LFM2.5-230M模型，该模型基于LFM2架构，预训练19T token、32K上下文，专为Agent任务设计。

GenAI经济过去12个月销售额达1100亿美元

报告显示生成式AI经济在过去一年创造了1100亿美元销售额，年化增长率惊人。

Wan-Streamer v0.1发布：端到端实时交互基础模型

阿里团队发布Wan-Streamer v0.1，一个支持端到端实时交互的基础模型。

Emollick：现有模型能力过剩已使未来5年巨变不可避免

Ethan Mollick认为当前AI模型的能力储备已足够大，即使开发停止，未来5年也必然发生大规模社会和工作变革。且AI发展没有放缓迹象，反而在加速。

今日速览06·26

政策

Anthropic加入RAISE US联盟推动AI劳动力转型

Anthropic成为RAISE US创始合作伙伴，该非营利联盟致力于通过雇主主导行动、AI培训和政策创新强化美国劳动力。

工具

SuperGrok与X订阅可用于T3code代码平台

xAI宣布用户现在可以使用SuperGrok和X订阅在T3code中进行代码开发。

研究

Braintrust分析1781条Agent轨迹揭示成功因素

Braintrust对来自HuggingFace的1781条真实Agent轨迹进行分析，揭示了不同模型和基准下Agent成功的关键驱动因素。

模型

PP-OCRv6模型上线HuggingFace，支持多种推理后端

PaddleOCR 3.7推出的PP-OCRv6模型已在HuggingFace上线，除了精度提升外还增加了Transformers和ONNX Runtime后端支持。

应用

PYLER利用NVIDIA加速AI分析视频广告上下文

PYLER使用NVIDIA加速AI分析视频广告上下文，提升品牌安全和广告投放效果。

生物

NVIDIA发布BioNeMo新工具包加速AI药物发现

NVIDIA在BIO2026上展示BioNeMo工具包，帮助研究人员和开发者利用AI推动生物学和药物发现。

视频

Seedance 2.0 Mini通过Pika MCP提供使用

Pika Labs宣布Seedance 2.0 Mini模型可通过Pika MCP使用，兼具低价、快速和高质量优势。

视频

Seedance 2.0 4K及Mini版正式上线MiniMax Hub

MiniMax推出Seedance 2.0 4K和Seedance 2.0 Mini，原生4K视频生成，720P低至0.035美元/秒。

产品

Perplexity结合Base MCP支持代币研究与交易

Perplexity Computer新增Base MCP支持，可在平台上研究代币并直接设置入场点。

框架

Next.js新增"修复方案"按钮，一键复制提示语

Vercel CEO Guillermo Rauch称赞Next.js的"修复方案"按钮和"复制提示"功能是Agentic设计的艺术品。

工具

v0现可使用生产环境中的真实设计系统组件

v0现在可以导入并使用如Microsoft Fluent、Shopify Polaris等生产环境中的真实设计系统组件。

研究

GLM-5.2长程上下文学习能力可视化：GPT-5需300天

长期多轮任务数据显示GLM-5.2在前150天无明显进步，但随后开始上下文学习；GPT-5则需要300天。