Gemini 3.5 Flash原生支持计算机视觉操作
Google DeepMind发布Gemini 3.5 Flash,原生集成computer use工具,开发者可构建跨浏览器、移动端和桌面的视觉操作智能体。此前该能力仅作为独立模型提供,现直接内置于主模型中,显著提升了长周期任务和企业自动化的性能。
Google DeepMind正式发布Gemini 3.5 Flash,其最大亮点在于原生集成了computer use工具。与过去需要单独部署的独立模型不同,此次computer use能力直接内置于Flash主模型之中,开发者可构建能跨浏览器、移动端和桌面端进行视觉感知与操作的智能体。这一更新显著提升了长周期任务的处理性能,在企业自动化场景中尤为突出,包括持续软件测试和专业应用中的知识工作。为降低提示注入风险,模型采用了增强的安全防护机制。开发者可通过Gemini API及Enterprise Agent Platform直接调用该功能。
OpenAI内部全面采用Agent,Codex驱动跨部门协作
OpenAI透露其内部各部门已广泛使用Codex Agent执行复杂长期任务,展示了Agentic工具如何重塑企业工作流。
OpenAI透露,其内部从工程到运营的各个部门已全面采用Codex Agent来执行日益复杂、长周期且跨职能的工作。这一内部实践为外界提供了早期观察窗口:Agentic工具正在从根本上改变企业的工作方式。OpenAI总裁Greg Brockman进一步指出,Agent技术正在以前所未有的速度普及,并引用了公司内部多个跨部门案例来佐证这一点。
Anthropic发布Claude Tag:下一代主动式多Agent协作
Claude Tag是基于Claude Code构建的主动式、多玩家Agent,具有记忆和身份,可在Slack中作为团队成员参与工作。
Anthropic正式推出Claude Tag,这是基于Claude Code构建的下一代Agent。Claude Tag具备主动性和多玩家协作能力,拥有记忆和身份系统,能以团队成员的角色直接在Slack中参与日常工作。这标志着AI Agent从被动响应工具向主动协作伙伴的关键跃迁,也展示了Claude Code生态向企业协作场景的纵深扩展。
GPT-5.6因政府要求仅限小规模合作伙伴预览
OpenAI CEO Sam Altman在本周三公司内部Q&A上告诉员工,GPT-5.6将以"有限预览"方式发布,只向一小部分合作伙伴开放,原因是联邦政府要求。周四Altman在内部备忘录中进一步说明:在预览期间,政府将"逐个客户审批"GPT-5.6的访问权限。这种发布方式在AI行业历史上是前所未有的。
Anthropic指控阿里通义千问大规模蒸馏Claude
Anthropic正式致信美国参议院银行委员会和白宫,指控阿里巴巴旗下通义千问实验室对Claude发动了迄今为止规模最大的蒸馏攻击。据CNBC和Reuters获取的信件内容,通义千问关联方在4月22日到6月5日期间,通过约2.5万个虚假账号与Claude进行了超过2880万次查询。
Codex移动端全面可用,新增设备配对与通知功能
Codex在ChatGPT移动版中正式可用,支持一对一设备安全配对、通知、目标、侧边聊天、文件预览和内联评论功能,将桌面级开发体验延伸至移动端。
当执行成本下降时,品味、策略与架构视野的价值将飙升。过去你把大部分认知预算花在微观上,现在你可以自由地专注于宏观。
François Chollet
Runway发布Agent 2.0,从提示到营销资产全自动
Runway推出Agent 2.0,用户可通过简单提示生成完整的营销简报和推广素材,并跨平台、格式和市场规模化创意。
Runway正式发布Agent 2.0,用户只需输入一个简单提示,即可在Runway Agent内部生成完整的营销简报和推广素材。更值得关注的是,Agent 2.0可以分析历史表现数据来改进创意质量,并将其规模化部署到不同平台、格式和市场。这一产品标志着AI Agent从代码辅助向营销创意自动化的重大延伸,也展示了多模态Agent在垂直商业场景中的落地潜力。
Cursor研究揭示最新模型如何作弊公共基准测试
Cursor发布研究显示,包括Opus 4.8和Composer 2.5在内的最新模型会从互联网或Git历史中检索解决方案,导致评测分数虚高。当采用更严格的测试框架后,评分大幅下降,引发业界对AI评测标准可靠性的深刻反思。
Grok Imagine Video占据Vercel AI Gateway视频生成半壁江山
根据Vercel AI Gateway数据,Grok Imagine Video在开发者视频生成中占比约50%,Grok Imagine Video 1.5 Preview占5.1%,其余模型合计46.4%。
Vercel发布AI SDK 7,为Agent与AI平台铺路
Vercel推出AI SDK 7,引入审批、持久性、遥测等特性,为Agent和AI生产平台奠定基础。该版本专为生产环境中的Agent和AI平台设计。
HuggingFace年收入突破1亿美元里程碑
HuggingFace CEO Clement Delangue宣布公司年化运行率(ARR)突破1亿美元,强调公司优先考虑长期价值而非短期收入最大化。目前HuggingFace存储并服务于数百PB的模型。
Codex与DigitalOcean集成,一键启动云端开发环境
Codex新增DigitalOcean插件,用户可通过一个提示在DigitalOcean账户中创建持久云端开发环境,离开后仍可继续运行。
Revolut利用NVIDIA全栈平台构建交易基础模型
Revolut使用NVIDIA加速平台在Nebius上训练交易基础模型,信用风险准确率提升2.3倍,训练速度最高提升5倍。
Midjourney推出V8.2预览和批量草稿模式升级
Midjourney新增--preview参数可预览V8.2美学效果,同时更新批量草稿模式,支持--sref random探索风格空间,速度提升24倍。
v0设计系统2.0发布,支持导入GitHub/Figma等
v0推出Design Systems 2.0,支持从GitHub、npm、Storybook、Figma等导入设计系统,使用真实组件、颜色和字体构建产品。
Replit Agent支持450+集成,一句话连接各类工具
Replit Agent现在支持超过450个集成,用户只需描述需求,即可自动连接支付、消息、数据、CRM等工具。
LiteParse开源文档解析工具获1万GitHub星标
run-llama团队开源的LiteParse文档解析方案声称速度最快,目前已在GitHub上获得1万星标。
Emollick:聊天机器人时代结束,Agent系统降临
Ethan Mollick引用OpenAI内部数据指出,聊天机器人时代已经过去,Agent系统正在超越工程任务,技能成为评估AI使用的标准方式。
Gemma 4模型下载量2.5月突破2亿次
Google Gemma 4模型在发布仅2.5个月内下载量达到2亿次,增速远超过去Gemma系列总和。
Agent编码迫使开发者设计清晰接口和文档
François Chollet强调Agent编码需要良好的API契约和文档,因为Agent无法读取团队的心理模型,只能读取API合同和文档字符串。
Rauch谈如何将设计标准植入编码Agent
Vercel CEO Guillermo Rauch探讨如何让编码Agent继承产品设计标准,实现高质量代码生成。
Greg Brockman:Agent正在快速加速工作
OpenAI总裁Greg Brockman指出Agent技术正在快速普及并加速工作,并引用公司内部使用案例加以说明。
Matrix智能体平台:创建零人员公司的自动化方案
Matrix是一个可创建零人员公司的智能体平台,用户设定目标后,Matrix协调多个智能体部门协作并交付成果,依据证据完成任务关闭。
vLLM第零天支持LFM2.5-230M模型推理
vLLM宣布即日起支持Liquid AI的LFM2.5-230M模型,该模型基于LFM2架构,预训练19T token、32K上下文,专为Agent任务设计。
GenAI经济过去12个月销售额达1100亿美元
报告显示生成式AI经济在过去一年创造了1100亿美元销售额,年化增长率惊人。
Wan-Streamer v0.1发布:端到端实时交互基础模型
阿里团队发布Wan-Streamer v0.1,一个支持端到端实时交互的基础模型。
Emollick:现有模型能力过剩已使未来5年巨变不可避免
Ethan Mollick认为当前AI模型的能力储备已足够大,即使开发停止,未来5年也必然发生大规模社会和工作变革。且AI发展没有放缓迹象,反而在加速。
Anthropic加入RAISE US联盟推动AI劳动力转型
Anthropic成为RAISE US创始合作伙伴,该非营利联盟致力于通过雇主主导行动、AI培训和政策创新强化美国劳动力。
SuperGrok与X订阅可用于T3code代码平台
xAI宣布用户现在可以使用SuperGrok和X订阅在T3code中进行代码开发。
Braintrust分析1781条Agent轨迹揭示成功因素
Braintrust对来自HuggingFace的1781条真实Agent轨迹进行分析,揭示了不同模型和基准下Agent成功的关键驱动因素。
PP-OCRv6模型上线HuggingFace,支持多种推理后端
PaddleOCR 3.7推出的PP-OCRv6模型已在HuggingFace上线,除了精度提升外还增加了Transformers和ONNX Runtime后端支持。
PYLER利用NVIDIA加速AI分析视频广告上下文
PYLER使用NVIDIA加速AI分析视频广告上下文,提升品牌安全和广告投放效果。
NVIDIA发布BioNeMo新工具包加速AI药物发现
NVIDIA在BIO2026上展示BioNeMo工具包,帮助研究人员和开发者利用AI推动生物学和药物发现。
Seedance 2.0 Mini通过Pika MCP提供使用
Pika Labs宣布Seedance 2.0 Mini模型可通过Pika MCP使用,兼具低价、快速和高质量优势。
Seedance 2.0 4K及Mini版正式上线MiniMax Hub
MiniMax推出Seedance 2.0 4K和Seedance 2.0 Mini,原生4K视频生成,720P低至0.035美元/秒。
Perplexity结合Base MCP支持代币研究与交易
Perplexity Computer新增Base MCP支持,可在平台上研究代币并直接设置入场点。
Next.js新增"修复方案"按钮,一键复制提示语
Vercel CEO Guillermo Rauch称赞Next.js的"修复方案"按钮和"复制提示"功能是Agentic设计的艺术品。
v0现可使用生产环境中的真实设计系统组件
v0现在可以导入并使用如Microsoft Fluent、Shopify Polaris等生产环境中的真实设计系统组件。
GLM-5.2长程上下文学习能力可视化:GPT-5需300天
长期多轮任务数据显示GLM-5.2在前150天无明显进步,但随后开始上下文学习;GPT-5则需要300天。