2026年6月4日 · 星期四

OpenAI发布GPT-Rosalind生命科学专用模型

OpenAI推出专为企业级生命科学研究打造的GPT-Rosalind系列模型，融合GPT-5.5的智能体编程与工具使用能力，为药物发现、分析设计和实验工作流带来突破。

OpenAI正式发布GPT-Rosalind系列模型，这是首次将GPT-5.5的智能体编程能力与生命科学垂直领域深度整合。新模型支持大规模药物发现、分析设计和实验工作流，可驱动从分子模拟到临床前研究的全链条自动化，标志着大模型在专业科学领域从辅助工具向核心引擎的转型。

Ideogram 4.0发布：全球最佳开放图像模型

Ideogram发布4.0版本，号称全球最佳开放图像模型，开放权重支持下载微调，可在多种硬件上运行。新模型覆盖所有Ideogram计划和API，引发社区广泛关注。HuggingFace同步上架ideogram-4-nf4模型权重及在线演示。社区反馈显示其文本渲染、高分辨率输出和设计能力均表现惊艳。

Anthropic用Claude自动化95%业务分析查询

Anthropic分享最佳实践，通过Claude自动化95%的业务分析查询，准确率稳定在95%左右。核心方法包括构建强数据基础以减少歧义、建立知识源将用户问题映射到受控实体、以及开发一套按需读取的markdown技能模块。无技能时准确率仅21%，加入技能后跃升至95%以上，让数据科学团队从重复查询中解放，专注于因果建模和预测等战略工作。

NVIDIA Cosmos 3登顶7项物理AI排行榜

NVIDIA Cosmos 3开放全模型在物理AI领域排名第一，覆盖世界生成、机器人动作策略和工业视觉理解等7项权威榜单，包括Artificial Analysis、PAI-Bench、Physics-IQ和R-Bench等。该模型为物理世界模拟与具身智能树立新标杆。

NVIDIA与微软合作推动Windows端安全AI智能体

NVIDIA OpenShell运行时提供治理工具、策略执行和智能本地到云查询路由。

xAI发布Grok Imagine 1.5预览版

通过API提供图像、视频和音频生成功能，强调质量、速度和成本优化。

Perplexity Personal Computer将登陆Windows

可在本地运行并编排常用应用和文件，先向Max和Enterprise Max订阅者开放。

Anthropic发布AI网络攻击防御评估报告

报告分析了832个恶意账户，将其活动映射至长期威胁数据库，评估现有防御技术在AI赋能网络攻击下的有效性。

MiniMax M3实现15.6倍解码加速并支持1M上下文

MiniMax M3在Fireworks AI推理加速下，实现1M token上下文15.6倍解码速度提升。

区域AI领导者借助NVIDIA Nemotron推进主权AI

在NVIDIA GTC Taipei上展示构建本地化数据集和主权AI模型的全球布局。

NVIDIA与微软在MSBuild展示智能体AI合作

Jensen Huang与Satya Nadella共同展示从Windows设备到AI工厂的全栈智能体AI方案。

NVIDIA在CVPR 2026发表三篇物理AI论文

含首个零样本抓取基础模型GraspGen-X，在数十亿模拟抓取上训练。

Uber限制编程Agent支出：每员工每月1500美元

Uber对每位员工每月每款AI编程工具设置1500美元token上限，反映企业对AI工具价值的实际估值。

Reve 2.0登顶文本到图像排行榜第二

仅次于GPT Image 2，领先Nano Banana Pro、微软和xAI，3个月内提升125分。

Replit发布ViBench：首个应用创建基准

基于真实任务的端到端应用创建基准，发现Opus 4.8在价格和性能上仍是vibe coding之王。

v0推出Snowflake集成公测版

用户可通过提示让v0使用Snowflake数据生成可视化仪表盘。

「美国应通过开发最优秀的模型、确保安全并将网络工具交给可信防御者来引领AI发展。新行政令找到了正确的平衡。」
Sam Altman · OpenAI CEO

NVIDIA本地AI智能体升级：DGX Spark与RTX PC新功能

NVIDIA OpenShell登陆Windows，本地AI智能体在DGX Spark和RTX PC上获得升级，同步推出NVIDIA Broadcast 2.2以及Adobe和Blender的RTX加速支持，为创作者和开发者提供更强本地算力。

Jensen Huang详解企业智能体技术栈

NVIDIA CEO阐述企业智能体堆栈核心四层：模型、编排、工具加技能、安全运行时，并介绍NVIDIA智能体工具包，强调智能体需要的不只是一个模型。

vLLM Day-0支持Gemma 4 12B模型

该模型为无编码器统一多模态模型，文本、图像、音频和视频直接投影到LLM嵌入空间，无需独立视觉或音频塔，支持256K上下文。

Intel AutoRound量化集成至vLLM-Omni支持4-bit

Intel的AutoRound后训练量化技术原生集成到vLLM-Omni，将Qwen3-Omni-30B从66GB降至25GB，无质量损失，离线量化一次即可持续服务。

模型发布与新能力06.04

OLLAMA

Gemma 4 12B上线Ollama，支持聊天和智能体

Google DeepMind的Gemma 4 12B模型现可通过Ollama使用，支持聊天、Hermes Agent和Claude Code等多种启动方式。

GOOGLE

Google发布Gemma 4 12B：笔记本可运行的多模态模型

中等规模密集模型，采用无编码器统一多模态架构，支持图像输入、工具使用和推理，Apache 2.0许可，已上线LM Studio。

GOOGLE CEO

Pichai：Gemma 4 12B可在笔记本上运行并支持多步推理

Sundar Pichai称赞Gemma 4 12B在规模与性能间取得平衡，支持强大的多步推理和智能体工作流。

MINIMAX

MiniMax M3正式发布：前沿编码+1M上下文+多模态

M3在SiliconFlow首日上线并五折优惠，提供前沿编码、1M上下文窗口和原生多模态能力，均为开放权重模型。

XAI

Grok模型上线Cloudflare AI Gateway

xAI的Grok模型现可通过Cloudflare AI Gateway使用，开发者可便捷集成。

PERPLEXITY

Perplexity Computer面向企业：连接400+工具

支持与QuickBooks、Vercel、Shopify等400多种工具集成，帮助企业高效运营。

安全、治理与产业动态06.04

ANTHROPIC

前沿AI民主治理蓝图发布

Dario Amodei提出前沿AI民主治理蓝图，探讨美国如何建立持久AI安全制度。

亿级METR

Claude Mythos已达到METR 80%任务时长预测

超级预测者5月初预测年底METR 80%任务时长可达3-4小时，5月底已提前实现。

NYU

视觉状态跟踪新基准VSTAT发布

谢赛宁发布VSTAT基准，从可能不完整和嘈杂的视觉观察中构建跟踪世界内部状态。

可解释性

Neel Nanda发现潜意识学习源于添加转向向量

LLM中几乎所有有趣现象都可归结为添加转向向量，为可解释性提供优雅解释。

本地LLM

消费级硬件本地LLM生态新增4个模型

Sebastian Raschka指出开源本地LLM生态有了4个不错的补充，可在消费级硬件上运行。

OPINION

大多数人对LLM运作方式有误解

Ethan Mollick指出多数人认为AI只是抄袭或只能产生平均答案，缺乏准确的心理模型。

CLAUDE

Claude触发词从workflow改为ultracode

原词"workflow"仍可使用但不会意外触发，以更精确控制动态工作流行为。

ALPHABET

Alphabet股权融资获超额认购

Sundar Pichai宣布为抓住AI机遇而进行的股权融资获得超额认购。

产品与应用06.04

XAI+GOPUFF

Grok驱动购物助手Go发布

由Grok文本、音频和图像模型驱动的个人购物助手，实现分钟级配送。

REPLIT

SEO Agent帮助应用在搜索中曝光

可扫描应用并提供修复建议，帮助其在网页和AI搜索中被发现。

HEDRA

Agent 2无需团队即可将创意变为现实

适用于本地餐厅、电商和代理商，无需十人团队即可将愿景转化。

RECRAFT

Recraft V4.1发布：快速概念与品牌级结果

支持快速概念、表现力排版和品牌级图像生成。

RUNWAY

Aleph 2.0视频转绿幕无需抠像

将任意视频转为绿幕素材或干净底板，无需旋转描摹。

HERMES

Hermes推出官方桌面客户端

开源AI助手发布官方桌面客户端，发展势头超过同类产品。

A16Z

a16z投资AI助手Town

Town可管理邮件、待办事项和会议准备，有机地在团队中传播。

MINIMAX+MEM0

MiniMax M3与Mem0合作提供持久记忆

1M上下文窗口结合Mem0记忆层，构建具有持久记忆的个性化AI智能体。

DSPY

DSPy的GEPA方法用于微软AI预训练数据筛选

Stanford NLP的GEPA算法被用于微软新AI模型的预训练数据筛选。

XAI

xAI TTS/STT API上线Vapi_AI

提供最自然的文本转语音和最具成本效益的语音转文本API。