2026年6月18日 · 星期四

xAI发布Grok Imagine Video 1.5视频生成模型

Grok Imagine Video 1.5支持图像转视频，提升真实感、物理效果和生成速度，并引入Imagine Agent Mode快速迭代。

Grok Imagine Video 1.5现已上线grok.com/imagine

xAI正式发布Grok Imagine Video 1.5，一款全新的图像转视频模型，在画面真实感、物理模拟效果和生成速度上均有显著提升。该模型可将静态图像转化为流畅视频，并引入Imagine Agent Mode，允许用户通过对话式交互快速迭代创作。工具集成了图像创建、编辑功能，可直接在X平台和grok.com/imagine上使用。Grok系列在多模态生成领域持续发力，本次更新进一步缩小了AI视频生成与专业制作之间的差距。

GPT-5.4助力药物研发全流程自主化

GPT-5.4与Maria AI结合，从文献调研到实验验证全程自主，成功改进药物发现中的Chan-Lam合成反应。

OpenAI与Molecule.one合作，将GPT-5.4与Maria AI结合，实现从文献调研到实验验证的全流程自主研究。AI自主选择研究方向、生成并评估方案，在专用实验室中运行实验，成功改进了药物发现中广泛使用的Chan-Lam合成反应。

Grok 4.3登陆Amazon Bedrock

AWS开发者现可通过Bedrock安全推理引擎调用Grok 4.3，该模型在幻觉率和工具调用能力上领先行业。

AWS开发者现可通过Bedrock的安全推理引擎调用Grok 4.3。该模型在幻觉率和工具调用能力方面处于行业领先地位，为开发者提供了在企业级安全环境中构建AI应用的新选择。

NVIDIA Blackwell 8192 GPU刷新MLPerf训练记录

Microsoft Azure与NVIDIA合作，在8192块GB200 NVL72 GPU上7.07分钟完成Llama 3.1 405B训练，创下MLPerf新纪录。

NVIDIA宣布与Microsoft Azure合作完成了一次大规模MLPerf Training提交：在8192块NVIDIA GB200 NVL72 GPU上，Llama 3.1 405B训练目标仅用时7.07分钟达成，创下新的MLPerf训练纪录。这也是目前规模最大的MLPerf提交之一。

智谱GLM-5.2正式发布并开源，基准测试惊人

GLM-5.2定位长周期任务，支持百万上下文，引入IndexShare稀疏注意力机制，计算量降低约2.9倍。

智谱正式发布并开源GLM-5.2，核心定位为长周期任务处理，具备稳定的100万上下文窗口。架构层面提出IndexShare机制，每四层稀疏注意力共享同一indexer，在百万token上下文下将每token计算量降低约2.9倍。模型还引入思考力度控制功能。

Eve框架发布：Agent领域的Next.js

Vercel CEO rauchg将Eve描述为Agent领域的Next.js，仅需Markdown指令即可构建持久化Agent应用。使用`agent/instructions.md`作为入口，TypeScript编写工具，默认具备持久化能力。

OpenAI发布生命科学基准LifeSciBench

OpenAI联合173位科学家推出LifeSciBench，包含750个专家任务，横跨7个生物研究领域，评估AI在真实生命科学研究中的表现。

Claude Code与Claude Design实现双向同步

Claude Devs推出双向同步功能，用户可通过/design-sync将设计系统拉入开发环境，或将代码回传至Claude Design继续编辑。

成本飙升推动开源AI复兴，中国厂商领先

高昂的AI训练成本与出口管制促使开源模型重获关注，中国Qwen、Kimi等模型成为全球初创公司默认选择。Meta等西方公司在安全担忧下退缩，但Poolside等企业重新聚焦开源。

Cursor支持本地Agent云端化运行

用户可将本地Agent迁移至云端，合上笔记本依然运行，支持手机提示、并行执行和自动PR生成。

Vercel推出Agent Stack全栈工具集

Agent Stack包含AI SDK、AI Gateway、Workflow SDK、Sandbox、Chat SDK和Vercel Connect六大组件，一条命令即可部署生产级AI代理。支持连接任意模型、运行持久化多步骤工作流。

Runware发布Ray 3.2 AI视频生成器

Ray 3.2支持文本、图像、视频输入，可生成或编辑视频，提供分辨率、时长、强度等精细控制，并支持API调用。

vLLM实现MiniMax M3 Day-0支持

vLLM已原生支持MiniMax M3模型，集成稀疏注意力、多模态解析、MXFP8权重和长上下文部署，可服务百万token推理。

SGLang-JAX成功部署万亿参数MoE模型Ling-2.6

SGLang-JAX在TPU v7x上运行1万亿参数Ling-2.6混合MoE模型，通过融合Pallas内核隐藏MoE数据移动，实现高效推理。

Full movies by the end of this year.
Elon Musk预测年底前AI可生成完整电影

四台Mac Studio组成集群运行Kimi K2.6（1T参数），通过MacBook Neo远程访问

LM Studio在WWDC展示跨Mac集群运行万亿参数模型

在WWDC上，LM Studio与Apple合作，将Kimi K2.6（1万亿参数模型）成功部署在四台Mac Studio组成的集群上。通过预览版LM Studio和LM Link技术，用户可从MacBook Neo和iPhone远程安全访问，一窥私有化前沿AI的未来。

OpenAI客户服务毛利率超40%，训练成本高昂

泄露财务数据显示，OpenAI客户业务盈利良好，毛利率超40%。但训练成本依然惊人。AI研究自动化可能进一步提升训练效率。

GLM-5.2在VibeCodeBench上实现惊人跃升

GLM-5.2的VibeCodeBench得分从5.1的31.46%跃升至63.96%，接近前沿水平。在CritPt等基准上也表现突出。

GLM-5.2追平Opus 4.8，中国模型仅差7个月

分析师认为GLM-5.2达到Opus 4.7至4.8水平。对比Mythos进展，中国模型差距约7个月，完整版Mythos预计年底问世。

GLM-5.1在CritPt上实际评分远超官方

Artificial Analysis显示GLM-5.1 CritPt评分达20.9，而非官方16.7，进入Opus 4.8和GPT-5.4级别。

Vercel发布面向企业应用的安全平台

Vercel推出集成身份验证、凭证范围和审计追踪的企业级解决方案，解决大规模Agent部署中的安全问题。

Vercel推出AI SDK统一TypeScript工具包

AI SDK支持多模型切换、流式输出和回退机制，兼容React/Next.js，内置AI Gateway、Sandbox和Workflows。

OpenAI以白金会员身份加入Rust基金会

OpenAI宣布成为Rust基金会白金会员，并通过基金会向Rust项目捐赠总计60万美元，支持开源基础设施维护。

DeepMind开发AI住房规划审批原型

Google DeepMind与英国政府合作打造AI住宅规划审批原型，可减少重复性工作，将处理时间缩短50%。

Runway API推出Recipes功能

Runway Recipes将专业生成式媒体工作流封装为API端点，一行代码即可集成视频/图像生成功能。

GPT-Realtime-2被描述为全新事物

OpenAI联合创始人Greg Brockman评论GPT-Realtime-2是前所未有的新突破，社区反响强烈。

Physical AutoResearch机器人自动化研究系统

Sakana AI展示Physical AutoResearch，机器人可自主完成实验室研究全流程，关键挑战在于实验前安全设置和环控准备。

Sakana AI发布首款商用产品Sakana Marlin

自律型研究助手Sakana Marlin可自主进行最长8小时的研究，自动生成要点摘要和数十页详细报告。

Midjourney将发布首款硬件产品

Midjourney预告将于周三宣布其第一个硬件项目，引发社区广泛关注和猜测。

内部数据访问限制导致Google Gemini表现较差

匿名工程师指出，Google严格的隐私政策使工程师无法直接查看用户数据，导致模型迭代效率远低于OpenAI和Anthropic，无异于盲人摸象式开发。

Hugging Face开源多Agent物理研究框架Physics Intern

Physics Intern在CritPt基准上取得SOTA，打包为可插拔技能供研究者使用，用于攻克理论物理难题的多Agent脚手架。

智谱背靠清华，或成国家AI首选

智谱与清华渊源深厚，若选择单一AGI冠军，智谱比DeepSeek更可能入选。开源模型竞争格局正在重塑中国AI地图。

● 今日讯 · DAILY BRIEFS06.18 · 全球

PRODUCT

Claude Design可一键发送至Replit构建应用

用户可将Claude Design中的设计直接发送至Replit，自动转为可运行的应用。

PRODUCT

Ollama支持GLM-5.2和Kimi-K2.7-Code在Codex运行

用户可通过Ollama启动Codex，在本地使用GLM-5.2和Kimi-K2.7-Code模型。

PRODUCT

v0发布全新设计模式

v0推出结合Agent能力和设计工具精度的新界面，提升AI辅助设计体验。

PAPER

LoopCoder-v2实现高效测试时计算扩展

新方法仅需一次循环即可完成高效推理扩展，7B模型在SWE-bench Verified达64.4分。

PRODUCT

Agent Canvas前端工具发布

新前端支持OpenHands、Claude Code、Codex等多种Agent，可设置定时自动任务。

INSIGHT

大型企业AI战略已落后Agent革命

许多大公司于2025年底制定的AI策略未考虑Agent革命，现在需要全面更新。

OPENSOURCE

Deli开源AutoResearch自动化研究系统

Deli将AutoResearch工具开源，推动AI自动研究领域发展。

ANALYSIS

Fable与GLM-5.2的诗作对比展现模型风格差异

GLM-5.2给出正确诗作，而Fable能将消失字母融入主题，展现更强创意。

PRODUCT

Midjourney V8.1发布大批量草稿模式

一次生成24张低分辨率图像，价格为标准模式的50%，选定后可获取全分辨率版本。

RESEARCH

Agent应能像人类一样通过阅读建立专业知识

当前Agent仅依赖RAG等浅层策略，新工作StudyBench探索机器研习问题。

RANKING

GLM-5.2登顶Artificial Analysis智能指数

Z.ai的GLM-5.2开源权重模型在AA智能指数中取得51分，成为该榜单新榜首。

BENCHMARK

GLM-5.2与GPT-5.5社交媒体卡片对比测试

用户对GLM-5.2和GPT-5.5进行卡片生成对比，展示两者在理解与风格上的差异。

● 速览 · WORLD SCAN06.18

OPENAI

Codex App支持任意开源模型

Codex App、CLI和SDK已兼容所有开源模型，不仅限于OpenAI自家模型。

INSIGHT

GPT-Realtime 2被喻为未来操作系统

开发者认为该模型将重新定义操作系统交互方式。

百余名Agent协作加速Gemma 4推理

Hugging Face发起Agent协作挑战，超过100个Agent共同优化Gemma 4运行速度。

COMMUNITY

Claude Build Day展示300人一日作品

300名开发者在旧金山参与Claude Build Day，多项作品获奖展示。

EVENT

年度AI电影节被认为属转折点

Runway联合创始人指出本届AI电影节展现了AI对创造力的变革力量。

ANALYSIS

DeepSeek若错过窗口可能落后GLM-5.2

评论称其架构更快更便宜，但GRPO纯主义可能导致落后，不过可快速调整。

ANALYSIS

GLM在某些任务上落后前沿模型两年

Sonnet 3.5无需思考即可完成的任务，GLM需2万token推理才接近答案。

OPINION

Cohere：真正的数字主权关乎选择与控制

数字主权意味着决定谁能访问你的数据、修改系统，以及关闭它们的权力。

TECH

Higgs Audio v3 TTS在SGLang-Omni上部署

采用多阶段异步流水线和CUDA graphs优化，支持实时语音克隆。

PRODUCT

llama.cpp焕新品牌并上线官网

推出新品牌形象和官方网站，进一步推动本地开源模型运行。

DATASET

NVIDIA开源比利时合成人物数据集

Nemotron-Personas-Belgium包含4×30万比利时人物画像的合成数据集。

POLICY

G7午餐会讨论AI创新与基础设施建设

Marc Benioff和Demis Hassabis等AI领袖在G7会议中探讨如何创新和发展AI基础设施。

OPENAIML

TRL支持350+强化学习环境训练

OpenReward与TRL集成，开发者只需少量代码即可在350多种RL环境中训练模型。

INFRA

SGLang+TPU推理生态系统快速成熟

SGLang结合TPU在几个月内取得显著进展，性能被社区低估。

RELEASE

Unsloth发布GLM-5.2量化版本

Unsloth为GLM-5.2模型推出量化版本，降低本地运行门槛。