2026年6月18日 · 星期四

xAI发布Grok Imagine Video 1.5视频生成模型

Grok Imagine Video 1.5支持图像转视频,提升真实感、物理效果和生成速度,并引入Imagine Agent Mode快速迭代。

Grok Imagine Video 1.5现已上线grok.com/imagine

xAI正式发布Grok Imagine Video 1.5,一款全新的图像转视频模型,在画面真实感、物理模拟效果和生成速度上均有显著提升。该模型可将静态图像转化为流畅视频,并引入Imagine Agent Mode,允许用户通过对话式交互快速迭代创作。工具集成了图像创建、编辑功能,可直接在X平台和grok.com/imagine上使用。Grok系列在多模态生成领域持续发力,本次更新进一步缩小了AI视频生成与专业制作之间的差距。


GPT-5.4助力药物研发全流程自主化

GPT-5.4与Maria AI结合,从文献调研到实验验证全程自主,成功改进药物发现中的Chan-Lam合成反应。

OpenAI与Molecule.one合作展示全自主药物研发流程

OpenAI与Molecule.one合作,将GPT-5.4与Maria AI结合,实现从文献调研到实验验证的全流程自主研究。AI自主选择研究方向、生成并评估方案,在专用实验室中运行实验,成功改进了药物发现中广泛使用的Chan-Lam合成反应。

Grok 4.3登陆Amazon Bedrock

AWS开发者现可通过Bedrock安全推理引擎调用Grok 4.3,该模型在幻觉率和工具调用能力上领先行业。

AWS开发者现可通过Bedrock的安全推理引擎调用Grok 4.3。该模型在幻觉率和工具调用能力方面处于行业领先地位,为开发者提供了在企业级安全环境中构建AI应用的新选择。


NVIDIA Blackwell 8192 GPU刷新MLPerf训练记录

Microsoft Azure与NVIDIA合作,在8192块GB200 NVL72 GPU上7.07分钟完成Llama 3.1 405B训练,创下MLPerf新纪录。

NVIDIA宣布与Microsoft Azure合作完成了一次大规模MLPerf Training提交:在8192块NVIDIA GB200 NVL72 GPU上,Llama 3.1 405B训练目标仅用时7.07分钟达成,创下新的MLPerf训练纪录。这也是目前规模最大的MLPerf提交之一。

智谱GLM-5.2正式发布并开源,基准测试惊人

GLM-5.2定位长周期任务,支持百万上下文,引入IndexShare稀疏注意力机制,计算量降低约2.9倍。

智谱正式发布并开源GLM-5.2,核心定位为长周期任务处理,具备稳定的100万上下文窗口。架构层面提出IndexShare机制,每四层稀疏注意力共享同一indexer,在百万token上下文下将每token计算量降低约2.9倍。模型还引入思考力度控制功能。


Eve框架发布:Agent领域的Next.js

Vercel CEO rauchg将Eve描述为Agent领域的Next.js,仅需Markdown指令即可构建持久化Agent应用。使用`agent/instructions.md`作为入口,TypeScript编写工具,默认具备持久化能力。

OpenAI发布生命科学基准LifeSciBench

OpenAI联合173位科学家推出LifeSciBench,包含750个专家任务,横跨7个生物研究领域,评估AI在真实生命科学研究中的表现。

Claude Code与Claude Design实现双向同步

Claude Devs推出双向同步功能,用户可通过/design-sync将设计系统拉入开发环境,或将代码回传至Claude Design继续编辑。

成本飙升推动开源AI复兴,中国厂商领先

高昂的AI训练成本与出口管制促使开源模型重获关注,中国Qwen、Kimi等模型成为全球初创公司默认选择。Meta等西方公司在安全担忧下退缩,但Poolside等企业重新聚焦开源。

Cursor支持本地Agent云端化运行

用户可将本地Agent迁移至云端,合上笔记本依然运行,支持手机提示、并行执行和自动PR生成。

Vercel推出Agent Stack全栈工具集

Agent Stack包含AI SDK、AI Gateway、Workflow SDK、Sandbox、Chat SDK和Vercel Connect六大组件,一条命令即可部署生产级AI代理。支持连接任意模型、运行持久化多步骤工作流。

Runware发布Ray 3.2 AI视频生成器

Ray 3.2支持文本、图像、视频输入,可生成或编辑视频,提供分辨率、时长、强度等精细控制,并支持API调用。

vLLM实现MiniMax M3 Day-0支持

vLLM已原生支持MiniMax M3模型,集成稀疏注意力、多模态解析、MXFP8权重和长上下文部署,可服务百万token推理。

SGLang-JAX成功部署万亿参数MoE模型Ling-2.6

SGLang-JAX在TPU v7x上运行1万亿参数Ling-2.6混合MoE模型,通过融合Pallas内核隐藏MoE数据移动,实现高效推理。


Full movies by the end of this year.


四台Mac Studio组成集群运行Kimi K2.6(1T参数),通过MacBook Neo远程访问

LM Studio在WWDC展示跨Mac集群运行万亿参数模型

在WWDC上,LM Studio与Apple合作,将Kimi K2.6(1万亿参数模型)成功部署在四台Mac Studio组成的集群上。通过预览版LM Studio和LM Link技术,用户可从MacBook Neo和iPhone远程安全访问,一窥私有化前沿AI的未来。


OpenAI客户服务毛利率超40%,训练成本高昂

泄露财务数据显示,OpenAI客户业务盈利良好,毛利率超40%。但训练成本依然惊人。AI研究自动化可能进一步提升训练效率。

GLM-5.2在VibeCodeBench上实现惊人跃升

GLM-5.2的VibeCodeBench得分从5.1的31.46%跃升至63.96%,接近前沿水平。在CritPt等基准上也表现突出。

GLM-5.2追平Opus 4.8,中国模型仅差7个月

分析师认为GLM-5.2达到Opus 4.7至4.8水平。对比Mythos进展,中国模型差距约7个月,完整版Mythos预计年底问世。

GLM-5.1在CritPt上实际评分远超官方

Artificial Analysis显示GLM-5.1 CritPt评分达20.9,而非官方16.7,进入Opus 4.8和GPT-5.4级别。

Vercel发布面向企业应用的安全平台

Vercel推出集成身份验证、凭证范围和审计追踪的企业级解决方案,解决大规模Agent部署中的安全问题。

Vercel推出AI SDK统一TypeScript工具包

AI SDK支持多模型切换、流式输出和回退机制,兼容React/Next.js,内置AI Gateway、Sandbox和Workflows。


OpenAI以白金会员身份加入Rust基金会

OpenAI宣布成为Rust基金会白金会员,并通过基金会向Rust项目捐赠总计60万美元,支持开源基础设施维护。

DeepMind开发AI住房规划审批原型

Google DeepMind与英国政府合作打造AI住宅规划审批原型,可减少重复性工作,将处理时间缩短50%。

Runway API推出Recipes功能

Runway Recipes将专业生成式媒体工作流封装为API端点,一行代码即可集成视频/图像生成功能。

GPT-Realtime-2被描述为全新事物

OpenAI联合创始人Greg Brockman评论GPT-Realtime-2是前所未有的新突破,社区反响强烈。

Physical AutoResearch机器人自动化研究系统

Sakana AI展示Physical AutoResearch,机器人可自主完成实验室研究全流程,关键挑战在于实验前安全设置和环控准备。

Sakana AI发布首款商用产品Sakana Marlin

自律型研究助手Sakana Marlin可自主进行最长8小时的研究,自动生成要点摘要和数十页详细报告。

Midjourney将发布首款硬件产品

Midjourney预告将于周三宣布其第一个硬件项目,引发社区广泛关注和猜测。

内部数据访问限制导致Google Gemini表现较差

匿名工程师指出,Google严格的隐私政策使工程师无法直接查看用户数据,导致模型迭代效率远低于OpenAI和Anthropic,无异于盲人摸象式开发。

Hugging Face开源多Agent物理研究框架Physics Intern

Physics Intern在CritPt基准上取得SOTA,打包为可插拔技能供研究者使用,用于攻克理论物理难题的多Agent脚手架。

智谱背靠清华,或成国家AI首选

智谱与清华渊源深厚,若选择单一AGI冠军,智谱比DeepSeek更可能入选。开源模型竞争格局正在重塑中国AI地图。


● 今日讯 · DAILY BRIEFS06.18 · 全球
PRODUCT

Claude Design可一键发送至Replit构建应用

用户可将Claude Design中的设计直接发送至Replit,自动转为可运行的应用。

PRODUCT

Ollama支持GLM-5.2和Kimi-K2.7-Code在Codex运行

用户可通过Ollama启动Codex,在本地使用GLM-5.2和Kimi-K2.7-Code模型。

PRODUCT

v0发布全新设计模式

v0推出结合Agent能力和设计工具精度的新界面,提升AI辅助设计体验。

PAPER

LoopCoder-v2实现高效测试时计算扩展

新方法仅需一次循环即可完成高效推理扩展,7B模型在SWE-bench Verified达64.4分。

PRODUCT

Agent Canvas前端工具发布

新前端支持OpenHands、Claude Code、Codex等多种Agent,可设置定时自动任务。

INSIGHT

大型企业AI战略已落后Agent革命

许多大公司于2025年底制定的AI策略未考虑Agent革命,现在需要全面更新。

OPENSOURCE

Deli开源AutoResearch自动化研究系统

Deli将AutoResearch工具开源,推动AI自动研究领域发展。

ANALYSIS

Fable与GLM-5.2的诗作对比展现模型风格差异

GLM-5.2给出正确诗作,而Fable能将消失字母融入主题,展现更强创意。

PRODUCT

Midjourney V8.1发布大批量草稿模式

一次生成24张低分辨率图像,价格为标准模式的50%,选定后可获取全分辨率版本。

RESEARCH

Agent应能像人类一样通过阅读建立专业知识

当前Agent仅依赖RAG等浅层策略,新工作StudyBench探索机器研习问题。

RANKING

GLM-5.2登顶Artificial Analysis智能指数

Z.ai的GLM-5.2开源权重模型在AA智能指数中取得51分,成为该榜单新榜首。

BENCHMARK

GLM-5.2与GPT-5.5社交媒体卡片对比测试

用户对GLM-5.2和GPT-5.5进行卡片生成对比,展示两者在理解与风格上的差异。


● 速览 · WORLD SCAN06.18
OPENAI

Codex App支持任意开源模型

Codex App、CLI和SDK已兼容所有开源模型,不仅限于OpenAI自家模型。

INSIGHT

GPT-Realtime 2被喻为未来操作系统

开发者认为该模型将重新定义操作系统交互方式。

HF

百余名Agent协作加速Gemma 4推理

Hugging Face发起Agent协作挑战,超过100个Agent共同优化Gemma 4运行速度。

COMMUNITY

Claude Build Day展示300人一日作品

300名开发者在旧金山参与Claude Build Day,多项作品获奖展示。

EVENT

年度AI电影节被认为属转折点

Runway联合创始人指出本届AI电影节展现了AI对创造力的变革力量。

ANALYSIS

DeepSeek若错过窗口可能落后GLM-5.2

评论称其架构更快更便宜,但GRPO纯主义可能导致落后,不过可快速调整。

ANALYSIS

GLM在某些任务上落后前沿模型两年

Sonnet 3.5无需思考即可完成的任务,GLM需2万token推理才接近答案。

OPINION

Cohere:真正的数字主权关乎选择与控制

数字主权意味着决定谁能访问你的数据、修改系统,以及关闭它们的权力。

TECH

Higgs Audio v3 TTS在SGLang-Omni上部署

采用多阶段异步流水线和CUDA graphs优化,支持实时语音克隆。

PRODUCT

llama.cpp焕新品牌并上线官网

推出新品牌形象和官方网站,进一步推动本地开源模型运行。

DATASET

NVIDIA开源比利时合成人物数据集

Nemotron-Personas-Belgium包含4×30万比利时人物画像的合成数据集。

POLICY

G7午餐会讨论AI创新与基础设施建设

Marc Benioff和Demis Hassabis等AI领袖在G7会议中探讨如何创新和发展AI基础设施。

OPENAIML

TRL支持350+强化学习环境训练

OpenReward与TRL集成,开发者只需少量代码即可在350多种RL环境中训练模型。

INFRA

SGLang+TPU推理生态系统快速成熟

SGLang结合TPU在几个月内取得显著进展,性能被社区低估。

RELEASE

Unsloth发布GLM-5.2量化版本

Unsloth为GLM-5.2模型推出量化版本,降低本地运行门槛。


© 2026 FAV0 · AI Daily · 由AI编排