
Luma发布Ray3.2:方向输入,电影输出
Ray3.2实现创意意图到可扩展视频工作流的转化,提供多关键帧控制和电影化方向。用户可自由导演每一帧并完成每个剪辑,"方向输入,电影输出"。同期发布的Ray3.2 API面向开发者与企业,可将电影级内容生成集成到现有产品中。

Google发布Gemini 3.5 Live Translate语音翻译模型
Gemini 3.5 Live Translate是新型端到端语音翻译模型,支持70+语言,可实现流式语音输入到流式语音输出的实时跨语言交流。Jeff Dean表示语音翻译是Google最持久的ML努力之一。该模型在AI Studio上可免费试用,已支持多说话人场景。
Fable 5与Mythos共享同一底座,但基准测试全面领先且是质的飞跃——这是一次值得大版本号跳升的进步。
Andrej Karpathy · @karpathy
OpenAI Responses API新增图像搜索结果
OpenAI Responses API现已支持图像搜索,可与文本结果一起返回,帮助构建展示产品、场所等视觉参考的应用。

Cursor已集成Claude Fable 5
Fable 5在CursorBench上达到72.9%,领先此前最佳成绩8个百分点。目前Cursor中已可直接使用该模型。

腾讯混元开源统一多模态RL框架UniRL
UniRL在一个RL训练循环中训练扩散/流匹配、LLM和统一多模态模型,包含新算法DRPO和Flow-DPPO。代码已在GitHub发布。

NVIDIA、Apple与Google合作扩展Private Cloud Compute
NVIDIA机密计算与Google Cloud助力Apple将Private Cloud Compute首次扩展至第三方数据中心,支持Apple Intelligence工作负载。
vLLM社区发布vime强化学习框架
vime是基于vLLM生态的LLM后训练RL框架,基于slime的验证训练设计,为vLLM后训练生态提供简单稳定高效的新选择。
MiniMax M3即将开放权重
MiniMax M3模块化核团队快速推进,未来几天开放权重并立即支持Modular推理。模型同步上线AgentBox和Respan AI Gateway。
特斯拉AI6芯片有望创造晶圆记录
Elon Musk称特斯拉AI6芯片设计可能创造每片晶圆产出最多可用智力的记录,团队设计评审非常出色。
Ethan Mollick分享Fable深度使用体验
Mollick称Fable代表了一次真正的能力跃升。他向其提交一份15页的设计文档,模型持续工作9小时以上并交付出色成果。但Mollick也警告,使用Fable的体验"奇怪,而且会越来越奇怪",暗示AI自主工作带来的新工作范式挑战。
他在One Useful Thing博客详细记录了体验,并指出Anthropic计划两周后取消订阅用户对Fable的访问权限——这令人沮丧,因为订阅使用是用户发现模型用途的关键途径。

Pika新增MCP语言交换技能
Pika MCP的Language Swap技能可将视频中说话语言转换为任意目标语言,实现口型同步翻译。用户可用它快速为内容制作多语言版本,实现全球化分发。这一技术将视频本地化的门槛极大降低。
FrontierCode基准揭示Mythos/Fable显著提升
swyx指出,FrontierCode Diamond基准显示Opus 4.8和GPT 5.5在扩展能力上均停滞,而Mythos后训练显著提升测试时计算。
微软研究院提出Mirage:潜空间记忆用于视频世界模型
Mirage将3D场景直接存储为潜变量token,略过像素重建,实现高效视频世界模型。
开发者用GPT-5.5翻译2.3万篇ChinaRxiv论文
开发者使用GPT-5.5替代复杂OCR流水线,使23000+篇ChinaRxiv论文获得更完整英文翻译,现已免费开放。
xAI与Gopuff合作推出AI购物助手
xAI的Grok模型驱动Gopuff应用中的AI购物助手Go,支持文本、语音和图像交互,提供个性化购物体验。
Deepgram与Fortanix推出本地部署语音AI方案
结合NVIDIA机密计算,实现音频数据和模型权重的端到端加密,满足金融、医疗等受监管行业隐私要求。
Luma发布Ray3.2 API支持电影级视频生成
Ray3.2 API可规模化集成到现有产品,面向开发者、代理机构和企业,实现"交付电影而非内容"。
Arcee AI替代AWS S3全面迁移至Hugging Face
Arcee AI与Hugging Face达成数百万美元合作,成为首家以Hugging Face替代AWS S3存储全部模型和数据集的主要美国AI实验室。
Nathan Lambert分析Fable 5安全政策问题
Lambert在博客中批评Anthropic安全政策不均衡——未告知用户的模型修改和选择性限制可能削弱AI社区凝聚力,加速短期风险。
Fable 5被发现对AI研究人员限答
Sebastian Raschka发现Fable 5对AI研究人员的问题拒绝回答,被社区称为"暗影封禁"。安全分类器将部分研究请求纳入敏感范畴。
Hugging Face与Google发起Fast Gemma挑战赛
目标在单张A10G上优化Gemma-4-E4B推理速度,人类与AI协作,不牺牲质量为前提。
Fable 5编码eval全面领先但视觉持平
20项编码eval大幅领先,但在CritPt与5.5持平,视觉能力仅相当于Qwen旧版3B模型。
SWE-Explore评估编码Agent仓库探索能力
新基准测试编码Agent在代码仓库中的探索能力,评估真实软件开发场景下Agent对大型代码库的理解。
SpatialWorld评估多模态Agent空间推理
新基准测试多模态Agent在真实世界任务中的交互式空间推理能力。
《关于策略蒸馏的几何》
探索策略蒸馏的几何特性,为知识蒸馏理论提供新的数学视角。
MiMo推出每秒1000 Token超高速模型
MiMo V2.5 Pro UltraSpeed达到1000+ token/s,或是首个达到该速度的万亿参数模型。
Lambert批评实验室隐藏模型修改
Nathan Lambert指出实验室开始在不告知用户的情况下对扩散模型能力设限,认为这"不对齐"。
OpenAI启动IPO法律和监管程序
OpenAI已启动上市法律和监管程序,但具体IPO时间未定。
Claude Fable 5与Mythos 5的关系
Fable 5是带安全护栏的Mythos 5,面向所有用户;Mythos 5仅限Project Glasswing网络安全合作伙伴使用。
Anthropic举办Claude Fable 5 Build Day
6月13日在旧金山举办,使用Fable 5与Claude Code构建解决方案,共15万美金Claude积分奖池。
Claude Fable 5速率限制已重置
Anthropic重置了所有用户的5小时和周速率限制,方便用户充分体验Fable 5。
Ollama支持NousResearch Hermes Desktop
Hermes Desktop可在Ollama上运行,支持本地或云端多代理引擎。
Perplexity推出Billion Pound Build竞赛
团队使用Perplexity Computer构建公司,分享100万英镑积分。
NVIDIA解释AI Grid概念
视频介绍AI Grid如何利用分布式网络优化推理。
v0新增提示中秘密检测功能
v0能检测提示中的秘密并自动转为环境变量。
媒体公司用Runway片尾自动化降本85%
每季1万至1.5万美元降到数百美元,每周20-25集。
AI只提供给特权少数引发担忧
Graham Neubig认为不应走向AI仅面向少数特权者的未来。
Adobe Illustrator构建AI Agent
Adobe正为Illustrator开发AI Agent,已开始内测。
LlamaIndex提供可溯源文档解析
不仅准确解析文档,还能证明每个值的来源满足合规要求。
Higgsfield发布DaVinci Resolve插件
支持AI生成素材、背景移除、4K放大等视频编辑功能。
Replit并行代理同时构建多类资料
Replit展示使用并行代理同时开发移动应用、视频和演示文稿。
Claude产品线命名源自艺术作品
Haiku俳句、Sonnet十四行诗、Opus杰作、Fable寓言、Mythos神话——完整产品线皆以艺术作品命名。
分析指OpenAI可能已拥有类似Mythos模型
猜测OpenAI内部已有对等模型但选择不发布,真正拐点在5.2版本。
