Codex 集成 ChatGPT 应用,支持手机远程控制 Mac
OpenAI 将编程智能体 Codex 深度集成至 ChatGPT 应用中,用户可通过手机远程操控 Mac 完成编程任务。
OpenAI 宣布旗下编程智能体 Codex 现已集成至 ChatGPT 应用,为用户带来全新的移动端编程体验。通过这一集成,开发者可以直接在手机上启动 Codex,远程控制自己的 Mac 电脑执行编码、调试、部署等任务。该功能打破了编程对桌面设备的强依赖,让开发者在外出、会议间隙等场景下也能随时响应需求。Codex 在 ChatGPT 应用中保留了完整的上下文理解与代码生成能力,同时支持文件系统访问、终端命令执行和浏览器自动化操作。这一更新使 ChatGPT 从对话式 AI 助手进一步演进为具备实际操作能力的智能体平台,也为移动端编程开辟了新的可能。
X 平台开源"为你推荐"算法,代码发布至 GitHub
Elon Musk 宣布 X 平台的推荐算法已在 GitHub 上开源,开发者可自由查看与贡献代码。
Elon Musk 宣布 X 平台(原 Twitter)的"For You"推荐算法已正式开源,代码托管在 GitHub 上的 xai-org/x-algorithm 仓库中。该算法负责驱动 X 平台信息流中的个性化内容推荐,是社交平台最核心的技术组件之一。此次开源使外部开发者首次得以窥见大型社交平台推荐系统的完整实现细节,包括候选召回、排序模型、多样性控制等关键模块。Musk 表示,开源推荐算法是提升平台透明度和社区信任的重要一步,同时允许开发者提交改进建议和代码贡献。此举也延续了 xAI 一贯的开放策略,此前 Grok 模型的权重也已对外开放。社区反响热烈,该仓库在发布数小时内即获得数千星标。
不同推理设置下若未考虑熵差异,同一模型的相对性能可能截然不同——评估扩散语言模型需要采用基于 KL 散度的原则性框架,而非仅依赖生成困惑度等单一指标。
Gemini Deep Think 驱动 Aletheia 自主解决数学难题
Aletheia 系统借助 Gemini Deep Think 的强大推理能力,实现了数学问题的自主求解。该研究标志着 AI 在数学推理领域迈出了关键一步——系统能够独立理解题目、规划证明路径并生成严谨的解答,而非仅依赖预设模板。这为 AI 参与更复杂的科学发现打开了大门。
OpenAI 内部调整:ChatGPT 与 Codex 合并为统一产品
OpenAI 周五对内宣布新一轮组织调整,联合创始人兼总裁 Greg Brockman 正式接管产品战略。ChatGPT、Codex 编程智能体和开发者 API 业务被整合进同一核心产品团队。Brockman 在内部备忘录中表示,公司决定将 ChatGPT 和 Codex"合并成一个统一的体验",这意味着未来的 ChatGPT 将原生具备编程与执行能力,用户无需在多个产品间切换。
Grok 订阅可集成至 Hermes Agent 使用
xAI 宣布 Grok 订阅现已可集成至 Nous Research 的开源自我改进智能体 Hermes Agent 中。用户可通过 Grok 账户在 Hermes 内直接调用 Grok 的推理与对话能力,为 Agent 工作流提供模型后端支持。这一跨平台集成进一步降低了智能体开发的门槛。
MiniMax M2.7 模型上线 OrcaRouter
MiniMax 的 M2.7 模型已在 OrcaRouter 上架,开发者可通过单一 OpenAI 兼容 API 访问。该模型在多模态任务中表现优异,提供统一的调用接口,降低了接入门槛。OrcaRouter 作为模型路由平台,帮助开发者灵活选择和切换不同模型。
NVIDIA DC 揭秘万亿参数模型 Agent 推理服务
NVIDIA DC 展示了如何在万亿参数模型上以每用户 400 tokens/s 的速度服务 Agent 工作负载,同时兼顾推理质量与计算性能。该方案专为 Agent 场景优化,解决了大规模模型在实时交互场景下的延迟瓶颈,为 Agent 在生产力环境中的部署提供了关键基础设施参考。
v0 推出 Browser Use 功能,自主测试与修复 Web 应用
v0 新推出的 Browser Use 功能使其可以打开自己构建的应用,主动测试、批评设计、调试复杂流程并实时修复问题,同时向用户发送操作截图。这标志着 AI 开发工具从"代码生成"向"自主测试与维护"的跨越。
vLLM 首日支持 Intern-S2-Preview 多模态科学模型
Intern-S2-Preview 是一款开源科学多模态基础模型(36B 总参、3B 激活),基于 Qwen3.5 继续预训练,采用混合注意力机制,支持 262K 上下文长度,可生成材料晶体结构。vLLM 实现了 Day-0 推理兼容。
vLLM-Omni 在生产环境中实现全模态推理
vLLM-Omni 扩展框架已由 Baseten 投入生产环境运行,支持流式多模态和实时 TTS 等此前通常依赖闭源 API 的工作负载。该框架开源、成本高效,已兼容 HuggingFace 上主流全模态模型,基于 Apache 2.0 许可。
Runway Agent 上线:从产品照片到完整广告
Runway 推出 Agent 模式,用户可在一场会话中从产品照片和创意出发,生成包含视觉、剪辑、配乐的完整广告片。Agent 自动完成分镜、生成、合成等步骤,大幅降低了视频广告的制作门槛和周期。
LTX-2.3 音频微调实现 SOTA 情感控制 TTS
研究人员从 LTX-2.3 中提取音频部分并微调,实现情感可控的文本转语音,达到 SOTA 水平,已在 Hugging Face 提供试用。
微软发布 3.8B 参数文本到图像模型 Lens
微软在 Hugging Face 发布 Lens 模型,3.8B 参数,高效训练且图像质量出色,可通过文本描述直接生成图像。
微软发布 Fara-7B 模型,聚焦浏览器 OS 环境
微软推出 Fara-7B 模型,在 browserOS 环境下表现优异,获开发者高度评价。模型旨在推动开放科学与 AI 普及。
Ollama 大幅增加 Blackwell GPU 服务 GLM-5.1
Ollama 为 GLM-5.1 模型新增大量 NVIDIA Blackwell GPU,并持续为其他模型扩容,同时支持 Claude Code 和 Codex 应用的运行。
Ollama 0.24 起支持 Codex 应用,可选用开放模型
Ollama 0.24 版本新增对 Codex 应用的支持,用户运行 ollama launch codex-app 后即可选择开放模型进行编程辅助。
ChatGPT 为 Pro 用户推出个人财务管理功能
美国 Pro 用户可在 ChatGPT 中安全连接银行、投资和信用卡账户,查看统一资产仪表盘并基于真实数据提问。
开放式编程训练数据不再是瓶颈,AI 可自我扩展
研究表明 AI 可自行扩展开放性编码任务,甚至超越人工标注数据质量,突破传统数据瓶颈。
SWE-ZERO-12M 轨迹数据集发布,规模最大
SWE-ZERO-12M 包含 1200 万条智能体轨迹,是此前最大数据集的 5.7 倍,全部开源供社区使用。
AI 可从单张图片生成交互式 3D 世界
在 Cursor 中上传图片,AI 代理自动生成 3D 环境、物体网格、碰撞体和音效,将 2D 概念快速转化为交互式 3D 场景。
Grok 基础模型 8 到 9 进步巨大
消息人士称 Grok 基础模型从版本 8 到 9 的提升幅度巨大,引发业界广泛关注,具体技术细节尚未公开。
Luma 发布 Creative Agents,可生成折纸风格作品
LumaAI 推出创作智能体,支持规划、生成、迭代全流程。示例展示名为 Origami 的折纸风格视频——"两只鸟,一把剑"。
评估扩散语言模型需注意的关键陷阱
博客指出评估扩散语言模型时需注意熵差异与 ELBO 不可比等问题,建议采用基于 KL 散度的原则性评估框架,避免单一生成指标产生误导。
MiniMax 模型用于 open-multi-agent 框架
MiniMax 模型被应用于开放多智能体框架,可自动将目标分解为 DAG 任务并并行执行。
Hermes Agent 可在 DGX Spark 上全本地运行
NVIDIA AI PC 发布教程,演示通过 Ollama 在 DGX Spark 上完全本地运行 Hermes Agent。
Recraft V4.1 与 Midjourney V8.1 对比评测
Recraft 发布对比结果,两模型在构图、情绪、纹理等方面做出不同创意选择,各擅胜场。
Vercel 伦敦 Ship 大会聚焦 Agent 应用
6 月 17 日伦敦,Google DeepMind、ElevenLabs 等展示视频 Agent、实时语音 Agent 及生产实践。
Vibecon 纽约创意 AI 大会 6 月举办
6 月 17-18 日纽约举办 Vibecon,聚焦代码与文化交汇,嘉宾包括导演 Spike Jonze、艺术家 Refik Anadol 等。
Runway Agent 模式获好评,可构建复杂故事
评论称赞 Runway 新 Agent 模式仅通过简短文本就能构建复杂故事,效果令人印象深刻。
Luma Agents 自动生成网站横幅
Luma Agents 根据用户定义的信息与美学自动构建网站横幅,提升创意团队效率。
ChatGPT 订阅可在 Zed 编辑器的 Agent 中使用
Zed 编辑器集成 ChatGPT 订阅,用户在 Codex 中的使用量和速率限制可直接在 Zed Agent 中沿用。
Synthesia 可将演示文稿即时转为 AI 视频
Synthesia 支持将任何幻灯片一键转化为 AI 生成的视频,面向 B2B 场景的演示与培训需求。
Higgsfield 推出病毒式视频预设模板库
Higgsfield 内置棒球赛、霓虹城市、龙幻境等热门视频格式预设,一键套用即可生成电影级短片。