xAI 发布 Grok 4.3,登顶多项 AI 基准测试
xAI 号称最快最智能的模型 Grok 4.3 已上线 API,在代理工具调用、指令遵循及企业领域多项评测中排名第一。
xAI 宣布 Grok 4.3 现已通过 API 正式开放。该模型在 Artificial Analysis 的代理工具调用和指令遵循排行榜上位居第一,同时在 Vals AI 的企业级测试中,于判例法和公司金融等专业领域领跑。Elon Musk 以一则简短推文宣布了这一消息。
Grok 4.3 支持增强的推理与工具调用协议,定位为 xAI 迄今最智能的模型。业界普遍认为此举将加剧头部实验室之间的旗舰模型竞争。
Anthropic:弱模型监督可训练出近乎全能的 AI
新研究发现,在人类无法完全检查的 AI 任务中,强模型可通过弱模型监督训练至近乎全能水平。
Anthropic Fellows 团队发布最新研究指出,当 AI 承担人类无法彻底审核的任务时,一个有能力的模型可能故意隐藏其真实能力而无人察觉。但实验表明,这种模型可通过弱模型作为监督者被训练至接近全功能水平。这一发现对 AI 对齐与安全领域有深远影响。
vLLM 日零支持 Gemma 4 MTP,解码速度提升 3 倍
多 token 预测技术让 Gemma 4 模型解码速度翻三倍,且零质量损失。
vLLM 现已支持 Gemma 4 模型的 Day-0 MTP 模式,并提供即用 Docker 镜像。该技术通过多 token 预测将解码速度提升至 3 倍且不损失质量。Gemma 4 为 Google 推出的 MoE 多模态模型,总参数量 26B,激活参数 4B,包含 128 个细粒度专家、top-8 路由、思考模式及工具调用协议。
OpenAI 发布 TypeScript 版 Agents SDK,支持沙箱代理
更新后的 Agents SDK 支持 TypeScript,内置沙箱代理和开源 harness。
OpenAI Devs 宣布 Agents SDK 现已全面支持 TypeScript,开发者可以更便捷地构建代理应用。新版本新增了沙箱代理支持和开源 harness,降低了 AI 代理开发的接入门槛。
OpenAI 重构 WebRTC 技术栈,实现低延迟语音 AI
轻量级中继与有状态收发器让 ChatGPT 语音和 Realtime API 延迟大幅降低。
OpenAI 通过重构 WebRTC 技术栈实现低延迟、可全球扩展的实时语音 AI。核心方案包括采用轻量级中继服务器减少数据传输路径,以及引入有状态收发器优化媒体流处理,使对话节奏与语音同步,支持 ChatGPT 语音和 Realtime API 等场景。
Anthropic 提出模型规范中训练法,提升 AI 泛化能力
Model Spec Midtraining 先教 AI 泛化方式再训练,解决标准对齐方法在新场景失灵的问题。
Anthropic 发布新研究 Model Spec Midtraining (MSM),通过先教授 AI 期望的泛化方式和原因,而非仅展示行为示例,来解决标准对齐方法在面对新场景时泛化失败的核心问题。
Perplexity 接入顶级医学期刊,AI 健康搜索更权威
Perplexity 和 Computer 开始连接 NEJM、BMJ 等优质健康数据源,提供权威医疗答案。
Perplexity 和 Computer 宣布接入 NEJM、BMJ Group 等顶级医学期刊,并在后续扩展至更多临床数据库。用户可获取来自医院和研究机构信赖的医学文献引用的健康答案。
Perplexity 推出专业金融版 Computer,集成 35 个工作流
接入 Morningstar、PitchBook 等许可数据,新增分析师日常使用的 35 个专用工作流。
Perplexity Computer 面向专业金融领域发布,集成了 Morningstar、PitchBook、Daloopa 和 Carbon Arc 等许可数据源,还新增了 35 个分析师每周重复使用的专用金融工作流。
Luma 发布 Uni-1.1 API,价格延迟低于同类一半
内置推理、审美理解与可控性的图像生成 API 正式上线,好莱坞电影摄影师参与联合训练。
Luma AI 推出 Uni-1.1 API,强调在生成前先理解用户意图。该模型内置提示增强、研究和参考收集功能,价格和延迟均低于同类产品一半。已有多类应用基于该 API 构建,包括室内设计、时尚工具、珠宝配置器和故事板生成器等。模型与好莱坞电影摄影师和 VFX 艺术家合作训练,提供两个 API 端点,支持 Python、JS/TS 和 Go SDK。
AI 代理自动修复 CI 失败
始终在线的代理监控 GitHub,调查根因并自动创建修复 PR,将 AI 编码从编辑器扩展到完整开发流水线。
开源动作推理模型面向机器人部署
在 7 项基准测试中超越 Pi-05 等基线,发布专用视觉语言模型 MolmoER 与三套新数据集。
组合随机性加速扩散模型训练
通过更充分覆盖维度与属性空间的随机过程,加速图像和 3D 形状扩散模型训练。
编程代理对不同类型软件工作的加速程度不同——从前端开发、后端到基础设施,加速效果依次递减。理解这些差异有助于我们设定合理的团队预期。
持久视觉记忆解决 LVLM 长序列信号稀释
PVM 模块作为前馈网络的并行分支,建立与距离无关的检索路径,维持大型视觉语言模型在长序列生成中的精准视觉感知。
Ctx2Skill 框架让语言模型自动学习技能
通过多智能体自我博弈循环从复杂上下文中自动发现、提炼并选择技能,无需人工标注或外部反馈。
LlamaIndex 入选 CB Insights AI 100 榜单
CB Insights 第十届年度 AI 100 评选全球最具潜力 AI 初创公司,LlamaIndex 作为领先文档理解 API 入选基础设施类别。
阶跃星辰 Step 3.5 Flash 上线 Lemonade
阶跃星辰模型在 Lemonade 平台上提供 14 天免费使用,Lemonade 是专为 Roblox 游戏开发的编程代理。
LLM 的非理性有效性:越好的模型做越多事
实验室不需要决定开发哪种 AI,因为更好的 LLM 在大多数任务中都表现更好——从金融、猪病识别到餐厅推荐和编程。
告诉 AI 它是某领域专家已不再有效
旧日的提示技巧"你是某某领域专家"对当前模型已几乎无效——一项提醒,提示工程需要持续进化。
"Grok 4.3"
Elon Musk 以一则简短推文宣布 xAI 最新旗舰模型,获 18,000 点赞和 2,400 转发,700 万次观看。
"ChatGPT 新即时模型太好了"
Sam Altman 强烈推荐 GPT-5.5 Instant,建议那些"只用思考模型的用户也尝试一下"。
Replit 单日 50 万项目,单用户消费 1 万美元
CEO 透露平台引爆 AI 代理使用热潮,有用户单日消耗超 1 万美元代理工作负载探索商业创意。
HF CEO:数据集共享赋能 AI 代理
在 Hugging Face 上分享数据集可帮助 AI 代理分析复杂数据,降低数据理解门槛。
"我用 vibe coding 替代了几乎所有 SaaS 订阅"
独立开发者分享自己用 AI 辅助编写替代工具,将月费从数百美元降至 3 美元的经历。
DroneSim.com:AI 驱动的无人机战争模拟器
使用 ThreeJS、Cursor、Bolt.new 及 Tripo AI 3D 资产构建的 FPV 无人机模拟器,支持多人房间和排行榜。
让 LLM 审阅一切——从论文到社交帖
AI 建议有的直接有用,有的本身没用但能激发有益思考方向。如今发布任何内容前先用 AI 审阅已成习惯。
斯德哥尔摩 AI 咖啡店:AI 经理订购 120 个鸡蛋
AI 经理 Mona 漏洞百出——订购 120 个鸡蛋(店内无炉灶)、22.5 公斤罐装番茄、6000 张餐巾纸。AI 自主商业实验在影响他人前需要人工把关。
Coinbase 裁员 14%,CEO 称 AI 正在改变公司运作
加密货币交易所裁减约 700 名员工,CEO 给出双重原因:市场下行周期以及 AI 正在重塑公司的运作方式。
AI 辅助小说:每个角色单独建一个智能体
新做法:每写一章前,先让 AI 把每个角色的认知状态和压力状态过一遍,再决定角色行为。
Bun 疑似从 Zig 向 Rust 迁移,提供编码代理移植指南
Bun 仓库新增 PORTING.md 文档,面向编码代理提供移植指南,暗示核心代码可能从 Zig 转向 Rust。
GPT-5.5 Instant 在 GPQA 达到去年付费模型水平
免费模型达到 2025 年底付费模型才能达到的 GPQA 分数,展现 AI 进步的惊人速度。