OpenAI 推出首款自研 AI 芯片 Jalapeño
与 Broadcom 合作设计并投产,专为 LLM 工作负载优化,将用于 ChatGPT、Codex 和 API 等全线产品
OpenAI 正式公布了其首款自研 AI 芯片 Jalapeño。该芯片从架构设计到量产均由 OpenAI 主导,合作伙伴 Broadcom 负责制造环节。Jalapeño 专为大语言模型推理和训练工作负载优化,目前已部署于 ChatGPT、Codex 及 API 后台服务中。OpenAI 表示,芯片是 AI 基础设施的基石,自研芯片意味着对推理延迟、能效比和供应链的更深层掌控。这一举措标志着 OpenAI 在硬件垂直整合上迈出关键一步,业界普遍将其视为与 Google TPU、Amazon Trainium 正面竞争的信号。
Jalapeño 的具体架构细节尚未完全公开,但 OpenAI 透露该芯片在长序列推理场景下能效提升显著,尤其针对未来 Agent 类产品的爆发式调用需求做了前瞻设计。分析人士指出,随着模型能力趋同,推理成本正成为大模型商业化的核心变量,OpenAI 此举有望降低其对英伟达 GPU 的单一依赖。
GPT-5.5 Instant 更新:更会聊天,更懂意图
OpenAI 更新了其最常用的 GPT-5.5 Instant 模型。新版模型在理解提问意图方面有显著提升,能够更准确地适配回答风格和深度。此外,模型在处理复杂约束条件和购物场景中的表现也得到加强。联合创始人 Greg Brockman 表示该版本「比之前有趣得多」,目前更新已面向所有用户推送。
阿里 Qwen 发布原生语言世界模型 AgentWorld
阿里巴巴 Qwen 团队发布了 Qwen-AgentWorld,一个原生语言世界模型。与以往将环境模拟作为训练后适配的做法不同,AgentWorld 从训练第一天起就将环境建模作为核心目标,在单一模型中内置了 MCP、搜索、终端、SWE、Web、操作系统和 Android 共七种 Agent 环境模拟能力。这为通用型 AI Agent 提供了一种全新的技术路线。
Qualcomm 与 Hugging Face 达成合作
Qualcomm 投资者日上,Qualcomm CEO Cristiano Amon 与 Hugging Face CEO Clement Delangue 共同宣布合作,具体内容尚未披露。
Cursor 支持从 Notion 委派任务
基于 Cursor SDK,用户可直接从 Notion 向 Cursor 委派编码任务。云 Agent 运行在与 Cursor 桌面版相同的模型和运行时上。
Perplexity 推出 Computer for Counsel
Computer 现已接入法律研究数据库、文档工具和案件管理系统,可为律师提供可引用来源,向所有 Pro 和 Max 用户开放。
Kog 开源 2B 模型 Laneformer:推理速度超 3000 tokens/s
采用延迟张量并行(DTP),2.3B 参数在单请求场景下实现超快推理,权重和代码已全量开源至 Hugging Face
Kog 正式开源了 Laneformer 2B 模型,这是一款以解码速度为首要目标的 2.3B 参数模型。其核心创新在于延迟张量并行(DTP)技术,通过在时间维度上隐藏通信开销,大幅提升单请求场景下的推理速度,实测超过 3000 tokens/s。模型经历了约 4T token 预训练、2T token 代码与推理数据持续训练,以及 210M 条指令微调,在编码基准上达到同类规模的竞争力水平。Hugging Face CEO Clement Delangue 称其为「非常酷的工作」,权重和代码均已在 Hugging Face 开源。
Claude 推出 Agent Identity 访问模型
Claude 在团队频道中工作时,会以独立 Agent Identity 被预配,拥有自己的凭证,像其他队友一样被授权,而非使用调用者的身份。
Step Plan 搭配 Claude Code 实现 Agent 工作流
StepFun 的 Step Plan 工具与 Claude Code 集成,简化 API 调用,支持 Agent 工作流的快速迭代和实验。
Kimi API 上线 AWS Marketplace
Moonshot 的 Kimi API 现已在 AWS Marketplace 可用,支持合并账单与 EDP 承诺抵扣,已在 AWS 生态中的团队可直接接入。
Luma 推出 Connectors,接入 Airtable 等外部工具
Luma Connectors 支持接入 Airtable、Dropbox、Google Drive 等外部工具,按需将文件拉取到任意看板中。其 Agent 可在创意工作全流程——规划、生成、迭代和优化——提供全上下文辅助,充当团队力量倍增器。
最复杂的现象,源于简单规则的可扩展组合。无论是星系、芯片还是神经网络,只要找到正确的原始构建块,复杂性会自行处理。
François Chollet
开源模型创下 ARC-AGI-2 最佳成绩
François Chollet 确认,一个开源模型在 ARC-AGI-2 基准上取得了迄今为止最强的表现。这标志着开源模型在抽象推理能力上正在逼近闭源前沿。Ethan Mollick 补充指出,Gemini 3 Pro 早在 2025 年 11 月就已达到 31% 的 ARC-AGI-2 得分,目前开源模型与闭源之间仍有约 8–12 个月的差距,但开源模型在某些特定任务上已经表现出更「锯齿状」的能力分布。
Cola 上线 Seed 2.1 Pro 原生多模态模型
Cola 发布了 Seed 2.1 Pro,这是目前其多模态能力最强的版本。相较 2.0,该模型在 Coding 和 Agent 能力上均有增强。与此同时,Cola 推出了 ColaOS 概念——定位为「有灵魂的操作系统」,核心是让模型驻留在计算机上、记住用户身份并随时间成长,从协助转向主动行动。
Nathan Lambert 发布 LLM 基础讲座
涵盖 LM Head、KV Cache、Speculative Decoding 等核心主题,使用 GLM 5.2 辅助讲解,适合入门学习者。
Grok Build 集成 MongoDB 插件
xAI 在 Grok Build 中推出官方 MongoDB 插件,支持数据查询、索引优化和数据库管理。
MiniMax M3 成为 Kimchi Coding 默认模型
MiniMax M3(开放权重、1M 上下文、强编码能力)被 Kimchi Coding 设为默认 builder 模型。
NVIDIA 全栈 AI 赋能自主品牌
在因果营销分析、安全 Agent 工作流和实时竞价等场景中,NVIDIA 全栈 AI 为领先品牌提供自主运营能力。
Runway 推出广告本地化功能
一张图片即可一键生成多种语言版本的广告素材,面向全球营销场景。
Pika 推出 Seedance 2.0 原生 4K
Seedance 2.0 支持原生 4K 分辨率,通过 Pika MCP 发布,面向专业视频制作场景。
AI 使用决策正转变为组织设计问题
Ethan Mollick 指出,组织中如何部署 AI 的决策正从 IT 选项转变为组织设计和战略决策。如何将 Agent 整合进企业?哪些智能应该外包?企业的边界在哪里?人类员工又该扮演什么角色?这些问题不再只是技术选型,而是关乎组织未来形态的核心议题。
华为声称将在 7 月中旬展示 950 SuperPOD
据称华为将于上海世博会展示 950 SuperPOD,含 8192 个 NPU、160 个机柜,标志着 950DT 进入大规模量产阶段,中国进入「国产 Hopper+」时代。
Seedance 视频生成 token 消耗曝光
1 秒 Seedance 视频 720P 需 20000 tokens,1080P 需 40000 tokens。豆包日处理 180T tokens 仅对应约 150 万人每天生成 30 秒视频。
Vercel 发布 Agent 框架 eve
Vercel 推出 Agent 框架 eve,使用 Markdown 编写指令与技能,TypeScript 开发工具,默认支持持久化。定位类似 Next.js 对 Web 的作用,但面向 AI Agent。现正招募深度用户加入反馈群。
Google DeepMind 探讨 Agent 经济体
DeepMind 发布播客,讨论数百万 AI Agent 进行谈判、交易和委托时可能催生的 Agent 经济体,以及如何通过多样化决策避免 AI 群体思维。
Sakana AI 与 OpenRouter 合作
Sakana AI 宣布与 OpenRouter 合作,其产品 OpenRouter Fusion 与 Sakana Fugu 引发了关于 AI 依赖性、弹性和架构变迁的讨论。
Zai(智谱)从 HK IPO 到超越 DeepSeek
Zai 已于 1 月以 120 港币 IPO,GLM 已超越 DeepSeek 成为世界顶尖开放模型,智谱正在重返旧金山,扩大全球影响力。
GLM 5.2 在多基准表现亮眼,但仍有短板
Nathan Lambert 评价 GLM 5.2 在某些基准上表现出色,但存在脆弱的特性,建议根据任务组合使用多个开放模型。
GLM 5.2 ARC-AGI-2 得分 22.8%
GLM 5.2 在 ARC-AGI-2 上达到 22.8%,为最佳中国模型,与 Opus 4.5 相当,但远低于 Grok 4.20 的 65%。
GLM 5.2 CursorBench 成本接近 Opus
Nathan Lambert 指出 GLM 5.2 在 CursorBench 上的成本已接近 Opus 水平,正在压低前沿实验室利润空间。
「柏拉图式表征」论文引发学术讨论
一篇关于柏拉图式表征的论文获得广泛关注,但另一篇相似主题带学术批判的论文却被忽视,研究员认为后者更值得讨论。
DeepSeek 稀疏注意力是否算蒸馏?
研究员半开玩笑地讨论,若在前沿模型架构中使用 DeepSeek 的稀疏注意力技术,是否构成蒸馏。
Claude Tag 功能:好用但企业面临定价风险
Claude 新 Tag 功能非常有用,但其定价模型和锁定风险可能使企业陷入被动的讨价还价。
Claude Code Web 版 GitHub 出口被阻
Simon Willison 报告 Claude Code Web 版显示「GitHub 被出口策略阻止」,严重影响日常工作流。
Fable 5 或将回归并永久纳入订阅
用户推测 Fable 5 模型可能即将回归,并作为订阅的一部分永久可用,但可能需要更严格的身份认证。
极客风格管理 Cursor Skills
用户分享 Cursor Skills 管理方法:只安装在项目内而非全局,以节约上下文空间。
专业动画师用 Seedance 渲染动画
专业动画师使用 Seedance 将 3D 预览渲染成真正动画,保留运动轨迹和镜头控制。
AI 商业化本质为 2Boss 模式
评论指出 AI 商业化进入 2Boss 时代——老板为程序员支付 Codex 费用、为抽卡员支付 Seedance 费用。
理解复杂系统的最佳方式
François Chollet 认为边缘情况和失败模式定义了系统的轮廓,是理解复杂系统的最佳入口。
Seedance 2.0 4K 覆盖影视全流程
Higgsfield 声称此前无一 AI 视频模型能在此质量下贯穿所有阶段。Seedance 2.0 现已从前制、制做到后期全程支持。
NVIDIA 与 Eco Wave Power 合作
Eco Wave Power 利用 NVIDIA Omniverse 数字孪生和加速计算模拟波浪条件,探索 AI 时代的海洋能源方案。
Recraft V4.1 插画创作表现惊艳
Recraft V4.1 在时尚插画、配饰等图形设计上表现亮眼,色彩鲜艳、细节精致,每帧都如微型时尚故事。
Adobe Firefly 推出无限生成迭代
Firefly AI 设计生成器支持无限制创建和迭代视觉资产,无需专业技能,旨在简化营销活动的前期准备。
GLM-5.2 现已在 Cursor 可用
智谱 AI 的 GLM-5.2 模型已集成到 Cursor,在 OpenRouter 使用量排名中表现强劲。
Greg Brockman 力挺 GPT-5.5 Instant
联创 Greg Brockman 亲自站台称更新后的 GPT-5.5 Instant「变得更有趣了」。
GLM 快速版现已上线
Vercel CEO rauchg 宣布快速版 GLM 模型已上线可用。
Vercel AI Gateway Token 恢复数据惊人
Vercel CEO 称 AI Gateway 在 token 和可用性恢复方面的数据非常可观。
Gemini 3 Pro 首个达 ARC-AGI-2 23%
Ethan Mollick 指出 Gemini 3 Pro 早在 2025 年 11 月即达到 31%,开闭源差距仍为 8–12 个月。
多位伦敦 GDM 成员离职
近期多位长期供职于伦敦 Google DeepMind 的成员离职,预训练重心逐渐转移到 MTV。
Codex 在 Windows 上省时省力
Ethan Mollick 称 Codex 和 Code 在 Windows 机器上解决大量问题为他节省大量时间,是「明确的小赢」。
hf-claude 已适配 GLM 5.2
Akhaliq 分享称 hf-claude 工具现在可与 GLM 5.2 良好配合。
Hugging Face 发布 PyTorch Profiler 指南
Hugging Face 团队撰写的 PyTorch Profiler 入门指南面向初学者,介绍了 torch.profiler 的使用方法。
素材收集 mymind 推出 MCP
mymind 终于提供 MCP 接口,无需手动搬运即可在 Copilot/Cursor 等工具中直接使用参考素材。
Kog 开源 2B 模型 Laneformer,推理速度达 3000+ tokens/s
Kog 开源了 2.3B 参数的 Laneformer 模型,采用延迟张量并行(DTP)实现单请求超快推理,已在 Hugging Face 开源权重和代码。
Qwen-AgentWorld:面向通用 Agent 的语言世界模型
Akhaliq 分享了 Qwen-AgentWorld,一个原生语言世界模型,能模拟七种 Agent 环境。
Luma 推出 Connectors 功能,接入 Airtable 等工具
Luma Connectors 支持接入 Airtable、Dropbox、Google Drive 等外部工具,按需将文件拉取到看板中,并配合 Agents 在创意工作全流程提供辅助。
急需的数据集发布
Nathan Lambert 对某个数据集的发布表示兴奋,但未说明具体数据集。
Anthropic 与特朗普政府就 Fable 5 模型解禁谈判
据 WIRED 报道,Anthropic 联合创始人 Tom Brown 已取代 Dario Amodei 成为与特朗普政府就 Fable 5 模型解禁谈判的主要代表。
Perplexity Computer 可连接法律研究数据
Perplexity CEO 确认 Computer 功能已支持连接法律研究数据。
Chollet 谈复杂性与基本规则组合
François Chollet 认为最复杂的现象源于简单规则的可扩展组合,找到正确的构建块,复杂性会自行处理。
Project Genie 荣获戛纳数字工艺全场大奖
Project Genie 在戛纳国际创意节上获得数字工艺类 Grand Prix 奖项,表彰其用创意释放技术潜力的突破性作品。
播客讨论 Databricks 为何击败 Snowflake 等话题
swyx 分享了播客中关于 Databricks 击败 Snowflake、人人都在构建元框架以及 Neon 数据库等深度内容。
Unitree R1 机器人售价 5000 美元,移动能力出色
teortaxesTex 指出 Unitree R1 比 G1 更便宜且更灵活,单臂跳跃表明可安装低功率手爪,将成为机器人研究的有力工具。
Instacart 使用 NVIDIA Jetson 升级智能购物车
Instacart 的 Caper Carts 利用 NVIDIA Jetson 和边缘 AI 在真实超市环境中识别商品。
CapCut 推出 AI 电影节,总奖金 20 万美元
CapCut 宣布举办 AI 电影节,提供 20 万美元奖金,获奖作品将在大型电影节放映。
许多人嘴上说不用 AI,实则秘密使用
Ethan Mollick 指出,很多声称从不使用 AI 的人其实在秘密使用。
AI 整理播客技巧:同时生成多份稿子并合并
用户分享了自己在让 AI 整理播客访谈时,同时生成 2-3 份稿子并合并以避免遗漏和提升质量的经验。