Sam Altman详解GPT-5.6家族:旗舰不涨价,中端半价
Sol与GPT-5.5同价,Terra性能持平5.5但价格减半,Luna定位为快速廉价的高吞吐量方案。
Altman表示Sol是"聪明、高效、迈出了显著一步"的模型,其价格维持不变。Terra则提供了5.5级别的性能但只需一半价格,为大量日常任务提供了更具性价比的选择。Luna定位为快速且廉价的模型,适用于高吞吐量场景。Altman同时更新了ChatGPT中使用的GPT-5.5 instant模型并称"喜欢它的表现"。
GPT-5.6仅向20家政府审批企业开放,普通用户暂不可用
GPT-5.6包含Sol、Terra、Luna三款模型,但仅向经政府审批的约20家企业提供,普通用户暂时无法使用。
应美国政府要求,GPT-5.6目前只向约20家经过政府审批的合作伙伴开放,普通开发者和ChatGPT用户暂时用不上。最值得关注的地方不在模型本身,而在发布方式:前沿AI的供应已从"公司决策"转为"政府审批"。VentureTwins评论道:"你以为可以随便发布前沿模型?"
如果你的基准依赖于静态数据集或从训练时已知的静态分布中采样,那么它本质上测量的是记忆与检索——不要把它和智能混为一谈。
François Chollet
Anthropic发布经济指数:研究Claude的经济影响
Anthropic通过每小时采样和调查数据,分析用户访问Claude的时间规律、使用场景与产出内容,以及用户对AI工作影响认知的变化。使用节奏与生活节律高度相关,不同时段产出内容差异显著。
Opus 4.7完成需人类2至17周的编码项目
测试显示Opus 4.7在14小时内以251美元成本构建了完整软件包,等价于2至17周人工工作量,模型仍在快速进步。
Anthropic高级工程师发布11页循环工程PDF
核心观点:停止提示agent,转而构建循环工程——通过系统化的反馈循环让agent自主迭代,而非依赖外部提示调优。
JetSpec实现B200上Qwen-8B单流1000 t/s
JetSpec是一种新的推测解码与块扩散方法,比之前所有方法都更聪明更强,可在任何batch size下更好地利用计算资源。在B200上的Qwen-8B平均达到1000 t/s的单流速度。
行业观察:Anthropic推动模型审核机制,OpenAI成为首例
评论指出Anthropic长期推动安全审核叙事,如今OpenAI的GPT-5.6成为该框架下首款受限发布的前沿模型——发布路径已从公司自主决策转为政府逐一审批。
vLLM正式支持GLM-5.2 NVFP4推理
NVIDIA官方NVFP4量化版GLM-5.2上线vLLM,内存占用低于FP8但准确率不降,支持推理、编码和长上下文基准。
Gemma 4发布2.5个月下载量突破2亿
Google DeepMind转推确认Gemma 4在短短2.5个月内达到2亿次下载,表明开放模型需求极为强劲。
Photoroom开源PRX Pixel 7B文本到图像模型
PRX Pixel是一个在像素空间直接生成图像的开源7B模型,由Photoroom团队发布。Yann LeCun转推了这一消息。
SGLang v0.5.14发布,支持GLM-5.2、Kimi-K2.7等多款新模型
新版本支持GLM-5.2、LiquidAI LFM2.5、Kimi-K2.7-Code、Poolside Laguna-M.1等多款模型,并迎来55位新贡献者。
TRL v1.7.0发布:连续批处理使GRPO和RLOO训练快1.25倍
TRL框架更新,连续批处理使GRPO和RLOO训练快1.25倍且节省16GB内存,同时支持MoE模型后训练。
Cohere开源使用AI agent维护vLLM fork的实践
Cohere展示用AI agent将vLLM fork同步自动化的实践方案:自动rebase上游、运行测试、诊断修复,将数周工作大幅缩短。
SakanaAI联合发布CoffeeBench:评估LLM代理长期经营能力
CoffeeBench模拟咖啡供应链多代理环境,测试代理90天经营能力。高表现代理积极沟通议价,低表现代理出现"思考但不行动"的停滞。
阿里发布Qwen-Image-Agent:弥合图像生成上下文差距
Qwen-Image-Agent是一个连接上下文差距的智能体框架,用于现实世界图像生成,可规划、推理和行动。
研究:推理数据应提前注入预训练,平均提升19%
首篇系统研究推理数据注入时机的论文:预训练阶段注入推理模式可带来19%平均性能提升,后期SFT无法完全复制这一能力。
Neel Nanda呼吁建立模型取证科学以检测AI欺骗
Nanda担心即使发现AI作恶也无法解释原因,呼吁建立"模型取证"科学。相关论文提出了可能的研究方法路径。
oran_ge:GLM 5.2在付费用户中取代Claude成为最爱
通过cola平台token消耗统计,观察到GLM 5.2正在取代Claude Sonnet和Opus,而GPT-5.5几乎无人使用。DeepSeek v4 Pro依然是大众里最受欢迎的模型。
Lilian Weng发布Scaling Laws博客,三年多来首次更新
Lilian Weng更新了她关于scaling laws的长篇博客,讨论计算成本与缩放法则的关系,距上次更新已逾三年。
Sam Altman:本周ChatGPT中的GPT-5.5 instant模型已更新
sama表示更新了ChatGPT使用的GPT-5.5 instant模型,并称"喜欢它的表现"。
AI编码平台Replit获6000万美元B轮融资
Replit在不到一年内完成8500万美元总融资,本次B轮由Battery Ventures领投。
JimLiu开源baoyu-design:本地运行Claude Design为Agent Skill
开源项目允许在本地将Claude Design作为Agent Skill运行,支持生成UI线稿、演示文稿等独立HTML文件,最佳搭配Opus 4.8。
a16z:AI初创保持精简,赋能与假赋能并存
a16z图表博客显示AI初创公司保持精简运营,同时存在真正的"赋能"与被包装成"赋能"的差异。
面对AI能力的快速提升,人类的第一反应从来不是执行理性计划——而是"胡乱应付"。这在快速变化的复杂情境中是一种普遍的人类行为,而AI领域正在上演这一点。
Ethan Mollick
Ethan Mollick:美国政府完全可以有效禁止开源权重模型
Mollick指出尽管不能阻止个人下载,但政府可以确保美国公司不提供访问或托管,从而有效禁止开源权重模型的使用。
Nathan Lambert:禁止开放模型不会阻止中国进步或滥用
Lambert认为禁止开放模型无法阻止全球开源进展和恶意行为,质疑禁令的实际收益。
teortaxesTex:美政府可能永远不让Mythos级模型公开
评论认为美国可以安全为由永久禁止前沿模型公开发布,且不必担心竞争——因可将其描绘为"存在未知网络攻击潜力"。
Ethan Mollick:企业员工更想直接使用Claude和ChatGPT
Mollick观察到尽管企业计划自建AI栈,员工却普遍希望购买Claude或ChatGPT的许可证,使用他们熟悉的工具。
Graham Neubig:开源模型已到拐点,封闭模型锁定风险明显
Neubig评论后训练的开放模型时代到来,封闭模型供应商锁定风险更加突出。
Clement Delangue:AI最大风险是权力集中于少数企业
Hugging Face CEO评论AI行业财富和权力的集中问题,呼吁更多"反叛联盟"。
MiniMax M3模型在NVIDIA NVFP4格式下可用
MiniMax M3现可用于NVIDIA NVFP4格式,为开源生态提供更多选择。
Cohere推出Apache 2.0编码模型,20GB内存即可本地运行
Cohere的开源Apache 2.0编码模型只需20GB内存即可本地运行,强调免费使用。
Artificial Analysis发布AA-Briefcase基准
新基准AA-Briefcase评估AI在复杂项目中的实际任务能力。
Sebastian Raschka:30B MoE模型本地达40 tok/s
Raschka测试了Qwen-Code、Codex等模型,发现30B MoE模型在Mac或DGX Spark上以约40 tok/s运行,可解决挑战性问题。
François Chollet:自主性是学习能力,不是无需监督
Chollet定义自主性为在没有人类瓶颈的情况下学习的能力,而非无需人类监督的独立行动能力。完全依赖人类训练数据的系统只是人类知识的印记。
Unitree人形机器人新型号价格降至4100美元
相当于一个消费级GPU的价格,人形机器人成本大幅下降。
NVIDIA展示Zaha Hadid Architects如何利用本地计算和定制AI
Zaha Hadid Architects通过本地计算、微调AI模型和NVIDIA技术构建定制AI工具,加速设计并保障数据安全。
ByteDance Seed Audio 1.0语音和音效质量惊艳
TomLikesRobots初步测试显示Seed Audio 1.0在配音和拟音方面效果出色。
Agentic RL中环境管理与拓展的挑战
一篇线程总结agentic强化学习中扩展环境的难点,包括环境设计与规模化问题。
teortaxesTex:LLM推理实质是内部状态构建而非真正的推理
认为LLM在检索事实知识时的推理多半是构建内部状态的"闲聊",本质是预热与归位机制,并提出如何优化这一过程。
PixVerse的Seedance 2.0实现原生4K和简化VFX
Seedance 2.0可从绿幕和单一盒子生成完整场景,保留原始运动和构图,电影级VFX变得极为简单。
LlamaParse现为n8n官方社区节点,将文档智能带入低代码世界
LlamaParse平台成为n8n官方验证社区节点,将文档解析和智能能力带入低代码世界。
YC支持创业公司REBOLT:让公司所有数据一键可查
REBOLT使企业数据通过一个提示即可查询和构建,创始人为Y Combinator校友。
对AI基准文化的深刻批判与建设性提议
一篇论文对AI基准文化提出新批评视角,包括重要观点和建设性提议,由Sobhan Lotfi和Ava合著。
ViQ:文本对齐的视觉量化表示,支持任意分辨率
新方法ViQ将文本对齐的视觉量化表示扩展到任意分辨率,提高多模态对齐质量。
Runway 2026 AI电影节获奖作品揭晓
Runway AI Festival公布获奖影片及最佳作品,Ron Howard等参与讨论。
RadixArk加入OpenEnv社区
OpenEnv是Agent环境的协议层,RadixArk加入有助于Agent互操作标准化。
Apertus Mini模型可在浏览器中本地运行
1.5B和4B模型在浏览器中完全客户端运行,速度达80+和60+ t/s。
Midjourney推出V8.2预览
新增--preview参数以提前体验V8.2美学和个性化功能。
Vibe编码者因跳过合规被起诉
开发者用vibe编码快速发布应用但忽略法律合规,导致被起诉。
Moxt更新多Agent编排工作流
支持一群Agent自动协作并重复驱动完成更长任务。
fofrAI制作AI写作技能,基于GOV.UK风格指南
为解决agent报告格式问题,整理了一套基于GOV.UK内容设计原则的写作技能。
Pika MCP黑客马拉松五优秀项目展示
1000多名黑客在CalHacks上使用Pika MCP构建AI视频项目。
Higgsfield发布全AI动作短片
使用Seedance 2.0生成4K短片,所有关键帧和提示词已开源。
Simon Willison:LLM不再默认在Web前端使用React
Willison注意到LLM对前端开发提示中更少默认选择React,需专们要求时才使用。
Seedance 2.5尚未发布,30秒视频为拼接
icreatelife提醒用户注意虚假Seedance 2.5视频,实际是2段Seedance 2视频拼接。