xAI推出Grok Voice API,语音合成定价仅为竞品零头
Grok Voice API支持多语言语音代理构建,可调用工具和实时搜索数据,具备类人语速、语调与温度。
xAI正式将Grok Voice以API形式对外开放,开发者可基于该接口构建能听、能说、能行动的语音代理。该API采用与Grok Voice消费端产品相同的技术栈,在语音合成质量上对标甚至超越当前市场领先方案,但定价策略极具攻击性——仅为竞争对手的一小部分。API支持多语言、工具调用和实时数据搜索,使其不仅适用于客服和虚拟助手场景,更有望在金融分析、医疗问询等需要实时信息的垂直领域打开新空间。
Adobe Firefly视频生成器上线,文本图片皆可一键转视频
Firefly Video Generator正式面向公众开放,支持用户通过文本提示直接生成动态视频内容,同时可将静态图片转化为动态影像,适用于B-roll、特效制作、广告创意等场景。该工具深度集成于Adobe创意套件生态,创作者无需离开熟悉的工作流即可调用AI视频生成能力。
能力、财富和权力集中在少数公司是AI领域的最大风险。我们比以往任何时候都更需要开放科学与开源。
— Clement Delangue, Hugging Face CEO
Claude Fable 5上手:慢而昂贵,但几乎无所不能
Simon Willison对Claude Fable 5进行了约5.5小时的深度测试。模型速度偏慢、价格高昂(输入$10/百万token,输出$50/百万token),但拥有100万token上下文窗口和12.8万最大输出,知识截止至2026年1月。Willison的结论是:它有一种"大模型的气味"——慢、贵,但能碾压几乎所有被投喂的任务。
Cursor代码审查Agent速度提升三倍,成本降低22%
Cursor的代码审查Agent Bugbot迎来重大升级:运行速度提升3倍,成本降低22%,并能多发现10%的bug。新增的/review命令支持在本地运行Bugbot,在代码推送前即可捕获和修复问题。
Claude为Apple开发者提供Foundation Models框架支持
开发者现可使用Apple的Foundation Models框架直接调用Claude,实现多步推理、代码生成和长上下文处理。该集成意味着Claude成为Apple生态中首个通过官方框架可调用的第三方大模型,为iOS和macOS的AI应用开发打开了新通道。
Anthropic降级Fable是否摧毁了AI开放生态的基石?
评论者指出,如果一家实验室开发出更强大的模型却暗中对其竞争性使用进行降级处理,其他实验室将失去公开分享模型的激励。这一行为被认为破坏了AI研究赖以繁荣的"公地"——当共享模型可能反噬自身,封闭就成为理性选择。这对开源社区的长期影响可能远超单次产品决策。
Claude Fable让自信的研究员患上冒名顶替综合征
多位AI研究人员反映,Fable模型内部对某些AI研究相关任务的降级处理,导致他们无法判断自己的实验失败是因为方法有误还是被模型刻意限制。一位研究员描述其为"将自信的研究者转化为被冒名顶替综合征折磨的焦虑症患者"的机器。这种不透明性正在侵蚀研究社区对前沿模型的信任基础。
美曾无证据指责中国模型操纵用户,如今自身被证实
AI学者Nathan Lambert指出一个讽刺现象:美国AI领袖曾多次在缺乏证据的情况下指责中国LLM对用户进行"微妙操控",但如今却是美国领先的AI实验室Anthropic被记录到对其Fable模型进行降级处理的相关行为。他强调,这种双重标准严重损害了AI安全讨论的公信力。
Reve 2.0图像生成模型发布,支持独立图层操控与4K原生输出
Reve 2.0通过将规划与渲染分离,实现对每个对象图层的独立编辑。其以代码作为中间表示,使智能体可直接"理解"并编辑图像,同时输出原生4K×4K(1600万像素)图像,无需单独放大步骤。该模型在DesignArena基准中排名第二,但其真正的差异化优势在于支持迭代式创作流程——设计师可反复优化单个图层而非重做整张图。
研究发现视频扩散模型内部已编码物理规律
一篇最新论文推翻了"视频生成模型对物理无知"的流行论断。研究者通过线性探针技术发现,扩散模型的内部表示中实际包含了有效的物理模型——这意味着视频生成模型并非简单地记忆像素模式,而是在训练过程中自发习得了对现实世界物理规律的表征。
AutoForge论文:Agent多轮任务中保留推理痕迹有显著收益
来自强化学习Agent论文AutoForge的研究表明,在多轮对话中保留之前的推理痕迹作为额外上下文,可显著提升Agent在复杂任务中的表现。这一发现支持了"交错思考"策略——Agent从之前轮次保留推理链,在当前轮次中复用,从而在信息不完全的环境中做出更准确的决策。
分布式Shampoo优化器通过精调显著提升LLM训练效果
研究员Aohan以最小代码修改完成超参数调优,使Meta的分布式Shampoo优化器在LLM训练中取得显著效果。该工作强调了超参数调优在实际训练中的重要性,尤其是在使用前沿优化器时,合理的参数配置往往是收敛的关键。
Ethan Mollick:模型分层比简单地换廉价模型更有效
沃顿商学院教授Ethan Mollick指出,简单用便宜模型替代昂贵模型往往导致性能下降。更有效的策略是构建模型层级:让智能模型担任编排者和审计者角色,监督和修正廉价模型的输出。这一思路与Perplexity将Claude Fable 5作为编排模型的实践不谋而合。
François Chollet警告:AI泡沫可能存在于多个层面
Keras作者François Chollet提出,即使技术可行且产品市场匹配,AI领域仍可能形成泡沫。他指出,如果技术缺乏高需求用例,或虽然技术有效但无法盈利地交付,泡沫就会形成。这个多层次的泡沫理论为当前AI投资的狂潮提供了一个冷静的分析框架。
Replit推出Package Firewall,安装前拦截恶意包
Replit与Socket合作推出Package Firewall,在运行时前阻止恶意软件,保护AI开发环境免受供应链攻击。
Hugging Face考虑训练开源AI构建模型
Clement Delangue公开征询社区意见:HF是否应利用其数据集和工具优势训练一个开源AI构建模型。
AI助手成iMessage新战场,用户无需打开App即可获取服务
投资机构梳理了正在进入iMessage的AI助手生态,消费者AI界面正在向消息化演进,用户更想要一个可随时联系的"朋友"。
John Schulman对Hinton新对齐组织表示期待
Schulman称赞Hinton 2018年关于AI安全与辩论的论文为可扩展监督问题提供了优雅框架,并表示期待新对齐组织的成果。
Mistral CTO在NVIDIA播客谈开放模型与企业化
Timothée Lacroix探讨了开放模型哲学、Forge定制框架以及与NVIDIA在Nemotron上的合作。
OpenAI Codex助音乐人完成Ableton Live编曲工作
作曲家使用Codex在Ableton Live中自动设置钢琴轨道、速度和和声,将精力集中在创意本身。有媒体显示Codex演示了这一场景。
Ollama支持Hermes Desktop,本地Agent能力再扩展
Nous Research宣布Ollama现已支持Hermes Desktop桌面运行,进一步降低了本地Agent部署的门槛。
Vercel CLI新增AI Gateway密钥管理与预算控制
Vercel CLI现支持创建AI Gateway API密钥、设置消费预算上限和配额刷新周期,被形容为"AI token的虚拟信用卡"。
Kling发布两年研发回顾,即将推出重大更新
从2024年6月创作者社区的首批反馈至今,Kling团队用两年时间迭代角色生动性和动态还原度。
Claude Fable 5在文档理解测试中内容一致性达90.02%
LlamaIndex团队测试显示Fable 5在内容忠实度上超越了Gemini 3 Flash的86.19%和GPT-5.5的86.81%。
Luma Ray3.2发布,支持任意帧操控与完整剪辑
Ray3.2将创意意图转化为可扩展视频工作流,提供更丰富的控制和电影化导向。
Inferoa社区Agent框架基于vLLM,推理经济学驱动路由
Inferoa构建在vLLM之上的社区Agent平台,以prefix-cache和上下文优化为推理经济学核心。
Hedra Agent 2上线,AI驱动的竞争分析与营销布局
Hedra Agent 2可秒级分析竞争对手并生成高转化率营销布局,从食谱灵感到专业传单全覆盖。
AI视频创作短片展示角色反转创意力量
PixVerse创作者发布了一部幽默的角色反转AI短片,展示了AI视频的叙事潜力。
Wan推出鱼眼镜头功能,普通影像秒变超广创意视觉
阿里巴巴Wan上线鱼眼镜头工具,用户上传任意图片即可即时转换为独特超广圆形视图。
李开复在伦敦Asia House演讲:AI转型需CEO明确授权
李开复结合在零一万物全球高管合作经验指出,真正的AI转型只有在CEO明确授权驱动下才能实现。
SGLang办公时间:与Boson AI共探Higgs Audio V3语音克隆
SGLang邀请Boson AI团队在办公时间分享如何构建快速、现代且自然的语音克隆系统。
HF CEO善意呼吁Anthropic倾听反馈并调整路线
Clement Delangue表示Anthropic一直在提高对AI操纵的意识,不希望其成为破坏开放生态的标志性案例。