2026年5月30日 · 星期六

xAI发布Grok Build 0.1模型API，Agent编程迎来新势力

公共测试版正式上线，每百万输入token仅$1，输出$2，主打代理式编码任务，在同级模型中性价比突出。

xAI正式推出Grok Build 0.1公共测试版API，这一模型与驱动Grok Build CLI的模型完全相同，在Agent编程任务上表现卓越。定价极具侵略性——输入每百万token仅$1，输出$2，成本远低于同级别闭源模型。xAI将其定位为"极具性价比、智能且快速"的开发者工具。发布当日推文浏览量超过51万次，社区反响热烈。Grok Build 0.1延续了xAI在开发工具领域的快速迭代节奏，API的开放将进一步降低AI编程的门槛。在当前AI编程工具竞争白热化的背景下，xAI以极具竞争力的定价策略入场，直接对标Codex和Claude Code等产品，有望吸引大量中小开发者和初创团队。

Codex计算机操作功能登陆Windows，支持手机远程控制

@OpenAI · 官方发布

Codex现可直接操作Windows电脑，并支持ChatGPT手机应用远程控制。

OpenAI宣布Codex的Computer Use功能正式支持Windows系统。这意味着Codex现在可以直接操作Windows电脑，执行应用测试、调试流程和代码审查等任务。更值得关注的是，用户可通过ChatGPT手机应用连接Windows机器，随时随地进行任务调度和远程监控，真正实现了跨设备的AI开发工作流。这一功能补全了Codex在Windows开发者工具链中的关键缺口，发布后获得超过54万次浏览和5400余次点赞。

Claude Opus 4.8支持对话中途添加系统指令，缓存不中断

@ClaudeDevs · Anthropic官方

Claude Opus 4.8新增mid-conversation系统消息功能，不打断prompt缓存。

Anthropic为Claude Opus 4.8引入了一项实用功能：在对话中途添加系统指令时不再打断prompt缓存。这意味着更高的缓存命中率、更低的API延迟和更少的成本。对于需要动态调整模型行为的应用场景——如客服系统中根据上下文切换指令、多轮对话中注入新的约束条件——这一改进意义重大。

Cohere Command A+机器翻译超越多个顶尖模型

@cohere · 官方发布

Cohere发布Command A+，在机器翻译任务上显著超越Mistral Medium 3.5、DeepSeek、OpenAI GPT-OSS、Claude Opus 4.6，甚至超过了专业翻译系统Google Translate。

Visa投资Replit，探索AI代理式支付场景

@amasad · Replit CEO转推

Visa宣布投资AI编码平台Replit，双方将探索如何利用AI驱动的编码环境赋能代理式支付应用，让开发者能够更高效地构建支付软件。

阶跃星辰Step-3.7-Flash GGUF量化版上线HuggingFace

@huggingface · 转推

阶跃星辰在HuggingFace发布Step-3.7-Flash模型的GGUF量化版本，用户可将自有硬件接入后直接在本地运行，推动开源大模型硬件可及性。

GPT-5 Pro系列模型自去年夏天以来一直是单次解决最难问题的最佳模型，其他模型始终未能真正追上。
— Ethan Mollick，宾夕法尼亚大学沃顿商学院教授

DeepSeek基础设施工程能力惊人，行业为何礼貌性假装不存在

@teortaxesTex · 评论

DeepSeek在基础设施工程方面表现出色，以至于整个行业不得不假装他们"正在亏损运营"或"这根本不成立"。一位评论者辛辣指出，DeepSeek的工程能力之强已经让竞争对手感到不安，集体选择避而不谈。

vLLM Day-0支持阶跃星辰Step-3.7-Flash：198B参数MoE视觉语言模型

@vllm_project · 官方发布

vLLM在StepFun发布Step-3.7-Flash的当天即提供完整支持。该模型为198B稀疏MoE视觉语言模型，每token仅激活约11B参数，原生支持图像和文本输入，拥有256K上下文窗口，适配长文档、多文件仓库和密集视觉界面。vLLM同时宣布已支持FP8和NVFP4量化格式，为生产环境部署提供了更多选择。NVIDIA也为该模型提供了NIM、NeMo和GPU加速端点的Day-0支持。

Claude Opus 4.8深度评测：更诚实、代码缺陷遗漏率降低约4倍

@simonw · 独立开发者评论

Simon Willison对Claude Opus 4.8进行了深入评测，指出模型的核心改进在于"诚实度"——减少无依据声明，代码缺陷遗漏率降低约4倍，幻觉率为所有模型中最低。这些改进主要通过"放弃回答不确定问题"的策略实现。价格方面与Opus 4.7持平（输入$5/百万、输出$25/百万），新增对话中系统消息功能，最低缓存token门槛从4096降至1024。