Codex计算机操作功能登陆Windows,支持手机远程控制

OpenAI宣布Codex的Computer Use功能正式支持Windows系统。这意味着Codex现在可以直接操作Windows电脑,执行应用测试、调试流程和代码审查等任务。更值得关注的是,用户可通过ChatGPT手机应用连接Windows机器,随时随地进行任务调度和远程监控,真正实现了跨设备的AI开发工作流。这一功能补全了Codex在Windows开发者工具链中的关键缺口,发布后获得超过54万次浏览和5400余次点赞。
Claude Opus 4.8支持对话中途添加系统指令,缓存不中断

Anthropic为Claude Opus 4.8引入了一项实用功能:在对话中途添加系统指令时不再打断prompt缓存。这意味着更高的缓存命中率、更低的API延迟和更少的成本。对于需要动态调整模型行为的应用场景——如客服系统中根据上下文切换指令、多轮对话中注入新的约束条件——这一改进意义重大。
Cohere Command A+机器翻译超越多个顶尖模型
Cohere发布Command A+,在机器翻译任务上显著超越Mistral Medium 3.5、DeepSeek、OpenAI GPT-OSS、Claude Opus 4.6,甚至超过了专业翻译系统Google Translate。
Visa投资Replit,探索AI代理式支付场景
Visa宣布投资AI编码平台Replit,双方将探索如何利用AI驱动的编码环境赋能代理式支付应用,让开发者能够更高效地构建支付软件。
阶跃星辰Step-3.7-Flash GGUF量化版上线HuggingFace
阶跃星辰在HuggingFace发布Step-3.7-Flash模型的GGUF量化版本,用户可将自有硬件接入后直接在本地运行,推动开源大模型硬件可及性。
GPT-5 Pro系列模型自去年夏天以来一直是单次解决最难问题的最佳模型,其他模型始终未能真正追上。
— Ethan Mollick,宾夕法尼亚大学沃顿商学院教授
DeepSeek基础设施工程能力惊人,行业为何礼貌性假装不存在
DeepSeek在基础设施工程方面表现出色,以至于整个行业不得不假装他们"正在亏损运营"或"这根本不成立"。一位评论者辛辣指出,DeepSeek的工程能力之强已经让竞争对手感到不安,集体选择避而不谈。
vLLM Day-0支持阶跃星辰Step-3.7-Flash:198B参数MoE视觉语言模型

vLLM在StepFun发布Step-3.7-Flash的当天即提供完整支持。该模型为198B稀疏MoE视觉语言模型,每token仅激活约11B参数,原生支持图像和文本输入,拥有256K上下文窗口,适配长文档、多文件仓库和密集视觉界面。vLLM同时宣布已支持FP8和NVFP4量化格式,为生产环境部署提供了更多选择。NVIDIA也为该模型提供了NIM、NeMo和GPU加速端点的Day-0支持。
Claude Opus 4.8深度评测:更诚实、代码缺陷遗漏率降低约4倍
Simon Willison对Claude Opus 4.8进行了深入评测,指出模型的核心改进在于"诚实度"——减少无依据声明,代码缺陷遗漏率降低约4倍,幻觉率为所有模型中最低。这些改进主要通过"放弃回答不确定问题"的策略实现。价格方面与Opus 4.7持平(输入$5/百万、输出$25/百万),新增对话中系统消息功能,最低缓存token门槛从4096降至1024。
Claude动态工作流发布:可启动数百个Subagent完成大规模任务

Claude发布Dynamic Workflows功能,延续并发Subagent逻辑,一次可启动多达数百个并行子代理,完成代码库调研、大规模报告生成等重负载任务。
Opus 4.8 ParseBench结果:表格增强但图表退化,价格微涨

LlamaIndex发布Opus 4.8在ParseBench上的评测结果:表格、语义格式和布局小幅提升,但图表和内容忠实度略有下降。
Cursor推出自动审查模式,减少审批提示提升安全性
Cursor发布Auto-review模式,让Agent运行工具调用时需要的审批更少,同时确保更安全的代码执行。这一功能解决了Agent编程中频繁确认的体验痛点。
OpenAI推出Rosalind生物防御计划,加速AI在生物安全中的应用
OpenAI宣布Rosalind生物防御项目,为可信开发者提供新的生物安全能力,并扩大对美国政府和盟友的GPT-Rosalind模型访问。
Runway Aleph 2.0视频生成模型独家登陆Adobe Firefly至6月1日

Adobe Firefly独家上线Runway Aleph 2.0视频生成模型,用户可通过编辑现有视频生成新片段,有效期截至6月1日。
法国发布高级LLM,Apache 2.0许可开源,支持个人和企业用途
法国发布一款面向个人和企业场景的高级大语言模型,采用Apache 2.0许可开源。此举标志着欧洲在开源AI领域的重要布局。
斯坦福OpenJarvis个人AI现可基于Ollama本地运行

斯坦福HazyResearch和Scaling Intelligence实验室的本地优先AI项目OpenJarvis,现已支持通过Ollama在本地运行,研究高效本地AI的新范式。
vLLM推出强化学习两大升级:原生权重同步和改进暂停恢复
vLLM发布两个强化学习重大升级:原生权重同步API标准化了权重传输流程,改进的暂停恢复功能显著提升了异步RL训练效率。
Qwen-VLA:统一视觉-语言-动作模型的跨任务机器人框架

Qwen-VLA提出统一的视觉-语言-动作建模方案,跨任务、环境和机器人形态实现通用控制,标志着具身智能领域的重要进展。
