2026年5月24日 · 星期日

谷歌声称AI代理构建操作系统，事实核查结论不乐观

谷歌宣称单个提示加约900美元就让AI构建出完整操作系统——但"单个提示"实际长达数千行，人类干预次数与尝试次数均未披露，代码从未开源，更像新闻稿而非科学研究。

谷歌宣称用单个提示、约900美元让AI代理构建了完整操作系统。但normaltech.ai的事实核查分析揭示了诸多疑点：所谓"单个提示"实际长达数千行；谷歌未披露尝试次数、人类干预程度、是否从互联网复制代码；提示、代码和日志均未开源，外部无法独立验证。分析作者认为这更像一篇精心包装的新闻稿，缺乏基本科学严谨性。不过文章也指出，这类"开放世界评估"方法确实需要建立新的验证规范——独立评估者的介入将是关键。此事在AI社区引发了对如何客观评估AI代理能力的广泛讨论。

MiniMax推出Gizmo，双LLM架构消除对话冷场

M2-her即时响应配合M2.7复杂推理，终结AI对话中的尴尬停顿。

MiniMax支持的产品Gizmo正式发布，采用创新的双LLM架构。轻量级M2-her模型负责即时回应，消除对话中的尴尬沉默；强大的M2.7模型则处理复杂推理任务。两套模型协同工作，让AI对话体验更加自然流畅，彻底告别"正在思考中"的漫长等待，为语音AI产品树立了新标杆。

阶跃星辰发布StepAudio 2.5实时语音模型

StepAudio 2.5 Realtime支持实时语音交互，能理解语气、停顿、微情绪等副语言信息，甚至可捕捉句中的半笑声和叹息。API支持自定义角色人格，为语音助手、客服和交互式内容应用带来全新的可能性。

电商巨头75%视觉媒体由AI生成，成本骤降99%

全球最大电商之一采用Runway后，80万美元的项目现在不到1万美元，每张产品图节省3万美元。

据c_valenzuelab披露，一家全球顶级电商公司采用Runway视觉生成方案后，目前75%的视觉媒体内容完全由AI生成。此前成本高达80万美元的视觉项目，借助AI不到1万美元即可完成；每张产品宣传图的制作成本节省约3万美元。该案例被视为生成式AI在商业流程中创造巨大投资回报率的标杆，也为其他大型企业的AI采用提供了可量化的参考数据。

LLMs-from-scratch新增DeepSeek稀疏注意力实现

Sebastian Raschka的开源仓库LLMs-from-scratch新增了DeepSeek稀疏注意力（DSA）的完整从零实现，由读者贡献。该实现包含动机概述和GPT风格模型的参考代码，以独立示例形式提供，便于开发者学习和实验。

Replit Agent与Squidler实现全自动QA闭环

用户用自然语言描述需求，Agent自动构建、测试、修复应用。

Replit Agent结合Squidler测试工具首次实现完整AI开发-测试-修复闭环：用户只需用自然语言描述应用需求，Agent自动编写代码；Squidler模拟真实用户进行测试；发现问题后Agent自动修复。整个QA流程现已在Replit MCP库中可用，标志着AI编码工具从代码生成向全生命周期管理迈出了关键一步。

NVIDIA GTC周在台北正式启动，Jensen Huang亲临现场与开发者交流

NVIDIA GTC周台北启动，自主代理成全场焦点

NVIDIA GTC大会在台北正式开幕，自主代理（Agent）开发成为全场焦点。Jensen Huang亲临Meet-a-Claw活动现场，开发者们在活动中动手体验Agent开发实践。此次GTC标志着NVIDIA在自主代理生态布局上的进一步加速，硬件与软件协同推动下一代AI工作流。

新论文倡导统一物理学、神经科学与AI的智能科学

Surya Ganguli在Daedalus期刊发表文章，提出整合物理学、神经科学和人工智能建立统一的智能科学。文章从四方面阐述：复杂系统物理学工具分析神经网络学习机制；神经科学揭示生物智能相较AI的多数量级优势；量子硬件与AI协同设计开发新设备；构建大脑数字孪生以研究智能与意识。该框架为跨学科智能研究开辟了新路径。

Gemini Omni视频编辑实现无缝场景替换

用户上传Waymo乘车视频后，利用Gemini Omni将场景从Menlo Park替换为Google Maps截图中的其他地点，过渡效果无缝自然。这一能力展示了Omni在视频理解与编辑融合方面的强大潜力，为视频创作工具带来了全新可能。

DeepSeek-V4-Pro支持百万Token上下文，245TB版本将到来

DeepSeek-V4-Pro允许24,500个实例各承载1M token上下文，未来还将推出245TB规模变体。这需要更好的极端多轮工具支持来充分释放潜力，评论认为目前的上下文压缩技术仍有很大提升空间。

华为推理性能已针对DeepSeek V4优化，新数据中心即将上线

据观察，华为在DeepSeek V4发布后数日内即展示了推理性能，分析认为其后训练阶段已使用华为Ascend芯片。传闻已久的华为AI数据中心预计很快投产，这对国产AI算力生态自主可控意义重大。

谷歌DeepMind扩大与新加坡AI合作

谷歌DeepMind宣布扩大与新加坡的合作伙伴关系，新项目聚焦于安全部署AI、加速科学发现、提升流行病准备和改善医疗保健。合作将由新加坡本地专家共同推进，标志着DeepMind在东南亚AI落地布局的进一步深化。此前新加坡已在AI治理领域走在亚洲前列，此次合作有望加速公共健康与科学研究领域的AI应用落地。