Codex新增远程控制Mac功能,锁屏也能用
OpenAI发布Codex计算机使用功能,macOS用户安装插件后,Codex可操控图形界面应用,支持锁屏状态下远程操作。
OpenAI正式推出Codex应用更新,新增计算机使用功能。macOS用户安装插件并授予屏幕录制与辅助功能权限后,Codex即可操控图形界面应用,包括在锁屏状态下远程操作。该功能需单独启用锁屏使用选项,启用后Codex会临时解锁Mac但阻止本地操作,并仅允许经过主动授权的任务运行。该功能适用于检查桌面应用、浏览器操作和复现GUI错误等场景,将Codex的使用边界从命令行终端扩展到整个桌面环境。对于无API接口的传统桌面软件而言,这意味着Agent操控能力的一次重大升级。
DeepSeek V4-Pro永久降价,继续价格战
DeepSeek宣布将此前限时折扣变为永久降价方案,V4-Pro API调用价格大幅下调。此举被业界视为AI云端推理价格战的延续,进一步压低开发者的模型调用成本,让更多团队能负担起旗舰级大模型的使用。
Runway发布Aleph 2.0视频编辑模型,支持30秒1080p
Runway推出Aleph 2.0视频编辑模型,可在保持原视频其余部分不变的情况下精确编辑所需内容,支持多镜头序列编辑,最高输出30秒1080p视频。新模型集成于Edit Studio中,为创作者提供前所未有的剪辑控制力。
模型本身已不再是产品
Anthropic安全项目发现超万高危漏洞
Anthropic的Project Glasswing协作计划在关键软件中发现超过一万个高危和严重级别漏洞,展示了AI在网络安全领域的规模化应用潜力。
在Hugging Face上可直接查询20亿网页
CommonCrawl四月爬取数据及URL索引已上架Hugging Face,开发者可利用SQL对海量网页数据进行查询分析,无需下载。
Luma发布Seedance 2.0高质量视频生成模型
Luma Agents上线Seedance 2.0,可生成肖像、风景、科幻等各类高质量影像,实现即时影视级画面效果。
Cursor发布SDK,支持Python和TypeScript构建自定义Agent
Cursor SDK让开发者可以用Composer 2.5构建自己的Agent,现同时支持Python和TypeScript。长周末期间Composer使用费打一折。
Perplexity开源安全扫描工具Bumblebee
Perplexity AI开源Bumblebee只读扫描器,可检查macOS和Linux机器上的风险包、浏览器扩展及AI工具配置,支持供应链暴露检查。
Tri Dao:整个Transformer可重写为GEMM加Epilogue
通过数学重写,所有Transformer操作可表示为一系列GEMM及其后续操作,LLM可据此编写速度最优的核函数,挑战自回归范式。
微软开始收回内部Claude Code许可证,转向GitHub Copilot
据The Verge报道,微软因令牌计费成本问题收回开发者Claude Code权限,要求内部团队改用自有GitHub Copilot CLI工具。
SynthID水印技术扩展至更多合作伙伴
Google DeepMind的AI内容水印SynthID进一步扩大合作,用户可通过Gemini或Google搜索查询内容是否AI生成。
Ideogram发布MCP工具,无需离开聊天即可生成图像
Ideogram MCP允许在Claude、ChatGPT、Cursor等对话界面中直接生成图像、进行设计和训练自定义模型。
Gemini Omni可原生编辑视频,演示1896年火车电影重制
Ethan Mollick展示Gemini Omni的全模态视频编辑能力,可将经典电影片段转换为不同风格,从子弹列车到乐高世界。
llama.cpp新增WebGPU后端支持
llama.cpp迎来完整WebGPU后端,在浏览器中运行大模型成为可能。
ArtifactLinker自动预测模型基准表现
新系统可预测模型在哪些基准上表现好,帮助更全面地评估模型能力。
Together AI推出Qwen3.7-Max旗舰模型
支持1M上下文,面向Agent时代设计,性能领先。
AutoScientist两天内达到前沿模型水平
用户可在两天内训练出前沿模型,下月提供免费计算资源。
GLM-5.1-HighSpeed发布:400 token/s旗舰API
创下旗舰级LLM API速度新标杆,非小模型缩水替代。
Kakuna:通过清单强化代码的Agent
具备技能清单的Agent,自动化代码硬化,支持子Agent并行。
小红书上线AI Skill上传功能
用户可将自定义AI能力直接发布到平台,被视为重大功能事件。
CEO专栏:如何用AI决定裁员对象
Cloudflare裁掉1100人并招聘1111名实习生替换,CEO撰文解释决策逻辑。
现代LLM可无工具计算100位数字乘法
通过CoT缩放即可解决100位乘法,挑战自回归余烬观点。
Claude Pro计划上线Auto模式,支持Sonnet 4.6
Auto模式扩展至Pro计划,新增对Sonnet 4.6的支持。
Project Genie可基于街景创建交互世界
将真实美国地点转换为可交互的虚拟世界,结合Google Maps街景数据。
ARC-AGI-3挑战赛出现首个跳跃式提升
tufalabs得分从0.68%跃升至1.17%,首次出现有意义的大幅跳升。
Zalando借助NVIDIA AI实现48小时3D扫描上架
集成Cosmos、Gen-3C和DiffusionRenderer,实现从3D扫描到店铺上架仅需48小时。
Command A+上线微软Foundry
Cohere最新开源模型作为托管计算服务在微软Foundry上提供。
LM Studio 0.4.14上线MTP支持
新增Multi-Token Prediction多token预测功能。
gdb:模型本身已不再是产品
仅靠模型已不足以构成产品竞争力,需要更完整的应用生态支撑。
gdb:回想Codex出现前的编程方式
AI编程工具已深度改变开发者的日常工作流,以前的编程体验正在成为历史。
Sam Altman:希望AI解决什么未来问题
向社区征集未来AI应解决的重大挑战,OpenAI表示也许能帮忙。
Grok新增多款连接器:Vercel、Canva、Gamma
新增多平台集成能力,可构建网站、创建设计、制作演示文稿。
PixVerse App新增Create Image功能
移动端上线图像生成功能,支持基于提示或参考图生成。
CommonCrawl推荐HF Buckets存储训练数据
采用内容定义分块技术,仅上传变更部分,实测减少75%上传量。