NVIDIA发布修复版DeepSeek-V4-Pro-NVFP4模型
@clementdelangue 转推 @julien_c
NVIDIA在Hugging Face上发布了修复版的DeepSeek-V4-Pro-NVFP4模型,旨在通过开源和开放科学推动AI普及。该模型以NVFP4格式量化,面向高性能推理场景,修复了先前版本中的关键问题。
英国AI安全研究所开源评估数据集与模型
英国AI安全研究所在Hugging Face公开了其评估、数据集和模型,涵盖谎言检测数据集、经思维链训练后说谎的模型、欺骗检测探针等,供全球研究人员审查和复现。@clementdelangue 评论称:「AI安全不能关起门来做。」
AI safety can't happen behind closed doors.
@ClementDelangue · Hugging Face CEO
北大数学「黄金二代」苏炜杰官宣加入OpenAI
宾夕法尼亚大学沃顿商学院统计与数据科学系正教授苏炜杰(兼计算机系、数学系、生物统计学系联合教职)已正式加入OpenAI。苏炜杰是斯坦福校友,北大数院「黄金二代」代表人物之一,同时担任宾大机器学习研究中心(PRiML)联合主任。此消息由@yuyy614893671在社交媒体首次披露,引发AI学术界广泛关注。
Anthropic被指控蒸馏中国模型(Kimi/Qwen),引发热议
有消息称Anthropic的Claude模型可能蒸馏了国内模型Kimi和Qwen,证据逐渐增多,引发业内讨论。@oran_ge 写道:「这魔幻的世界已经难辨真假。」
阶跃星辰Step 3.7 Flash对Hermes Agent用户免费30天
StepFun宣布Step 3.7 Flash模型向NousResearch的Hermes Agent用户免费开放30天。@StepFun_ai 调侃道:「What could possibly go wrong?」
ColBERTv2月下载量达2000万,作者建议迁移至LateOn
ColBERTv2模型月下载量创下新纪录,原作者@lateinteraction建议用户迁移至更新的LateOn colbert模型以获得更好性能。
当前AI模型训练成本估算:最多约10亿美元
@teortaxesTex分析指出,当前一代模型训练成本最多约为10亿美元(以DeepSeek V4 Pro为基准),而非此前流传的20至40亿美元。即便以Mythos估算,最高也仅约10亿。
LangChain报告:三分之一AI团队使用开源权重模型
LangChain最新Signal报告显示,三分之一AI团队运行了开源权重模型,开放模型正迎来高光时刻。@LangChain 称:「Open Models are having a moment。」
代码智能体基准测试任务数过小引担忧
@cwolferesearch指出,当前主流代码智能体基准测试规模太小——DeepSWE仅113个任务,TerminalBench-2.0仅89个任务——影响评估可靠性,呼吁建立更大规模公开基准。
Ship the best product. Use lots of AI, some AI, maybe no AI. Just be the best.
@rauchg在社交媒体上发表简洁有力的产品观:交付最好的产品,AI用量可多可少,甚至不用,关键是做到最好。此贴获得1,655个喜欢、157次转发。
AI Gateway推出每API Key消费上限功能
@rauchg宣布AI Gateway新增按API Key设置消费上限的功能,帮助团队管理AI API调用成本。
TERAFAB目标年产1000至2000亿颗定制AI与存储芯片
@LaceyPresley通过@elonmusk转发透露,TERAFAB全面投产后将年产1000至2000亿颗定制AI与存储芯片。
Grok Build is moving fast
@elonmusk宣布Grok Build进展迅速,获得近28,000个喜欢。
开源与闭源模型之争:智能边际价值的对决
@natolambert发文分析开源vs闭源模型的核心分歧:闭源模型将始终略胜一筹,但开源模型更便宜。关键在于边际智能提升是否具备不成比例的价值。
Claude在技术搜索中表现懒惰,GPT 5.5则极为彻底
@natolambert观察发现,Claude在聊天中(尤其技术搜索主题)表现懒惰,而GPT 5.5及OpenAI近期模型则非常彻底,不会轻易放弃。
推特上的劣质Agent与1991年Word Art如出一辙
@francoisfleuret辛辣点评:推特上制造劣质Agent的人与1991年用Word Art做花哨标题的人属于同一品种,简单将丑陋之物拼凑便自觉了不起。
Immich自托管相册已使用SigLIP进行AI图像搜索
@giffmana在调研自托管相册方案时发现,Immich已使用SigLIP模型进行图像搜索,并计划尝试加入更强版本。
Recraft V4.1达到真实客户交付标准
@recraftai宣布V4.1版本以真实客户交付场景为质量标准,在实际使用中通过了测试。
ESMFold2引起学界热议
@SylvainGariel通过@ylecun转发,讨论ESMFold2引发的研究热潮及其基准测试数据的解读。
如果大家都用AI审稿,至少用个好点的AI
@gneubig感叹:「If everyone is going to use AI to review papers anyway, I wish they would at least use good AI。」
SakanaAI Labs最新研究获Elon Musk关注
@SakanaAILabs发推感谢Elon Musk对其最新研究的关注。@hardmaru进行了转发。