2026年6月29日 · 星期一

百度Unlimited-OCR入驻vLLM，整书单次解析无内存膨胀

通过参考滑动窗口注意力（R-SWA）实现恒定KV缓存，一次解析整本书籍，无论输出多长都不会出现内存膨胀或推理减速。

百度Unlimited-OCR现已在vLLM推理框架中运行，支持单次解析整本书籍。

百度Unlimited-OCR模型近日正式接入vLLM推理引擎，成为开源社区最受关注的OCR方案之一。其核心技术R-SWA（参考滑动窗口注意力）通过在解码过程中保持KV缓存大小恒定，从根本上解决了长文档处理中的内存膨胀问题。这意味着无论是数百页的学术著作还是长篇技术手册，模型都能在单次推理中完整解析，无需分段处理或牺牲精度。vLLM项目官方表示，Unlimited-OCR的集成进一步扩展了vLLM在多模态推理场景下的能力边界，为大规模文档数字化提供了高效、可复现的工程方案。随着该模型同步登顶HuggingFace热门榜，开源OCR的实用化进程正在显著加速。

PixVerse Seedance 2.0：从基础3D驾驶舱模型到全速电影级赛道画面。

Seedance 2.0实现3D到视频精准运动控制

PixVerse发布Seedance 2.0，利用3D通道锁定运动轨迹与摄像机路径，无需文本提示即可生成精准一致的高速赛车视频。该技术通过3D通道路由将运动信息和视觉生成解耦，确保每一帧的运动路径严格对齐输入三维空间坐标，从根本上解决了传统文生视频方法中运动不可控的痛点。从基础灰色3D驾驶舱模型到全速电影级赛道画面的转化，展现了3D-to-Video管线在工业级内容生产中的潜力。

DeepSpec：DeepSeek精选模型与数据集合集发布

deepseek-ai推出DeepSpec资源合集，收录其精选的模型、数据集、论文及Spaces，方便社区获取和使用。该合集集中展示了DeepSeek团队在开源生态中的持续投入，涵盖从基础模型到垂直应用的完整工具链。此次发布正值DeepSeek加速模型引发社区广泛讨论之际，进一步巩固了其在开源AI领域的影响力。

百度Unlimited-OCR登顶HuggingFace热门榜

百度Unlimited-OCR模型成为HuggingFace上排名第一的模型，其一次性解析整本书的能力受到社区广泛关注。这一成绩标志着OCR技术在开源社区的成熟度达到了新高度，也为vLLM集成后的进一步推广奠定了基础。

对最危险的前沿API模型增加政府透明度要求是理性的——但监管不应该波及开源AI。开源模型不是当前AI安全的最大威胁。
Clement Delangue · HuggingFace CEO

Anthropic推出Claude Tag：Slack里@Claude派活

Anthropic发布Claude Tag（Beta），Claude Team和Enterprise用户可在Slack频道中像@同事一样@Claude，管理员可预先配置其可访问的频道、工具和数据源。这一功能将Claude从独立的对话界面拉入团队协作流程，标志着企业级AI助手正从"工具"进化为"团队成员"。Claude收到@后，可以在被授权的代码库、文档和数据源范围内直接执行任务并回复频道。

Emollick：GLM-5.2虽好但未达前沿，开源模型加速追赶

AI研究员Emollick评价GLM-5.2性能不错，但距离GPT-5.5和Opus 4.8仍有差距，距离Mythos则更远。然而他强调了一个值得关注的趋势：开源模型已跨入GPT-5.2能力区，从追赶者变为并行竞争者。这一里程碑意味着开源生态在顶尖模型能力上已不再处于明显劣势，前沿能力的扩散正在加速。对于企业和开发者而言，在开源与闭源之间做技术选型的考量维度正在发生根本性变化。

LLM打破了AI发展路径的传统认知

AI研究员Goodside近日回顾了自己在LLM（大语言模型）出现之前对AI发展路径的预判。在长达25年的时间里，他相信AI的突破将遵循"通过强化学习实现递归自我改进"（RSI via RL）的路线——即通过奖励信号和自博弈逐步提升智能，而不是通过语言建模和对话界面。

"在大模型出现之前，我相信那个类比——好像是Yudkowsky说的——通过聊天机器人造AI就像通过精进蜡雕技术来造真花。"Goodside写道。他用这个类比说明自己曾认为语言只是智能的表层现象，真正的通用智能需要更底层的认知机制。然而ChatGPT及其后续模型的出现，用事实证明语言本身就是通往通用智能的有效路径。

这一认知转变对整个AI行业具有深远影响。它意味着我们可能高估了"智能需要在形式化环境中训练"这一假设，而低估了大规模语言建模在涌现推理能力方面的潜力。Goodside的反思也引发社区关于"我们是否已经步入了一条意料之外但同样通向AGI的道路"的讨论。从蜡雕到真花，AI的进化路径比任何人想象的都更加出人意料。

深度报道 · IN-DEPTH06 · 29

产品

班加罗尔司机分享ChatGPT如何帮助日常生活

一位班加罗尔自动人力车司机分享使用ChatGPT辅助日常生活的经历，称ChatGPT能记住所有提问并关联历史对话。OpenAI已作出回应，这一案例凸显了AI工具在非技术用户群体中的渗透正在加速。

开源

Repo Prompt开源：前OpenAI员工项目社区版发布

Repo Prompt社区版已开源上GitHub。此前OpenAI开发者体验负责人邀请Provencher加入团队，他在确保付费用户妥善安排后，先将项目免费开放，现彻底开源，为社区贡献了一款实用的代码库提示工具。

模型

DeepSeek推出加速模型，Gemma4-12B或成最佳本地模型

DeepSeek发布多款加速模型，其中Gemma4-12B可能包含视觉能力，有望成为同量级最佳的本地模型。Qwen 3.5因不支持线性注意力未包含在此次发布中。

商业

TeortaxesTex算出DeepSeek利润率40-60%

通过DSpark数据计算推断，其利润率在40-60%之间，若使用GB300将达到80%以上。该分析反驳了那些不进行实际计算就断定所有人都在"烧钱补贴"的论调。

观点

Clement Delangue：AI的未来是多模型，含开源模型

HuggingFace CEO Clement Delangue认为AI的未来是多模型生态，其中大部分将是HuggingFace提供的开源模型，单一闭源模型主导的格局不会持续。

论文

DiffusionBench：扩散Transformer全面评估基准

新论文提出DiffusionBench，对扩散Transformer进行整体评估的基准框架，为相关研究提供标准化测试手段和重要参考。

政策

Emollick质疑Gemini 3.5 Pro是否受出口管制

AI研究员Emollick公开询问Gemini 3.5 Pro是否受出口管制约束，暗示若未受管制可能对全球AI竞争格局产生重大影响。

工程

模型路由器低估非数学任务难度

Emollick指出所有模型路由器都低估了非数学/编程任务的难度，导致分配过少智能。而创新、营销、定性分析等不可验证任务恰恰最受益于更聪明的AI模型。

评测

fofrAI：Gemini 3.5 Flash是出色的工作马模型

AI开发者fofrAI称赞Gemini 3.5 Flash是极好的主力模型，尤其适合子代理场景，坚定、快速、能可靠完成任务。

产品

Adobe Firefly Boards直接集成到Photoshop中

Adobe Firefly Boards现已直接集成到Photoshop中，用户可在Photoshop内使用Firefly AI画布进行协作和创作，无需切换应用。

推理

DeepSeek DSpark服务速度近期明显提升

分析发现DeepSeek声称从5月8日起就已提供DSpark服务，但速度在最近几天显著跃升，社区怀疑他们正在测试更优版本。

人才

中国顶级研究者AI产出增加但留存率下降

基于NeurIPS/ICML 2024和ICLR 2025数据，至2025年马可·波罗快照显示中国顶级研究者总产出增加，但留存率大幅下降，美国对中国的优势为5.5倍。

社区

MiniMax联合Cysic黑客松公布优秀项目

MiniMax AI与Cysic合办的黑客松获奖项目名单公布，展示了基于M3模型构建的多个创意作品。

生态

Nathan Lambert：开源模型公司多样性带来希望

AI研究员Nathan Lambert表示，众多公司构建开源模型的多样性让人充满希望，尽管开源模型的故事常被前沿模型掩盖。

论文

VISReg：基于方差-不变性-草图正则化的JEPA训练方法

论文提出VISReg，通过方差-不变性-草图正则化改进JEPA训练，有望提升自监督学习性能。

研究

研究员讨论基准难度心理模型与评估设计

研究员CWolfe分享关于基准难度心理模型的思考，指出评估设计通常采用贪心启发式方法，需要更系统的设计框架。

商业

TeortaxesTex讨论算法回报的过度怀疑问题

评论指出人们既过于怀疑（认为所有人都在补贴），又不够怀疑（不相信90%+利润率），而实际上高利润率是可能的。

行业

幻方量化公益捐赠并非一次性——梁文锋此前捐赠1.38亿

评论指出幻方量化（DeepSeek母公司）的慈善捐赠并非偶发，梁文锋（化名"普通小猪"）曾捐赠1.38亿元人民币。

解读

"对标"意为"正面竞争"而非"模仿"——更正后对项目前景乐观

经中文母语者更正，指出"对标"的正确含义为"与……正面竞争"，而非"模仿"，这改变了市场对该项目的认知。

学术

Emollick称赞开放科学对AI论文写作的益处

AI研究员Emollick认为开放科学和透明方法论在撰写AI论文时带来的好处越来越多，可复现性是关键。

趋势

超个性化广告时代已经开启

评论指出AI驱动的定制化广告正在兴起，超个性化广告时代已经到来，这一趋势将对数字营销产生深远影响。

活动

SF AI工程师周活动今日在Moscone中心启动

AI工程师周在旧金山Moscone中心启动，今晚提供徽章领取和新工程师导向活动，鼓励参与者规划与互助。

今日简报 · BRIEFS06 · 29

监管

Nathan Lambert批评前沿模型"氛围监管"

对前沿模型的氛围式监管（vibe regulation）已造成真实且可怕的后果，监管应基于实证而非舆论情绪。

工程

社区争论将推动高性能线性代数内核发展

AI研究员Arohan认为，当前社区对推理效率的激烈争论将催生真正优秀的线性代数内核实现。

工具

Midjourney 8.1 HD模式修复手部细节

标准模式下手部生成仍有问题，但HD重跑后细节明显改善——并非简单放大，而是重新生成细节。

文化

AI垃圾写作流行不足为奇——我们处于垃圾文化中

评论认为AI垃圾写作成为趋势并不意外，当下最受欢迎的书籍已是低质量内容，这是整个文化生态的问题。

职场

AI提升代码效率10倍后程序员的选择困境

引发讨论：若代码效率提升10倍，程序员应选择写100倍代码，还是用节省时间做更稀缺重要的事？老板的真实期望又是什么？

评测

TeortaxesTex质疑GLM 5.2评估结果真实性

评论质疑所谓"GLM 5.2-Cyber（非削弱版）"的评估结果，怀疑其真实性或代表性，呼吁更多独立验证。

MORE·

@clementdelangue

Clement呼吁监管前沿API模型但不监管开源AI

HuggingFace CEO Clement Delangue提出理性监管方案：对最危险的前沿API模型（而非开源模型）增加政府透明度要求。

@clementdelangue

Clement调侃：被政府监管是最好营销

HuggingFace CEO Clement Delangue调侃，因模型“太危险”而被政府监管是面向企业销售的最佳营销。

@emollick

Emollick调侃：OpenAI要把GPT-6留给谁？

AI研究员Emollick提出疑问：既然模型命名跳跃，OpenAI究竟为GPT-6保留了哪个模型名称？