2026年5月25日 · 星期一

llama.cpp MTP 让本地模型推理提速78%

多 token 预测技术正式落地,Qwen3.6-27B 在 A10G 上从 25 tok/s 跃升至 45 tok/s,本地 AI 迈入日常可用时代。

llama.cpp 近日正式集成多 token 预测支持。在单张 NVIDIA A10G GPU 上实测,Qwen3.6-27B 稠密模型的文本生成速度从每秒 25 token 飙升至 45 token,性能增幅高达 78%。Hugging Face 联合创始人兼 CEO Clement Delangue 评价称,这一突破使本地大模型快到足以成为开发者每日依赖的基础工具。对于追求数据隐私和离线推理的用户,MTP 极大降低了在本地运行高性能大模型的门槛,本地 AI 正在从"勉强可用"迈向"流畅日常"。

MiniMax 语音 2.8 赋能意大利犯罪剧配音

亮相戛纳电影节,AI 语音覆盖地区口音与个性特征。

MiniMax 的 Speech 2.8 语音技术在戛纳电影节亮相,被用于意大利犯罪剧《Il Cinese》的沉浸式配音制作。该技术可精准呈现从细微地区口音差异到个性化声音特质的多层次表现,标志着 AI 语音合成在专业影视制作领域的进一步渗透。

今日快讯05·25
工具与生态05·25

© 2026 FAV0 · AI Daily · 由版面自动编排系统生成