OpenAI ने GPT-5 स्तर की तर्क क्षमता वाला GPT-Realtime-2 वॉइस मॉडल लॉन्च किया
Voice agents अब रीयल-टाइम सहयोगी बन गए हैं जो सुन सकते हैं, तर्क कर सकते हैं और बातचीत के दौरान जटिल समस्याओं को हल कर सकते हैं।
OpenAI ने अपने API में GPT-Realtime-2 जारी किया, जो GPT-5 स्तर की तर्क क्षमता वाला सबसे बुद्धिमान वॉइस मॉडल है। यह वास्तविक समय में जटिल समस्याओं को हल करने में सक्षम है। Voice agents अब बातचीत के दौरान सुनने, तर्क करने और जटिल समस्याओं को सुलझाने में सक्षम रीयल-टाइम सहयोगी बन गए हैं। GPT-Realtime-2, GPT-Realtime-1.5 की तुलना में Big Bench Audio बुद्धिमत्ता परीक्षण में 81.4% से 96.6% तक पहुँच गया है। यह मॉडल अब डेवलपर्स के लिए API के माध्यम से उपलब्ध है।
Anthropic का अध्ययन: प्राकृतिक भाषा ऑटोएन्कोडर मॉडल सक्रियण का अनुवाद करता है
Claude जैसे मॉडल शब्दों में बात करते हैं लेकिन संख्याओं में सोचते हैं — अब वे अपने विचारों को मानव-पठनीय पाठ में अनुवाद कर सकते हैं।
Anthropic ने Claude को अपने आंतरिक संख्यात्मक सक्रियणों को मानव-पठनीय पाठ में अनुवाद करने के लिए प्रशिक्षित किया, जो मॉडल व्याख्याशीलता के लिए एक नया उपकरण प्रदान करता है। यह शोध — Natural Language Autoencoders — मॉडलों के आंतरिक कामकाज को समझने की दिशा में एक बड़ा कदम है। सक्रियण (activations) वे संख्याएँ हैं जो Claude के विचारों को एन्कोड करती हैं, लेकिन अब तक इन्हें पढ़ा नहीं जा सकता था।
"people are really starting to use voice to interact with AI, especially when they have a lot of context to dump. GPT-Realtime-2 comes to the API today; it is a pretty big step forward."
— Sam Altman, OpenAI
OpenAI Codex ने बैकग्राउंड मल्टी-टैब समानांतर निष्पादन के लिए Chrome एक्सटेंशन लॉन्च किया
OpenAI का कोडिंग एजेंट Codex अब सीधे Chrome में काम करता है, ब्राउज़र UI पर कब्जा किए बिना बैकग्राउंड मल्टी-टैब समानांतर निष्पादन का समर्थन करता है। यह macOS और Windows दोनों पर उपलब्ध है।
Anthropic ने ओपन-सोर्स अलाइनमेंट टूल Petri को गैर-लाभकारी संगठन को दान किया
Anthropic ने अपने ओपन-सोर्स अलाइनमेंट टूल Petri को Meridian Labs को दान कर दिया और एक बड़ा अपडेट जारी किया, जिससे परीक्षण की अनुकूलनशीलता, यथार्थवाद और गहराई में सुधार हुआ। Petri, Claude Sonnet 4.5 से सभी Claude मॉडलों के मूल्यांकन के लिए उपयोग किया जाता है।
xAI API ने इमेज जनरेशन क्वालिटी मोड लॉन्च किया, 30 करोड़ से अधिक इमेज जेनरेट हुईं
xAI ने अपने API में इमेज जनरेशन क्वालिटी मोड पेश किया, जिससे फोटोरियलिज्म और टेक्स्ट रेंडरिंग में सुधार हुआ। यह मॉडल पहले ही Grok पर 30 करोड़ से अधिक इमेज जेनरेट कर चुका है, और व्यावसायिक उपयोगकर्ताओं के लिए बेहतर रचनात्मक नियंत्रण प्रदान करता है।
Perplexity ने Mac के लिए Personal Computer लॉन्च किया, स्थानीय फ़ाइलों और ऐप्स को संचालित करता है
Perplexity का Personal Computer अब एक नए Mac ऐप के माध्यम से उपलब्ध है, जो स्थानीय फ़ाइलों, Mac ऐप्स, वेब और Perplexity सर्वरों पर कार्यों को निष्पादित करने में सक्षम है। यह Perplexity Computer का उन्नत संस्करण है।
Cursor ने /orchestrate स्किल लॉन्च किया, जटिल कार्यों के लिए पुनरावर्ती रूप से एजेंट जेनरेट करता है
Cursor का /orchestrate स्किल पुनरावर्ती रूप से एजेंट जेनरेट करता है। आंतरिक उपयोग में टोकन खपत में 20% की कमी और बैकएंड कोल्ड स्टार्ट समय में 80% की कमी आई।
Zhipu ने GLM-5V-Turbo तकनीकी रिपोर्ट जारी की: मल्टीमॉडल एजेंट के लिए मूल फाउंडेशन मॉडल
GLM-5V-Turbo तकनीकी रिपोर्ट मॉडल डिज़ाइन, मल्टीमॉडल प्रशिक्षण, सुदृढीकरण सीखने, टूलचेन विस्तार और एजेंट फ्रेमवर्क एकीकरण में प्रमुख सुधारों का सारांश प्रस्तुत करती है।
PhysForge: भौतिक रूप से इंटरैक्टिव 3D एसेट जेनरेट करने के लिए नया फ्रेमवर्क
PhysForge एक डिकपल्ड दो-चरणीय फ्रेमवर्क प्रस्तावित करता है जो भौतिकी ब्लूप्रिंट योजना और भौतिकी-निर्देशित डिफ्यूजन मॉडल का उपयोग करता है। पेपर ICML 2026 में स्वीकार किया गया।
OpenAI ने तीन नए वॉइस मॉडल लॉन्च किए: वार्तालाप, अनुवाद और प्रतिलेखन
OpenAI ने Realtime API में GPT-Realtime-2, GPT-Realtime-Translate और GPT-Realtime-Whisper पेश किए, जो बुद्धिमान वार्तालाप, बहुभाषी अनुवाद और रीयल-टाइम प्रतिलेखन के लिए हैं।
Mozilla 验证 Claude Mythos 在 Firefox 安全加固中表现优异
Mozilla 在 Firefox 安全加固中使用 Claude Mythos 预览版,发现其并非营销炒作,在漏洞挖掘方面表现优异,能复现真实 bug 并排除误报。
Anthropic 研究院 TAI 发布研究议程,聚焦四大方向
TAI 将聚焦经济扩散、威胁与韧性、野外 AI 系统及 AI 驱动研发四个方向,公开分享 AI 社会影响发现。
Google DeepMind 的 AlphaEvolve 加速量子、生物技术等领域研究
Google DeepMind 的 Gemini 驱动编码 Agent AlphaEvolve 在过去一年加速了量子、生物技术和物流等领域的研究。
xAI 推出 Grok Voice Think Fast 1.0 语音客服 Agent
Grok Voice Think Fast 1.0 专为真实世界客服设计,能处理复杂工作流,即使在嘈杂环境中也能保持速度和准确性。
吴恩达推出新课程:构建可生成自定义 UI 的 Agent
新课程教授如何构建 Agent,使其不仅能回复文本,还能按需生成图表、表单和白板等自定义 UI。
OpenAI 上线官方命令行工具 openai-cli
OpenAI 推出开源命令行工具 openai-cli,开发者可直接在终端调用 API,支持资源化命令结构。
xAI 与 Anthropic 数据中心交易细节:环境记录与模型关停引发关注
xAI 与 Anthropic 的数据中心交易中,Anthropic 获得 Colossus 1 但环境记录极差,xAI 保留更大的 Colossus 2 并提前两周通知关闭多款旧模型。
OpenAI 政变之夜内部短信曝光:董事会为何执意赶走 Altman
马斯克诉 OpenAI 案庭审中,前 CTO Mira Murati 的视频证词和 2023 年 11 月政变之夜内部短信首次公开。
Anthropic 漏洞赏金计划在 HackerOne 公开上线
Anthropic 的漏洞赏金计划现已公开,任何人都可提交漏洞报告并获得奖励,以强化产品安全。
腾讯混元 Hy3 预览版 Token 用量增长 10 倍,编码和 Agent 驱动增长
腾讯混元 Hy3 预览版 Token 用量较前代增长 10 倍,编码和 Agent 工作负载是主要驱动力,内部产品 Token 用量增长超 16.5 倍。
Cursor 3 推出全新 PR 审查体验,一站式管理代码合并
Cursor 3 的 PR 审查功能支持查看评论、差异、提交和审查状态,并通过文件树快速导航大型 PR。
研究显示:构建 LLM 的大部分算力消耗在配方开发而非最终训练
Jacob Cares 等人的研究表明,构建 LLM 的绝大部分算力用于开发训练配方,而非最终运行,公开配方可推动研究社区进步。