8 मई 2026 · शुक्रवार

OpenAI ने GPT-5 स्तर की तर्क क्षमता वाला GPT-Realtime-2 वॉइस मॉडल लॉन्च किया

Voice agents अब रीयल-टाइम सहयोगी बन गए हैं जो सुन सकते हैं, तर्क कर सकते हैं और बातचीत के दौरान जटिल समस्याओं को हल कर सकते हैं।

OpenAI ने API में GPT-Realtime-2 जारी किया — अब तक का सबसे बुद्धिमान वॉइस मॉडल।

OpenAI ने अपने API में GPT-Realtime-2 जारी किया, जो GPT-5 स्तर की तर्क क्षमता वाला सबसे बुद्धिमान वॉइस मॉडल है। यह वास्तविक समय में जटिल समस्याओं को हल करने में सक्षम है। Voice agents अब बातचीत के दौरान सुनने, तर्क करने और जटिल समस्याओं को सुलझाने में सक्षम रीयल-टाइम सहयोगी बन गए हैं। GPT-Realtime-2, GPT-Realtime-1.5 की तुलना में Big Bench Audio बुद्धिमत्ता परीक्षण में 81.4% से 96.6% तक पहुँच गया है। यह मॉडल अब डेवलपर्स के लिए API के माध्यम से उपलब्ध है।


Claude के आंतरिक सक्रियणों को मानव-पठनीय भाषा में अनुवादित करने की नई तकनीक।

Anthropic का अध्ययन: प्राकृतिक भाषा ऑटोएन्कोडर मॉडल सक्रियण का अनुवाद करता है

Claude जैसे मॉडल शब्दों में बात करते हैं लेकिन संख्याओं में सोचते हैं — अब वे अपने विचारों को मानव-पठनीय पाठ में अनुवाद कर सकते हैं।

Anthropic ने Claude को अपने आंतरिक संख्यात्मक सक्रियणों को मानव-पठनीय पाठ में अनुवाद करने के लिए प्रशिक्षित किया, जो मॉडल व्याख्याशीलता के लिए एक नया उपकरण प्रदान करता है। यह शोध — Natural Language Autoencoders — मॉडलों के आंतरिक कामकाज को समझने की दिशा में एक बड़ा कदम है। सक्रियण (activations) वे संख्याएँ हैं जो Claude के विचारों को एन्कोड करती हैं, लेकिन अब तक इन्हें पढ़ा नहीं जा सकता था।

"people are really starting to use voice to interact with AI, especially when they have a lot of context to dump. GPT-Realtime-2 comes to the API today; it is a pretty big step forward."


OpenAI Codex ने बैकग्राउंड मल्टी-टैब समानांतर निष्पादन के लिए Chrome एक्सटेंशन लॉन्च किया

OpenAI का कोडिंग एजेंट Codex अब सीधे Chrome में काम करता है, ब्राउज़र UI पर कब्जा किए बिना बैकग्राउंड मल्टी-टैब समानांतर निष्पादन का समर्थन करता है। यह macOS और Windows दोनों पर उपलब्ध है।

Anthropic ने ओपन-सोर्स अलाइनमेंट टूल Petri को गैर-लाभकारी संगठन को दान किया

Anthropic ने अपने ओपन-सोर्स अलाइनमेंट टूल Petri को Meridian Labs को दान कर दिया और एक बड़ा अपडेट जारी किया, जिससे परीक्षण की अनुकूलनशीलता, यथार्थवाद और गहराई में सुधार हुआ। Petri, Claude Sonnet 4.5 से सभी Claude मॉडलों के मूल्यांकन के लिए उपयोग किया जाता है।

xAI API ने इमेज जनरेशन क्वालिटी मोड लॉन्च किया, 30 करोड़ से अधिक इमेज जेनरेट हुईं

xAI ने अपने API में इमेज जनरेशन क्वालिटी मोड पेश किया, जिससे फोटोरियलिज्म और टेक्स्ट रेंडरिंग में सुधार हुआ। यह मॉडल पहले ही Grok पर 30 करोड़ से अधिक इमेज जेनरेट कर चुका है, और व्यावसायिक उपयोगकर्ताओं के लिए बेहतर रचनात्मक नियंत्रण प्रदान करता है।

Perplexity ने Mac के लिए Personal Computer लॉन्च किया, स्थानीय फ़ाइलों और ऐप्स को संचालित करता है

Perplexity का Personal Computer अब एक नए Mac ऐप के माध्यम से उपलब्ध है, जो स्थानीय फ़ाइलों, Mac ऐप्स, वेब और Perplexity सर्वरों पर कार्यों को निष्पादित करने में सक्षम है। यह Perplexity Computer का उन्नत संस्करण है।


Cursor ने /orchestrate स्किल लॉन्च किया, जटिल कार्यों के लिए पुनरावर्ती रूप से एजेंट जेनरेट करता है

Cursor का /orchestrate स्किल पुनरावर्ती रूप से एजेंट जेनरेट करता है। आंतरिक उपयोग में टोकन खपत में 20% की कमी और बैकएंड कोल्ड स्टार्ट समय में 80% की कमी आई।

Zhipu ने GLM-5V-Turbo तकनीकी रिपोर्ट जारी की: मल्टीमॉडल एजेंट के लिए मूल फाउंडेशन मॉडल

GLM-5V-Turbo तकनीकी रिपोर्ट मॉडल डिज़ाइन, मल्टीमॉडल प्रशिक्षण, सुदृढीकरण सीखने, टूलचेन विस्तार और एजेंट फ्रेमवर्क एकीकरण में प्रमुख सुधारों का सारांश प्रस्तुत करती है।

PhysForge: भौतिक रूप से इंटरैक्टिव 3D एसेट जेनरेट करने के लिए नया फ्रेमवर्क

PhysForge एक डिकपल्ड दो-चरणीय फ्रेमवर्क प्रस्तावित करता है जो भौतिकी ब्लूप्रिंट योजना और भौतिकी-निर्देशित डिफ्यूजन मॉडल का उपयोग करता है। पेपर ICML 2026 में स्वीकार किया गया।

● आज की सुर्खियाँ08.05
OpenAI

OpenAI ने तीन नए वॉइस मॉडल लॉन्च किए: वार्तालाप, अनुवाद और प्रतिलेखन

OpenAI ने Realtime API में GPT-Realtime-2, GPT-Realtime-Translate और GPT-Realtime-Whisper पेश किए, जो बुद्धिमान वार्तालाप, बहुभाषी अनुवाद और रीयल-टाइम प्रतिलेखन के लिए हैं।

Mozilla

Mozilla 验证 Claude Mythos 在 Firefox 安全加固中表现优异

Mozilla 在 Firefox 安全加固中使用 Claude Mythos 预览版,发现其并非营销炒作,在漏洞挖掘方面表现优异,能复现真实 bug 并排除误报。

Anthropic

Anthropic 研究院 TAI 发布研究议程,聚焦四大方向

TAI 将聚焦经济扩散、威胁与韧性、野外 AI 系统及 AI 驱动研发四个方向,公开分享 AI 社会影响发现。

Google DeepMind

Google DeepMind 的 AlphaEvolve 加速量子、生物技术等领域研究

Google DeepMind 的 Gemini 驱动编码 Agent AlphaEvolve 在过去一年加速了量子、生物技术和物流等领域的研究。

xAI

xAI 推出 Grok Voice Think Fast 1.0 语音客服 Agent

Grok Voice Think Fast 1.0 专为真实世界客服设计,能处理复杂工作流,即使在嘈杂环境中也能保持速度和准确性。

Andrew Ng

吴恩达推出新课程:构建可生成自定义 UI 的 Agent

新课程教授如何构建 Agent,使其不仅能回复文本,还能按需生成图表、表单和白板等自定义 UI。

OpenAI

OpenAI 上线官方命令行工具 openai-cli

OpenAI 推出开源命令行工具 openai-cli,开发者可直接在终端调用 API,支持资源化命令结构。

xAI · Anthropic

xAI 与 Anthropic 数据中心交易细节:环境记录与模型关停引发关注

xAI 与 Anthropic 的数据中心交易中,Anthropic 获得 Colossus 1 但环境记录极差,xAI 保留更大的 Colossus 2 并提前两周通知关闭多款旧模型。

OpenAI

OpenAI 政变之夜内部短信曝光:董事会为何执意赶走 Altman

马斯克诉 OpenAI 案庭审中,前 CTO Mira Murati 的视频证词和 2023 年 11 月政变之夜内部短信首次公开。