8 मई 2026 · शुक्रवार

OpenAI ने GPT-5 स्तर की तर्क क्षमता वाला GPT-Realtime-2 वॉइस मॉडल लॉन्च किया

Voice agents अब रीयल-टाइम सहयोगी बन गए हैं जो सुन सकते हैं, तर्क कर सकते हैं और बातचीत के दौरान जटिल समस्याओं को हल कर सकते हैं।

OpenAI ने API में GPT-Realtime-2 जारी किया — अब तक का सबसे बुद्धिमान वॉइस मॉडल।

OpenAI ने अपने API में GPT-Realtime-2 जारी किया, जो GPT-5 स्तर की तर्क क्षमता वाला सबसे बुद्धिमान वॉइस मॉडल है। यह वास्तविक समय में जटिल समस्याओं को हल करने में सक्षम है। Voice agents अब बातचीत के दौरान सुनने, तर्क करने और जटिल समस्याओं को सुलझाने में सक्षम रीयल-टाइम सहयोगी बन गए हैं। GPT-Realtime-2, GPT-Realtime-1.5 की तुलना में Big Bench Audio बुद्धिमत्ता परीक्षण में 81.4% से 96.6% तक पहुँच गया है। यह मॉडल अब डेवलपर्स के लिए API के माध्यम से उपलब्ध है।

Claude के आंतरिक सक्रियणों को मानव-पठनीय भाषा में अनुवादित करने की नई तकनीक।

Anthropic का अध्ययन: प्राकृतिक भाषा ऑटोएन्कोडर मॉडल सक्रियण का अनुवाद करता है

Claude जैसे मॉडल शब्दों में बात करते हैं लेकिन संख्याओं में सोचते हैं — अब वे अपने विचारों को मानव-पठनीय पाठ में अनुवाद कर सकते हैं।

Anthropic ने Claude को अपने आंतरिक संख्यात्मक सक्रियणों को मानव-पठनीय पाठ में अनुवाद करने के लिए प्रशिक्षित किया, जो मॉडल व्याख्याशीलता के लिए एक नया उपकरण प्रदान करता है। यह शोध — Natural Language Autoencoders — मॉडलों के आंतरिक कामकाज को समझने की दिशा में एक बड़ा कदम है। सक्रियण (activations) वे संख्याएँ हैं जो Claude के विचारों को एन्कोड करती हैं, लेकिन अब तक इन्हें पढ़ा नहीं जा सकता था।

"people are really starting to use voice to interact with AI, especially when they have a lot of context to dump. GPT-Realtime-2 comes to the API today; it is a pretty big step forward."
— Sam Altman, OpenAI

OpenAI Codex ने बैकग्राउंड मल्टी-टैब समानांतर निष्पादन के लिए Chrome एक्सटेंशन लॉन्च किया

OpenAI का कोडिंग एजेंट Codex अब सीधे Chrome में काम करता है, ब्राउज़र UI पर कब्जा किए बिना बैकग्राउंड मल्टी-टैब समानांतर निष्पादन का समर्थन करता है। यह macOS और Windows दोनों पर उपलब्ध है।

Anthropic ने ओपन-सोर्स अलाइनमेंट टूल Petri को गैर-लाभकारी संगठन को दान किया

Anthropic ने अपने ओपन-सोर्स अलाइनमेंट टूल Petri को Meridian Labs को दान कर दिया और एक बड़ा अपडेट जारी किया, जिससे परीक्षण की अनुकूलनशीलता, यथार्थवाद और गहराई में सुधार हुआ। Petri, Claude Sonnet 4.5 से सभी Claude मॉडलों के मूल्यांकन के लिए उपयोग किया जाता है।

xAI API ने इमेज जनरेशन क्वालिटी मोड लॉन्च किया, 30 करोड़ से अधिक इमेज जेनरेट हुईं

xAI ने अपने API में इमेज जनरेशन क्वालिटी मोड पेश किया, जिससे फोटोरियलिज्म और टेक्स्ट रेंडरिंग में सुधार हुआ। यह मॉडल पहले ही Grok पर 30 करोड़ से अधिक इमेज जेनरेट कर चुका है, और व्यावसायिक उपयोगकर्ताओं के लिए बेहतर रचनात्मक नियंत्रण प्रदान करता है।

Perplexity ने Mac के लिए Personal Computer लॉन्च किया, स्थानीय फ़ाइलों और ऐप्स को संचालित करता है

Perplexity का Personal Computer अब एक नए Mac ऐप के माध्यम से उपलब्ध है, जो स्थानीय फ़ाइलों, Mac ऐप्स, वेब और Perplexity सर्वरों पर कार्यों को निष्पादित करने में सक्षम है। यह Perplexity Computer का उन्नत संस्करण है।

Cursor ने /orchestrate स्किल लॉन्च किया, जटिल कार्यों के लिए पुनरावर्ती रूप से एजेंट जेनरेट करता है

Cursor का /orchestrate स्किल पुनरावर्ती रूप से एजेंट जेनरेट करता है। आंतरिक उपयोग में टोकन खपत में 20% की कमी और बैकएंड कोल्ड स्टार्ट समय में 80% की कमी आई।

Zhipu ने GLM-5V-Turbo तकनीकी रिपोर्ट जारी की: मल्टीमॉडल एजेंट के लिए मूल फाउंडेशन मॉडल

GLM-5V-Turbo तकनीकी रिपोर्ट मॉडल डिज़ाइन, मल्टीमॉडल प्रशिक्षण, सुदृढीकरण सीखने, टूलचेन विस्तार और एजेंट फ्रेमवर्क एकीकरण में प्रमुख सुधारों का सारांश प्रस्तुत करती है।

PhysForge: भौतिक रूप से इंटरैक्टिव 3D एसेट जेनरेट करने के लिए नया फ्रेमवर्क

PhysForge एक डिकपल्ड दो-चरणीय फ्रेमवर्क प्रस्तावित करता है जो भौतिकी ब्लूप्रिंट योजना और भौतिकी-निर्देशित डिफ्यूजन मॉडल का उपयोग करता है। पेपर ICML 2026 में स्वीकार किया गया।

● आज की सुर्खियाँ08.05

OpenAI

OpenAI ने तीन नए वॉइस मॉडल लॉन्च किए: वार्तालाप, अनुवाद और प्रतिलेखन

OpenAI ने Realtime API में GPT-Realtime-2, GPT-Realtime-Translate और GPT-Realtime-Whisper पेश किए, जो बुद्धिमान वार्तालाप, बहुभाषी अनुवाद और रीयल-टाइम प्रतिलेखन के लिए हैं।

Mozilla