8 Mei 2026 · Jumat

OpenAI Luncurkan Model Suara GPT-Realtime-2 dengan Kemampuan Penalaran Setara GPT-5

OpenAI merilis GPT-Realtime-2 di API-nya, model suara paling cerdas dengan penalaran setara GPT-5 untuk agen suara yang dapat mendengarkan, menalar, dan memecahkan masalah kompleks seiring percakapan berlangsung secara real-time.

Dari @OpenAI · 7 Mei 2026

GPT-Realtime-2 kini tersedia di API OpenAI. Model ini mencetak skor 96,6% pada Big Bench Audio, naik dari 81,4% di generasi sebelumnya.

Model suara tercanggih OpenAI kini membawa penalaran setara GPT-5 ke dalam interaksi audio real-time, menandai pergeseran signifikan dalam cara pengguna berinteraksi dengan AI. Alih-alih hanya memberikan perintah terisolasi, pengguna kini dapat melakukan percakapan panjang yang sadar konteks di mana model mendengarkan, menalar melalui masalah kompleks, dan berkolaborasi sebagai peserta aktif. Bersamaan dengan GPT-Realtime-2, OpenAI juga memperkenalkan GPT-Realtime-Translate yang mendukung 70 bahasa input dengan output 13 bahasa, serta GPT-Realtime-Whisper yang menghadirkan transkripsi real-time lebih cepat. Ketiga model tersedia segera melalui Realtime API. Sam Altman mencatat bahwa interaksi suara dengan AI semakin diminati, terutama saat pengguna perlu menyampaikan konteks dalam jumlah besar dengan cepat.

Ilustrasi: Autoencoder bahasa alami untuk interpretabilitas model.

Studi Anthropic: Autoencoder Bahasa Alami Terjemahkan Aktivasi Internal Model

Anthropic melatih Claude untuk menerjemahkan aktivasi numerik internalnya menjadi teks yang dapat dibaca manusia, membuka alat baru untuk interpretabilitas model.

Model seperti Claude berbicara dalam kata-kata tetapi berpikir dalam angka — yang disebut aktivasi — yang mengodekan proses berpikir model dalam bahasa yang tidak dapat kita baca. Peneliti Anthropic berhasil melatih Claude untuk menerjemahkan aktivasi internalnya menjadi teks yang dapat dipahami manusia. Teknik autoencoder bahasa alami ini menjembatani kesenjangan antara representasi internal model dan pemahaman manusia, menawarkan alat canggih untuk mengaudit perilaku model, mendeteksi pola penalaran yang tidak diinginkan, dan membangun sistem AI yang lebih aman.

PELUNCURAN

OpenAI Luncurkan Tiga Model Suara Baru: Percakapan, Penerjemahan, dan Transkripsi

OpenAI memperkenalkan GPT-Realtime-2, GPT-Realtime-Translate, dan GPT-Realtime-Whisper di Realtime API. GPT-Realtime-2 untuk percakapan cerdas dengan penalaran tingkat tinggi. GPT-Realtime-Translate mendukung 70 bahasa input ke 13 bahasa output. GPT-Realtime-Whisper membuat transkripsi real-time menjadi lebih cepat dari sebelumnya.

OpenAI Codex Luncurkan Ekstensi Chrome untuk Eksekusi Paralel Multi-Tab Latar Belakang

Agen pengkodean OpenAI, Codex, kini bekerja langsung di Chrome pada macOS dan Windows melalui ekstensi browser baru. Codex dapat menguji aplikasi web, mengumpulkan konteks di seluruh tab, menggunakan Chrome DevTools secara paralel di latar belakang, dan menjaga hasil tetap terorganisir tanpa mengambil alih antarmuka browser pengguna. Ekstensi ini mendukung alur kerja pengembangan multi-langkah secara otonom, menjadikan Codex alat praktis untuk tugas pengembangan berbasis browser sehari-hari.

Codex kini beroperasi langsung di dalam browser Chrome dengan eksekusi latar belakang multi-tab.

OPEN SOURCE

Anthropic Donasikan Alat Alignment Open Source Petri ke Organisasi Nirlaba

Anthropic mendonasikan alat alignment open source-nya, Petri, ke Meridian Labs untuk memastikan pengembangannya dapat berlanjut secara independen. Petri adalah seperangkat alat untuk menguji model bahasa besar terhadap kecenderungan berbahaya seperti penipuan dan penjilatan, dan telah digunakan untuk mengevaluasi semua model Claude sejak Claude Sonnet 4.5. Pembaruan besar yang dirilis bersamaan meningkatkan adaptabilitas, realisme, dan kedalaman pengujian ke versi ketiga. Meridian Labs juga akan mengintegrasikan Petri dengan alat seperti Inspect dan Scout.

Pengguna benar-benar mulai menggunakan suara untuk berinteraksi dengan AI, terutama saat mereka memiliki banyak konteks untuk disampaikan. GPT-Realtime-2 hadir di API hari ini; ini adalah langkah maju yang cukup besar.
Sam Altman, CEO OpenAI

API

API xAI Luncurkan Mode Kualitas Generasi Gambar, Lebih dari 300 Juta Gambar Telah Dibuat

xAI memperkenalkan Mode Kualitas Generasi Gambar di API-nya, meningkatkan realisme foto dan rendering teks dengan kontrol kreatif yang lebih kuat. Model ini telah mendukung lebih dari 300 juta generasi gambar di Grok.

Perplexity Luncurkan Personal Computer untuk Mac, Operasikan File dan Aplikasi Lokal

Personal Computer dari Perplexity kini tersedia melalui aplikasi Mac baru, mampu menjalankan tugas di seluruh file lokal, aplikasi Mac native, web, dan server aman Perplexity.

Cursor Luncurkan Skill /orchestrate, Hasilkan Agen Secara Rekursif untuk Tugas Kompleks

Skill /orchestrate dari Cursor menghasilkan agen secara rekursif melalui Cursor SDK. Digunakan secara internal untuk penelitian otomatis yang mengurangi penggunaan token hingga 20%, dan mempercepat waktu cold start backend hingga 80%.

LAPORAN TEKNIS

Zhipu Rilis Laporan Teknis GLM-5V-Turbo: Model Fondasi Native untuk Agen Multimodal

Laporan teknis GLM-5V-Turbo merangkum peningkatan utama dalam desain model, pelatihan multimodal, pembelajaran penguatan, perluasan rantai alat, dan integrasi kerangka agen untuk membangun agen multimodal yang lebih cakap.

PhysForge: Kerangka Kerja Baru untuk Menghasilkan Aset 3D yang Interaktif Secara Fisik

PhysForge mengusulkan kerangka kerja dua tahap yang terpisah menggunakan perencanaan cetak biru fisika dan model difusi yang dipandu fisika untuk menghasilkan aset 3D fungsional siap simulasi. Makalah diterima di ICML 2026.

Mozilla 验证 Claude Mythos 在 Firefox 安全加固中表现优异

Mozilla menggunakan Claude Mythos versi pratinjau dalam penguatan keamanan Firefox dan membuktikan bahwa model ini bukan sekadar gimik pemasaran. Model menemukan bug nyata, mereproduksi masalah, dan memfilter positif palsu, membuktikan model berkemampuan tinggi juga unggul dalam tugas khusus seperti pencarian celah keamanan.

LAPORAN INDUSTRI08·05 · AI

KEBIJAKAN

Anthropic 研究院 TAI 发布研究议程，聚焦四大方向

The Anthropic Institute akan fokus pada difusi ekonomi, ancaman dan ketahanan, sistem AI di alam liar, serta riset dan pengembangan berbasis AI, membagikan temuannya secara publik.

DEEPMIND

Google DeepMind 的 AlphaEvolve 加速量子、生物技术等领域研究

Agen pengkodean AlphaEvolve yang didukung Gemini telah mempercepat kemajuan di bidang komputasi kuantum, bioteknologi, logistik, dan AI internal Google selama setahun terakhir.

SUARA

xAI 推出 Grok Voice Think Fast 1.0 语音客服 Agent

Grok Voice Think Fast 1.0 dirancang untuk menangani alur kerja kompleks dengan kecepatan dan akurasi tinggi, bahkan di lingkungan yang sulit didengar, dari pemecahan masalah multi-langkah hingga panggilan alat bervolume tinggi.

KURSUS

吴恩达推出新课程：构建可生成自定义 UI 的 Agent

Kursus singkat Andrew Ng bersama CopilotKit mengajarkan cara membangun agen yang merespons dengan UI kustom seperti diagram, formulir, dan papan tulis yang dihasilkan sesuai permintaan langsung dalam chat.

RISET

研究显示：构建 LLM 的大部分算力消耗在配方开发而非最终训练

Studi yang dipimpin Jacob Cares mengungkapkan bahwa sebagian besar komputasi untuk membangun LLM digunakan untuk mengembangkan resep pelatihan, bukan untuk proses akhir. Membuka resep secara publik adalah kunci bagi kemajuan riset.

INFRASTRUKTUR

xAI 与 Anthropic 数据中心交易细节：环境记录与模型关停引发关注

Anthropic memperoleh pusat data Colossus 1 dari xAI, yang memiliki catatan lingkungan buruk — turbin gasnya pernah beroperasi tanpa izin. xAI mempertahankan Colossus 2 yang lebih besar dan hanya memberi pemberitahuan dua minggu sebelum menonaktifkan beberapa model lama.

DEV TOOLS

OpenAI 上线官方命令行工具 openai-cli

OpenAI meluncurkan CLI open source openai-cli di GitHub dengan lisensi Apache 2.0. Developer kini dapat memanggil API langsung dari terminal menggunakan struktur perintah berbasis sumber daya, tanpa perlu menulis kode SDK.

HUKUM

OpenAI 政变之夜内部短信曝光：董事会为何执意赶走 Altman

Dalam persidangan gugatan Elon Musk terhadap OpenAI, kesaksian video mantan CTO Mira Murati dan SMS internal malam kudeta November 2023 diungkap ke publik untuk pertama kalinya, merekonstruksi langsung perebutan kekuasaan paling dramatis dalam sejarah Silicon Valley.

KEAMANAN

Anthropic 漏洞赏金计划在 HackerOne 公开上线

Program bug bounty Anthropic kini terbuka untuk publik di platform HackerOne. Sebelumnya hanya berjalan secara privat di komunitas riset keamanan, kini siapa pun dapat melaporkan kerentanan dan mendapatkan imbalan.

SEKILAS08·05 · 2026

TENCENT

腾讯混元 Hy3 预览版 Token 用量增长 10 倍

Penggunaan token Hy3 melonjak 10× dibanding Hy2, didorong oleh beban kerja pengkodean dan agen. Produk internal WorkBuddy, CodeBuddy, dan QClaw mencatat pertumbuhan 16,5×.

M365

Anthropic 将 Claude 全面集成到 Microsoft 365

Plugin Claude untuk Excel, PowerPoint, dan Word beralih dari beta ke GA. Plugin Outlook masuk beta publik. Pengguna kini dapat memanggil Claude langsung di dalam dokumen.

BENCHMARK

OpenAI Realtime API 上线三款新语音模型

GPT-Realtime-2 melonjak dari 81,4% ke 96,6% di Big Bench Audio. Tersedia bersama model terjemahan dan transkripsi baru.

PANDUAN

OpenAI 发布 GPT-Realtime-2 语音模型使用指南

Panduan prompting baru mencakup penyetelan upaya penalaran, desain preamble, konfigurasi perilaku alat, penanganan audio tidak jelas, dan pemeliharaan status sesi panjang.