2026年5月8日 · 金曜日

OpenAI、GPT-5レベルの推論能力を持つ音声モデルGPT-Realtime-2を公開

OpenAIはAPIでGPT-Realtime-2をリリース。これはGPT-5レベルの推論能力を持ち、リアルタイムで複雑な問題を解決できる最もインテリジェントな音声モデルです。

@OpenAI · 2026.05.07

GPT-Realtime-2はBig Bench Audioで96.6%を達成。音声エージェントはリアルタイムの協働パートナーへと進化した。

OpenAIがAPIで最新の音声モデル「GPT-Realtime-2」を正式リリースした。GPT-5クラスの推論能力を音声エージェントにもたらし、会話の進行に合わせて聞き、考え、複雑な問題を解決する。従来のGPT-Realtime-1.5と比較して、Big Bench Audioの知能テストで81.4%から96.6%へと大幅に向上。Sam Altmanも「GPT-Realtime-2は大きな前進だ。人々は本当に音声でAIと対話し始めている」と述べている。

Anthropicの新研究：自然言語オートエンコーダーがモデル内部の活性化を翻訳

Claudeは言葉で話すが数字で考える。Anthropicは内部の数値活性化を人間が読めるテキストに変換する訓練に成功した。

AnthropicはClaudeを訓練し、その内部の数値活性化（アクティベーション）を人間が読めるテキストに翻訳させることに成功した。Claudeのような大規模言語モデルは言葉で対話するが、内部では数値で思考している。この「自然言語オートエンコーダー」と呼ぶ技術は、AIのブラックボックス問題に切り込む新たな解釈可能性ツールであり、モデルが何を考えているのかを可視化する重要な一歩となる。

OpenAI Codex、Chrome拡張機能を公開。バックグラウンドで複数タブを並行実行

ブラウザUIを占有せず、バックグラウンドで複数タブの並行作業を実現。

OpenAIのプログラミングエージェント「Codex」がChromeブラウザ上で直接動作可能になった。Chrome拡張機能をCodexアプリにインストールするだけで、Webアプリのテスト、タブ間のコンテキスト収集、DevToolsの並行使用がバックグラウンドで実行される。macOSとWindowsの両方に対応。

OpenAI、3つの新音声モデルを同時発表：会話・翻訳・文字起こし

GPT-Realtime-2を中核に、TranslateとWhisperで音声AIのラインナップを拡充。

@OpenAIDevs · 05.07

GPT-Realtime-2に加え、GPT-Realtime-TranslateとGPT-Realtime-Whisperの2モデルもRealtime APIで同時公開。GPT-Realtime-Translateは70の入力言語から13の出力言語への翻訳に対応。GPT-Realtime-Whisperは文字起こしをさらに高速化し、リアルタイムアプリケーションの応答性を大幅に向上させた。

@AnthropicAI · 05.07

Anthropic、オープンソースのアライメントツールPetriを非営利団体に寄贈

AnthropicはオープンソースのAIアライメントテストツール「Petri」を非営利組織Meridian Labsに寄贈した。Petriは大規模言語モデルに欺瞞やへつらいなどの有害傾向がないかをテストするツールで、Claude Sonnet 4.5以降の全モデル評価に使用されている。今回のメジャーアップデートでテストの適応性、現実性、深さが向上。Meridian LabsはPetriをInspectやScoutなどのツールと統合し、独立した開発を継続する。

@xai · 05.07

xAI API、Image Generation Quality Modeを公開。生成画像数は3億枚超

xAIはAPIでImage Generation Quality Modeを導入した。Grok上で既に3億枚以上の画像を生成しており、写真のようなリアルさとテキストレンダリング品質が大幅に向上。ビジネスプロフェッショナル向けにクリエイティブ制御も強化され、商用画像生成の新たな基準を打ち立てている。

Products & Agents2026·05·08

Perplexity

Mac版Personal Computerを公開。ローカルファイルとMacアプリを操作

PerplexityのPersonal Computerが新しいMacアプリで利用可能に。ローカルファイル、Macアプリ、ウェブ、Perplexityのセキュアサーバーを横断してタスクを自律実行する。Perplexity Computerの上位版として位置付けられ、全ユーザーがアクセス可能。

Cursor

/orchestrateスキル公開。エージェントを再帰的に生成し複雑タスクを処理

Cursor SDKの新機能/orchestrateは、エージェントを再帰的に生成して大規模タスクを分割処理。社内ではスキル自動研究でトークン使用量20%削減、バックエンドのコールドスタート時間80%削減を達成した。

Zhipu AI

GLM-5V-Turbo技術レポート公開。マルチモーダルエージェント向け基盤モデル

GLM-5V-Turboの技術レポートは、モデル設計、マルチモーダルトレーニング、強化学習、ツールチェーン拡張、エージェントフレームワーク統合の各領域における主要な改善点を包括的にまとめている。

「GPT-Realtime-2は大きな前進だ。人々は本当に音声でAIと対話し始めている。特に、大量のコンテキストを投入したいときに。」
— Sam Altman, CEO of OpenAI

PhysForge：物理的にインタラクティブな3Dアセット生成の新フレームワーク

PhysForgeは物理ブループリント計画と物理誘導拡散モデルを用いた分離型2段階フレームワーク。高忠実度のジオメトリと正確な動作パラメータを同時に生成し、機能的なシミュレーション対応3Dアセットを出力する。ICML 2026採択。

Mozilla、Claude MythosでFirefoxのセキュリティを強化。マーケティング誇張ではないと実証

MozillaはFirefoxのセキュリティ強化にAnthropicのClaude Mythosプレビュー版を活用。実バグを再現し誤検知を排除する高い脆弱性発見能力を示した。汎用モデルがセキュリティにも秀でることを実証し、OpenAIとGoogle、そしてオープンモデルも今後数ヶ月で追随すると予想される。

Anthropic、ClaudeをMicrosoft 365に全面統合。Excel・Word・PowerPointが正式版に

ClaudeのExcel、PowerPoint、Word向けプラグインがベータから正式版（GA）へ移行。Outlookプラグインもパブリックベータ開始。ブラウザのClaude.aiを介さず、各Officeアプリ内で直接Claudeに作業を依頼できるようになった。

Anthropic研究所TAI、AIの社会的影響に関する研究アジェンダを発表

Anthropic Institute（TAI）が4つの重点領域を発表：経済拡散（AIの雇用・経済浸透分析）、脅威とレジリエンス（AI安全リスクと対応力）、ワイルドAI（実環境でのAI振る舞い観測）、AI駆動型研究開発（AIによる研究加速）。フロンティアラボの内部情報を活用し、発見を公開する。

xAI・Anthropic間Colossusデータセンター取引の舞台裏：環境問題と旧モデル突然終了

xAIはAnthropicにColossus 1を譲渡し、より大規模なColossus 2を自社用に保持。Colossus 1はガスタービンの無許可運転や大気質悪化など環境面で深刻な問題を抱えていた。取引発表の直前にxAIはGrok 4.1 Fastなど複数の旧モデルを2週間の猶予で突然終了。Elon Muskは「AIが人類に危害を加えるなら計算能力を回収する」と発言。

Google DeepMind、AlphaEvolveが量子・バイオ・物流分野の研究を加速

Geminiを基盤とするコーディングエージェントAlphaEvolveが、過去1年間にわたり量子コンピューティング、バイオテクノロジー、物流最適化、さらにはGoogle自身のAI開発まで幅広い分野で進捗を加速させていることが報告された。

Briefs & Papers2026·05·08

OpenAI Devs

GPT-Realtime-2音声モデル向けプロンプトガイド公開

推論調整、プリアンブル設計、ツール動作設定、不明瞭な音声処理、長いセッションの状態維持など実践的テクニックを網羅。

Sam Altman

GPT-Realtime-2は「大きな前進」、チャット内音声も改良中

Sam Altmanはユーザーが音声でのAI対話を急速に採用していると指摘。チャット内の音声機能改善にも取り組んでいることを明かした。

Paper

Stream-R1：ストリーミング動画生成のための報酬蒸留手法

適応的重み付けにより動画の視覚品質、動作品質、テキスト整合性を向上させる分散マッチング蒸留の改良手法。

Research

LLM構築の計算リソースの大部分は最終訓練ではなくレシピ開発に費やされる

Jacob Caresらの研究は、LLM構築の圧倒的多数の計算リソースが訓練レシピ開発に費やされることを示し、公開レシピの重要性を訴える。

Anthropic

脆弱性報奨金プログラムがHackerOneで一般公開開始

これまで非公開で実施されていたAnthropicの脆弱性報奨金プログラムがHackerOne上で一般に開放された。誰でも脆弱性を報告し報酬を得られる。

OpenAI

公式CLIツール「openai-cli」をオープンソース公開

ターミナルから直接APIを呼び出せるCLIツール。Apache 2.0ライセンス、HomebrewまたはGoでインストール可能。リソース指向のコマンド構造。

xAI

Grok Voice Think Fast 1.0、リアルワールド向け音声カスタマーサポートAI

騒音環境下でも高速かつ高精度に複雑なワークフローを処理。マルチステップのトラブルシューティングから大量ツール呼び出しまで対応。

Tencent

混元 Hy3プレビュー版、トークン使用量が前世代比10倍に急増

コーディングとエージェントワークロードが成長を牽引。社内製品WorkBuddy、CodeBuddy、QClawでは16.5倍以上のトークン使用量増加を記録。