2026年5月8日 · 金曜日

OpenAI、GPT-5レベルの推論能力を持つ音声モデルGPT-Realtime-2を公開

OpenAIはAPIでGPT-Realtime-2をリリース。これはGPT-5レベルの推論能力を持ち、リアルタイムで複雑な問題を解決できる最もインテリジェントな音声モデルです。


GPT-Realtime-2はBig Bench Audioで96.6%を達成。音声エージェントはリアルタイムの協働パートナーへと進化した。

OpenAIがAPIで最新の音声モデル「GPT-Realtime-2」を正式リリースした。GPT-5クラスの推論能力を音声エージェントにもたらし、会話の進行に合わせて聞き、考え、複雑な問題を解決する。従来のGPT-Realtime-1.5と比較して、Big Bench Audioの知能テストで81.4%から96.6%へと大幅に向上。Sam Altmanも「GPT-Realtime-2は大きな前進だ。人々は本当に音声でAIと対話し始めている」と述べている。


Anthropicの新研究:自然言語オートエンコーダーがモデル内部の活性化を翻訳

Claudeは言葉で話すが数字で考える。Anthropicは内部の数値活性化を人間が読めるテキストに変換する訓練に成功した。

AnthropicはClaudeを訓練し、その内部の数値活性化(アクティベーション)を人間が読めるテキストに翻訳させることに成功した。Claudeのような大規模言語モデルは言葉で対話するが、内部では数値で思考している。この「自然言語オートエンコーダー」と呼ぶ技術は、AIのブラックボックス問題に切り込む新たな解釈可能性ツールであり、モデルが何を考えているのかを可視化する重要な一歩となる。


Products & Agents2026·05·08

「GPT-Realtime-2は大きな前進だ。人々は本当に音声でAIと対話し始めている。特に、大量のコンテキストを投入したいときに。」

— Sam Altman, CEO of OpenAI

PhysForge:物理的にインタラクティブな3Dアセット生成の新フレームワーク

PhysForgeは物理ブループリント計画と物理誘導拡散モデルを用いた分離型2段階フレームワーク。高忠実度のジオメトリと正確な動作パラメータを同時に生成し、機能的なシミュレーション対応3Dアセットを出力する。ICML 2026採択。

Mozilla、Claude MythosでFirefoxのセキュリティを強化。マーケティング誇張ではないと実証

MozillaはFirefoxのセキュリティ強化にAnthropicのClaude Mythosプレビュー版を活用。実バグを再現し誤検知を排除する高い脆弱性発見能力を示した。汎用モデルがセキュリティにも秀でることを実証し、OpenAIとGoogle、そしてオープンモデルも今後数ヶ月で追随すると予想される。

Anthropic、ClaudeをMicrosoft 365に全面統合。Excel・Word・PowerPointが正式版に

ClaudeのExcel、PowerPoint、Word向けプラグインがベータから正式版(GA)へ移行。Outlookプラグインもパブリックベータ開始。ブラウザのClaude.aiを介さず、各Officeアプリ内で直接Claudeに作業を依頼できるようになった。

Anthropic研究所TAI、AIの社会的影響に関する研究アジェンダを発表

Anthropic Institute(TAI)が4つの重点領域を発表:経済拡散(AIの雇用・経済浸透分析)、脅威とレジリエンス(AI安全リスクと対応力)、ワイルドAI(実環境でのAI振る舞い観測)、AI駆動型研究開発(AIによる研究加速)。フロンティアラボの内部情報を活用し、発見を公開する。

xAI・Anthropic間Colossusデータセンター取引の舞台裏:環境問題と旧モデル突然終了

xAIはAnthropicにColossus 1を譲渡し、より大規模なColossus 2を自社用に保持。Colossus 1はガスタービンの無許可運転や大気質悪化など環境面で深刻な問題を抱えていた。取引発表の直前にxAIはGrok 4.1 Fastなど複数の旧モデルを2週間の猶予で突然終了。Elon Muskは「AIが人類に危害を加えるなら計算能力を回収する」と発言。

Google DeepMind、AlphaEvolveが量子・バイオ・物流分野の研究を加速

Geminiを基盤とするコーディングエージェントAlphaEvolveが、過去1年間にわたり量子コンピューティング、バイオテクノロジー、物流最適化、さらにはGoogle自身のAI開発まで幅広い分野で進捗を加速させていることが報告された。


Briefs & Papers2026·05·08
OpenAI Devs

GPT-Realtime-2音声モデル向けプロンプトガイド公開

推論調整、プリアンブル設計、ツール動作設定、不明瞭な音声処理、長いセッションの状態維持など実践的テクニックを網羅。

Sam Altman

GPT-Realtime-2は「大きな前進」、チャット内音声も改良中

Sam Altmanはユーザーが音声でのAI対話を急速に採用していると指摘。チャット内の音声機能改善にも取り組んでいることを明かした。

Paper

Stream-R1:ストリーミング動画生成のための報酬蒸留手法

適応的重み付けにより動画の視覚品質、動作品質、テキスト整合性を向上させる分散マッチング蒸留の改良手法。

Research

LLM構築の計算リソースの大部分は最終訓練ではなくレシピ開発に費やされる

Jacob Caresらの研究は、LLM構築の圧倒的多数の計算リソースが訓練レシピ開発に費やされることを示し、公開レシピの重要性を訴える。

Anthropic

脆弱性報奨金プログラムがHackerOneで一般公開開始

これまで非公開で実施されていたAnthropicの脆弱性報奨金プログラムがHackerOne上で一般に開放された。誰でも脆弱性を報告し報酬を得られる。

OpenAI

公式CLIツール「openai-cli」をオープンソース公開

ターミナルから直接APIを呼び出せるCLIツール。Apache 2.0ライセンス、HomebrewまたはGoでインストール可能。リソース指向のコマンド構造。

xAI

Grok Voice Think Fast 1.0、リアルワールド向け音声カスタマーサポートAI

騒音環境下でも高速かつ高精度に複雑なワークフローを処理。マルチステップのトラブルシューティングから大量ツール呼び出しまで対応。

Tencent

混元 Hy3プレビュー版、トークン使用量が前世代比10倍に急増

コーディングとエージェントワークロードが成長を牽引。社内製品WorkBuddy、CodeBuddy、QClawでは16.5倍以上のトークン使用量増加を記録。