2026年5月13日 · 水曜日

Perplexity、Blackwell GPU上のQwen3 235B推論性能調査を発表

NVIDIA GB200 NVL72 Blackwellプラットフォームで事後トレーニング済みQwen3 235Bモデルを提供すると、Hopperと比較してスループットが大幅に向上する研究結果を公開。大規模MoEモデルの推論高速化に新たな道筋を示した。

Perplexity AIはNVIDIA GB200 NVL72 Blackwellラック上で、事後トレーニング済みのQwen3 235B MoEモデルの推論性能ベンチマークを公開した。GB200は大規模MoEモデルの高スループット推論においてHopper世代から大幅な進歩を遂げ、単なるトレーニングプラットフォームにとどまらないことを示している。

同社CEOのArav Srinivas氏も、GB200がQwenのような大規模MoEモデルにおけるprefillとdecodeの分離方式を根本から変えると解説。スタックの詳細を公開し、Hopperと比較したスループットの優位性を定量的に示した。

StepFun、画像編集モデルStep Image Edit 2を発表、KRIS-Benchで首位

Stepfunは35億パラメータの画像編集モデルStep Image Edit 2を発表。指示ベース画像編集の代表的ベンチマークKRIS-Benchで総合・事実・概念の全カテゴリで1位を獲得し、5～6倍のパラメータを持つモデルを上回った。推論時間はわずか0.7秒。

Google、Android向けマルチステップ自動化のGemini Intelligenceを発表

Googleのスンダー・ピチャイCEOはAndroid ShowでGemini Intelligenceを発表。アプリやChromeを横断するマルチステップタスクの自動化、ワンタップでのフォーム入力、音声テキスト変換「Rambler」などを統合し、AndroidデバイスのAI体験を大きく前進させた。

Isomorphic Labs、AI創薬加速へ21億ドル調達

Demis Hassabis氏が掲げる「AIの第一義は人間の健康改善」— AlphaFoldから始まった挑戦が新たな資金で加速

デミス・ハサビス氏は、自身のAI創薬企業Isomorphic Labsが21億ドルを調達したと発表。AlphaFoldから始まった「AIで人間の健康を改善する」というミッションを大きく加速し、あらゆる疾患の解決を目指す。同社は「創薬の再発明」を掲げ、AI駆動の創薬プロセスを産業化する計画だ。

Claude Opus 4.7高速モードが研究プレビューとして公開

AnthropicはClaude Opus 4.7向けの高速モードをAPIとClaude Codeで研究プレビューとして提供開始。2.5倍の速度と6倍のコストで、Cursorやv0など主要開発ツールも相次いで統合対応を発表している。

Google DeepMind、AIでマウスポインタ操作を再発明

Google DeepMindは、動き・音声・自然な速記を融合した実験的AIポインタのデモを公開。50年の歴史を持つマウスポインタのインタラクション概念を根本から再考し、ユーザーが画面上でジェスチャーと発話によって直感的にGeminiを操作できる新体験を示した。

Hugging Face Hub、公開データセットが100万件突破

Hugging FaceはHub上の公開データセット数が100万件に達したと発表。「オープンモデルにはオープンデータが必要」と強調し、AIコミュニティの集合的な成果としてマイルストーンを祝福した。

「AIが大規模な失業を引き起こすことはない。そのような恐怖をあおる話は無責任で有害だ。技術の波は最終的に、より多くの仕事を生み出す。」
Andrew Ng

François Chollet、シンボリック学習は新たなスケーラブルな学習基盤と語る

Chollet氏は、シンボリック学習の概念はプログラミングエージェントの代替ではなく、勾配降下法とニューラルネットワークを置き換える汎用的で高度にスケーラブルな新しい学習方法を目指すものだとツイート。コーディングエージェント対比の誤解を自ら解いた。

新論文：自己条件付き埋め込み拡散モデルが自己回帰型テキスト生成に匹敵

連続埋め込み空間でのテキスト拡散モデルSED（Self-conditioned Embedding Diffusion）が、自己回帰生成と同等の品質をより効率的な推論で実現。推論時のアクセラレータ効率で理論的優位性を持ち、テキスト拡散モデルの新たな基盤を提供する。

ModernColBERT、わずか1.49億パラメータでBrowseComp-Plusをほぼ解決

Reason-ModernColBERTは1.49億パラメータでBrowseComp-PlusベンチマークのSOTAを粉砕し、54倍大きいモデルを上回る性能を達成。検索と推論を融合した小規模モデルの驚異的な効率性を示した。

Meta、高解像度人体モデルSapiens2を静かにリリース

Metaは10億枚の人物画像で学習した高解像度モデル群Sapiens2を公開。姿勢推定やセグメンテーションなど複数タスクに対応し、前世代から大幅な性能向上を達成した。

通義、Qwen-Image-2.0技術レポートを公開

アリババの通義千問画像モデルQwen-Image-2.0の技術レポートが共有され、アーキテクチャ詳細や性能データが明らかになった。

OpenAI Codex、バックグラウンドでアプリ横断コンピュータ操作が可能に

CodexのComputer use機能により、Macを占有することなくバックグラウンドでアプリ間のクリック・入力・連続作業が可能になった。エージェントはバックグラウンドで動作を継続できる。

OpenAI、Symphonyを発表：すべてのタスクに専用Codexエージェント

ToDoタスクごとに実行中のCodexエージェントを割り当てるSymphonyが発表され、エンドツーエンドの自動化を実現。個々のタスクが自律エージェント化される新たな開発体験を提示した。

理論物理モデルの性能を高めるエージェントフレームワーク「physics-intern」

深層学習研究者が公開したphysics-internエージェントフレームワークは、CritPベンチマークでGemini 3.1 Proの精度を17.7%から31.4%に向上させ、理論物理学向けAIの新たな可能性を示した。

主要動向05·13

TOOLING

CursorがClaude Opus 4.7高速モードを統合

CursorエディタがClaude Opus 4.7高速モードに対応。2.5倍の速度を提供する一方、ほとんどのタスクでは標準速度を推奨する姿勢を示した。

PRODUCT

イーロン・マスク、Grokにスキル機能が搭載されたと発表

Grokに新たなスキル機能が追加され、新しいプラグインや機能モジュールの導入が示唆されている。

PAPER

新論文TMAS、マルチエージェント連携でテスト時計算を拡張

マルチエージェント協調によってテスト時計算をスケールさせ、推論能力を向上させるTMASの研究成果が共有された。

BENCHMARK

数学者が作成したSoohakベンチマークがLLMの研究数学能力を評価

数学者によって作成された新ベンチマークSoohakが、大規模言語モデルの研究レベルの数学能力を評価する。

MODEL

元OpenAI CTOの会社がマルチモーダルリアルタイム対話モデルを発表

Mira Murati氏のThinking Machinesが、音声・映像・テキストのネイティブマルチモーダル入力を継続的に取り込み、リアルタイムで思考・応答・行動する対話モデルを公開。従来のエージェントのつなぎ合わせを超えた統合型アプローチ。

SPEECH

ジェンセン・ファンCMU卒業式講演：知恵をもってAIの未来を導け

NVIDIA CEOはカーネギーメロン大学2026年卒業生に対し、「未来を恐れるのではなく、賢明に導くこと」と訴え、楽観・責任・野心を呼びかけた。

PLATFORM

v0プラットフォームがClaude Opus 4.7高速モードに対応

Vercelのv0プラットフォームがClaude Opus 4.7高速モードに対応し、ユーザーは高速推論を利用可能に。

INFRA

Hugging Faceインフラ規模にCEO驚嘆、移行を推奨

Clement Delangue氏はHFのインフラ規模を称賛し、未だS3やR2を利用するユーザーにHFへの移行を推奨。より高いパフォーマンスとセキュリティを約束する。

MODEL

Unsloth、Qwen3.6-35B-A3Bの量子化GGUFをリリース

MTPを有効化したQwen3.6-35B-A3Bの量子化GGUF版を公開し、ローカル推論を容易に。

HEALTH

OpenMed Agentプレビュー版リリース、Hugging Face上に構築

HFエンドポイントを活用して臨床情報の抽出や用語処理を行う医療タスク向けプレビューが開始。

SCIENCE

NVIDIA Earth-2、コロラド大学の雹予測リードタイムを延長

PhysicsNeMoと生成AIで雹予測のリードタイムを数分から数時間に改善。

TOOL

Luma Agents、広告最適化・クリエイティブ生成ツールを発表

チームが最適化の方向性を設定し、クリエイティブとコピー全体でより高性能な広告バージョンを生成するのを支援。

TOOL

LlamaIndex、セルフホスト型ドキュメント解析サーバーliteparseを公開

PDFやOfficeファイル、画像のローカル解析とスクリーンショット取得をサポートするオープンソースの完全セルフホスト型サービス。

FRAMEWORK

最も洗練されたRLトレーニングフレームワークSlime

Slimeフレームワークが大規模モデルの強化学習トレーニングを再定義するという分析がZhihuで共有された。

VIDEO

Vidu Q3アップグレード：ターボモードで動画生成5倍速

業界平均の5倍の速度で動画を生成するターボモードを導入し、クリエイターの反復作業を高速化。

ARCH

Sakana AI、リアルタイム音声会話アーキテクチャKAMEを発表

高速音声モデルとバックエンド大規模モデルをカスケード接続し、リアルタイム音声会話に知識を注入する新アーキテクチャ。

SECURITY

Jeff Dean、オープンソースセキュリティに500万ドルのOpen Defenseイニシアチブを共有

重要なオープンソースプロジェクトを保護するために最大500万ドルの集中ラボクレジットを提供するイニシアチブ。

PAPER

論文「Rebellious Student」、教師信号反転による自己蒸留RLVRを提案

教師信号を反転させることで推論を探索する自己蒸留強化学習手法。

PAPER

Pixal3D：ピクセルアライメント3D生成手法

SIGGRAPH 2026に向けた論文が、画像から高品質な3Dアセットを生成する新手法を発表。

OPINION

Ethan Mollick、ChatGPTの学習モード静かな削除を批判

アシスタントモードが学習を損なう可能性を指摘し、ClaudeやGeminiの類似機能が存続する中での決定に疑問を呈した。

OPINION

Mollick氏：ASIを信じるAIラボは展開エンジニアリングチームを解散させる

「人間の統合と変更管理が必要な限り仕事は安全。真のASI信仰は前方展開チームの廃止を意味する」と指摘。

LEAK

リーク：GoogleがVeo 4動画生成をリリースか

Seedance 2.0よりわずかに優れたテキスト生成品質と参照動画編集機能を備えた新動画生成モデルのリリースが噂されている。

TOOL

Claude Code、バックグラウンドエージェント管理用のエージェントビューを追加

端末タブ内で複数の実行中エージェントのステータス確認とバックグラウンド起動を可能にする新機能。

INDUSTRY

Anthropic、12の法律プラグインを備えたClaude for Legalを発表

法務・M&A・プライバシーなどをカバーする12の職種別プラグインと20以上のMCPコネクタを提供。

MODEL

MiniMax M2.7、LilacMLによりスムーズな移行を実現

LilacMLの支援によりM2.7モデルの展開と利用が容易に。

ROBOTICS

Hugging Face、ジェスチャー制御ロボット動作のMarionetteをリリース

電話やコンピュータのジェスチャーでReachy Mini向けロボット動作を作成できるブラウザベースツール。

MODEL

2つのオープンソース小規模言語モデルが近日登場

1つは93分の1のサイズで最先端の精度を達成すると予告されている。