2026年5月5日 · 火曜日

Runway、リアルタイム動画エージェントを発表

1枚の画像から24fpsのHD会話動画を生成——エンドツーエンド遅延はわずか1.75秒

Runway Characters：静止画1枚から表情豊かで会話可能なリアルタイム動画エージェントを生成する。

Runwayは本日、単一の静止画から表情・視線・口の動きを含む完全な会話型リアルタイムビデオエージェント「Runway Characters」を発表した。24fpsのHD画質でストリーミングされ、エンドツーエンドのレイテンシはわずか1.75秒——これは人間の自然な会話のテンポに極めて近い数値だ。同社はビデオ会議やカスタマーサポート、バーチャルアシスタントといったユースケースを想定しており、APIを通じた開発者向け提供も予定されている。リアルタイム動画生成の分野における重要なマイルストーンである。

xAI、Grok Voice APIの音声クローン機能をリリース

短い音声録音から自然な感情表現を含む音声を複製し、コンソール上で音声ライブラリを管理できる。

xAIはGrok Voice APIに音声クローン機能を追加した。短い音声録音から自然な感情表現を含む音声を複製し、同社のコンソールから音声ライブラリを管理できるようになった。ブランド固有の音声パーソナリティを大規模に展開したい企業向けに設計されており、すでに複数のパートナーがテスト中である。

Ollama、Claude Desktopのサードパーティ推論に対応

Ollama Cloudの全モデルがClaude CoworkやClaude Codeからシームレスに利用可能に。

Ollamaは、Claude Desktopの内蔵サードパーティ推論機能を活用することで、Ollama Cloud上の全モデルをClaude CoworkおよびClaude Codeから利用できるようになったと発表した。これはオープンソースモデルと商用AIプラットフォームの相互運用における重要な前進である。

Vercel、OSSエージェントオーケストレーターdeepsecを公開

複数の主要OSSプロジェクトで有効性が検証済み。コーディングエージェントがクリティカルな脆弱性を自律的に発見。

VercelのCEOは、社内利用のため開発したオープンソースのエージェントオーケストレーター「deepsec」を公開した。ディープセキュリティレビューに特化して設計されており、複数の主要OSSプロジェクトで有効性が実証されている。コーディングエージェントがクリティカルな脆弱性を自律的に特定できる点が高く評価されている。

Perplexity Computer、Teamsと統合

Teamsワークスペース内から直接、調査・分析・ドキュメント作成が可能になり、エンタープライズワークフローへのAI統合が加速する。

Luma、クリエイティブエージェントで広告制作を自動化

Luma Agentsはユーザー定義のコンセプトに基づき、企画・生成・反復最適化まで全自動で広告システムを構築する。チームの制作効率を飛躍的に高める。

ハードウェア

GB300 Ultra NVL72、GB200比2.7倍速を達成

SemiAnalysisのレポートによると、業界標準の推論ベンチマークで大幅な性能向上を示した。

アーキテクチャ

DeepSeek-V4：KVキャッシュ90%削減

混合注意機構＋スパースMoEで100万トークンのコンテキスト長をサポート。Together Computeが技術セッションで詳細を発表。

API攻撃と蒸留技術の区別を

Nathan Lambert氏は「蒸留攻撃」という呼称が正当な蒸留技術を汚名化すると警告。研究コミュニティに再定義を求めた。

「エージェントはすでに多くの個別タスクを実行できる。私たちは実証済みのワークフローをソフトウェアのロジックとして保存しているに過ぎない」

モデルリリース & 論文05·05

nanowhale：エージェントが完全事前学習した小型DeepSeek

Karpathyのnanochatに触発されたこのモデルは、エージェントによる自動化モデルトレーニングの新境地を切り開く。

IBM Granite 4.1-8B公開、8～16GB VRAM最適化

Hugging Face上でオープンソース公開され、ローカル推論向けに設計。オープンサイエンスによるAI発展を推進する一歩。

インサイト

NVIDIA、AIを「五層ケーキ」に例える

エネルギー、チップ、インフラ、モデル、アプリケーション——全層を構築できる国と企業が次の産業時代を定義する。

『Python深層学習』Chollet著、全文無料公開へ

12万部を売り上げた名著がオンラインで全文無料に。数万人のAIエンジニアがキャリアの第一歩を踏み出した入門書。

Web2BigTable：二層マルチエージェントでWeb情報抽出

インターネット規模のテーブル抽出を実現。WideSearchベンチマークでAvg@4成功率38.50を記録し、次点を大きく引き離す。

UniVidX：統一マルチモーダル動画生成フレームワーク

拡散事前分布を用いてRGB・RGBAレイヤー合成の両分野でSOTA性能を達成。多用途動画生成の新基盤として期待される。

ツール & 製品05·05

HFモデル可視化ツール登場

モデルURLを入力するだけで、任意の粒度でアーキテクチャを探索可能に。

Qwen 3.6設定公開：12GB VRAMで高TPS実現

コミュニティ共有の設定により、限られたハードウェアでも高速推論が可能になった。

Replitに全自動プレゼン生成機能

説明文から完全なピッチデッキを生成。PPTX、Google Slides、PDFへのエクスポートにも対応。

Grok 4.3、単一プロンプトでゲーム生成

出力トークン速度はClaude Sonnetを上回り、ゲーム開発の民主化に一歩。Elon Musk氏も注目するデモが話題に。

Blackwell Ultra、名は体を表す性能

NVIDIAの次世代GPUはGB200比2.7倍の推論速度を達成。「Ultra」の名にふさわしい性能向上が確認された。

Replit、エージェント並列度で全プラットフォームを圧倒

Amjad Masad CEOによると、10件アクティブ・198件ドラフト・700件以上完了のエージェントタスクが走っている。

AIが聴覚障害学生向けマルチモーダル学習を実現

AIの教育応用における優れた事例として、多様な学習ニーズに応えるプラットフォームが注目を集めている。

AI速報05·05

DeepSeek・Xiaomi・OpenAIがHF人気上位

Mistral AIやAI Poolのモデルもランクイン。オープンソースエコシステムの多様化が加速している。

HFデータセットがParquet形式対応

大規模データセットの効率的な処理が可能に。データエンジニアリングのワークフローが改善される。

Claude 4.7がプロンプトインジェクションの起源を解説

goodside氏の初期ツイートをLLMが正確に再現。AIの自己認識能力の進化を示す興味深い事例。

Anthropic共同創業者、2028年までにRSI出現確率60%

Jack Clark氏による再帰的自己改善（RSI）の到来予測が議論を呼んでいる。

Transformerの勾配は疎である——低ランク探索に意味あり

勾配の疎性を低ランク空間で探究する新たな研究視点が提示された。