2026年5月10日 · 日曜日

MiniCPM-o 4.5 リリース：リアルタイム全二重マルチモーダル対話

MiniCPM-o 4.5 は Omni-Flow フレームワークを導入し、リアルタイム全二重マルチモーダル対話を実現。総パラメータ数 9B で、視覚言語能力は Gemini 2.5 Flash に迫り、全モーダル理解は Qwen3-Omni-30B-A3B を上回る。

文 / @_akhaliq · HuggingFace 論文

MiniCPM-o 4.5 は、Omni-Flow と呼ばれる統一ストリーミングフレームワークを採用し、マルチモーダルな入出力を時間軸に沿って整列する。モデルは同時に「見る」「聞く」「話す」ことが可能で、リアルタイムの状況理解に基づいて自発的に注意喚起やコメントを発することができる。総パラメータ数 9B ながら、視覚言語能力は Gemini 2.5 Flash に迫り、同規模でオープンソース最高水準。全モーダル理解は Qwen3-Omni-30B-A3B を凌駕し、音声生成もより自然で計算効率も高い。アーキテクチャと推論の最適化により、1GB 未満のメモリで高性能な全二重対話をデバイス上で実現する。

OpenAI が GPT-Realtime-2 をリリース、CRM 音声制御を統合

OpenAI は GPT-Realtime-2 を CRM ワークフローに統合し、音声制御を実現する方法を実演した。

OpenAI の公式開発者アカウントが GPT-Realtime-2 を活用した CRM 音声制御デモを公開。営業ワークフロー全体を音声で操作できることを示し、ビジネスアプリケーションへの統合の新たな可能性を提示した。

Tencent Hunyuan Hy3 プレビュー、OpenRouter 無料期間終了後に首位に

OpenRouter での無料期間終了後も Hy3 プレビューはトークン使用量、コーディング、ツール呼び出しで 1 位を獲得し、市場シェア 15.4% を達成した。

Tencent Hunyuan の Hy3 プレビュー版は 2 週間の無料提供期間を終えた後も勢いを維持し、OpenRouter 上でトークン使用量、コーディング、ツール呼び出しの全カテゴリで 1 位を獲得。全プロバイダ中 15.4% の市場シェアを記録し、競争力のある価格で引き続き利用可能となっている。

人間の知覚 RGB（画像1）と Tesla AI 光子計数再構成（画像2）の比較。左が人間の目に映る暗視野、右が Tesla AI の光子計数による再構成画像。

Tesla AI ビジョンの光子計数技術が夜間運転を強化

Elon Musk は Tesla AI ビジョンの光子計数再構成技術を披露し、FSD に夜間や強光下での優れた視覚能力をもたらすと述べた。人間の目には暗闇にしか見えないシーンでも、AI は光子レベルで画像を再構成し、昼間と変わらぬ鮮明な視界を提供する。この技術は Tesla の全自動運転の夜間安全性を飛躍的に向上させる中核技術である。

Tesla AI ビジョンが衝突を予測し、衝突前にエアバッグを作動

Elon Musk は Tesla AI ビジョンシステムが衝突前にエアバッグを作動させ、負傷や死亡のリスクを大幅に低減すると発表。この機能は全新車に無料で提供される。AI が事故を事前に検知し乗員保護をプロアクティブに行うアプローチは自動車安全の新たな基準となる。

AI コーディングアシスタントが Schmidhuber の全論文を再現

あるプロジェクトが AI コーディングアシスタントを使用して、Jürgen Schmidhuber の 1989 年から 2025 年までの 58 本の論文を再現。「World Models」論文の完全な VAE + RNN 実装を含め、すべて純粋な NumPy で実装されノートパソコンで実行可能。

Higgsfield が AI コンテンツファクトリーを発表：Claude + MCP + バイラル予測

Higgsfield は Claude、MCP、バイラル予測器を統合したコンテンツファクトリーを発表。人気の動画フォーマットを自動的に複製しスコアリングする。MCP 経由で過去の成功動画を投入するだけで、エージェントがプロンプトなしにフォーマットを再現し、バイラル予測器が各出力を評価、自動化されたパイプラインを構築する。

StepAudio 2.5 TTS が音声アリーナで世界トップ3にランクイン

Stepfun の StepAudio 2.5 TTS モデルが Artificial Analysis 音声アリーナで世界トップ3に評価され、中国の TTS モデルとして最高位を獲得した。ブラインドテストで実際の人間の耳による評価で選ばれた結果であり、音声合成の品質が大幅に向上していることを示す。