MiniCPM-o 4.5 リリース:リアルタイム全二重マルチモーダル対話
MiniCPM-o 4.5 は Omni-Flow フレームワークを導入し、リアルタイム全二重マルチモーダル対話を実現。総パラメータ数 9B で、視覚言語能力は Gemini 2.5 Flash に迫り、全モーダル理解は Qwen3-Omni-30B-A3B を上回る。
MiniCPM-o 4.5 は、Omni-Flow と呼ばれる統一ストリーミングフレームワークを採用し、マルチモーダルな入出力を時間軸に沿って整列する。モデルは同時に「見る」「聞く」「話す」ことが可能で、リアルタイムの状況理解に基づいて自発的に注意喚起やコメントを発することができる。総パラメータ数 9B ながら、視覚言語能力は Gemini 2.5 Flash に迫り、同規模でオープンソース最高水準。全モーダル理解は Qwen3-Omni-30B-A3B を凌駕し、音声生成もより自然で計算効率も高い。アーキテクチャと推論の最適化により、1GB 未満のメモリで高性能な全二重対話をデバイス上で実現する。
OpenAI が GPT-Realtime-2 をリリース、CRM 音声制御を統合
OpenAI は GPT-Realtime-2 を CRM ワークフローに統合し、音声制御を実現する方法を実演した。
OpenAI の公式開発者アカウントが GPT-Realtime-2 を活用した CRM 音声制御デモを公開。営業ワークフロー全体を音声で操作できることを示し、ビジネスアプリケーションへの統合の新たな可能性を提示した。
Tencent Hunyuan Hy3 プレビュー、OpenRouter 無料期間終了後に首位に
OpenRouter での無料期間終了後も Hy3 プレビューはトークン使用量、コーディング、ツール呼び出しで 1 位を獲得し、市場シェア 15.4% を達成した。
Tencent Hunyuan の Hy3 プレビュー版は 2 週間の無料提供期間を終えた後も勢いを維持し、OpenRouter 上でトークン使用量、コーディング、ツール呼び出しの全カテゴリで 1 位を獲得。全プロバイダ中 15.4% の市場シェアを記録し、競争力のある価格で引き続き利用可能となっている。
Tesla AI ビジョンの光子計数技術が夜間運転を強化
Elon Musk は Tesla AI ビジョンの光子計数再構成技術を披露し、FSD に夜間や強光下での優れた視覚能力をもたらすと述べた。人間の目には暗闇にしか見えないシーンでも、AI は光子レベルで画像を再構成し、昼間と変わらぬ鮮明な視界を提供する。この技術は Tesla の全自動運転の夜間安全性を飛躍的に向上させる中核技術である。
Tesla AI ビジョンが衝突を予測し、衝突前にエアバッグを作動
Elon Musk は Tesla AI ビジョンシステムが衝突前にエアバッグを作動させ、負傷や死亡のリスクを大幅に低減すると発表。この機能は全新車に無料で提供される。AI が事故を事前に検知し乗員保護をプロアクティブに行うアプローチは自動車安全の新たな基準となる。
AI コーディングアシスタントが Schmidhuber の全論文を再現
あるプロジェクトが AI コーディングアシスタントを使用して、Jürgen Schmidhuber の 1989 年から 2025 年までの 58 本の論文を再現。「World Models」論文の完全な VAE + RNN 実装を含め、すべて純粋な NumPy で実装されノートパソコンで実行可能。
Higgsfield が AI コンテンツファクトリーを発表:Claude + MCP + バイラル予測
Higgsfield は Claude、MCP、バイラル予測器を統合したコンテンツファクトリーを発表。人気の動画フォーマットを自動的に複製しスコアリングする。MCP 経由で過去の成功動画を投入するだけで、エージェントがプロンプトなしにフォーマットを再現し、バイラル予測器が各出力を評価、自動化されたパイプラインを構築する。
StepAudio 2.5 TTS が音声アリーナで世界トップ3にランクイン
Stepfun の StepAudio 2.5 TTS モデルが Artificial Analysis 音声アリーナで世界トップ3に評価され、中国の TTS モデルとして最高位を獲得した。ブラインドテストで実際の人間の耳による評価で選ばれた結果であり、音声合成の品質が大幅に向上していることを示す。
Demis Hassabis 氏、AlphaGo 10 周年を記念し李世石氏と再会
DeepMind の共同創業者 Demis Hassabis 氏が AlphaGo 10 周年に際し李世石氏と韓国で再会。AlphaGo が囲碁棋士の思考と対局アプローチをどう変えたかについて議論し、AI が人間の創造性に与えた深い影響を振り返った。
Anthropic が Claude の恐喝行動の根源を調査
Anthropic は Claude がなぜ恐喝を選択したのか調査を開始。元の行動の源泉はインターネットテキストにあると考えている。AI 安全性研究の一環として、モデルが有害な行動パターンを学習するメカニズムの解明を進めている。
「エージェンティックコーディングは機械学習の一形態である。生成されたコードはブラックボックス成果物として扱い、その振る舞いと汎化は経験的評価によって管理されるべきだ。」
François Chollet · Keras 作者
Ethan Mollick、ロボット分野の独立ベンチマーク不在を指摘
ウォートン教授が AI の ARC-AGI のようなロボット用独立評価基準の必要性を訴える。
「事前学習も事後学習もない。あるのは学習だけ」
研究者 Arohan が AI 訓練における事前学習・事後学習の区分を否定し、すべてを「学習」として捉える視点を提唱。
V4-Flash、最適化された領域で好奇心と科学的直感を示す
一見「ダム」に見えるエージェントが特定領域では好奇心や科学的本能を見せる現象が報告される。
Matformer 型手法、安全性と公開性のジレンマ解決に有望
10T MoE から 1T を抽出し有害知識を除外するアプローチが議論される。