Anthropic研究:弱いモデルでほぼ万能なAIを訓練可能に
Anthropicの新たな研究によると、人間が完全にチェックできないAIタスクにおいて、有能なモデルが意図的に能力を保留する可能性があるが、弱いモデルを監督者として使用することで、ほぼ万能なレベルに訓練できることがわかりました。AIが人間の検証を超える業務を担う時代における重要な警鐘です。
vLLM、Gemma 4 MTPをDay-0サポート、デコード速度3倍に

vLLMはGemma 4モデル向けにDay-0 MTPサポートを提供開始しました。マルチトークン予測技術により、品質を損なうことなく最大3倍のデコード高速化を実現し、すぐに使えるDockerイメージも提供します。
Anthropic、モデル汎化能力向上のためModel Spec Midtrainingを提案
AnthropicはModel Spec Midtraining (MSM)に関する新しい研究を発表しました。これは、まずAIに望ましい汎化方法と推論を教えることで、新しいシナリオにおける標準的なアライメント手法の失敗に対処します。具体例に頼る従来手法の限界を克服するアプローチです。
MolmoAct2 オープンソース動作推論モデルを発表、ロボット展開向け

MolmoAct2 はロボット展開向けのオープンソース動作推論モデルで、7つのシミュレーションおよび実世界ベンチマークでPi-05などのベースラインを上回り、専用の視覚言語モデルMolmoERも発表されました。
the new instant model in chatgpt is so good damn — if you have been thinking-model-only for awhile, give it a try!
TypeScript版Agents SDKをリリース、サンドボックス対応
アップデートされたAgents SDKがTypeScriptをサポートし、サンドボックスエージェントとオープンソースのハーネスが含まれています。
CursorがCI障害の自動修正に対応、エージェントがGitHub監視
常時稼働のエージェントがGitHubを監視し、根本原因を調査して修正PRを自動作成します。
WebRTC技術スタックを再構築、低遅延リアルタイム音声AIを実現
軽量リレーとステートフル送受信機でWebRTCを再構築し、ChatGPT VoiceやRealtime APIの音声遅延を大幅に削減しました。
トップ医学ジャーナルを統合、AI健康検索がより権威的に
NEJMやBMJなどの高品質な健康データソースへの接続を開始し、病院や研究機関が信頼する医学文献の引用付き回答を提供します。
プロ向け金融版Computerを発表、35の分析ワークフローを統合
MorningstarやPitchBookからのライセンスデータを統合し、アナリストが日常的に使用する35の専用ワークフローを追加しました。
Uni-1.1 APIを発表、インテリジェント画像推論モデルが稼働
推論機能、美的理解、制御性を備え、カスタムパイプラインをサポート。価格とレイテンシは競合製品の半分以下です。
Andrew Ngがコーディングエージェントの加速格差を分析
Andrew Ng氏は、コーディングエージェントがソフトウェア作業の種類によって加速度合いが異なると指摘。フロントエンド開発からバックエンド、インフラストラクチャへと加速効果は段階的に低下し、これらの違いを理解することでチーム編成時に現実的な期待設定が可能になると述べています。
LlamaIndexがCB Insights AI 100に選出
CB Insightsが発表した第10回年次AI 100リストにLlamaIndexが選出。AIエージェント向けのドキュメント理解APIのリーディングプロバイダーとしてAIインフラストラクチャ部門に名を連ねました。
Hugging Face CEOがデータセット共有によるAIエージェントの価値を示す
Hugging Face上でデータセットを共有することで、AIエージェントが複雑なデータを分析し、誰もが複雑な情報を理解できるようになることを実例で示しました。
ComboStoc:組合せランダム性で拡散モデル訓練を加速
次元と属性の組合せ空間をより十分にカバーする確率過程を構築することで、画像や3D形状など複数モダリティの拡散モデル訓練を加速する新手法です。
持続的視覚記憶:LVLMの長系列における視覚信号希釈を解決
軽量モジュールPVMを提案し、フィードフォワードネットワークの並列分岐として距離に依存しない検索パスを確立。大規模視覚言語モデルの長系列生成において正確な視覚認識を維持します。
Ctx2Skillフレームワーク:言語モデルが文脈から自律的にスキル学習
マルチエージェントの自己対戦サイクルにより、人手のアノテーションや外部フィードバックなしに複雑な文脈からスキルを発見・抽出・選択する自己進化フレームワークです。
Luma UNI-1.1が画像生成アリーナで第6位に
Luma AIのUNI-1.1およびUNI-1.1 Maxモデルがテキスト-to-画像アリーナで第6位と第7位を獲得。500万以上の投票に基づく59モデル中でのランキングです。
AIがストックホルムにカフェを開店、その顛末
Andon LabsがストックホルムにAIマネージャー「Mona」が運営するカフェを開設。卵120個の発注(キッチンにコンロなし)や6,000枚のナプキン誤発注など失敗を連発。実地確認なしで警察に屋外席許可を申請し却下されるなど、AI運用の限界と人間介在の必要性が浮き彫りになりました。
Step 3.5 FlashがLemonadeコーディングエージェントに登場
Robloxゲーム開発向けコーディングエージェントLemonade上で14日間無料利用可能に。
Grok 4.3
Elon Musk氏がGrok 4.3のリリースを一言で告知。18,000以上のいいねを集める。
Replitで単日50万プロジェクト
あるユーザーはエージェントワークロードに1万ドルを消費。
知性は資産、パラメータは負債
Intellegence is an asset, but parameters are a liability.
「1Mコンテキスト」モデルの100kトークン以降
長大コンテキストモデルの実効性能に疑問を投げかける投稿が話題に。
真のコンテキスト圧縮は未踏の領域
Real context compression has never been tried.
SaaSサブスクをほぼすべてVibe Codingで代替
自身のSaaSサブスクをすべてVibe Codingで自作したツールに置き換え。
投稿前にLLM・エージェントが文章をレビュー
SNS投稿から論文まですべてAIレビュー。提案の有用性はさまざま。
ChatGPT新Instantモデルを強く推薦
Sam Altman氏がGPT-5.5 Instantを「非常に良い」と称賛。

