5 мая 2026 г. · вторник

Runway запускает агента реального времени: HD-видео 24fps для диалога из одного изображения

Всего одно изображение, 1,75 секунды задержки — и перед вами полноценный виртуальный собеседник с живой мимикой.

Runway Characters: диалоговое видео в реальном времени с задержкой 1,75 с.

Runway представляет Runway Characters — прорывную технологию, способную превратить одно статичное изображение в полноценного выразительного агента для диалогового видео в реальном времени. Потоковая передача осуществляется в HD-разрешении с частотой 24 кадра в секунду, а сквозная задержка от входа до выхода составляет всего 1,75 секунды. Это открывает новые горизонты для интерактивных приложений, виртуальных ассистентов и персонализированных видеосообщений, где каждое изображение получает голос и характер.

Grok Voice API: клонирование голоса с естественными эмоциями.

xAI запускает функцию клонирования голоса Grok Voice API

xAI выпускает функцию клонирования голоса для Grok Voice API, позволяющую клонировать голос с естественными эмоциями из коротких аудиозаписей и управлять голосовыми библиотеками через консоль для индивидуальной настройки голоса бренда. Два голоса, один человек, один ИИ — сможете угадать клон?

Ollama + Claude Desktop: все модели Ollama Cloud теперь доступны через сторонний вывод.

Ollama поддерживает Claude Desktop, открывая сторонние вычисления

Ollama теперь поддерживает все модели Ollama Cloud, включая Claude Cowork и Claude Code, через встроенную функцию стороннего вывода Claude Desktop. Достаточно одной команды ollama launch claude-desktop, чтобы развернуть любую модель из каталога Ollama прямо в интерфейсе Claude.

Безопасность

Vercel выпускает open-source оркестратор deepsec

Генеральный директор Vercel объявил о запуске open-source оркестратора агентов deepsec для глубокой проверки безопасности. Инструмент протестирован на крупных OSS-проектах и теперь доступен сообществу через npx deepsec.

Продукт

Luma запускает креативного агента для рекламных систем

Luma Agents могут автоматически выполнять весь процесс от планирования и генерации до итеративной оптимизации на основе концепций, заданных пользователем, превращая креативные идеи в полноценные рекламные системы.

Индустрия

GB300 Ultra NVL72 в 2,7 раза быстрее GB200

SemiAnalysis сообщает, что GB300 Ultra NVL72 демонстрирует 2,7-кратное превосходство над GB200 NVL72 в отраслевых эталонных тестах вывода — значительный скачок производительности для инференса.

Модели

nanowhale: модель DeepSeek, обученная агентом

Вдохновлённый nanochat от Karpathy, nanowhale — маленькая модель DeepSeek, полностью предобученная агентом, демонстрирующая новое направление в автоматизированном обучении.

Индустрия

Книга «Deep Learning with Python» теперь бесплатно

Франсуа Шолле объявил, что его книга «Deep Learning with Python», проданная тиражом 120 000 экземпляров и скачанная миллионами, теперь доступна для бесплатного чтения онлайн.

Исследования

Web2BigTable: мультиагентная система поиска

Двухуровневая мультиагентная LLM-система для поиска и извлечения информации интернет-масштаба. На WideSearch Avg@4 достигает 38,50 (второй результат — 5,10).

Называть извлечение сигналов модели через взломанные API «атаками дистилляции» — значит стигматизировать ключевую технику, лежащую в основе распространения ИИ, академических исследований и open-source экосистемы.
Nathan Lambert

DeepSeek-V4: смешанное внимание и разреженный MoE

DeepSeek-V4 использует архитектуру со смешанным вниманием и разреженным MoE, сокращая кэш KV до 90% для поддержки длины контекста в один миллион токенов. Это позволяет модели эффективно обрабатывать сверхдлинные последовательности при значительно меньшем потреблении памяти.

Perplexity Computer в Microsoft Teams

Perplexity Computer теперь доступен в Microsoft Teams, что позволяет проводить исследования, анализ и создание документов непосредственно в рабочей области Teams, не покидая привычное рабочее пространство.

Краткие новости 05.05

Модели

IBM Granite 4.1-8B для 8–16 ГБ VRAM

IBM открыла исходный код модели Granite 4.1-8B, оптимизированной для оборудования с 8–16 ГБ видеопамяти, на платформе Hugging Face.

Модели

Qwen 3.6: быстрый инференс на 12 ГБ

Сообщество публикует конфигурации Qwen 3.6, обеспечивающие высокую скорость инференса при всего 12 ГБ видеопамяти.

Продукт

Grok 4.3: игра по одному запросу

Пользователь показал, как Grok 4.3 создал полноценную игру по единственному промпту, опередив Claude Sonnet по скорости вывода токенов.

Продукт

ИИ-платформа для глухих учащихся

CEO Replit Амджад Масад поделился примером применения ИИ в образовании — мультимодальная обучающая платформа для глухих студентов.

Продукт

Replit: презентации без слайдов

Replit позволяет создавать полноценные презентации по текстовому описанию с экспортом в PPTX, Google Slides или PDF.

Исследования

UniVidX: универсальная генерация видео

Унифицированная мультимодальная система на основе диффузионных приоров достигает SOTA в синтезе RGB- и RGBA-слоёв видео.

Инструменты

Визуализатор моделей Hugging Face

Инструмент для визуализации архитектуры моделей: достаточно вставить URL модели с Hugging Face и исследовать структуру на любом уровне.

Индустрия

Replit: рекордный агентный параллелизм

Амджад Масад: на Replit одновременно работают 10 активных, 198 черновых и более 700 завершённых агентных процессов.

Индустрия

NVIDIA: ИИ как пятислойная структура

Исследования

Runway запускает агента реального времени: HD-видео 24fps для диалога из одного изображения

xAI запускает функцию клонирования голоса Grok Voice API

Ollama поддерживает Claude Desktop, открывая сторонние вычисления

Vercel выпускает open-source оркестратор deepsec

Luma запускает креативного агента для рекламных систем

GB300 Ultra NVL72 в 2,7 раза быстрее GB200

nanowhale: модель DeepSeek, обученная агентом

Книга «Deep Learning with Python» теперь бесплатно

Web2BigTable: мультиагентная система поиска

DeepSeek-V4: смешанное внимание и разреженный MoE

Perplexity Computer в Microsoft Teams

IBM Granite 4.1-8B для 8–16 ГБ VRAM

Qwen 3.6: быстрый инференс на 12 ГБ

Grok 4.3: игра по одному запросу

ИИ-платформа для глухих учащихся

Replit: презентации без слайдов

UniVidX: универсальная генерация видео

Визуализатор моделей Hugging Face

Replit: рекордный агентный параллелизм

NVIDIA: ИИ как пятислойная структура

Открытый кодинг-агент против Claude Code