Runway запускает агента реального времени: HD-видео 24fps для диалога из одного изображения
Всего одно изображение, 1,75 секунды задержки — и перед вами полноценный виртуальный собеседник с живой мимикой.
Runway представляет Runway Characters — прорывную технологию, способную превратить одно статичное изображение в полноценного выразительного агента для диалогового видео в реальном времени. Потоковая передача осуществляется в HD-разрешении с частотой 24 кадра в секунду, а сквозная задержка от входа до выхода составляет всего 1,75 секунды. Это открывает новые горизонты для интерактивных приложений, виртуальных ассистентов и персонализированных видеосообщений, где каждое изображение получает голос и характер.
xAI запускает функцию клонирования голоса Grok Voice API
xAI выпускает функцию клонирования голоса для Grok Voice API, позволяющую клонировать голос с естественными эмоциями из коротких аудиозаписей и управлять голосовыми библиотеками через консоль для индивидуальной настройки голоса бренда. Два голоса, один человек, один ИИ — сможете угадать клон?
Ollama поддерживает Claude Desktop, открывая сторонние вычисления
Ollama теперь поддерживает все модели Ollama Cloud, включая Claude Cowork и Claude Code, через встроенную функцию стороннего вывода Claude Desktop. Достаточно одной команды ollama launch claude-desktop, чтобы развернуть любую модель из каталога Ollama прямо в интерфейсе Claude.
Vercel выпускает open-source оркестратор deepsec
Генеральный директор Vercel объявил о запуске open-source оркестратора агентов deepsec для глубокой проверки безопасности. Инструмент протестирован на крупных OSS-проектах и теперь доступен сообществу через npx deepsec.
Luma запускает креативного агента для рекламных систем
Luma Agents могут автоматически выполнять весь процесс от планирования и генерации до итеративной оптимизации на основе концепций, заданных пользователем, превращая креативные идеи в полноценные рекламные системы.
GB300 Ultra NVL72 в 2,7 раза быстрее GB200
SemiAnalysis сообщает, что GB300 Ultra NVL72 демонстрирует 2,7-кратное превосходство над GB200 NVL72 в отраслевых эталонных тестах вывода — значительный скачок производительности для инференса.
nanowhale: модель DeepSeek, обученная агентом
Вдохновлённый nanochat от Karpathy, nanowhale — маленькая модель DeepSeek, полностью предобученная агентом, демонстрирующая новое направление в автоматизированном обучении.
Книга «Deep Learning with Python» теперь бесплатно
Франсуа Шолле объявил, что его книга «Deep Learning with Python», проданная тиражом 120 000 экземпляров и скачанная миллионами, теперь доступна для бесплатного чтения онлайн.
Web2BigTable: мультиагентная система поиска
Двухуровневая мультиагентная LLM-система для поиска и извлечения информации интернет-масштаба. На WideSearch Avg@4 достигает 38,50 (второй результат — 5,10).
Называть извлечение сигналов модели через взломанные API «атаками дистилляции» — значит стигматизировать ключевую технику, лежащую в основе распространения ИИ, академических исследований и open-source экосистемы.
Nathan Lambert
DeepSeek-V4: смешанное внимание и разреженный MoE
DeepSeek-V4 использует архитектуру со смешанным вниманием и разреженным MoE, сокращая кэш KV до 90% для поддержки длины контекста в один миллион токенов. Это позволяет модели эффективно обрабатывать сверхдлинные последовательности при значительно меньшем потреблении памяти.
Perplexity Computer в Microsoft Teams
Perplexity Computer теперь доступен в Microsoft Teams, что позволяет проводить исследования, анализ и создание документов непосредственно в рабочей области Teams, не покидая привычное рабочее пространство.
IBM Granite 4.1-8B для 8–16 ГБ VRAM
IBM открыла исходный код модели Granite 4.1-8B, оптимизированной для оборудования с 8–16 ГБ видеопамяти, на платформе Hugging Face.
Qwen 3.6: быстрый инференс на 12 ГБ
Сообщество публикует конфигурации Qwen 3.6, обеспечивающие высокую скорость инференса при всего 12 ГБ видеопамяти.
Grok 4.3: игра по одному запросу
Пользователь показал, как Grok 4.3 создал полноценную игру по единственному промпту, опередив Claude Sonnet по скорости вывода токенов.
ИИ-платформа для глухих учащихся
CEO Replit Амджад Масад поделился примером применения ИИ в образовании — мультимодальная обучающая платформа для глухих студентов.
Replit: презентации без слайдов
Replit позволяет создавать полноценные презентации по текстовому описанию с экспортом в PPTX, Google Slides или PDF.
UniVidX: универсальная генерация видео
Унифицированная мультимодальная система на основе диффузионных приоров достигает SOTA в синтезе RGB- и RGBA-слоёв видео.
Визуализатор моделей Hugging Face
Инструмент для визуализации архитектуры моделей: достаточно вставить URL модели с Hugging Face и исследовать структуру на любом уровне.
Replit: рекордный агентный параллелизм
Амджад Масад: на Replit одновременно работают 10 активных, 198 черновых и более 700 завершённых агентных процессов.