5 de mayo de 2026 · martes

Runway lanza agente de video en tiempo real: video HD conversacional a 24fps desde una imagen

Runway presenta Runway Characters, que convierte una imagen en un agente de video en tiempo real con expresiones faciales completas y capacidad de conversación, transmitido en HD a 24fps con una latencia de extremo a extremo de solo 1.75 segundos.

Runway Characters convierte una sola imagen en un agente de video conversacional en tiempo real, con solo 1.75s de latencia.

Runway ha lanzado Runway Characters, una tecnología que transforma una imagen estática en un agente de video en tiempo real con expresiones faciales completas. El sistema transmite en HD a 24 fotogramas por segundo con una latencia de extremo a extremo de solo 1.75 segundos, estableciendo un nuevo estándar en la generación de video conversacional por IA. Esta capacidad de convertir una sola imagen en un personaje que puede hablar, gesticular y expresar emociones en tiempo real abre enormes posibilidades para aplicaciones interactivas, asistentes virtuales y producción de contenido audiovisual automatizado.

Producto

xAI lanza la función de clonación de voz de Grok Voice API

xAI presenta una función de clonación de voz para Grok Voice API, que permite clonar voz con emociones naturales a partir de grabaciones cortas y gestionar bibliotecas de voz a través de una consola para la personalización de la voz de la marca. Dos voces, una humana y otra clonada por IA, ya son indistinguibles.

@xai

Integración

Ollama es compatible con Claude Desktop, permitiendo inferencia de terceros

Ollama ahora es compatible con todos los modelos de Ollama Cloud, incluidos Claude Cowork y Claude Code, a través de la función de inferencia de terceros integrada de Claude Desktop. Con el comando ollama launch claude-desktop, cualquier modelo puede usarse directamente en la app de Claude.

@ollama

Necesitamos crear un nuevo término para los ataques a APIs que algunos laboratorios están realizando, distinto de «destilación», o corremos el riesgo de manchar una técnica crucial para la difusión de la IA, la investigación académica y el ecosistema de código abierto.

Nathan Lambert Interconnects · Columna de opinión

Fotohistoria

Luma lanza un agente creativo que automatiza ideas en sistemas publicitarios completos

Luma Agents convierte conceptos creativos en sistemas publicitarios completos de forma automatizada.

Luma Agents puede completar automáticamente todo el proceso, desde la planificación y generación hasta la optimización iterativa en torno a conceptos definidos por el usuario, convirtiendo ideas creativas en sistemas publicitarios completos. Define el concepto, establece la dirección y deja que el agente haga el resto: esta es la nueva promesa de la IA generativa aplicada a la producción creativa a escala.

Plataforma

Perplexity Computer se integra con Microsoft Teams

Perplexity Computer ya está disponible en Microsoft Teams, lo que permite realizar investigaciones, análisis y creación de documentos directamente en el espacio de trabajo de Teams. Los usuarios pueden ejecutar las mismas capacidades de Computer sin salir de su flujo colaborativo habitual.

@perplexity_ai

Código Abierto

Vercel lanza deepsec, un orquestador de agentes de código abierto para revisión de seguridad profunda

El CEO de Vercel anuncia el lanzamiento de deepsec, un orquestador de agentes de código abierto diseñado para la revisión profunda de seguridad, validado en varios proyectos OSS importantes. Ejecutable con npx deepsec, permite que los agentes de codificación encuentren vulnerabilidades críticas de forma automatizada.

@rauchg · Vercel

Hardware

Rendimiento del GB300 Ultra NVL72 filtrado: 2.7 veces más rápido que el GB200

SemiAnalysis informa que el GB300 Ultra NVL72 es 2.7 veces más rápido que el GB200 NVL72 en puntos de referencia de inferencia estándar de la industria, un gran salto de rendimiento.

@vllm_project · SemiAnalysis

Investigación

DeepSeek-V4: atención mixta y MoE dispersa reduce el caché KV en un 90%, admite contexto de un millón de tokens

DeepSeek-V4 emplea una arquitectura de atención mixta y MoE dispersa, reduciendo el caché KV hasta en un 90% para admitir una longitud de contexto de un millón de tokens.

@tri_dao · Together Compute

Modelos

nanowhale: pequeño modelo DeepSeek completamente preentrenado por un agente

Inspirado en nanochat de Karpathy, nanowhale es un pequeño modelo DeepSeek completamente preentrenado por un agente, mostrando una nueva dirección en el entrenamiento automatizado de modelos.

@huggingface · @cmpatino_

Breves de IA05 · 05

Modelos

Modelo IBM Granite 4.1-8B lanzado, optimizado para hardware con 8-16 GB de VRAM

El modelo IBM Granite 4.1-8B se publica como código abierto en Hugging Face, optimizado para hardware con 8 a 16 GB de VRAM, impulsando la IA de código abierto.

Comunidad

François Chollet libera «Deep Learning with Python» gratis en línea

El creador de Keras anunció que su libro, con 120.000 ejemplares vendidos y millones de descargas, ya está disponible gratuitamente en formato digital. Una obra que ha impulsado decenas de miles de carreras en aprendizaje profundo.

Análisis

NVIDIA describe la IA como un pastel de cinco capas: energía, chips, infraestructura, modelos y aplicaciones

Según un informe de Futurum citado por NVIDIA, los países y empresas que dominen la pila completa —desde la energía hasta las aplicaciones— definirán la próxima era industrial.

Herramientas

XGrammar-2: generación estructurada para agentes complejos con integración DeepSeek

Nueva versión del framework de generación estructurada, diseñada para formatos estrictos de llamada a herramientas y frameworks de agentes complejos, con soporte nativo para modelos DeepSeek.

Educación

Plataforma multimodal con IA para estudiantes sordos

Amjad Masad, CEO de Replit, destacó una plataforma educativa multimodal que utiliza IA para facilitar el aprendizaje de estudiantes con discapacidad auditiva, un ejemplo del potencial social de la inteligencia artificial.

Papers

Web2BigTable: sistema multiagente para extracción de información a escala de internet

Un framework de dos niveles con agentes orquestadores y trabajadores que colaboran mediante un tablero compartido. Alcanza un Avg@4 de 38.50 en WideSearch, superando por mucho a su competidor más cercano (5.10).

Visión

UniVidX: marco multimodal unificado para generación de video versátil mediante priors de difusión

UniVidX propone un marco unificado con enmascaramiento condicional aleatorio y LoRA desacoplada, alcanzando resultados SOTA en síntesis de capas RGB y RGBA.

Plataforma

Replit registra un paralelismo de agentes sin precedentes

Amjad Masad afirma que no existe mayor actividad de agentes autónomos en paralelo en toda la internet que la que ocurre dentro de Replit: 10 activos, 198 en borrador y más de 700 completados.

Producto

Replit permite crear presentaciones completas sin tocar una sola diapositiva

Describe lo que necesitas, itera por chat, edita visualmente y exporta a PPTX, Google Slides o PDF, o publica una URL activa.

Análisis

Claude 4.7 explica con precisión los orígenes del prompt injection

Riley Goodside comparte un fragmento de Claude 4.7 Research donde el modelo explica, con exactitud sorprendente, el origen del prompt injection, incluyendo detalles de un tuit suyo de la época.

Opinión

Todavía no existe un verdadero modelo de contexto de 1M tokens

Resulta fascinante que la infraestructura esté muy por delante de la ciencia: Claude discontinuó su contexto de 1M+ porque no funcionaba bien más allá de ~200K tokens. ¿Faltan los datos adecuados o las técnicas de entrenamiento?

Previsión

Jack Clark, cofundador de Anthropic, estima un 60% de probabilidad de RSI para 2028

El cofundador de Anthropic asigna una probabilidad del 60% a la llegada de inteligencia artificial radicalmente superior (RSI) antes de que termine 2028, una cifra que ha generado intenso debate en la comunidad.