5 de maio de 2026 · terça-feira

Runway lança agente de vídeo em tempo real: vídeo HD conversacional a 24fps a partir de uma única imagem

A Runway apresenta o Runway Characters, que transforma uma única imagem em um agente de vídeo em tempo real com expressões completas e capacidade de conversação, transmitido em HD a 24fps com latência de ponta a ponta de apenas 1,75 segundos.

O Runway Characters transforma uma única imagem em um agente de vídeo conversacional e expressivo, transmitido em tempo real a 24fps em HD.

Os agentes de vídeo em tempo real chegaram. A Runway desenvolveu o Runway Characters, permitindo transformar uma imagem em um agente de vídeo totalmente expressivo e conversacional, transmitido a 24 quadros por segundo em HD. Com apenas 1,75 segundos de latência de ponta a ponta, o sistema representa um salto significativo na síntese de vídeo baseada em IA. A tecnologia combina animação facial, síntese de voz e streaming em tempo real em um único pipeline que responde a entradas em linguagem natural. Isso abre novas fronteiras para mídia interativa, assistentes virtuais e criação de conteúdo personalizado em escala, borrando a fronteira entre vídeo gravado e gerado.

PRODUTO

xAI lança recurso de clonagem de voz do Grok Voice API

A xAI lança um recurso de clonagem de voz para o Grok Voice API, permitindo clonar voz com emoções naturais a partir de gravações curtas e gerenciar bibliotecas de voz via console para personalização de voz da marca.

Duas vozes. Uma humana. Uma IA. Clonagem de voz com emoção natural já disponível na Grok Voice API.

Duas vozes. Uma humana. Uma IA. A clonagem de voz com emoções naturais já está disponível na Grok Voice API. Os usuários podem clonar vozes a partir de gravações curtas e gerenciar bibliotecas de voz através do console da xAI, abrindo experiências de voz personalizadas para marcas e desenvolvedores. O recurso suporta inflexão emocional natural, tornando as vozes clonadas indistinguíveis da fala humana em conversação.

PRODUTO

Ollama suporta Claude Desktop, permitindo inferência de terceiros

O Ollama agora suporta todos os modelos do Ollama Cloud, incluindo Claude Cowork e Claude Code, através do recurso de inferência de terceiros integrado do Claude Desktop.

Todos os modelos do Ollama Cloud agora podem ser usados no Claude Cowork e Claude Code a partir do Claude Desktop.

O Ollama agora suporta o Claude Desktop via inferência de terceiros integrada. A integração permite que todos os modelos do Ollama Cloud sejam usados no Claude Cowork e Claude Code diretamente do aplicativo Claude Desktop. Isso conecta modelos open-source auto-hospedados com ferramentas de codificação de IA de ponta, oferecendo aos desenvolvedores um caminho integrado para aproveitar modelos locais dentro do ecossistema da Anthropic.

Precisamos criar um novo termo para os ataques que alguns laboratórios chineses estão fazendo em APIs, diferente de destilação, ou corremos o risco de manchar uma técnica crucial para a difusão da IA, a pesquisa acadêmica e o ecossistema open-source.
Nathan Lambert, interconnects.ai

CÓDIGO ABERTO

Vercel lança deepsec, orquestrador de agentes de código aberto para revisão de segurança profunda

O CEO da Vercel anuncia o lançamento do deepsec, um orquestrador de agentes de código aberto projetado para revisão de segurança profunda, validado em vários projetos OSS importantes. Agentes de codificação agora podem encontrar vulnerabilidades críticas de forma autônoma.

A Vercel apresenta o deepsec, um orquestrador de agentes de código aberto desenvolvido para revisões de segurança profunda. Inicialmente criado para uso interno, a ferramenta foi validada contra vários projetos open-source importantes e ganhou convicção suficiente para ser compartilhada publicamente. Os agentes de codificação alimentados pelo deepsec podem sondar bases de código de forma autônoma em busca de vulnerabilidades críticas, configurações incorretas e riscos na cadeia de suprimentos. O orquestrador coordena múltiplos agentes especializados, cada um focado em diferentes superfícies de ataque, e sintetiza suas descobertas em relatórios acionáveis. Isso representa uma mudança em direção à auditoria de segurança proativa e automatizada no ciclo de vida do desenvolvimento de software.

O Perplexity Computer agora está disponível dentro do espaço de trabalho do Microsoft Teams.

PRODUTO

Perplexity Computer integra-se ao Microsoft Teams

O Perplexity Computer agora está disponível no Microsoft Teams, permitindo realizar pesquisas, análises e criação de documentos diretamente no espaço de trabalho do Teams com as mesmas capacidades do produto independente Computer.

O Luma Agents transforma conceitos criativos em sistemas de anúncios completos de forma automática.

PRODUTO

Luma lança agente criativo que automatiza ideias em sistemas de anúncios completos

O Luma Agents pode concluir automaticamente todo o processo, do planejamento e geração à otimização iterativa em torno de conceitos definidos pelo usuário, transformando ideias criativas em sistemas de anúncios completos.

HARDWARE

Desempenho do GB300 Ultra NVL72 vaza: 2,7x mais rápido que o GB200

A SemiAnalysis relata que o GB300 Ultra NVL72 é 2,7 vezes mais rápido que o GB200 NVL72 em benchmarks de inferência padrão da indústria, um salto significativo de desempenho que marca uma nova geração em hardware de treinamento e inferência de IA.

PESQUISA

DeepSeek-V4: atenção mista + MoE esparsa reduz cache KV em 90%, suporta contexto de um milhão de tokens

O DeepSeek-V4 usa uma arquitetura de atenção mista e MoE esparsa, reduzindo o cache KV em até 90% para suportar um comprimento de contexto de um milhão de tokens, mantendo a eficiência de inferência.

INDÚSTRIA

NVIDIA compara IA a um bolo de cinco camadas: energia, chips, infraestrutura, modelos e apps

A NVIDIA descreve a infraestrutura de IA como cinco camadas interdependentes: energia, chips, infraestrutura, modelos e aplicações. Os países e empresas que construírem a pilha completa definirão a próxima era industrial.

LANÇAMENTO DE MODELO

IBM Granite 4.1-8B lançado, otimizado para hardware com 8–16GB de VRAM

O modelo IBM Granite 4.1-8B foi disponibilizado como código aberto no Hugging Face, especificamente otimizado para hardware com 8 a 16GB de VRAM, ampliando a fronteira da IA open-source acessível para desenvolvedores.

Inovações em Agentes & Modelos 05.05

MODELO

nanowhale: pequeno modelo DeepSeek totalmente pré-treinado por um agente

Inspirado pelo nanochat de Karpathy, o nanowhale é um pequeno modelo DeepSeek totalmente pré-treinado por um agente de IA, mostrando o treinamento automatizado de modelos como um novo paradigma. O projeto demonstra que agentes podem lidar com todo o pipeline de pré-treinamento de forma autônoma.

FERRAMENTA

XGrammar-2: geração estruturada para frameworks de agentes complexos

O XGrammar-2 introduz geração estruturada para frameworks de agentes complexos, suportando formatos rigorosos de chamada de ferramentas com integração nativa ao DeepSeek. Garante formatação confiável de saída para cenários de orquestração multi-agente.

PRODUTO

Grok 4.3 constrói um jogo completo com um único prompt

O Grok 4.3 demonstrou a capacidade de construir um jogo completo e jogável a partir de um único prompt, apresentando a velocidade de saída de tokens mais rápida entre todos os modelos e superando o Claude Sonnet em velocidade de geração de ponta a ponta.

PUBLICAÇÃO

François Chollet torna "Deep Learning with Python" gratuito para leitura online

O guia definitivo de deep learning, que vendeu 120 mil cópias e ajudou dezenas de milhares de pessoas a iniciar suas carreiras, agora está disponível para leitura online gratuita. O livro desmistifica como o deep learning funciona e como aplicá-lo de forma eficaz.

PRODUTO

Replit: crie apresentações completas apenas descrevendo o que deseja

O Replit agora permite gerar apresentações completas sem tocar em um único slide. Descreva sua ideia, itere no chat, edite visualmente e exporte para PPTX, Google Slides ou PDF, ou publique como URL ativa.

ARTIGO

Web2BigTable: sistema multi-agente para busca em escala web

Um framework multi-agente de dois níveis para busca na web e extração de tabelas em escala de internet. No benchmark WideSearch, alcança uma taxa de sucesso Avg@4 de 38,50, superando dramaticamente a segunda colocação de 5,10.

MODELO

Qwen 3.6: alto TPS com apenas 12GB de VRAM

Configurações do Qwen 3.6 compartilhadas pela comunidade oferecem tokens por segundo rápidos mesmo em GPUs de consumo com apenas 12GB de VRAM.

PESQUISA

Agentes de código aberto conseguem competir com o Claude Code?

Novo estudo explora se agentes de codificação de código aberto com harnesses podem rivalizar com o Claude Code no treinamento de modelos específicos de domínio.

HARDWARE

Blackwell Ultra: nomeado pelo desempenho ultra

O Blackwell Ultra da NVIDIA deriva seu nome do desempenho ultra-alto de GPU, confirmado pela SemiAnalysis.

O cofundador da Anthropic, Jack Clark, atribui 60% de probabilidade à RSI até o final de 2028.
via @goodside

Comunidade & Notas Breves 05.05

EDUCAÇÃO

Plataforma multimodal com IA para alunos surdos

O CEO do Replit, Amjad Masad, destaca uma plataforma de aprendizagem multimodal com IA criada especificamente para alunos surdos.

REPLIT

Maior paralelismo agentivo da internet acontece no Replit

Amjad Masad observa que o Replit hospeda mais atividade de desenvolvimento agentivo paralelo do que qualquer outra plataforma: 10 ativos, 198 em rascunho, mais de 700 concluídos.

FERRAMENTA

Visualizador de modelos do Hugging Face explora qualquer arquitetura

Uma nova ferramenta da comunidade visualiza arquiteturas de modelos do Hugging Face em qualquer granularidade, bastando inserir a URL do modelo, com suporte a comparação entre modelos.

ARTIGOS

Melhores artigos: sistemas multi-agente recursivos e modelagem de mundo

O Hugging Papers destaca as melhores pesquisas da semana sobre sistemas multi-agente recursivos, modelagem de mundo agentiva e estruturas organizacionais de IA.

ARTIGO

UniVidX: framework multimodal para geração de vídeo por difusão

O UniVidX propõe um framework multimodal unificado que utiliza priors de difusão, alcançando SOTA em tarefas de composição de camadas RGB e RGBA.

TENDÊNCIAS

Modelos da DeepSeek, Xiaomi e OpenAI em destaque no Hugging Face

Os modelos open-source em destaque no Hugging Face incluem lançamentos da DeepSeek, Xiaomi, OpenAI, Mistral AI e AI Pool, refletindo um cenário open-source diversificado.

OPINIÃO

Software é um cache de agentes

Uma tese provocadora: o software tradicional é essencialmente um cache de fluxos de trabalho de agentes comprovados, cristalizando processos confiáveis de múltiplas etapas em lógica determinística.

PESQUISA

Gradientes de Transformers são esparsos — baixo rank justificado

Uma investigação sobre gradientes de Transformers revela que são esparsos em certas dimensões, validando métodos de aproximação de baixo rank para treinamento e fine-tuning eficientes.

CLAUDE

Claude 4.7 explica com precisão as origens da injeção de prompt

Um relatório de pesquisa do Claude 4.7 traçou com precisão o histórico dos ataques de injeção de prompt, referenciando tweets e exemplos adversariais que primeiro demonstraram a vulnerabilidade.

PRODUTO

Luma Agents gera quadros de propostas vencedores para clientes

O Luma Agents planeja, gera e otimiza automaticamente quadros de propostas para clientes. Basta definir o briefing e a direção estética, e o agente produz propostas de alta qualidade.