8 de Maio de 2026 · Sexta-feira

OpenAI lança GPT-Realtime-2, modelo de voz com raciocínio de nível GPT-5

A OpenAI lançou o GPT-Realtime-2 em sua API, seu modelo de voz mais inteligente com raciocínio de nível GPT-5 para solução colaborativa de problemas em tempo real. Agentes de voz agora são colaboradores que ouvem, raciocinam e resolvem problemas complexos conforme a conversa se desenrola.

O GPT-Realtime-2 já está disponível na API Realtime da OpenAI para desenvolvedores.

O GPT-Realtime-2 representa o mais recente salto da OpenAI em modelos de voz, trazendo capacidades de raciocínio de nível GPT-5 para agentes conversacionais. Agora, os agentes de voz não apenas transcrevem e respondem — eles raciocinam, tomam decisões e resolvem problemas complexos enquanto a conversa se desenrola. O modelo já está disponível na API Realtime, ao lado de duas outras novidades: o GPT-Realtime-Translate, que traduz entre 70 idiomas de entrada para 13 de saída, e o GPT-Realtime-Whisper, que acelera ainda mais a transcrição em tempo real. Em benchmarks, o modelo alcançou 96,6% no Big Bench Audio, um salto significativo em relação aos 81,4% da geração anterior. Sam Altman descreveu o lançamento como "um passo muito grande à frente" e observou que cada vez mais pessoas estão usando voz para interagir com inteligência artificial, especialmente quando têm muito contexto para compartilhar.

Autoencoder de linguagem natural traduz ativações internas do Claude

A Anthropic treinou o Claude para traduzir suas ativações numéricas internas em texto legível, oferecendo uma nova ferramenta para interpretabilidade de modelos de linguagem.

Modelos como o Claude falam em palavras, mas pensam em números — a nova pesquisa traduz esses números.

Modelos como o Claude falam em palavras, mas pensam em números — as chamadas ativações. Esses números codificam os pensamentos do modelo, mas não em uma linguagem que possamos ler diretamente. A nova pesquisa da Anthropic treina o Claude para traduzir suas próprias ativações em texto legível por humanos, abrindo uma janela inédita para o funcionamento interno dos grandes modelos de linguagem e oferecendo novos caminhos para a interpretabilidade.

Codex da OpenAI chega ao Chrome com execução paralela em segundo plano

O agente de programação Codex agora funciona diretamente no Chrome no macOS e Windows, suportando execução paralela em múltiplas abas em segundo plano, sem ocupar a interface do navegador.

Basta instalar o plugin do Chrome no aplicativo Codex para começar a usar.

O Codex agora pode testar aplicações web, coletar contexto entre abas e usar as DevTools do navegador de forma eficiente e paralela. Com a nova extensão para Chrome, o agente trabalha em segundo plano, mantendo os resultados organizados sem tomar o controle do navegador do usuário. A extensão está disponível no macOS e Windows.

Anthropic doa ferramenta de alinhamento Petri a organização sem fins lucrativos

A Anthropic doou sua ferramenta de alinhamento de código aberto Petri para a Meridian Labs, garantindo seu desenvolvimento independente. O Petri é usado desde o Claude Sonnet 4.5 para avaliar todos os modelos Claude quanto a tendências prejudiciais como enganação e bajulação. Uma grande atualização foi lançada, melhorando a adaptabilidade, o realismo e a profundidade dos testes.

API do xAI lança Modo de Qualidade de Geração de Imagens

O xAI introduziu o Modo de Qualidade de Geração de Imagens em sua API, melhorando o fotorrealismo e a renderização de texto. O modelo, que alimenta a geração de imagens no Grok, já produziu mais de 300 milhões de imagens. O novo modo oferece maior controle criativo para profissionais de negócios.

Perplexity lança Personal Computer para Mac, opera arquivos e apps locais

O Personal Computer da Perplexity agora está disponível como aplicativo para Mac, capaz de executar tarefas em arquivos locais, aplicativos nativos do macOS, na web e nos servidores seguros da Perplexity. É uma versão avançada do Perplexity Computer original e está disponível para todos os usuários.

As pessoas estão realmente começando a usar voz para interagir com IA, especialmente quando têm muito contexto para compartilhar. O GPT-Realtime-2 chega à API hoje; é um passo muito grande à frente.
Sam Altman, CEO da OpenAI

Cursor lança /orchestrate, gera agentes recursivamente para tarefas complexas

A habilidade /orchestrate do Cursor gera agentes recursivamente, usada internamente para pesquisa automatizada com redução de 20% no uso de tokens e redução de 80% no tempo de inicialização a frio do backend.

A nova habilidade do Cursor SDK permite enfrentar as tarefas mais ambiciosas gerando agentes recursivamente que trabalham em paralelo. Internamente, a equipe a utilizou para automatizar a pesquisa de habilidades internas, cortando o uso de tokens em 20% enquanto melhorava as avaliações. Os tempos de inicialização a frio do backend interno foram reduzidos em 80%.

Claude Mythos comprova eficácia na segurança do Firefox

A Mozilla utilizou a versão preview do Claude Mythos para reforçar a segurança do Firefox, confirmando que o modelo não é apenas marketing. O Mythos reproduziu bugs reais e filtrou falsos positivos com eficácia. O autor do estudo observa que bons modelos são bons em muitas tarefas — espere capacidades semelhantes da OpenAI, Google e de modelos open source nos próximos meses.

OpenAI lança três novos modelos de voz na API Realtime

Além do GPT-Realtime-2 para conversação inteligente, a OpenAI apresentou o GPT-Realtime-Translate, que traduz entre 70 idiomas de entrada para 13 de saída, e o GPT-Realtime-Whisper, que acelera a transcrição em tempo real. Os três modelos já estão disponíveis na API.

PhysForge: Estrutura para gerar ativos 3D fisicamente interativos

O PhysForge propõe uma estrutura desacoplada de dois estágios usando planejamento de blueprint físico e modelos de difusão guiados por física para gerar ativos 3D funcionais e prontos para simulação. O artigo foi aceito no ICML 2026.

Zhipu publica relatório técnico do GLM-5V-Turbo para agentes multimodais

O relatório resume as principais melhorias no design do modelo, treinamento multimodal, aprendizado por reforço, expansão da cadeia de ferramentas e integração com frameworks de agentes.

AlphaEvolve do Google DeepMind acelera pesquisas em quântica e biotecnologia

O agente de codificação AlphaEvolve, baseado no Gemini, acelerou avanços em computação quântica, biotecnologia e logística no último ano, demonstrando o impacto de agentes de código em domínios científicos diversos.

Claude é integrado ao Microsoft 365: Excel, PowerPoint, Word e Outlook

Os plugins do Claude para Excel, PowerPoint e Word saíram do beta e entraram em disponibilidade geral. O plugin do Outlook entrou em fase de testes públicos. Agora é possível usar o Claude diretamente dentro dos aplicativos do Office, sem precisar alternar para a interface web.

Maior parte da computação em LLMs é gasta no desenvolvimento da receita

Pesquisa de Jacob Cares mostra que a grande maioria do poder computacional na construção de LLMs é consumida no desenvolvimento da receita de treinamento, não nas execuções finais. Criar a receita abertamente é uma grande alavanca para garantir que a computação da comunidade de pesquisa gere novo conhecimento.

Breves08 · 05

xAI

Grok Voice Think Fast 1.0 para atendimento ao cliente

Projetado para ambientes ruidosos, gerencia fluxos complexos com velocidade e precisão.

Curso

Andrew Ng lança curso sobre agentes com UI personalizada

Ensina a criar agentes que respondem com gráficos, formulários e quadros interativos sob demanda.

OpenAI

Guia de prompting para GPT-Realtime-2 é publicado

Cobre ajuste de raciocínio, design de preâmbulos, comportamento de ferramentas e manutenção de estado em sessões longas.

Ferramenta

OpenAI lança CLI openai-cli para terminal

Chamadas diretas à API sem SDK. Open source sob licença Apache 2.0, instalável via Homebrew ou Go.

Infraestrutura

Detalhes do acordo de data center Colossus entre xAI e Anthropic

Anthropic recebe Colossus 1, mas histórico ambiental preocupa. xAI mantém Colossus 2 e desliga modelos antigos com duas semanas de aviso.

Tribunal

Mensagens da noite do golpe na OpenAI são reveladas

No caso Musk vs. OpenAI, mensagens internas de novembro de 2023 entre Mira Murati e Sam Altman foram tornadas públicas em tribunal.

Notas da Semana08 · 05

Anthropic

Programa de recompensa por bugs aberto no HackerOne

Qualquer pessoa pode reportar vulnerabilidades e receber recompensas.

Paper

Stream-R1: destilação de recompensa para vídeo em streaming

Melhora qualidade visual, de movimento e alinhamento textual sem custo computacional adicional.

Tencent

Uso de tokens do Hunyuan Hy3 cresce 10x

Cargas de código e agentes são os principais motores; produtos internos cresceram 16,5x.

Anthropic

Instituto TAI publica agenda de pesquisa em quatro frentes

Difusão econômica, ameaças e resiliência, sistemas de IA em ambiente real e P&D impulsionado por IA.

Codex

Codex ganha capacidade de testar apps web em múltiplas abas

O novo plugin do Chrome permite usar DevTools em paralelo e manter resultados organizados.