Google lança Gemini Omni para criar e editar vídeos ‘conversando’ com IA

A nova tecnologia de inteligência artificial do Google permite editar vídeos e criar clones digitais com comandos intuitivos.

Publicado: 21/05/2026 08:03
Alterado: 21/05/2026 08:03
Autor: Thiago Antunes
Fonte: Google

Crédito: Reprodução/YouTube

O Google apresentou o Gemini Omni durante o Google I/O 2026, conferência para desenvolvedores sediada em Mountain View, na Califórnia (EUA). A nova ferramenta multimodal cria e edita vídeos com aspecto ultrarrealista a partir da combinação de imagens, áudio e texto.

A tecnologia dispensa softwares profissionais pesados. O usuário envia uma gravação bruta e solicita alterações diretas por meio do chat. A inteligência artificial executa modificações precisas, adiciona novos personagens ou transforma o ambiente da cena por completo de forma imediata.

Como o Gemini Omni transforma a produção audiovisual

Divulgação/Google

O sistema compreende a continuidade lógica dos quadros para manter a fluidez temporal e espacial. O Gemini Omni preserva a consistência visual, a iluminação e os ângulos da gravação original enquanto executa os ajustes estéticos e de roteiro solicitados pelo criador.

A liberação global acontece hoje para assinantes dos pacotes Google AI Plus, Pro e Ultra. O aplicativo oficial da IA e a plataforma Google Flow já recebem a integração nativa dos recursos de edição generativa.

A companhia confirmou a disponibilização gratuita da ferramenta de vídeo para o ecossistema de criadores. A tecnologia chega ao YouTube Shorts e ao aplicativo YouTube Create até o final desta semana.

Avatares digitais e segurança digital

Essa nova aplicação do Gemini Omni permite gerar clones digitais com a voz e a fisionomia exata do próprio usuário. A arquitetura processa as informações pessoais para animar o modelo tridimensional de forma hiper-realista, operando com a mecânica de um deepfake autoral.

“Estamos comprometidos em desenvolver IA de forma responsável e temos políticas claras para proteger os usuários de danos”, declarou a companhia durante a demonstração da funcionalidade de avatar.

Para rastrear a origem e conter a disseminação de desinformação, todo conteúdo recebe o SynthID. Essa marca d’água digital imperceptível garante a identificação técnica rápida de que os pixels sofreram processamento sintético.

Diferenças para os modelos generativos anteriores

A big tech já operava o Veo 3, focado em entregar peças audiovisuais a partir de comandos exclusivamente escritos. O arquiteto-chefe de IA do Google DeepMind, Koray Kavukcuoglu, explicou que a estrutura dos dois sistemas apresenta propósitos operacionais distintos.

“O Veo funciona no modelo tradicional de texto para vídeo. Já o modelo atual é construído desde o início para receber e combinar diferentes tipos de arquivos em um único comando”, afirmou Kavukcuoglu.

A empresa já prepara o lançamento de uma versão corporativa mais potente, temporariamente chamada de Omni Pro, desenvolvida para expandir as capacidades profissionais do Gemini Omni em futuras atualizações.

Tópicos