Google Veo 3.1 Supera o Teste do Espaguete de Will Smith, Mas Áudio Ainda Apresenta Falhas
Editado por: gaya ❤️ one
A Google anunciou em 2025 o lançamento do Veo 3.1, a mais recente iteração de seu modelo de geração de vídeo por inteligência artificial. Este avanço representa um salto significativo na capacidade de traduzir comandos textuais e visuais em produções de alta definição, exibindo uma sincronia sofisticada entre áudio, diálogos e efeitos sonoros. O marco fundamental que atesta essa evolução foi a aprovação do modelo no notório teste do "Will Smith comendo espaguete", um desafio que se tornou um parâmetro informal para medir a fidelidade de representação de movimentos humanos complexos.
O teste do espaguete, que em 2023 expôs as limitações de modelos anteriores com imagens distorcidas e "demoníacas", agora é superado pelo Veo 3.1, que simula com precisão detalhes finos, como as nuances das expressões faciais durante a alimentação. No entanto, a perfeição visual ainda não se estende ao domínio sonoro. Observadores relataram que, apesar do realismo assustador das imagens, os efeitos sonoros, especificamente o som da mastigação do macarrão, soaram artificiais, com relatos de um ruído de "crocante" exagerado. Essa discrepância sinaliza que o refinamento na síntese de áudio em IA continua sendo uma área prioritária para a empresa.
Em resposta à crescente sofisticação do conteúdo sintético, a Google está reforçando as medidas de transparência e rastreabilidade. A empresa incorporou marcas d'água digitais invisíveis, denominadas SynthID, desenvolvidas pela Google DeepMind, que inserem uma assinatura digital indetectável ao olho humano, mas verificável tecnologicamente, diretamente nos pixels do material gerado. Adicionalmente, o material produzido pelo Veo 3.1 será rotulado para diferenciar a criação artificial da realidade tangível, visando fomentar a confiança no ecossistema digital.
A superação deste teste informal, que se popularizou nas redes sociais, ilustra a vertiginosa velocidade da evolução tecnológica no campo da IA generativa. Enquanto a capacidade de gerar vídeos com diálogos e música coerentes já é uma realidade, a atenção da indústria agora se concentra em como a sociedade irá gerenciar esta nova fronteira, onde a distinção entre o que é criado e o que é vivido exige um exercício constante de discernimento e responsabilidade na informação consumida.
Fontes
Webtekno
PetaPixel
South China Morning Post
Quartz
Leia mais notícias sobre este tema:
Ações da Alphabet Disparam Após Anúncio do Gemini 3 e Revelação de Participação da Berkshire Hathaway
Nvidia e Microsoft Investem US$ 15 Bilhões na Anthropic, Elevando Avaliação para US$ 350 Bilhões
O GitHub Universe 2025 Apresenta o Agent HQ para Unificar Fluxos de Trabalho Fragmentados de Desenvolvedores de IA
Encontrou um erro ou imprecisão?
Vamos considerar seus comentários assim que possível.
