,

Inteligência artificial consegue reconstruir rostos a partir da própria voz

 

Cientistas do MIT treinam algoritmo para associar sinais vocais e traços faciais específicos – e, assim, “adivinhar” a aparência de quem está falando.

Nossa vida está cheia de imagens sem rosto. Carros de som com anúncios, promoções em áudio dentro de lojas de departamento, narração de trailers, a voz que dita as estações dentro do metrô. Enquanto nosso cérebro procura imaginar esses rostos, um grupo de cientistas do Instituto de Tecnologia de Massachusetts (MIT) foi além: criou um inteligencia artificial que consegue reconstruir rostos utilizando apenas a voz.

Funciona assim: a equipe treinou uma AI com a ajuda de milhões de clipes on-line, onde apareceram mais de 100.000 falantes diferentes. Chamada de Speech2Face, a tecnologia usou esse conjunto de dados para determinar pontos em comum entre sinais vocais e características faciais específicas. Depois disso, gerou imagens fotorrealistas de indivíduos com expressões neutras.

Resultado de imagem para Inteligência artificial consegue reconstruir rostos a partir da própria vozOs cientistas explicam no estudo que idade, sexo, a forma da boca, tamanho dos lábios, estrutura óssea, linguagem, sotaque, velocidade e pronúncia são fatores que influenciam a mecânica da fala. E, com todas essas informações, é possível reconstruir um rosto. Veja na imagem abaixo o que a AI é capaz de fazer:

Além disso, o algoritmo ainda tem algumas falhas. Já foi apontado que o modelo tem dificuldade de analisar possíveis variações de língua. Por exemplo, quando ouviu um áudio de um asiático falando chinês, o Speech2Face produziu uma face da etnia correta, mas quando o mesmo indivíduo foi gravado falando inglês, a IA gerou a imagem de um homem branco.

Em outros casos, homens que falam mais fino, com um voz de “alta frequência”, incluindo crianças, foram identificados erroneamente como mulheres – cerca de 6% dos rostos criados foram do sexo errado. Isso revela um certo viés de gênero da tecnologia, associando pessoas de vozes grossas com homens e de voz mais aguda com mulheres.

Como os dados usados no treinamento da IA foram em grande parte derivados de vídeos educacionais postados no YouTube, os pesquisadores ainda apontam que o algoritmo falha em “representar igualmente toda a população mundial”.

No estudo, os cientistas também afirmam que essa tecnologia poderia um dia encontrar uma série de aplicações úteis, como a geração de rostos em chamadas de vídeo sem a necessidade de câmeras. Para não dizer “isso é muito Black Mirror”… estamos efetivamente chegando a um nível de ficção científica que nem a própria ficção científica pensou em prever.

 

 

Por Ingrid Luisa

Para a Superinteressante

 

0 respostas

Deixe uma resposta

-
Sinta-se livre para contribuir!

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *