As vozes sintéticas já fazem parte do quotidiano, desde assistentes virtuais até chamadas automatizadas de apoio ao cliente. No entanto, um novo estudo indica que a forma mais recente de voz artificial pode ter uma vantagem inesperada face a pessoas reais.
Em ambientes ruidosos, as clones de voz podem ser mais fáceis de perceber do que as vozes humanas das quais foram copiadas.
Uma equipa de investigadores da University College London e da University of Roehampton analisou até que ponto os ouvintes compreendiam fala humana e fala clonada quando havia ruído de fundo. O desfecho surpreendeu até quem conduziu o trabalho: em vez de soarem piores ou mais estranhas, as vozes clonadas ficaram consistentemente à frente.
Como a IA copia vozes humanas
As clones de voz não são exactamente iguais às vozes sintéticas mais antigas que muitas pessoas associam à Siri, à Alexa ou a sistemas de navegação. Essas vozes tradicionais tendem a depender de horas de gravações feitas por um actor de voz.
A clonagem de voz, por outro lado, consegue recriar algo muito próximo da voz de uma pessoa com apenas alguns segundos de fala, o que torna a tecnologia muito mais simples de aplicar e muito mais escalável.
Isso também significa que o número de vozes possíveis cresce de forma abrupta. Já não é necessário ter um profissional num estúdio durante horas, porque a voz de quase qualquer pessoa pode ser copiada a partir de uma amostra muito curta.
Esta possibilidade abre caminho a todo o tipo de utilizações, desde ferramentas de acessibilidade até entretenimento, mas também a aplicações bastante mais preocupantes, como a personificação e a fraude.
Testar a clareza das clones de voz no ruído
Ainda assim, o estudo estava concentrado num ponto mais específico: a inteligibilidade básica. Até que ponto estas vozes clonadas são fáceis de entender por pessoas comuns? À partida, os investigadores esperavam que as clones tivessem pior desempenho - algo que, intuitivamente, pareceria lógico.
À primeira vista, uma cópia feita por máquina, sobretudo quando é gerada a partir de uma amostra curta, deveria soar menos natural e, por isso, ser mais difícil de acompanhar. Só que não foi isso que aconteceu.
“Pensei inicialmente que as clones de voz seriam menos inteligíveis por serem desconhecidas”, afirmou a co-autora do estudo, Patti Adank, professora de Percepção e Produção da Fala na UCL.
“Descobri que eram até 20 por cento mais inteligíveis, o que foi bastante chocante. Uma pequena parte do nosso artigo fala dessa experiência e, depois, uma grande parte sou eu e o meu colaborador a tentarmos freneticamente perceber o que é que torna essas clones de voz mais inteligíveis.”
Pôr as vozes de IA à prova
Para explorar a questão, os investigadores compararam vozes humanas e as respectivas versões clonadas em condições de escuta com ruído.
Num ensaio online com 80 participantes, compararam 10 vozes humanas com 10 clones, variando por quatro níveis diferentes de relação sinal-ruído.
Os resultados indicaram que as vozes clonadas eram mais fáceis de compreender, com o benefício de inteligibilidade a atingir até 20 por cento.
Mais interessante ainda: a vantagem não desapareceu quando a equipa alterou o público ou as condições de escuta.
Vozes clonadas são fáceis de compreender
Após a primeira ronda, os investigadores repetiram o trabalho com voluntários mais velhos para verificar se eventuais dificuldades auditivas poderiam mudar o padrão.
Também repetiram o teste com ouvintes americanos, já que o primeiro grupo era britânico, e depois avaliaram um filtro concebido para imitar implantes cocleares.
Em todos os cenários, as vozes clonadas continuaram a ser mais fáceis de entender. Esta consistência torna difícil atribuir o resultado a um acaso.
Se as clones de voz só tivessem superado as vozes humanas num único cenário muito específico, seria mais simples relativizar o achado. Mas a vantagem manteve-se entre diferentes grupos e condições.
Isto sugere que existe algo sistemático na forma como estas vozes estão a ser geradas.
Onde as vozes de IA podem ajudar
À primeira vista, este resultado pode parecer apenas uma curiosidade técnica. Na prática, importa bastante, porque a fala sintética está a tornar-se rapidamente parte da vida comum.
Se as vozes clonadas são mais claras do que as vozes humanas em ambientes ruidosos, podem tornar-se atractivas para anúncios públicos e dispositivos de apoio. Podem também melhorar sistemas de navegação e tecnologias de comunicação desenhadas para pessoas com dificuldades auditivas.
Ao mesmo tempo, essa mesma vantagem pode fazer com que as vozes clonadas pareçam mais persuasivas ou mais autoritativas do que realmente são.
Uma voz que atravessa melhor o ruído pode também soar mais suave, mais controlada e, em determinadas situações, mais digna de confiança.
Isto levanta uma questão de outro tipo - que o artigo não responde propriamente, mas deixa discretamente em suspenso. Se as vozes de IA são mais fáceis de entender do que as humanas, até que ponto o nosso ambiente de escuta poderá deslocar-se para elas?
Porque é que as vozes de IA soam melhor
O resultado também diz algo curioso sobre a própria fala humana. As vozes reais transportam muita variação. São moldadas por hesitações, respiração, ênfase, sotaque, aspereza e milhares de pequenas imperfeições.
Uma clone de voz pode preservar o suficiente da identidade do orador original, ao mesmo tempo que suaviza, sem alarde, alguns dos pormenores mais “desarrumados” que tornam a fala real mais difícil de captar em más condições de escuta.
Isto ainda não está provado, mas é uma explicação plausível para o facto de as clones poderem estar a superar vozes humanas. Este último ponto é uma inferência baseada nos resultados apresentados, e não algo que o estudo tenha estabelecido de forma definitiva.
O mistério da fala artificial
Por agora, os investigadores ainda não têm uma resposta final sobre o que está a provocar este efeito. E é precisamente essa incerteza que torna o estudo tão apelativo.
“Agora vou tentar recriar [o efeito] estudando como funcionam os sintetizadores e como usam processamento digital de sinal para gerar essas vozes, só para perceber melhor isto”, disse Adank.
Assim, a parte surpreendente já não é saber se as vozes clonadas conseguem igualar as vozes reais. Neste estudo, parecem ter feito melhor.
O verdadeiro mistério, neste momento, é perceber porquê. Quando os investigadores compreenderem isso, poderá ensinar-nos algo não só sobre fala artificial, mas também sobre o que faz com que qualquer voz seja fácil de seguir - e de confiar - ao ouvido humano, em primeiro lugar.
Comentários
Ainda não há comentários. Seja o primeiro!
Deixar um comentário