CIÊNCIA E TECNOLOGIA

Nova IA engana os humanos que acreditam que efeitos sonoros sintetizados são reais

efeisono110/08/2020, por Michelle Hampson - Usando o aprendizado de máquina, o AutoFoley determina quais ações estão ocorrendo em um videoclipe e cria efeitos sonoros realistas. Imagine que você está assistindo a um filme de terror: a heroína se esgueira por um porão escuro, em alerta máximo. Música de suspense toca ao fundo, enquanto alguma criatura sinistra e invisível se arrasta nas sombras ... e então - BANG! Ele derruba um objeto.

Essas cenas dificilmente seriam tão cativantes e assustadoras sem os efeitos sonoros intensos, mas perfeitamente sincronizados, como o estrondo que fez nosso personagem principal girar de medo. Normalmente, esses efeitos sonoros são gravados por artistas Foley em estúdio, que produzem os sons usando uma grande quantidade de objetos à sua disposição. Gravar o som de vidro quebrando pode envolver a quebra de vidro repetidamente, por exemplo, até que o som corresponda ao do videoclipe. Em uma reviravolta na história mais recente, os pesquisadores criaram um programa automatizado que analisa o movimento nos quadros do vídeo e cria seus próprios efeitos sonoros artificiais para combinar com a cena. Em uma pesquisa, a maioria das pessoas entrevistadas indicou que acreditava que os efeitos sonoros falsos eram reais. O modelo, AutoFoley, é descrito em um estudo publicado em 25 de junho no IEEE Transactions on Multimedia.

“Adicionar efeitos sonoros na pós-produção usando a arte de Foley tem sido uma parte intrincada das trilhas sonoras de filmes e televisão desde os anos 1930”, explica Jeff Prevost, professor da Universidade do Texas em San Antonio que co-criou o AutoFoley. “Os filmes pareceriam vazios e distantes sem a camada controlada de uma trilha sonora realista de Foley. No entanto, o processo de síntese de som de Foley, portanto, adiciona tempo e custo significativos à criação de um filme. ”

Intrigado com a ideia de um sistema Foley automatizado, Prevost e seu Ph.D. estudante, Sanchita Ghose, começou a criar um programa de aprendizado de máquina de várias camadas. Eles criaram dois modelos diferentes que podem ser usados ​​na primeira etapa, que envolve identificar as ações em um vídeo e determinar o som apropriado.

O primeiro modelo de aprendizado de máquina extrai recursos de imagem (como cor e movimento) dos quadros de clipes de ação em movimento rápido para determinar um efeito sonoro apropriado. O segundo modelo analisa a relação temporal de um objeto em quadros separados.

Leia também - Cornell Engineers criam um material robótico que exibe três características essenciais para a vida

Ao usar o raciocínio relacional para comparar diferentes quadros ao longo do tempo, o segundo modelo pode antecipar que ação está ocorrendo no vídeo. Em uma etapa final, o som é sintetizado para coincidir com a atividade ou movimento previsto por um dos modelos. Prevost e Ghose usaram AutoFoley para criar som para 1.000 clipes de filme curtos capturando uma série de ações comuns, como chuva caindo, um cavalo galopando e um relógio.

A análise mostra - sem surpresa - que o AutoFoley é melhor na produção de sons onde o tempo não precisa se alinhar perfeitamente com o vídeo (como chuva caindo ou fogo crepitante). Mas é mais provável que o programa fique fora de sincronia com o vídeo quando as cenas visuais contêm ações aleatórias com variação no tempo (como digitação ou tempestades). Em seguida, Prevost e Ghose pesquisaram 57 estudantes universitários locais em que clipes de filme eles pensavam incluir trilhas sonoras originais. Ao avaliar as trilhas sonoras geradas pelo primeiro modelo, 73% dos alunos pesquisados ​​escolheram o clipe AutoFoley sintetizado como peça original, em vez do clipe de som original verdadeiro. Ao avaliar o segundo modelo, 66% dos entrevistados escolheram o clipe AutoFoley em vez do clipe de som original.

“Uma limitação da nossa abordagem é o requisito de que o assunto da classificação esteja presente em toda a sequência de quadros do vídeo”, diz Prevost, também observando que o AutoFoley atualmente depende de um conjunto de dados com categorias de Foley limitadas. Embora a patente do AutoFoley ainda esteja nos estágios iniciais, Prevost diz que essas limitações serão abordadas em pesquisas futuras.

Fonte: https://spectrum.ieee.org/