CIÊNCIA E TECNOLOGIA

Empresas de tecnologia estão treinando IA para ler seus lábios

ialabios114/06/2021 - Primeiro veio o reconhecimento facial. Agora, uma forma inicial de IA de leitura labial está sendo implantada em hospitais, usinas de energia, transporte público e muito mais. Um paciente está sentado em uma cama de hospital, um curativo cobrindo seu pescoço com uma pequena abertura para o tubo de traqueostomia que fornece oxigênio. Por causa de sua cirurgia recente, o homem apresentado neste vídeo de marketing não pode vocalizar. Então, um médico segura um smartphone e registra o paciente enquanto ele fala uma frase curta.

Um aplicativo chamado SRAVI analisa os movimentos dos lábios e em cerca de dois segundos retorna sua interpretação – “Preciso de sucção”. Parece uma interação simples e, em alguns aspectos, o SRAVI (Aplicativo de Reconhecimento de Fala para Deficientes de Voz) ainda é bastante simplista. Ele só consegue reconhecer algumas dezenas de frases e faz isso com cerca de 90% de precisão. Mas o aplicativo, que é feito pela startup irlandesa Liopa, representa um grande avanço no campo de reconhecimento visual de fala (VSR), que envolve o treinamento de IA para ler lábios sem qualquer entrada de áudio. Provavelmente será o primeiro aplicativo de IA de leitura labial disponível para compra pública.

Os pesquisadores trabalham há décadas para ensinar os computadores a fazer leitura labial, mas é uma tarefa desafiadora, mesmo com os avanços nos sistemas de aprendizado profundo que ajudaram a resolver outros problemas históricos. A pesquisa foi impulsionada por uma ampla gama de possíveis aplicativos comerciais - de ferramentas de vigilância a aplicativos de comunicação silenciosa e desempenho aprimorado do assistente virtual. A Liopa está em processo de certificação do SRAVI como um dispositivo médico Classe I na Europa, e a empresa espera concluir a certificação até agosto, o que permitirá que ela comece a vender para profissionais de saúde.

Leia também - Cientistas criam pele artificial com tato capaz de transmitir sinais para cérebro

Embora suas intenções para a tecnologia não sejam claras, muitos dos gigantes da tecnologia também estão trabalhando na IA de leitura labial. Cientistas afiliados ou trabalhando diretamente para Google, Huawei, Samsung e Sony estão pesquisando sistemas VSR e parecem estar fazendo avanços rápidos, de acordo com entrevistas e a revisão da Motherboard de pesquisas e pedidos de patentes publicados recentemente. As empresas não responderam ou recusaram entrevistas para esta história.

À medida que a IA de leitura labial surge como um produto comercial viável, tecnólogos e vigilantes da privacidade estão cada vez mais preocupados com o modo como está sendo desenvolvido e como pode um dia ser implantado. O SRAVI, por exemplo, não é o único aplicativo de IA de leitura labial em que Liopa está trabalhando. A empresa também está na fase dois de um projeto com uma agência de pesquisa de defesa do Reino Unido para desenvolver uma ferramenta que permitiria às agências de aplicação da lei pesquisar imagens silenciosas de CCTV e identificar quando as pessoas dizem certas palavras-chave.

A empresa de vigilância Motorola Solutions tem uma patente para um sistema de leitura labial projetado para ajudar a polícia. A Skylark Labs, uma startup cujo fundador tem vínculos com a Agência de Projetos de Pesquisa Avançada de Defesa dos EUA (DARPA), disse à Motherboard que seu sistema de leitura labial está atualmente implantado em residências particulares e em uma empresa de energia controlada pelo estado na Índia para detectar linguagem obscena e abusiva. .

“Esta é uma dessas áreas, do meu ponto de vista, que é um bom exemplo de ‘só porque podemos fazer isso, não significa que devemos'”, disse Fraser Sampson, comissário de biometria e câmeras de vigilância do Reino Unido, ao Motherboard. “Minha principal preocupação nessa área não seria necessariamente o que a tecnologia poderia fazer e o que não poderia fazer, seria o efeito assustador de pessoas acreditando que ela poderia fazer o que diz. Se isso os impediu de falar em público, então estamos em uma área muito maior do que simplesmente privacidade, e a privacidade é grande o suficiente.”

O surgimento da IA ​​de leitura labial é uma reminiscência da tecnologia de reconhecimento facial, que foi uma área de pesquisa de nicho por décadas antes de ser comercializada silenciosamente, mas rapidamente, como uma ferramenta de vigilância no início dos anos 2000. Muitos dos problemas com o reconhecimento facial se tornaram de conhecimento público apenas nos últimos anos, devido em grande parte à pesquisa e ao ativismo de pessoas que estavam sendo ativamente prejudicadas por ele. Especificamente, o artigo histórico de 2018 em que Joy Buolamwini e Timnit Gebru revelaram pela primeira vez que o reconhecimento facial é menos preciso para mulheres e pessoas de cor.

Quando essas preocupações entraram no discurso dominante, o reconhecimento facial era onipresente em telefones, empresas privadas e câmeras de vigilância aninhadas nas esquinas de muitas cidades americanas. Pelo menos três homens negros foram falsamente presos devido ao reconhecimento facial – o número real é quase certamente maior – e a tecnologia foi usada para rastrear manifestantes do Black Lives Matter, entre uma variedade de outros propósitos questionáveis. Nos últimos dois anos, e quase 20 anos após a primeira grande implantação pública da tecnologia, campanhas populares em mais de uma dúzia de cidades e estados levaram à proibição da polícia e do uso privado de reconhecimento facial.

A reação contra o reconhecimento facial é emblemática de um movimento que está impulsionando uma mudança no pensamento sobre como os pesquisadores de IA devem considerar as futuras aplicações de suas descobertas. A prestigiosa conferência NeurIPS, por exemplo, exigiu que os pesquisadores apresentassem declarações de impacto sobre como suas descobertas podem afetar a sociedade junto com seus artigos pela primeira vez no ano passado.

“A pesquisa é fantástica, mas quando descobrimos que uma determinada vertente de conhecimento ou pesquisa tem consequências devastadoras, então, como pesquisadores, temos a responsabilidade de interrompê-la e implementar mudanças nas políticas”, Meredith Broussard, autora de Artificial Unintelligence: Como os computadores entendem mal o mundo, disse à Motherboard.

A IA de leitura labial ainda está em sua infância como tecnologia comercial, mas o foco inicial na vigilância está gerando preocupações de que a ciência esteja avançando tão rápido – e, em alguns casos, por trás de portas corporativas fechadas – que as consequências também se tornarão aparentes. tarde.

“É verdade que a ciência avançou muito rápido no início, mas no ano passado há várias discussões na literatura publicada em torno de considerações éticas para a tecnologia VSR”, disse Stavros Petridis, que recentemente começou a trabalhar para o Facebook, mas conversou com a Motherboard sobre sua pesquisa anterior no Imperial College London. “Dado que ainda não há aplicativos comerciais disponíveis, há boas chances de que, desta vez, considerações éticas sejam levadas em consideração antes que essa tecnologia seja totalmente comercializada”.

Rodrigo Mira, candidato a doutorado no Imperial College London (um dos principais grupos de estudos de IA de leitura labial), disse ao Motherboard que ele e seus colegas “sabem que nosso campo é controverso”. Ele comparou o trabalho do grupo ao teste de penetração – a prática de segurança cibernética de encontrar vulnerabilidades em sistemas de computador para corrigi-los. Em outras palavras, a pesquisa permite que instituições acadêmicas vinculadas a códigos de ética descubram novas tecnologias antes que possam ser implantadas por maus atores como criminosos.

“O principal na IA é que as pessoas precisam começar a falar sobre política o tempo todo”, disse Mira. “Não se trata de parar a pesquisa, é que temos esse poder de entender o que as pessoas estão dizendo apenas olhando para elas. Para que devemos usá-lo? A maneira de parar [usos antiéticos da tecnologia] não é fechar o Imperial College. A maneira de lidar com isso é lidar com isso como uma questão política”.

Os especialistas em IA concordam que a regulamentação governamental precoce e robusta de tecnologias de vigilância biométrica, como reconhecimento facial e IA de leitura labial, é necessária para evitar discriminação e danos – mas até agora, muitos governos falharam em promulgar leis adequadas. É por isso que os pesquisadores têm a responsabilidade não apenas de considerar as possíveis consequências, mas de incluir proativamente os grupos de pessoas com maior probabilidade de serem prejudicados pela tecnologia em seus processos de tomada de decisão.

Até agora, os especialistas dizem que essas considerações não estão sendo feitas para sistemas de reconhecimento visual de fala.

“Trata-se de criar ativamente uma tecnologia que pode ser usada para usos prejudiciais, em vez de identificar e mitigar vulnerabilidades na tecnologia existente”, disse Sarah Myers West, pesquisadora do AI Now Institute, ao Motherboard. “Os pesquisadores nem sempre estarão bem posicionados para fazer essas avaliações por conta própria. É por isso que é tão importante envolver as comunidades que serão afetadas por suas pesquisas durante todo o processo para antecipar e mitigar possíveis usos secundários prejudiciais.

O CEO da Liopa, Liam McQuillan, disse ao Motherboard que a empresa está a pelo menos um ano de ter um sistema que possa ler satisfatoriamente palavras-chave de imagens silenciosas de CCTV - um projeto que está sendo financiado pelo Acelerador de Defesa e Segurança Britânico - e que a empresa considerou a possibilidade de uma reação de privacidade. “Pode haver preocupações aqui que realmente proíbem o uso final dessa tecnologia. ... Não estamos apostando Liopa, certamente, neste caso de uso, mas está fornecendo financiamento.”

McQuillan também disse que a empresa está buscando proativamente abordar o potencial de preconceito racial ou de gênero, treinando seus algoritmos em dados coletados de um conjunto diversificado de clipes do YouTube, voluntários que se oferecem para contribuir com vídeos por meio de um aplicativo de coleta e uma empresa que faz a curadoria de conjuntos de dados projetado especificamente para incluir pessoas de diferentes raças e etnias. A empresa ainda não publicou nenhuma pesquisa sobre o desempenho de seus sistemas em grupos demográficos.

A Motherboard encontrou uma empresa que afirma estar vendendo ativamente sistemas de IA de leitura labial e abraçou totalmente o mercado de vigilância. Amarjot Singh, fundador e CEO da Skylark Labs, disse ao Motherboard que a empresa inicialmente lançou seu conjunto de tecnologia – que também inclui reconhecimento facial e algoritmos de detecção de violência e armas – para agências policiais na Índia. Mas a empresa encontrou pouco apetite pela função de leitura labial, devido aos desafios de implantá-la em espaços públicos lotados.

Desde então, o Skylark mudou para outros usos. Singh disse que a tecnologia de IA de leitura labial da empresa está atualmente sendo testada pela Punjab State Power Corporation Limited, uma concessionária controlada pelo governo, para detectar casos de funcionários se assediando. Vários indivíduos também compraram a tecnologia para monitorar suas babás, disse ele.

A Skylark diz que sua IA de leitura labial pode detectar cerca de 50 palavras diferentes associadas a xingamentos, abuso e violência. Singh publicou pesquisas sobre detecção de violência e reconhecimento facial, e a polícia indiana usou os drones da Skylark para impor o distanciamento social, de acordo com relatos da mídia local. Mas nem Singh nem a empresa publicaram qualquer pesquisa sobre IA de leitura labial.

A Motherboard entrou em contato com a Punjab State Power Corporation Limited e um indivíduo que Singh disse que usa a tecnologia em casa, mas não recebeu respostas antes da publicação.

“Estamos fazendo isso na natureza e tentando resolver casos de uso que têm uma implicação direta na segurança das pessoas”, disse Singh. “Acho que há mérito, já que o designer pode controlar as palavras que o sistema deve sinalizar, então acho que ainda está bem. O risco aqui é que, uma vez que você comece a calibrar os sistemas para captar a fala cotidiana na natureza, é quando se torna muito cabeludo [eticamente].”

Os pesquisadores e executivos da empresa entrevistados para esta história disseram ao Motherboard que levará anos até que a IA de leitura labial seja avançada o suficiente para interpretar conversas completas, se isso acontecer.

A tarefa é incrivelmente desafiadora - mesmo leitores de lábios humanos experientes são realmente muito ruins na interpretação palavra por palavra. Em 2018, a Deepmind, subsidiária do Google, publicou uma pesquisa revelando seu mais recente sistema de leitura labial de sentença completa. A IA alcançou uma taxa de erro de palavras (a porcentagem de palavras erradas) de 41% em vídeos contendo frases completas. Leitores de lábios humanos que assistiram a uma amostra semelhante de clipes apenas de vídeo tiveram taxas de erro de palavras de 93% quando não receberam contexto sobre o assunto e 86% quando receberam o título do vídeo, a categoria do assunto e várias palavras na frase. Esse estudo foi realizado usando um grande conjunto de dados com curadoria personalizada.

Leia também - Experimento de Ciba-Geigy

O grupo do Imperial College London apresentou um artigo este mês descrevendo um sistema de leitura labial de sentença completa treinado em um conjunto de dados menor e disponível publicamente de 400 horas de vídeo que pode atingir uma taxa de erro de palavras tão baixa quanto 37,9%.

Quando se trata de leitura labial de palavra-chave única – o tipo de ferramenta que a Liopa e a Skylark Labs estão buscando – a precisão é muito maior e teve melhorias significativas apenas no ano passado. Em 2017, a maior precisão alcançada no conjunto de dados de referência Lip Reading in the Wild foi de 83%. Esse zênite permaneceu essencialmente o mesmo até 2020, quando vários grupos em rápida sucessão provaram que podiam atingir 83% de precisão. Atualmente, o recorde é de 88,5% de precisão, alcançado pelo grupo Imperial College London em parceria com a Samsung, segundo um documento divulgado este mês.

É difícil saber qual é o verdadeiro pináculo, no entanto. A Deepmind – que muitos especialistas ainda consideram o principal player no campo – não publicou nenhuma pesquisa adicional de seu programa de leitura labial desde o artigo de 2018, e a empresa se recusou a discutir essa linha de trabalho.

Muitos dos pesquisadores com quem a Motherboard falou hesitaram em especular sobre o que as grandes empresas de tecnologia pretendem fazer com essa tecnologia emergente, ou onde e quando ela começará a ter efeitos perceptíveis no público em geral.

“Uma das coisas que os últimos 10 anos em IA e [aprendizado de máquina] nos mostraram é que não há como prever o futuro de maneira significativa”, disse Mira. “Mas é realmente imprudente subestimar as coisas.”

Fonte: https://www.vice.com/