CIÊNCIA E TECNOLOGIA

O escritor James Vlahos explica como a computação por voz mudará a maneira como vivemos

inteligen120/05/2019 - Voz é o que dá vida à inteligência artificial, diz o escritor James Vlahos. É um aspecto "estimulante da imaginação" da tecnologia, que faz parte de histórias e ficção científica há muito tempo. E agora, argumenta Vlahos, está pronto para mudar tudo. Vlahos é o autor de Talk to Me: Como a computação em voz transformará a maneira como vivemos, trabalhamos e pensamos (Houghton Mifflin Harcourt). Já é o caso de assistentes domiciliares falarem e mostrarem personalidade - e à medida que essa tecnologia se desenvolve, ela trará uma série de perguntas com as quais ainda não tínhamos considerado antes.

O Verge conversou com Vlahos sobre a ciência da computação por voz, quais pessoas serão mais beneficiadas e o que isso significa para o poder da Big Tech. Esta entrevista foi levemente editada para maior clareza.O que exatamente está acontecendo quando você fala com um gadget como o Alexa e ele responde de volta? Se você está acostumado a conversar com Siri ou Alexa e diz algo e ouve algo em resposta, parece que um processo está ocorrendo. Mas você realmente deve pensar nisso como várias coisas, cada uma das quais é complexa de se realizar.
Primeiro, as ondas sonoras da sua voz precisam ser convertidas em palavras, para que seja o reconhecimento automático de fala, ou ASR. Essas palavras devem ser interpretadas pelo computador para descobrir o significado, e isso é NLU, ou entendimento da linguagem natural. Se o significado foi entendido de alguma maneira, o computador precisa descobrir algo para responder, de modo que é NLG, ou geração de linguagem natural. Depois que essa resposta é formulada, há uma síntese de fala, que leva as palavras para dentro de um computador e as converte novamente em som.

Cada uma dessas coisas é muito difícil. Não é tão simples quanto o computador procurar uma palavra em um dicionário e descobrir as coisas. O computador precisa entender como o mundo e as pessoas trabalham para poder responder.

Leia também - Torre de Estacionamento - Nova Solução Mundial

Existem avanços realmente emocionantes nessa área que despertaram sua curiosidade?

Há muito trabalho realmente interessante sendo feito na geração de linguagem natural, onde as redes neurais estão criando coisas originais para o computador dizer. Eles não estão apenas pegando palavras prescritas, estão fazendo isso depois de serem treinados em grandes volumes de fala humana - legendas de filmes, tópicos do Reddit e outros. Eles estão aprendendo o estilo de como as pessoas se comunicam e os tipos de coisas que a pessoa B pode dizer depois da pessoa A. Então, o computador sendo criativo até certo ponto, chamou minha atenção.

Qual é o objetivo final disso? Como será quando a computação por voz for onipresente?

A grande oportunidade é que os computadores e telefones que estamos usando agora realmente desapareçam em sua primazia e importância em nossas vidas tecnológicas e que os computadores desapareçam. Você precisa de informações e deseja fazer alguma coisa, apenas fala e os computadores fazem sua oferta. Essa é uma grande mudança. Sempre fomos fabricantes de ferramentas e usuários de ferramentas. Sempre há coisas que seguramos, agarramos, tocamos ou deslizamos. Então, quando você imagina que tudo está acabando e seu poder de computação é efetivamente invisível, porque estamos falando de pequenos microfones incorporados no ambiente que estão conectados à nuvem - essa é uma mudança profunda. Um segundo grande problema é que estamos começando a ter relacionamentos com computadores. As pessoas gostam de seus telefones, mas você não o trata como pessoa, por si só. Estamos na era em que começamos a tratar os computadores como seres. Eles exibem emoções até certo ponto e têm personalidades. Eles não gostam, nós os procuramos por companhia. Esses são novos tipos de coisas que você não espera do seu fogão, micro-ondas ou smartphone.

Quem pode se beneficiar mais com a ascensão dos assistentes de voz? Os idosos são um grupo que geralmente ouvimos falar - especialmente porque eles podem ter uma visão ruim e achar mais fácil conversar. Quem mais?

Os idosos e as crianças são realmente os porquinhos-da-índia para computação de voz e IA personificada. As pessoas idosas têm frequentemente o problema de ficar muito sozinhas, por isso são as que têm maior probabilidade de começar a conversar com Alexa. Existem também aplicativos por aí em que a IA de voz é usada quase como babá, dando lembretes de medicamentos ou permitindo que os membros da família façam check-ins remotos. Embora, e para não generalizar demais, algumas pessoas mais velhas tenham demência e é um pouco mais difícil reconhecer que o computador não está realmente vivo. Da mesma forma, para as crianças, sua compreensão da realidade não é tão firme, de modo que eles estão mais dispostos a se envolver com essas IAs personificadas, como se estivessem realmente vivas de alguma maneira. Você também vê as AIs de voz sendo usadas como babás virtuais, como, eu não estou em casa, mas a AI pode tomar cuidado. Isso ainda não está totalmente acontecendo, mas parece estar próximo de acontecer de algumas maneiras.

O que acontecerá quando recebermos babás virtuais e tal e toda a tecnologia desaparecer em segundo plano?

O cenário sombrio é que procuramos menos companhia humana, porque podemos recorrer aos nossos amigos digitais. Já existem dados chegando à Amazon que as pessoas estão recorrendo ao Alexa para companhia, bate-papo e conversa fiada. Mas você pode girar isso de uma maneira positiva e às vezes eu faço. Ainda bem que estamos tornando as máquinas mais humanas. Goste ou não, passamos muito tempo na frente do nosso computador. Se essa interação se tornar mais natural e menos relacionada a apontar, clicar e deslizar, estamos caminhando na direção de sermos mais autênticos e humanos, em vez de termos que nos tornar quase máquinas à medida que interagimos com os dispositivos. E acho que vamos entregar uma autoridade mais centralizada à Big Tech. Especialmente quando se trata de algo como pesquisa na Internet, é menos provável que procuremos, encontremos as informações que queremos, sintetizamos, abrimos revistas, livros abertos, o que fazemos para obter informações, em vez de apenas fazer perguntas aos nossos oráculos de IA de voz . É realmente conveniente poder fazer isso, mas também damos ainda mais confiança e autoridade a uma empresa como o Google para nos dizer o que é verdade.

Quão diferente é esse cenário da atual preocupação com "notícias falsas" e desinformação?

Com os assistentes de voz, não é prático ou desejável que, quando você fizer uma pergunta, forneça o equivalente verbal de 10 links azuis. Então, o Google tem que escolher qual resposta dar. Bem ali, eles estão recebendo um enorme poder de gatekeeper para selecionar quais informações são apresentadas, e a história mostrou que, se você consolidar o controle das informações de maneira muito alta nas mãos de uma única entidade, isso raramente será bom para a democracia. No momento, a conversa está muito centrada em notícias falsas. Com assistentes de voz, vamos inclinar em uma direção diferente. O Google terá que se concentrar realmente em não apresentar [notícias falsas]. Se você estiver apresentando apenas uma resposta, é melhor não ser lixo. Eu acho que a conversa vai se voltar mais para a censura. Por que eles escolhem o que é considerado fato?

Quanto devemos nos preocupar com a privacidade e os tipos de análises que podem ser feitas com voz?

Estou igualmente preocupado com as implicações de privacidade, assim como apenas com os smartphones em geral. Se as empresas de tecnologia estão abusando desse acesso à minha casa, elas podem fazê-lo igualmente com o meu computador, assim como o Alexa sentado do outro lado da sala, Isso não minimiza as preocupações com a privacidade. Eu acho que eles são muito, muito reais. Eu acho injusto destacar os dispositivos de voz como sendo piores. Embora exista a sensação de que os estamos usando em diferentes configurações, na cozinha e na sala de estar.

Mudando um pouco de assunto, seu livro passa algum tempo discutindo as personalidades de vários assistentes de voz. Quão importante é para as empresas que seus produtos tenham personalidade?

Leia também - Há pelo menos 11 galáxias errantes circulando pelo universo

A personalidade é importante. Definitivamente, isso é fundamental, caso contrário, por que a voz? Se você quer eficiência pura, pode ser melhor usar um telefone ou desktop. O que ainda não aconteceu muito é a diferenciação entre Cortana, Alexa e Siri. Não estamos vendo empresas de tecnologia projetarem personalidades muito diferentes com uma idéia para capturar diferentes fatias do mercado. Eles não estão fazendo o que a televisão a cabo ou a Netflix fazem onde você tem todos esses programas diferentes que estão cortando e cortando o cenário do consumidor. Minha previsão é que faremos isso no futuro. No momento, o Google, a Amazon e a Apple querem ser apreciados pelo maior número de pessoas, de modo que eles são bastante amplos, mas [acho que eles desenvolverão] a tecnologia para que meu assistente não seja o mesmo que seu assistente não seja o mesmo que o assistente do seu colega de trabalho. Eu acho que eles farão isso porque seria atraente. Em todos os outros produtos de nossas vidas, não temos um tamanho único, então não vejo por que faríamos isso com assistentes de voz.

No entanto, há alguns truques, como vemos nas discussões sobre por que os assistentes tendem a ter vozes femininas. Há mais disso reservado?

Já estamos vendo perguntas sobre questões relacionadas a gênero. Houve muito pouca conversa sobre a questão da corrida ou corrida percebida dos assistentes virtuais, mas sinto que essa conversa está chegando. É engraçado. Quando você pressiona as grandes empresas de tecnologia sobre esse assunto, exceto a Amazon, que admite que Alexa é mulher, todo mundo fica tipo "é uma IA, não tem gênero". Isso não impede as pessoas de perceberem pistas sobre que tipo de identidade de gênero ou raça que ela terá. Tudo isso para dizer, a Big Tech terá que ter muito cuidado para negociar essas águas. Eles podem querer se especializar um pouco mais, mas podem entrar em águas perigosas onde fazem algo que soa como apropriação cultural, ou algo que está acabando, ou estereotipado.

Fonte: https://www.theverge.com/