Quando as IAs começam a hackear

hackia1 Se você já não tem o suficiente para se preocupar, considere um mundo onde as IAs são hackers. O hacking é tão antigo quanto a humanidade. Somos solucionadores de problemas criativos. Exploramos brechas, manipulamos sistemas e lutamos por mais influência, poder e riqueza. Até o momento, o hacking tem sido exclusivamente uma atividade humana. Não por muito tempo. Conforme exponho em um relatório que acabei de publicar, a inteligência artificial acabará ...

encontrando vulnerabilidades em todos os tipos de sistemas sociais, econômicos e políticos e, em seguida, explorá-los em velocidade, escala e escopo sem precedentes. Depois de hackear a humanidade, os sistemas de IA invadirão outros sistemas de IA, e os humanos serão pouco mais do que danos colaterais.

Ok, talvez isso seja um pouco de hipérbole, mas não requer tecnologia de ficção científica de futuro distante. Não estou postulando uma “singularidade” da IA, onde o ciclo de feedback do aprendizado da IA se torna tão rápido que supera a compreensão humana. Não estou assumindo androides inteligentes. Não estou assumindo más intenções. A maioria desses hacks nem exige grandes avanços de pesquisa em IA. Eles já estão acontecendo. À medida que a IA se torna mais sofisticada, muitas vezes nem saberemos que está acontecendo.

As IAs não resolvem problemas como os humanos. Eles procuram mais tipos de soluções do que nós. Eles seguirão caminhos complexos que não consideramos. Isso pode ser um problema por causa de algo chamado problema de explicabilidade. Os sistemas modernos de IA são essencialmente caixas pretas. Os dados entram de um lado e a resposta sai do outro. Pode ser impossível entender como o sistema chegou à sua conclusão, mesmo se você for um programador olhando o código.

Em 2015, um grupo de pesquisa alimentou um sistema de IA chamado Deep Patient health and medical data de cerca de 700.000 pessoas e testou se ele poderia prever doenças. Poderia, mas o Deep Patient não fornece explicação para a base de um diagnóstico, e os pesquisadores não têm ideia de como ele chega às suas conclusões. Um médico pode confiar ou ignorar o computador, mas essa confiança permanecerá cega.

Enquanto os pesquisadores estão trabalhando em IA que pode se explicar, parece haver uma troca entre capacidade e explicabilidade. As explicações são uma abreviação cognitiva usada por humanos, adequada para a maneira como os humanos tomam decisões. Forçar uma IA a produzir explicações pode ser uma restrição adicional que pode afetar a qualidade de suas decisões. Por enquanto, a IA está se tornando cada vez mais opaca e menos explicável.

Separadamente, as IAs podem se envolver em algo chamado hacking de recompensa. Como as IAs não resolvem problemas da mesma forma que as pessoas, elas invariavelmente tropeçam em soluções que nós, humanos, talvez nunca tenhamos previsto – e algumas subvertem a intenção do sistema. Isso porque as IAs não pensam em termos de implicações, contexto, normas e valores que nós, humanos, compartilhamos e damos como garantidos. Esse hacking de recompensa envolve atingir um objetivo, mas de uma maneira que os designers da IA não queriam nem pretendiam.

Faça uma simulação de futebol em que uma IA descobriu que, se chutasse a bola para fora dos limites, o goleiro teria que jogar a bola e deixar o gol indefeso. Ou outra simulação, onde uma IA descobriu que, em vez de correr, poderia se tornar alta o suficiente para cruzar uma linha de chegada distante caindo sobre ela. Ou o aspirador de pó robô que, em vez de aprender a não esbarrar nas coisas, aprendeu a dirigir para trás, onde não havia sensores dizendo que estava esbarrando nas coisas. Se houver problemas, inconsistências ou brechas nas regras, e se essas propriedades levarem a uma solução aceitável conforme definido pelas regras, as IAs encontrarão esses hacks.

Aprendemos sobre esse problema de hackers quando crianças com a história do Rei Midas. Quando o deus Dionísio lhe concede um desejo, Midas pede que tudo que ele toca se transforme em ouro. Ele acaba morrendo de fome e miserável quando sua comida, bebida e filha se transformam em ouro. É um problema de especificação: Midas programou o objetivo errado no sistema.

Os gênios são muito precisos sobre a formulação dos desejos e podem ser maliciosamente pedantes. Sabemos disso, mas ainda não há como enganar o gênio. Tudo o que você deseja, ele sempre será capaz de conceder de uma maneira que você gostaria que ele não tivesse. Ele vai hackear o seu desejo. Metas e desejos são sempre subespecificados na linguagem e no pensamento humanos. Nunca descrevemos todas as opções ou incluímos todas as ressalvas, exceções e ressalvas aplicáveis. Qualquer objetivo que especificarmos será necessariamente incompleto.

Embora os humanos geralmente entendam implicitamente o contexto e geralmente ajam de boa fé, não podemos especificar completamente os objetivos de uma IA. E as IAs não serão capazes de entender completamente o contexto.

Em 2015, a Volkswagen foi pega trapaceando nos testes de controle de emissões. Isso não era IA – engenheiros humanos programaram um computador comum para trapacear – mas ilustra o problema. Eles programaram seu motor para detectar testes de controle de emissões e se comportar de maneira diferente. Sua trapaça permaneceu despercebida por anos.

Se eu lhe pedisse para projetar o software de controle do motor de um carro para maximizar o desempenho enquanto ainda passa nos testes de controle de emissões, você não projetaria o software para trapacear sem entender que estava trapaceando. Isso simplesmente não é verdade para uma IA. Ele pensará “fora da caixa” simplesmente porque não terá uma concepção da caixa. Ele não entenderá que a solução da Volkswagen prejudica os outros, prejudica a intenção dos testes de controle de emissões e está infringindo a lei. A menos que os programadores especifiquem o objetivo de não se comportar de maneira diferente ao serem testados, uma IA pode criar o mesmo hack. Os programadores ficarão satisfeitos, os contadores em êxtase. E por causa do problema de explicabilidade, ninguém vai perceber o que a IA fez. E sim, conhecendo a história da Volkswagen, podemos definir explicitamente o objetivo de evitar esse hack específico. Mas a lição do gênio é que sempre haverá hacks inesperados.

Quão realista é o hacking de IA no mundo real? A viabilidade de uma IA inventar um novo hack depende muito do sistema específico que está sendo modelado. Para que uma IA comece a otimizar um problema, quanto mais hackear uma solução completamente nova, todas as regras do ambiente devem ser formalizadas de uma maneira que o computador possa entender. Metas – conhecidas na IA como funções objetivas – precisam ser estabelecidas. E a IA precisa de algum tipo de feedback sobre o quão bem está indo para que possa melhorar.

Às vezes isso é simples. No xadrez, as regras, objetivo e feedback – você ganhou ou perdeu? — são todos precisamente especificados. E não há contexto para saber fora dessas coisas que turvariam as águas. É por isso que a maioria dos exemplos atuais de hacking de objetivo e recompensa vem de ambientes simulados. Estes são artificiais e restritos, com todas as regras especificadas para a IA. A ambiguidade inerente na maioria dos outros sistemas acaba sendo uma defesa de segurança de curto prazo contra hackers de IA.

Onde isso fica interessante são os sistemas bem especificados e quase inteiramente digitais. Pense em sistemas de governança como o código tributário: uma série de algoritmos, com entradas e saídas. Pense nos sistemas financeiros, que são mais ou menos algoritmicamente tratáveis.

Podemos imaginar equipar uma IA com todas as leis e regulamentos do mundo, além de todas as informações financeiras do mundo em tempo real, além de qualquer outra coisa que consideremos relevante; e, em seguida, dando-lhe o objetivo de “lucro máximo”. Meu palpite é que isso não está muito longe, e que o resultado será todos os tipos de novos hacks.

Mas os avanços na IA são descontínuos e contra-intuitivos. Coisas que parecem fáceis se tornam difíceis, e coisas que parecem difíceis se tornam fáceis. Não sabemos até que o avanço ocorra.

Quando as IAs começarem a hackear, tudo mudará. Eles não serão restringidos da mesma forma, ou terão os mesmos limites, como as pessoas. Eles mudarão a velocidade, a escala e o escopo do hacking, em taxas e magnitudes para as quais não estamos preparados. Os bots de geração de texto de IA, por exemplo, serão replicados aos milhões nas mídias sociais. Eles poderão se envolver em questões o tempo todo, enviando bilhões de mensagens e sobrecarregando qualquer discussão online real entre humanos. O que veremos como um debate político turbulento serão bots discutindo com outros bots. Eles vão influenciar artificialmente o que achamos normal, o que achamos que os outros pensam.

O escopo crescente dos sistemas de IA também torna os hacks mais perigosos. As IAs já estão tomando decisões importantes sobre nossas vidas, decisões que costumávamos acreditar que eram de competência exclusiva dos humanos: quem consegue liberdade condicional, recebe empréstimos bancários, entra na faculdade ou consegue um emprego. À medida que os sistemas de IA se tornam mais capazes, a sociedade cederá mais – e mais importantes – decisões a eles. Os hacks desses sistemas se tornarão mais prejudiciais.

E se você alimentasse uma IA com todo o código tributário dos EUA? Ou, no caso de uma corporação multinacional, os códigos tributários de todo o mundo? Será que descobrirá, sem que lhe digam, que é inteligente incorporar-se a Delaware e registrar seu navio no Panamá? Quantas brechas ele encontrará que ainda não conhecemos? Dezenas? Milhares? Não temos ideia.

Embora tenhamos sistemas sociais que lidam com hacks, eles foram desenvolvidos quando os hackers eram humanos e refletem a velocidade, a escala e o escopo humanos. O IRS não pode lidar com dezenas – muito menos milhares – de brechas fiscais recém-descobertas. Uma IA que descobre hacks imprevistos, mas legais, de sistemas financeiros pode derrubar nossos mercados mais rapidamente do que poderíamos nos recuperar.

Leia também - Coma de álcool

Como discuto em meu relatório, embora hacks possam ser usados por invasores para explorar sistemas, eles também podem ser usados por defensores para corrigir e proteger sistemas. Portanto, a longo prazo, os hackers de IA favorecerão a defesa porque nosso software, código tributário, sistemas financeiros e assim por diante podem ser corrigidos antes de serem implantados. Claro, o período de transição é perigoso por causa de todas as regras legadas que serão hackeadas. Aí, a nossa solução tem que ser a resiliência.

Tudo isso é algo que precisamos descobrir agora, antes que essas IAs entrem online e comecem a invadir nosso mundo.

Fonte: https://www.schneier.com/

CIÊNCIA E TECNOLOGIA

Quando as IAs começam a hackear