HISTÓRIA E CULTURA

ChatGPT roubou seu trabalho. Então o que você vai fazer?

gptemprego128/01/2023 - Os criadores precisam pressionar os tribunais, o mercado e os reguladores antes que seja tarde. SE VOCÊ JÁ FEZ upload de fotos ou arte, escreveu uma crítica, “curtiu” o conteúdo, respondeu a uma pergunta no Reddit, contribuiu para o código-fonte aberto ou realizou qualquer outra atividade online, você fez trabalho gratuito para empresas de tecnologia, porque baixar todo esse conteúdo da web ...

é como seus sistemas de IA aprendem sobre o mundo. As empresas de tecnologia sabem disso, mas mascaram suas contribuições para seus produtos com termos técnicos como “dados de treinamento”, “aprendizado não supervisionado” e “exaustão de dados” (e, é claro, documentos impenetráveis de “Termos de Uso”). Na verdade, grande parte da inovação em IA nos últimos anos consistiu em maneiras de usar cada vez mais conteúdo gratuitamente. Isso é verdade para mecanismos de pesquisa como o Google, sites de mídia social como o Instagram, startups de pesquisa de IA como OpenAI e muitos outros fornecedores de tecnologias inteligentes.

Essa dinâmica de exploração é particularmente prejudicial quando se trata da nova onda de programas generativos de IA, como Dall-E e ChatGPT. Sem o seu conteúdo, o ChatGPT e todos os seus semelhantes simplesmente não existiriam. Muitos pesquisadores de IA acham que seu conteúdo é realmente mais importante do que o que os cientistas da computação estão fazendo. No entanto, essas tecnologias inteligentes que exploram seu trabalho são as mesmas tecnologias que ameaçam tirar você do emprego. É como se o sistema de IA entrasse em sua fábrica e roubasse sua máquina.

Mas essa dinâmica também significa que os usuários que geram dados têm muito poder. As discussões sobre o uso de tecnologias sofisticadas de IA geralmente vêm de um lugar de impotência e da postura de que as empresas de IA farão o que quiserem, e há pouco que o público possa fazer para mudar a tecnologia em uma direção diferente. Somos pesquisadores de IA, e nossa pesquisa sugere que o público tem uma enorme quantidade de “alavancagem de dados” que pode ser usada para criar um ecossistema de IA que gere novas tecnologias incríveis e compartilhe os benefícios dessas tecnologias de forma justa com as pessoas que as criaram.

A ALAVANCA DE DADOS PODE ser implantada por pelo menos quatro vias: ação direta (por exemplo, indivíduos se unindo para reter, “envenenar” ou redirecionar dados), ação regulatória (por exemplo, pressionando por políticas de proteção de dados e reconhecimento legal de “coalizões de dados ”), ação legal (por exemplo, comunidades adotando novos regimes de licenciamento de dados ou buscando uma ação judicial) e ação de mercado (por exemplo, exigindo que grandes modelos de linguagem sejam treinados apenas com dados de criadores consentidos).

Vamos começar com a ação direta, que é um caminho particularmente empolgante porque pode ser feito imediatamente. Devido à dependência dos sistemas generativos de IA na extração da Web, os proprietários de sites podem interromper significativamente o pipeline de dados de treinamento se proibirem ou limitarem a extração configurando o arquivo robots.txt (um arquivo que informa aos rastreadores da Web quais páginas estão fora do limite).

Grandes sites de conteúdo gerado pelo usuário, como Wikipedia, StackOverflow e Reddit, são particularmente importantes para sistemas de IA generativos e podem impedir que esses sistemas acessem seu conteúdo de maneiras ainda mais fortes - por exemplo, bloqueando o tráfego IP e o acesso à API. De acordo com Elon Musk, o Twitter recentemente fez exatamente isso. Os produtores de conteúdo também devem aproveitar os mecanismos de exclusão cada vez mais fornecidos pelas empresas de IA. Por exemplo, os programadores no GitHub podem desativar os dados de treinamento do BigCode por meio de um formulário simples. De forma mais geral, simplesmente ser vocal quando o conteúdo foi usado sem o seu consentimento tem sido um tanto eficaz. Por exemplo, o principal player de IA generativa, Stability AI, concordou em honrar as solicitações de exclusão coletadas via haveibeentrained.com após um alvoroço na mídia social. Ao se envolver em formas públicas de ação, como no caso de protesto em massa contra a arte da IA por artistas, pode ser possível forçar as empresas a cessar as atividades comerciais que a maioria do público percebe como roubo.

As empresas de mídia, cujo trabalho é muito importante para modelos de linguagem grande (LLMs), também podem querer considerar algumas dessas ideias para restringir o acesso de sistemas de IA generativa a seu próprio conteúdo, já que esses sistemas estão recebendo suas joias da coroa gratuitamente (incluindo, provavelmente, este artigo de opinião). Por exemplo, Ezra Klein mencionou em um podcast recente que o ChatGPT é ótimo em imitá-lo, provavelmente porque baixou muitos de seus artigos sem perguntar a ele ou a seu empregador.

Criticamente, o tempo também está do lado dos criadores de dados: à medida que novos eventos ocorrem no mundo, a arte sai de moda, os fatos mudam e novos restaurantes são abertos, novos fluxos de dados são necessários para dar suporte a sistemas atualizados. Sem esses fluxos, esses sistemas provavelmente falharão em muitos aplicativos importantes. Ao se recusar a disponibilizar novos dados sem compensação, os criadores de dados também podem pressionar as empresas a pagar pelo acesso a eles.

Do lado regulatório, os legisladores precisam agir para proteger o que pode ser o maior roubo de mão de obra da história, e rapidamente. Uma das melhores maneiras de fazer isso é esclarecer que o “uso justo” sob a lei de direitos autorais não permite o treinamento de um modelo em conteúdo sem o consentimento do proprietário do conteúdo, pelo menos para fins comerciais. Os legisladores de todo o mundo também devem trabalhar em leis “anti-lavagem de dados” que deixem claro que modelos treinados em dados sem consentimento devem ser treinados novamente dentro de um período de tempo razoável sem o conteúdo ofensivo. Muito disso pode se basear em estruturas existentes em lugares como Europa e Califórnia, bem como no trabalho regulatório que está sendo feito para garantir que as organizações de notícias recebam uma parte da receita que geram para as plataformas de mídia social. Há também um impulso crescente para leis de “dividendos de dados”, que redistribuiriam a riqueza gerada por tecnologias inteligentes. Isso também pode ajudar, desde que evite algumas armadilhas importantes.

Além disso, os formuladores de políticas podem ajudar criadores individuais e contribuidores de dados a se unirem para fazer demandas. Especificamente, apoiar iniciativas como cooperativas de dados – organizações que facilitam a coordenação e o poder dos contribuidores de dados – poderia facilitar greves de dados em larga escala entre criadores e trazer empresas que usam IA para a mesa de negociações.

Os tribunais também apresentam maneiras para que as pessoas retomem o controle de seu conteúdo. Enquanto os tribunais trabalham para esclarecer as interpretações da lei de direitos autorais, existem muitas outras opções. O LinkedIn tem sido bem-sucedido em impedir que as pessoas que raspam seu site continuem a fazê-lo por meio dos Termos de Uso e da lei contratual. A lei trabalhista também pode fornecer um ângulo para capacitar os contribuidores de dados. Historicamente, a confiança das empresas em “voluntários” para operar seus negócios levantou questões importantes sobre se essas empresas violaram o Fair Labor Standards Act, e essas lutas podem servir como um modelo. No passado, alguns voluntários chegaram a fazer acordos legais com empresas que se beneficiaram de seu trabalho.

Há também um papel crítico para o mercado aqui. Se governos, instituições e indivíduos suficientes exigirem “LLMs de consentimento total” – que pagam aos criadores pelo conteúdo que usam – as empresas responderão. Essa demanda pode ser reforçada por ações judiciais bem-sucedidas contra organizações que usam IA generativa (em contraste com organizações que constroem os sistemas) sem pagar usuários. Se os aplicativos criados com base nos modelos de IA enfrentarem ações judiciais, haverá uma demanda maior por sistemas de IA que não estão sendo reproduzidos no Velho Oeste legal.

A pesquisa de nosso laboratório (e de colegas) também sugere algo que nos surpreendeu: muitas das ações acima devem realmente ajudar empresas de IA generativa. Sem ecossistemas de conteúdo saudáveis, o conteúdo do qual as tecnologias de IA generativas dependem para aprender sobre o mundo desaparecerá. Se ninguém vai ao Reddit porque obtém respostas do ChatGPT, como o ChatGPT aprenderá com o conteúdo do Reddit? Isso criará desafios significativos para essas empresas de uma forma que pode ser resolvida antes que apareçam, apoiando alguns dos esforços acima.

Fonte: https://www.wired.com