Autores e empresas se rebelam contra a coleta indiscriminada de dados para inteligência artificial
Para se proteger da 'raspagem' de conteúdo feita de forma gratuita, pessoas usam senhas ou processam criadores de programas de IA
Tecnologia e Ciência|Sheera Frenkel e Stuart A. Thompson
Ao longo de mais de 20 anos, Kit Loffstadt escreveu fanfiction sobre universos alternativos para heróis de Star Wars e vilões de Buffy, a Caça-Vampiros, compartilhando as histórias, gratuitamente, online.
Mas, em maio, ela interrompeu as publicações depois de saber que tinham sido copiadas por uma empresa de dados para alimentar a tecnologia de inteligência artificial (IA) subjacente ao chatbot viral ChatGPT. Apreensiva, passou a usar uma conta privada para esconder os textos.
Loffstadt também ajudou a organizar, no mês passado, um ato de rebelião contra os sistemas de IA. Em companhia de dezenas de outros escritores de fanfiction, publicou uma enxurrada de histórias irreverentes online para sobrecarregar e confundir os serviços de coleta de dados que alimentam a tecnologia de IA com o trabalho dos escritores.
"Cada um de nós tem de fazer o máximo possível para demonstrar que nossa produção criativa não está à disposição para ser coletada à vontade por máquinas", disse Loffstadt, dubladora de 42 anos de South Yorkshire, na Grã-Bretanha.
Os escritores desse tipo de ficção são apenas um dos grupos que estão se rebelando contra os sistemas de IA, agora que a febre da tecnologia tomou conta do Vale do Silício e do mundo. Nos últimos meses, empresas de mídia social como o Reddit e o Twitter, órgãos de imprensa como o The New York Times e o NBC News, autores como Paul Tremblay e a atriz Sarah Silverman se posicionaram contra a extração não autorizada de dados por IA.
Os protestos assumiram formas diferentes. Escritores e artistas estão protegendo seus arquivos com senhas ou boicotando alguns sites que publicam conteúdo gerado por IA, enquanto empresas como o Reddit querem cobrar pelo acesso a seus dados.
Pelo menos dez ações judiciais foram movidas este ano contra empresas de IA, sob a acusação de treinar sistemas com trabalhos autorais criativos sem consentimento. Na semana passada, Silverman e os autores Christopher Golden e Richard Kadrey processaram a OpenAI, fabricante do ChatGPT, e outras por usar as obras deles em sistemas de IA.
No centro dessa revolta, está um novo entendimento de que as informações virtuais — histórias, obras de arte, matérias jornalísticas, postagens em quadros de mensagens e fotos — podem ter um valor inexplorado significativo.
A nova onda de IA — conhecida como "IA generativa", por gerar textos, imagens e outros conteúdos — é construída sobre sistemas complexos, como grandes modelos de linguagem, capazes de produzir prosa semelhante à humana. Esses modelos são treinados em uma enorme variedade de dados para que possam responder a perguntas, imitar estilos de escrita ou gerar conteúdos de humor e poesia.
Isso tem feito com que as empresas de tecnologia busquem ainda mais dados para alimentar seus sistemas de IA. O Google, a Meta e a OpenAI têm coletado informações de toda a internet (incluindo grandes bancos de dados de fanfiction, matérias jornalísticas e coleções de livros), muitas das quais disponíveis gratuitamente online. No jargão da indústria de tecnologia, isso é conhecido como "raspar" a internet.
Em longo prazo, o impacto dos protestos contra o uso dos dados pode ser mínimo. Gigantes tecnológicos como o Google e a Microsoft já têm montanhas de informações proprietárias a seu dispor — e recursos para licenciar outras mais.
Mas, à medida que a era do conteúdo "fácil de raspar" chega ao fim, as startups e organizações sem fins lucrativos de IA menores, que esperavam competir com os grandes nomes, poderão não conseguir obter conteúdo suficiente para o treinamento de sistemas.
Em um comunicado, a OpenAI declarou: "O ChatGPT foi treinado em conteúdo licenciado, conteúdo de domínio público e conteúdo criado por instrutores humanos de IA. Respeitamos os direitos dos criadores e autores e esperamos continuar a trabalhar com eles para proteger seus interesses".
O Google anunciou, em um comunicado, que está negociando como os editores podem gerenciar o conteúdo deles no futuro. "Acreditamos que todos se beneficiam de um ecossistema de conteúdo vibrante", acrescentou a empresa. A Microsoft não respondeu a um pedido de comentário.
As revoltas em torno dos dados eclodiram no ano passado, depois que o ChatGPT se tornou um fenômeno mundial. Em novembro, um grupo de programadores entrou com uma ação coletiva contra a Microsoft e a OpenAI, alegando que elas tinham violado direitos autorais depois que o código deles foi usado para treinar um assistente de programação alimentado por IA.
Em janeiro, a Getty Images, fornecedora de fotos e vídeos, processou a Stability AI, empresa de IA que cria imagens a partir de descrições de texto, alegando que a startup usara fotos protegidas por direitos autorais para treinar sistemas.
E, em junho, o escritório de advocacia Clarkson, em Los Angeles, entrou com uma ação coletiva de 151 páginas contra a OpenAI e a Microsoft, descrevendo como a primeira coletara dados de menores e afirmando que a raspagem da web violava a lei de direitos autorais e constituía "roubo". Na terça-feira, a empresa entrou com um processo semelhante contra a Google.
"A revolta em relação aos dados, que estamos vendo no país inteiro, é uma maneira de a sociedade repelir essa ideia de que as grandes empresas de tecnologia têm simplesmente o direito de se apropriar de toda e qualquer informação, de qualquer fonte", ressaltou Ryan Clarkson, fundador do escritório.
Segundo Eric Goldman, professor da Faculdade de Direito da Universidade de Santa Clara, os argumentos do processo são abrangentes e é improvável que sejam aceitos em tribunal. Mas ele observou que os litígios estão apenas começando, e "uma segunda e uma terceira ondas" definirão o futuro da IA.
As empresas maiores também estão criando empecilhos aos raspadores de IA. Em abril, o Reddit divulgou que queria cobrar pelo acesso à interface de programação de aplicativos, o método pelo qual terceiros podem baixar e analisar o vasto banco de dados de conversas pessoais da rede social. Steve Huffman, CEO do Reddit, disse na época que sua empresa "não precisa dar todo esse conteúdo valioso de graça a algumas das maiores empresas do mundo".
Leia também
No mesmo mês, o Stack Overflow, site de perguntas e respostas para programadores, também afirmou que pediria às empresas de IA que pagassem pelos dados. Ele tem quase 60 milhões de perguntas e respostas. Esse posicionamento foi informado anteriormente pela Wired.
Os órgãos de imprensa também estão resistindo aos sistemas de IA. Em um memorando interno sobre o uso de IA generativa em junho, o Times afirmou que as empresas de IA devem "respeitar nossa propriedade intelectual". Um porta-voz do jornal se recusou a dar mais detalhes.
Para artistas e escritores individuais, lutar contra os sistemas de IA significa repensar onde eles publicam.
Nicholas Kole, de 35 anos, ilustrador de Vancouver, no Canadá, ficou alarmado com a forma como seu estilo artístico peculiar poderia ser replicado por um sistema de IA e suspeitou que tivesse sido "raspado" pela tecnologia. Ele planeja continuar publicando criações no Instagram, no Twitter e em outras redes sociais para atrair clientes, mas já não posta em sites como o ArtStation, que publica conteúdo gerado por IA ao lado de conteúdo gerado por humanos.
"Parece que eu e outros artistas estamos sendo arbitrariamente roubados. Isso me deixa com um buraco existencial no estômago", Kole desabafou.
c. 2023 The New York Times Company
LEIA ABAIXO: Vale da estranheza: fotos realistas geradas por inteligência artificial perturbam redes sociais