Logo R7.com
Logo do PlayPlus
Tecnologia e Ciência

Autores e empresas se rebelam contra a coleta indiscriminada de dados para inteligência artificial

Para se proteger da 'raspagem' de conteúdo feita de forma gratuita, pessoas usam senhas ou processam criadores de programas de IA

Tecnologia e Ciência|Sheera Frenkel e Stuart A. Thompson

O escritório de advocacia Clarkson Law, em Los Angeles, fez uma proposta para ajudar artistas contra empresas de IA
O escritório de advocacia Clarkson Law, em Los Angeles, fez uma proposta para ajudar artistas contra empresas de IA

Ao longo de mais de 20 anos, Kit Loffstadt escreveu fanfiction sobre universos alternativos para heróis de Star Wars e vilões de Buffy, a Caça-Vampiros, compartilhando as histórias, gratuitamente, online.

Mas, em maio, ela interrompeu as publicações depois de saber que tinham sido copiadas por uma empresa de dados para alimentar a tecnologia de inteligência artificial (IA) subjacente ao chatbot viral ChatGPT. Apreensiva, passou a usar uma conta privada para esconder os textos.

Loffstadt também ajudou a organizar, no mês passado, um ato de rebelião contra os sistemas de IA. Em companhia de dezenas de outros escritores de fanfiction, publicou uma enxurrada de histórias irreverentes online para sobrecarregar e confundir os serviços de coleta de dados que alimentam a tecnologia de IA com o trabalho dos escritores.

"Cada um de nós tem de fazer o máximo possível para demonstrar que nossa produção criativa não está à disposição para ser coletada à vontade por máquinas", disse Loffstadt, dubladora de 42 anos de South Yorkshire, na Grã-Bretanha.


Os escritores desse tipo de ficção são apenas um dos grupos que estão se rebelando contra os sistemas de IA, agora que a febre da tecnologia tomou conta do Vale do Silício e do mundo. Nos últimos meses, empresas de mídia social como o Reddit e o Twitter, órgãos de imprensa como o The New York Times e o NBC News, autores como Paul Tremblay e a atriz Sarah Silverman se posicionaram contra a extração não autorizada de dados por IA.

Os protestos assumiram formas diferentes. Escritores e artistas estão protegendo seus arquivos com senhas ou boicotando alguns sites que publicam conteúdo gerado por IA, enquanto empresas como o Reddit querem cobrar pelo acesso a seus dados.


Pelo menos dez ações judiciais foram movidas este ano contra empresas de IA, sob a acusação de treinar sistemas com trabalhos autorais criativos sem consentimento. Na semana passada, Silverman e os autores Christopher Golden e Richard Kadrey processaram a OpenAI, fabricante do ChatGPT, e outras por usar as obras deles em sistemas de IA.

No centro dessa revolta, está um novo entendimento de que as informações virtuais — histórias, obras de arte, matérias jornalísticas, postagens em quadros de mensagens e fotos — podem ter um valor inexplorado significativo.


A nova onda de IA — conhecida como "IA generativa", por gerar textos, imagens e outros conteúdos — é construída sobre sistemas complexos, como grandes modelos de linguagem, capazes de produzir prosa semelhante à humana. Esses modelos são treinados em uma enorme variedade de dados para que possam responder a perguntas, imitar estilos de escrita ou gerar conteúdos de humor e poesia.

Isso tem feito com que as empresas de tecnologia busquem ainda mais dados para alimentar seus sistemas de IA. O Google, a Meta e a OpenAI têm coletado informações de toda a internet (incluindo grandes bancos de dados de fanfiction, matérias jornalísticas e coleções de livros), muitas das quais disponíveis gratuitamente online. No jargão da indústria de tecnologia, isso é conhecido como "raspar" a internet.

Em longo prazo, o impacto dos protestos contra o uso dos dados pode ser mínimo. Gigantes tecnológicos como o Google e a Microsoft já têm montanhas de informações proprietárias a seu dispor — e recursos para licenciar outras mais.

Mas, à medida que a era do conteúdo "fácil de raspar" chega ao fim, as startups e organizações sem fins lucrativos de IA menores, que esperavam competir com os grandes nomes, poderão não conseguir obter conteúdo suficiente para o treinamento de sistemas.

Steve Huffman, CEO do Reddit, é um dos opositores da coleta de dados por programas de IA
Steve Huffman, CEO do Reddit, é um dos opositores da coleta de dados por programas de IA

Em um comunicado, a OpenAI declarou: "O ChatGPT foi treinado em conteúdo licenciado, conteúdo de domínio público e conteúdo criado por instrutores humanos de IA. Respeitamos os direitos dos criadores e autores e esperamos continuar a trabalhar com eles para proteger seus interesses".

O Google anunciou, em um comunicado, que está negociando como os editores podem gerenciar o conteúdo deles no futuro. "Acreditamos que todos se beneficiam de um ecossistema de conteúdo vibrante", acrescentou a empresa. A Microsoft não respondeu a um pedido de comentário.

As revoltas em torno dos dados eclodiram no ano passado, depois que o ChatGPT se tornou um fenômeno mundial. Em novembro, um grupo de programadores entrou com uma ação coletiva contra a Microsoft e a OpenAI, alegando que elas tinham violado direitos autorais depois que o código deles foi usado para treinar um assistente de programação alimentado por IA.

Em janeiro, a Getty Images, fornecedora de fotos e vídeos, processou a Stability AI, empresa de IA que cria imagens a partir de descrições de texto, alegando que a startup usara fotos protegidas por direitos autorais para treinar sistemas.

E, em junho, o escritório de advocacia Clarkson, em Los Angeles, entrou com uma ação coletiva de 151 páginas contra a OpenAI e a Microsoft, descrevendo como a primeira coletara dados de menores e afirmando que a raspagem da web violava a lei de direitos autorais e constituía "roubo". Na terça-feira, a empresa entrou com um processo semelhante contra a Google.

"A revolta em relação aos dados, que estamos vendo no país inteiro, é uma maneira de a sociedade repelir essa ideia de que as grandes empresas de tecnologia têm simplesmente o direito de se apropriar de toda e qualquer informação, de qualquer fonte", ressaltou Ryan Clarkson, fundador do escritório.

Segundo Eric Goldman, professor da Faculdade de Direito da Universidade de Santa Clara, os argumentos do processo são abrangentes e é improvável que sejam aceitos em tribunal. Mas ele observou que os litígios estão apenas começando, e "uma segunda e uma terceira ondas" definirão o futuro da IA.

As empresas maiores também estão criando empecilhos aos raspadores de IA. Em abril, o Reddit divulgou que queria cobrar pelo acesso à interface de programação de aplicativos, o método pelo qual terceiros podem baixar e analisar o vasto banco de dados de conversas pessoais da rede social. Steve Huffman, CEO do Reddit, disse na época que sua empresa "não precisa dar todo esse conteúdo valioso de graça a algumas das maiores empresas do mundo".

Leia também

No mesmo mês, o Stack Overflow, site de perguntas e respostas para programadores, também afirmou que pediria às empresas de IA que pagassem pelos dados. Ele tem quase 60 milhões de perguntas e respostas. Esse posicionamento foi informado anteriormente pela Wired.

Os órgãos de imprensa também estão resistindo aos sistemas de IA. Em um memorando interno sobre o uso de IA generativa em junho, o Times afirmou que as empresas de IA devem "respeitar nossa propriedade intelectual". Um porta-voz do jornal se recusou a dar mais detalhes.

Para artistas e escritores individuais, lutar contra os sistemas de IA significa repensar onde eles publicam.

Nicholas Kole, de 35 anos, ilustrador de Vancouver, no Canadá, ficou alarmado com a forma como seu estilo artístico peculiar poderia ser replicado por um sistema de IA e suspeitou que tivesse sido "raspado" pela tecnologia. Ele planeja continuar publicando criações no Instagram, no Twitter e em outras redes sociais para atrair clientes, mas já não posta em sites como o ArtStation, que publica conteúdo gerado por IA ao lado de conteúdo gerado por humanos.

"Parece que eu e outros artistas estamos sendo arbitrariamente roubados. Isso me deixa com um buraco existencial no estômago", Kole desabafou.

c. 2023 The New York Times Company

LEIA ABAIXO: Vale da estranheza: fotos realistas geradas por inteligência artificial perturbam redes sociais

Últimas


Utilizamos cookies e tecnologia para aprimorar sua experiência de navegação de acordo com oAviso de Privacidade.