Autores e empresas se rebelam contra a coleta indiscriminada de dados para inteligência artificial

Para se proteger da 'raspagem' de conteúdo feita de forma gratuita, pessoas usam senhas ou processam criadores de programas de IA

Tecnologia e Ciência|Sheera Frenkel e Stuart A. Thompson

27/07/2023 - 02h00 (Atualizado em 15/02/2024 - 21h58)

Ao longo de mais de 20 anos, Kit Loffstadt escreveu fanfiction sobre universos alternativos para heróis de Star Wars e vilões de Buffy, a Caça-Vampiros, compartilhando as histórias, gratuitamente, online.

Mas, em maio, ela interrompeu as publicações depois de saber que tinham sido copiadas por uma empresa de dados para alimentar a tecnologia de inteligência artificial (IA) subjacente ao chatbot viral ChatGPT. Apreensiva, passou a usar uma conta privada para esconder os textos.

‌

Loffstadt também ajudou a organizar, no mês passado, um ato de rebelião contra os sistemas de IA. Em companhia de dezenas de outros escritores de fanfiction, publicou uma enxurrada de histórias irreverentes online para sobrecarregar e confundir os serviços de coleta de dados que alimentam a tecnologia de IA com o trabalho dos escritores.

"Cada um de nós tem de fazer o máximo possível para demonstrar que nossa produção criativa não está à disposição para ser coletada à vontade por máquinas", disse Loffstadt, dubladora de 42 anos de South Yorkshire, na Grã-Bretanha.

‌

Os escritores desse tipo de ficção são apenas um dos grupos que estão se rebelando contra os sistemas de IA, agora que a febre da tecnologia tomou conta do Vale do Silício e do mundo. Nos últimos meses, empresas de mídia social como o Reddit e o Twitter, órgãos de imprensa como o The New York Times e o NBC News, autores como Paul Tremblay e a atriz Sarah Silverman se posicionaram contra a extração não autorizada de dados por IA.

Os protestos assumiram formas diferentes. Escritores e artistas estão protegendo seus arquivos com senhas ou boicotando alguns sites que publicam conteúdo gerado por IA, enquanto empresas como o Reddit querem cobrar pelo acesso a seus dados.

‌

Pelo menos dez ações judiciais foram movidas este ano contra empresas de IA, sob a acusação de treinar sistemas com trabalhos autorais criativos sem consentimento. Na semana passada, Silverman e os autores Christopher Golden e Richard Kadrey processaram a OpenAI, fabricante do ChatGPT, e outras por usar as obras deles em sistemas de IA.

No centro dessa revolta, está um novo entendimento de que as informações virtuais — histórias, obras de arte, matérias jornalísticas, postagens em quadros de mensagens e fotos — podem ter um valor inexplorado significativo.

‌

A nova onda de IA — conhecida como "IA generativa", por gerar textos, imagens e outros conteúdos — é construída sobre sistemas complexos, como grandes modelos de linguagem, capazes de produzir prosa semelhante à humana. Esses modelos são treinados em uma enorme variedade de dados para que possam responder a perguntas, imitar estilos de escrita ou gerar conteúdos de humor e poesia.

Isso tem feito com que as empresas de tecnologia busquem ainda mais dados para alimentar seus sistemas de IA. O Google, a Meta e a OpenAI têm coletado informações de toda a internet (incluindo grandes bancos de dados de fanfiction, matérias jornalísticas e coleções de livros), muitas das quais disponíveis gratuitamente online. No jargão da indústria de tecnologia, isso é conhecido como "raspar" a internet.

Em longo prazo, o impacto dos protestos contra o uso dos dados pode ser mínimo. Gigantes tecnológicos como o Google e a Microsoft já têm montanhas de informações proprietárias a seu dispor — e recursos para licenciar outras mais.

Mas, à medida que a era do conteúdo "fácil de raspar" chega ao fim, as startups e organizações sem fins lucrativos de IA menores, que esperavam competir com os grandes nomes, poderão não conseguir obter conteúdo suficiente para o treinamento de sistemas.

Em um comunicado, a OpenAI declarou: "O ChatGPT foi treinado em conteúdo licenciado, conteúdo de domínio público e conteúdo criado por instrutores humanos de IA. Respeitamos os direitos dos criadores e autores e esperamos continuar a trabalhar com eles para proteger seus interesses".

O Google anunciou, em um comunicado, que está negociando como os editores podem gerenciar o conteúdo deles no futuro. "Acreditamos que todos se beneficiam de um ecossistema de conteúdo vibrante", acrescentou a empresa. A Microsoft não respondeu a um pedido de comentário.

As revoltas em torno dos dados eclodiram no ano passado, depois que o ChatGPT se tornou um fenômeno mundial. Em novembro, um grupo de programadores entrou com uma ação coletiva contra a Microsoft e a OpenAI, alegando que elas tinham violado direitos autorais depois que o código deles foi usado para treinar um assistente de programação alimentado por IA.

Em janeiro, a Getty Images, fornecedora de fotos e vídeos, processou a Stability AI, empresa de IA que cria imagens a partir de descrições de texto, alegando que a startup usara fotos protegidas por direitos autorais para treinar sistemas.

E, em junho, o escritório de advocacia Clarkson, em Los Angeles, entrou com uma ação coletiva de 151 páginas contra a OpenAI e a Microsoft, descrevendo como a primeira coletara dados de menores e afirmando que a raspagem da web violava a lei de direitos autorais e constituía "roubo". Na terça-feira, a empresa entrou com um processo semelhante contra a Google.

"A revolta em relação aos dados, que estamos vendo no país inteiro, é uma maneira de a sociedade repelir essa ideia de que as grandes empresas de tecnologia têm simplesmente o direito de se apropriar de toda e qualquer informação, de qualquer fonte", ressaltou Ryan Clarkson, fundador do escritório.

Segundo Eric Goldman, professor da Faculdade de Direito da Universidade de Santa Clara, os argumentos do processo são abrangentes e é improvável que sejam aceitos em tribunal. Mas ele observou que os litígios estão apenas começando, e "uma segunda e uma terceira ondas" definirão o futuro da IA.

As empresas maiores também estão criando empecilhos aos raspadores de IA. Em abril, o Reddit divulgou que queria cobrar pelo acesso à interface de programação de aplicativos, o método pelo qual terceiros podem baixar e analisar o vasto banco de dados de conversas pessoais da rede social. Steve Huffman, CEO do Reddit, disse na época que sua empresa "não precisa dar todo esse conteúdo valioso de graça a algumas das maiores empresas do mundo".

Leia também

No mesmo mês, o Stack Overflow, site de perguntas e respostas para programadores, também afirmou que pediria às empresas de IA que pagassem pelos dados. Ele tem quase 60 milhões de perguntas e respostas. Esse posicionamento foi informado anteriormente pela Wired.

Os órgãos de imprensa também estão resistindo aos sistemas de IA. Em um memorando interno sobre o uso de IA generativa em junho, o Times afirmou que as empresas de IA devem "respeitar nossa propriedade intelectual". Um porta-voz do jornal se recusou a dar mais detalhes.

Para artistas e escritores individuais, lutar contra os sistemas de IA significa repensar onde eles publicam.

Nicholas Kole, de 35 anos, ilustrador de Vancouver, no Canadá, ficou alarmado com a forma como seu estilo artístico peculiar poderia ser replicado por um sistema de IA e suspeitou que tivesse sido "raspado" pela tecnologia. Ele planeja continuar publicando criações no Instagram, no Twitter e em outras redes sociais para atrair clientes, mas já não posta em sites como o ArtStation, que publica conteúdo gerado por IA ao lado de conteúdo gerado por humanos.

"Parece que eu e outros artistas estamos sendo arbitrariamente roubados. Isso me deixa com um buraco existencial no estômago", Kole desabafou.

c. 2023 The New York Times Company

LEIA ABAIXO: Vale da estranheza: fotos realistas geradas por inteligência artificial perturbam redes sociais

Uma série de fotos publicadas em redes sociais deixou muita gente perturbada. O motivo é bastante simples e cada vez mais comum: nada do que aparece nelas é real, inclusive as pessoas. Todas as fotos foram geradas por programas de inteligência artificial, que criam fotos de aparência realista a partir de comandos de texto

A leva recente mais assustadora foi publicada no Twitter, em 13 de janeiro, pelo desenvolvedor Miles Zimmerman, que utilizou o programa Midjourney e comandos simples, como "pessoas em uma festa noturna", o que resultou em diversas fotos. Nos comentários dos tuítes, vistos mais de 30 milhões de vezes, praticamente todos se mostraram chocados com o resultado

Apesar da qualidade indiscutível das fotos, é possível captar diversas estranhezas na anatomia dos presentes, o que mostra áreas do corpo humano que a IA ainda enfrenta dificuldade para criar. Repare nos dentes dos presentes na foto: além de uma quantidade exagerada, eles parecem todos iguais, sem qualquer imperfeição

LEIA MAIS: Astronauta em missão e aglomerado de estrelas: veja as melhores fotos do espaço desta semana

Segundo Zimmerman — que esclarece não ser desenvolvedor de IA, artista nem mesmo especialista no assunto —, as fotos só com mulheres foram as primeiras criadas pelo programa, que aparentemente entende "pessoas" (ao menos pessoas em festas) como "mulheres"

Foi necessário um parâmetro extra para que homens aparecessem nos resultados, "e mesmo assim a variação é um desafio", acrescentou ele. Mais uma vez, é possível identificar certas estranhezas na aparência de todos ali, principalmente nas similaridades dos rostos angulados e cabelos praticamente iguais

NÃO PERCA: Máscaras faciais e análise de xixi: veja os produtos mais estranhos exibidos na feira de tecnologia CES

Além disso, a pele de todos reage à luz sempre da mesma forma, o que cria um efeito perturbador

Como ressaltou uma resposta, todos os dentes são perfeitos. O resultado é um efeito chamado de "vale da estranheza", quando algo é parecido, mas não idêntico ao humano

VALE SEU CLIQUE: Marte, Terra e astronautas: veja as melhores fotos do espaço divulgadas na transição de ano

Zimmerman considerou a imagem acima a melhor, justamente por ser a mais diversa. Para obtê-la, ele precisou de mais parâmetros para acrescentar pessoas que não são brancas

Algumas das "pessoas" possuem dedos demais, como é o caso dessas. Uma delas também tem uma tatuagem esquisita, enquanto o vestido da de amarelo simplesmente some em parte da barriga

VEJA TAMBÉM: O ano de 2022 foi cheio de pesquisas científicas fascinantes; relembre as melhores

Outra imagem que causou efeito similar foi essa, criada pelo programa Stable Diffusion, e publicada no Reddit. O motivo é o mesmo: no geral parece uma foto real, mas os detalhes se mostram estranhos. A mulher de rosa tem um dedo a mais e um anel que cobre dois deles. A de preto também tem um dedo extra, sendo que um deles está pela metade

Apesar das bizarrices das imagens criadas por IA, especialistas afirmam que pode ser questão de tempo para elas atingirem uma qualidade boa o bastante para torná-las quase indistinguíveis de fotos reais

LEIA ISSO: Telescópio James Webb: relembre a trajetória da nova aposta da Nasa para descobertas espaciais

Enquanto isso, comunidades no Reddit e Discord começaram a produzir fotos para o público adulto geradas por IA, o que aumenta a preocupação quanto à criação de fotos que podem se enquadrar como "pornografia de vingança", com rostos de pessoas escolhidas — um alerta iniciado há certo tempo

Programas como o Midjourney, Stable Diffusion e Dall-E 2 usam as chamadas redes neurais para pôr em prática o chamado aprendizado de máquina para gerar imagens e artes complexas com simples comandos textuais. Como essas tecnologias ainda estão em desenvolvimento, é de se esperar que as criações melhorem muito com o tempo

CONTINUE POR AQUI: Comédia animal! Veja os vencedores do concurso de fotos engraçadas da vida selvagem

Uma série de fotos publicadas em redes sociais deixou muita gente perturbada. O motivo é bastante simples e cada vez mais comum: nada do que aparece nelas é real, inclusive as pessoas. Todas as fotos foram geradas por programas de inteligência artifici...

Autores e empresas se rebelam contra a coleta indiscriminada de dados para inteligência artificial

Para se proteger da 'raspagem' de conteúdo feita de forma gratuita, pessoas usam senhas ou processam criadores de programas de IA

Leia também

Previsão aponta que El Niño pode ser o pior em 140 anos, com extremos de calor

Sérgio Sacani: ‘Agora a questão não é só irmos lá, pisar e ganhar. É ter uma presença contínua na Lua’

Especialista alerta para riscos do mau uso da IA nas escolas: ‘Não se ensina e nem se aprende’

EUA alertam bancos sobre riscos de novo modelo de IA

Astrônomo acredita que missões Artemis podem iniciar nova corrida espacial

Nova IA da Anthropic seria tão avançada que deixou empresa em alerta. Cautela ou marketing?

YouTube eleva preços de planos Premium e Music nos EUA

Meta anuncia novo modelo de IA: Muse Spark

Bolívia corre contra o tempo para preservar um dos maiores sítios paleontológicos do mundo

Ações de empresas de software caem depois de lançamento de ‘IA superinteligente’

Instabilidade atinge WhatsApp, Instagram e Facebook no Brasil

Ingressos da Brasil Game Show 2026 já estão à venda

Asfalto feito de plástico reciclado e redes de pesca é testado no Havaí

O que aconteceu com as bandeiras deixadas pelos astronautas da Apollo 11 na Lua?

Super El Niño: fenômeno pode intensificar secas, enchentes e ondas de calor no planeta