Inteligência artificial produz lixo e polui nossa cultura

Com as facilidades de criação por IA, cada vez mais acadêmicos e escritores recorrem aos sistemas do tipo para despejar uma avalanche de conteúdo na internet

10/04/2024 - 02h00 (Atualizado em 10/04/2024 - 02h00)

Empresas de inteligência artificial estão despejando muito lixo na nossa cultura Jim Stoten/The New York Times

Quantidades enormes de modelos sintéticos gerados por inteligência artificial (IA) aparecem cada vez mais em nossos feeds e em nossas pesquisas na internet. Mas o que está em jogo vai muito além do que se vê em nossas telas. Toda a cultura está sendo afetada pelo escoamento desregulado de IA, uma infiltração insidiosa em nossas instituições mais importantes.

Considere, primeiramente, o que ocorre na área científica. Logo em seguida ao grande sucesso do lançamento do ChatGPT-4 – o mais recente modelo de IA da OpenAI e um dos mais avançados que existem –, a linguagem da investigação científica passou a sofrer mutações, graças ao uso dessa tecnologia.

Um novo estudo de caso, publicado este mês pelo site arxiv.org, monitorou o conteúdo modificado por IA em escala e o impacto do ChatGPT nas revisões por pares de conferências de IA. Essas revisões são pronunciamentos oficiais de pesquisadores sobre o trabalho de outros pesquisadores, movimento que constitui a base do avanço científico. O artigo investiga uma série de conferências científicas de alto nível e prestígio que estudam a IA. Em uma delas, as revisões feitas por pares usaram a palavra “meticuloso” quase 3.400% mais do que as revisões do ano anterior. O uso de “louvável” aumentou cerca de 900%, e “complexo” em mais de 1.000%. Outras conferências importantes mostraram padrões semelhantes.

Essas expressões são, obviamente, algumas das palavras-chave mais usadas nos modelos de modernos programas de grandes linguagens, como o ChatGPT. Em outras palavras, um número significativo de pesquisadores de IA nessas conferências foi flagrado submetendo suas revisões dos trabalhos dos pares a ferramentas de IA – ou, no mínimo, escrevendo-as com muita assistência da tecnologia. Curiosamente, quanto mais próximo do prazo final para entrega das revisões, mais uso de IA foi detectado nelas.

‌

Se isso deixa você desconfortável – considerando principalmente a falta de confiabilidade da IA nos dias atuais – ou se você acha que não cabe à IA revisar trabalhos científicos, mas aos próprios cientistas, esses sentimentos expõem o paradoxo que está no cerne dessa tecnologia: não há clareza sobre qual é a linha ética que divide uma fraude de um uso regular da ferramenta. Algumas farsas geradas por IA são fáceis de identificar – basta lembrar o artigo publicado em uma revista médica que mostrou um rato de desenho animado com uma genitália enorme. Há outras ainda mais enganadoras, como o caminho regulatório erroneamente rotulado e alucinado descrito no mesmo artigo – e esse artigo também foi revisado por cientistas (ou, talvez, vamos especular, tenha sido revisado por outra ferramenta de IA).

Mas e quando a IA é usada de uma forma adequada – por exemplo, para auxiliar na escrita? Recentemente, houve um alvoroço quando se demonstrou que, em pesquisas simples em bancos de dados científicos, havia frases que indicavam que a redação do texto fora executada por uma ferramenta de IA. Claramente, marcas foram esquecidas nos textos; autores que usaram IA deixaram de encobrir os rastros. Se esses mesmos autores tivessem simplesmente excluído as marcas d’água acidentais, o uso da IA teria sido útil para ajudá-los a escrever seus artigos?

‌

O que está acontecendo na área científica retrata um microcosmo de um problema muito maior. Para entender isso, vamos responder a duas perguntas:

Primeiro, o que acontece quando se posta nas redes sociais?

Agora, qualquer postagem viral no X (ex-Twitter) quase com certeza inclui respostas geradas por IA, que vão desde resumos da postagem original até reações escritas pelo ChatGPT e narradas naquela voz eletrônica insípida da Wikipédia. Tudo parece feito para capturar seguidores. O Instagram está repleto de modelos gerados por IA, tanto quanto o Spotify está se enchendo de músicas também geradas por IA.

‌

O que acontece quando se publica um livro?

Logo depois que o livro sai do prelo, é muito provável que na Amazon apareçam à venda “livros de exercícios” gerados por IA que, supostamente, complementam o livro original (e que estão com conteúdo incorreto; sei bem o que é isso, porque aconteceu comigo). Os principais resultados de pesquisa do Google estão mostrando frequentemente imagens ou artigos gerados por IA. Grandes meios de comunicação, como a “Sports Illustrated”, criam artigos gerados por IA que são atribuídos a perfis de autores igualmente falsos. Profissionais de marketing que vendem métodos de otimização de mecanismos de pesquisa se gabam abertamente do uso de IA. Criaram milhares de artigos fraudulentos somente para roubar audiência e tráfego social dos concorrentes.

E há o uso crescente da IA generativa para ampliar a criação de vídeos sintéticos baratos para crianças no YouTube. Um exemplo são os horrores lovecraftianos, com vídeos musicais sobre papagaios em que os pássaros têm olhos dentro de olhos, bicos dentro de bicos, e se transformam horrivelmente, enquanto cantam com voz artificial frases tolas como: “O papagaio na árvore diz olá, olá!” As narrativas não fazem sentido, os personagens aparecem e desaparecem aleatoriamente, e fatos básicos estão errados – por exemplo, o nome das formas geométricas. Depois de identificar vários desses canais suspeitos em meu boletim informativo, “The Intrinsic Perspective”, a revista de tecnologia “Wired” encontrou provas de uso de IA generativa na produção de algumas contas com centenas de milhares ou até milhões de assinantes.

Como neurocientista, isso me preocupa. Será que a cultura humana não conseguirá guardar seus micronutrientes cognitivos – frases coerentes, narrações e continuidade de personagens –, coisas de que o cérebro humano em desenvolvimento tanto necessita? Einstein teria dito: “Se você quer que seus filhos sejam inteligentes, leia contos de fadas para eles. Se quer que eles sejam muito inteligentes, leia mais contos de fadas para eles.” Mas o que acontece quando uma criança consome principalmente resíduos de sonhos gerados por IA? Neste ponto, estamos em meio a uma vasta experiência em desenvolvimento.

Atualmente, há tanto lixo sintético na internet que empresas e pesquisadores de IA estão preocupados, não tanto com a saúde da cultura, mas com o que vai acontecer com seus modelos. É inegável que a capacidade de acumular modelos de IA aumentou em 2022. Escrevi sobre o risco de a cultura ficar tão inundada com criações de IA que, quando futuras IAs surgissem, a retirada da anterior vazaria, o que nos levaria a um futuro de cópias das cópias das cópias à medida que o conteúdo fosse se tornando cada vez mais estereotipado e previsível. Em 2023, pesquisadores introduziram um termo técnico para definir como esse risco afeta o desenvolvimento da IA: “colapso do modelo”. De certa forma, nós e essas empresas estamos no mesmo barco, remando na mesma lama que se infiltra em nosso oceano cultural.

Com essa similitude desagradável em mente, vale a pena olhar para aquela que é, sem dúvida, a analogia histórica mais abrangente que exemplifica a situação atual: o movimento ambientalista e as alterações climáticas. Como as empresas e os indivíduos que foram impelidos a poluir para garantir o avanço inexorável da economia, também a poluição cultural da IA é motivada por uma decisão racional de satisfazer o apetite voraz da internet em busca dos conteúdos mais baratos possíveis. Os problemas ambientais estão longe de ser resolvidos, mas há um progresso inegável que procura manter a atmosfera de nossas cidades menos poluídas e os nossos lagos e rios menos sujos por causa do lançamento de esgoto. Como?

Antes da proposição de soluções políticas específicas, já havia o reconhecimento de que a poluição ambiental era um problema que necessitava de regulamentação. Essa foi uma nova perspectiva desenvolvida, em 1968, por Garrett Hardin, biólogo e ecologista que teve grande influência na mudança de visão. Ele enfatizou que o problema da poluição era impulsionado por pessoas que agiam em interesse próprio e que, portanto, “nos prendiam a um sistema que nos faz ‘sujar o próprio ninho’, enquanto nos comportamos como seres independentes, racionais e livres empreendedores”. Hardin resumiu o problema como sendo uma “tragédia comum a todos”. Essa forma de ver o problema foi fundamental para o movimento ambientalista, que passou a depender da regulamentação governamental para fazer o que as empresas sozinhas poderiam ter feito, mas não quiseram.

Nestes novos tempos, mais uma vez, deparamo-nos com uma “tragédia comum a todos”: o interesse econômico individual e de curto prazo incentiva a utilização de IA na produção de conteúdo de baixo custo, feito apenas para maximizar cliques e visualizações. Isso polui nossa cultura e até enfraquece nossa compreensão da realidade. Até agora, as principais empresas de IA se recusaram a procurar formas avançadas de identificar e diferenciar produtos gerados pela ferramenta. Isso poderia ser feito, simplesmente, adicionando padrões estatísticos sutis escondidos no uso de certas palavras ou embutidos nos pixels das imagens.

Uma justificativa comum para a inação das empresas de IA nesse quesito é que editores de internet humanos sempre poderão mexer em qualquer padrão implantado, bastando que saibam o suficiente sobre o assunto. No entanto, muitos dos problemas que enfrentamos não são causados por agentes maliciosos motivados e tecnicamente qualificados; em vez disso, são causados, principalmente, por usuários não regulares que não se orientam pela linha que determina o uso ético da tecnologia, linha tão tênue que chega a ser quase inexistente. A maioria deles não está interessada em contramedidas avançadas para padrões estatísticos aplicados em resultados, tampouco em revelar produtos gerados por IA.

Foi por isso que pesquisadores independentes conseguiram detectar o uso de IA no sistema de revisão de textos científicos com uma precisão surpreendentemente alta: eles realmente se esforçaram para isso. Da mesma forma, professores de todo o país agora criam métodos caseiros de detecção do uso de IA em trabalhos escolares. Fazem isso adicionando solicitações ocultas que fazem a distinção nos padrões de uso de palavras, e solicitam uma verificação da redação que sugere ter sido copiada de um lugar e colada em outro.

Em particular, as empresas de IA parecem se opor a qualquer modelo que possa ser incorporado a seus produtos e que possa facilitar a detecção de uso de IA – o que poderia levar o emprego da ferramenta a um nível razoável. Talvez temam que a aplicação de tais modelos possa interferir no desempenho do modelo geral, restringindo demais seus resultados – embora não haja, atualmente, nenhuma prova de que isso seja um risco real. Apesar das promessas públicas anteriores de desenvolver marcas d’água mais avançadas, está cada vez mais claro que a relutância e a lentidão das empresas se devem ao fato de que isso vai contra a própria definição de IA, cujo objetivo não é o de gerar produtos detectáveis.

Para lidar com essa recusa corporativa em agir, precisamos do equivalente a uma Lei do Ar Limpo (Clean Air Act, lei federal norte-americana de 1970, bastante abrangente, que regulamenta todas as fontes de emissões atmosféricas), que poderia se chamar Lei da Internet Limpa. Talvez a solução mais simples seja forçar legislativamente a introdução de marcas d’água mais avançadas, inerentes aos resultados gerados, com modelos difíceis de remover. Tal como o século XX exigiu extensas intervenções para proteger o meio ambiente, o século XXI exigirá extensas intervenções para proteger um recurso diferente, igualmente compartilhado e da mesma forma crítico, recurso cuja importância não tínhamos notado até agora, já que ele nunca esteve sob ameaça: a cultura humana comum a todos.

c. 2024 The New York Times Company