Chatbots de IA podem ajudar médicos com diagnósticos difíceis? Pesquisadores tentam descobrir
Mesmo sem regulamentação, médicos já usam o ChatGPT para obter ajuda na avaliação de sintomas
Tecnologia e Ciência|Gina Kolata
A paciente era uma mulher de 39 anos no pronto-socorro do Beth Israel Deaconess Medical Center, em Boston. Fazia vários dias que estava sentindo dor no joelho esquerdo. No dia anterior, tivera uma febre de quase 39 graus que passara, mas ainda estava com calafrios. E o joelho estava vermelho e inchado. Qual era o diagnóstico?
Em uma recente sexta-feira quente e úmida, a doutora Megan Landon, médica residente, apresentou esse caso real a uma sala lotada de estudantes de medicina e residentes reunidos para aprender uma habilidade que pode ser dificílima de ensinar: pensar como um médico.
"Somos péssimos em ensinar aos outros médicos como pensamos", disse o doutor Adam Rodman, internista, historiador da medicina e organizador do evento no Beth Israel Deaconess.
Mas, dessa vez, era possível consultar um especialista para ajudar a chegar a um diagnóstico — o GPT-4, a versão mais recente de um chatbot lançado pela empresa OpenAI.
A inteligência artificial (IA) está transformando muitos aspectos da prática da medicina. Alguns profissionais da área estão usando essas ferramentas para ajudá-los no diagnóstico, e os do Beth Israel Deaconess, hospital universitário afiliado à Faculdade de Medicina de Harvard, decidiram explorar como os chatbots poderiam ser bem — e mal — utilizados na formação de futuros médicos.
Instrutores como Rodman esperam que os estudantes de medicina possam recorrer ao GPT-4 e a outros chatbots para algo semelhante ao que é conhecido como "consulta na calçada" — quando chamam um colega de lado e pedem uma opinião sobre um caso difícil. A ideia é usar o chatbot da mesma forma que os médicos recorrem uns aos outros para sugestões e insights.
Durante mais de um século, os médicos foram retratados como detetives que reúnem e usam pistas para encontrar o culpado. Mas, na verdade, os médicos experientes usam outro método, o reconhecimento de padrões, para descobrir o que está errado. Na medicina, isso é chamado de "roteiro da doença": sinais, sintomas e resultados de exames reunidos pelos médicos para contar uma história coerente, com base em casos semelhantes que conhecem ou já viram.
Rodman explicou que, quando isso não ajuda, os médicos recorrem a outras estratégias, como atribuir probabilidades a vários diagnósticos que possam se encaixar.
Os pesquisadores tentam há mais de meio século projetar programas de computador para fazer diagnósticos médicos, mas não têm sido bem-sucedidos.
Segundo os médicos, o GPT-4 é diferente. "Ele cria algo muito semelhante a um roteiro de doença, e nisso ele é fundamentalmente diferente de um mecanismo de busca", observou Rodman.
Ele e outros médicos da Beth Israel Deaconess solicitaram ao GPT-4 possíveis diagnósticos em casos difíceis. Em um estudo divulgado no mês passado na revista médica Jama, descobriram que o chatbot se saiu melhor do que a maioria dos médicos em desafios de diagnósticos semanais, publicados no The New England Journal of Medicine.
Mas eles aprenderam que há uma arte em usar o programa e que existem armadilhas. "Os estudantes e residentes de medicina o estão usando, mas se estão aprendendo alguma coisa é uma pergunta ainda sem resposta", afirmou o doutor Christopher Smith, diretor do programa de residência em medicina interna do centro médico.
Há a preocupação de que eles possam confiar na IA para fazer diagnósticos da mesma forma que confiariam em uma calculadora de smartphone para resolver um problema de matemática. De acordo com Smith, isso é perigoso: "O aprendizado implica tentar descobrir as coisas. É assim que retemos informações. A dificuldade faz parte dele. Se você terceirizá-lo para o GPT, a dificuldade desaparece".
Na reunião, estudantes e residentes se dividiram em grupos e tentaram descobrir o que estava errado com a paciente de joelho inchado. A seguir, voltaram-se para o GPT-4.
Os grupos tentaram abordagens diferentes. Um deles usou o GPT-4 para fazer uma pesquisa na internet, semelhante à maneira como se usa o Google. O chatbot emitiu uma lista de possíveis diagnósticos, incluindo trauma. Mas, quando os membros do grupo pediram a ele que explicasse o raciocínio, o bot decepcionou, afirmando: "O trauma é uma causa comum de lesão no joelho".
Outro grupo pensou em hipóteses possíveis e pediu ao GPT-4 que as verificasse. A lista do chatbot estava alinhada com a do grupo: infecções, incluindo a doença de Lyme; artrite, incluindo a gota, tipo de artrite com cristais nas articulações; e trauma.
O GPT-4 adicionou a artrite reumatoide às principais possibilidades, embora esta não estivesse no topo da lista do grupo. Os instrutores disseram mais tarde ao grupo que, como a paciente era jovem e do sexo feminino, a gota era improvável naquele caso. E a artrite reumatoide provavelmente poderia ser descartada porque apenas uma articulação estava inflamada, e só durante alguns dias.
Como "consulta na calçada", o GPT-4 pareceu passar no teste ou, pelo menos, concordar com os alunos e residentes. Mas, nesse exercício, não ofereceu insights e nenhum roteiro de doença.
Leia também
Uma das razões pode ser o fato de os alunos e residentes terem usado o bot mais como um mecanismo de busca do que como uma "consulta na calçada".
Os instrutores observaram que, para usá-lo de maneira correta, seria preciso começar dizendo ao GPT-4 algo como: "Você é um médico atendendo uma mulher de 39 anos com dor no joelho". Em seguida, teriam de listar os sintomas antes de pedir um diagnóstico e fazer perguntas sobre o raciocínio do bot, como fariam a um colega.
Segundo os instrutores, essa é uma maneira de explorar o poder do GPT-4. Mas também é fundamental reconhecer que os chatbots podem cometer erros e "alucinar" — fornecer respostas sem nenhuma base factual. Usá-los requer saber quando estão errados. "Não é errado recorrer a essas ferramentas. Você só tem de usá-las do jeito certo", frisou o doutor Byron Crowe, profissional de medicina interna do hospital.
No fim da sessão, os instrutores revelaram o verdadeiro motivo do joelho inchado da paciente. Acabou por ser uma possibilidade que todos os grupos tinham considerado e que o GPT-4 propusera: a doença de Lyme.
c. 2023 The New York Times Company
LEIA ABAIXO: Inteligência artificial cria versões de 'mulheres bonitas' em 100 países do mundo