Logo R7.com
Logo do PlayPlus

Inteligência artificial desbanca médicos no diagnóstico de doenças

Estudo mostra que o ChatGPT superou os humanos na avaliação de históricos de casos médicos, mesmo quando esses médicos usavam um chatbot

Saúde|Gina Kolata, do The New York Times


Adam Rodman, especialista em medicina geral no Centro Médico Beth Israel Deaconess em Boston, acreditava que os chatbots criados para o uso de IA (inteligência artificial) ajudariam os médicos a diagnosticar doenças. Ele se enganou. Em vez disso, uma pesquisa que Rodman ajudou a projetar revelou que aqueles médicos que usavam o ChatGPT-4 em conjunto com recursos convencionais tiveram um desempenho apenas um pouco melhor do que os médicos que não tiveram acesso ao bot. E, para a surpresa dos pesquisadores, o ChatGPT sozinho superou os médicos na precisão dos diagnósticos. “Fiquei chocado”, disse Rodman.

O chatbot da empresa OpenAI obteve a média de 90% de sucesso ao diagnosticar uma condição médica a partir de um relato de caso e explicar seu raciocínio para chegar ao resultado. Os médicos designados aleatoriamente para usar o chatbot obtiveram uma pontuação média de 76%. Outros médicos designados aleatoriamente, que não tiveram acesso ao bot, fizeram uma pontuação média de 74%.

O estudo mostrou mais do que o desempenho superior do chatbot; revelou que há uma crença – por vezes inabalável – dos médicos nos diagnósticos que fazem, mesmo quando o chatbot sugere um diagnóstico melhor que deveria ser levado em consideração. E, ainda que os médicos tenham acesso às ferramentas de IA para executar seu trabalho, o estudo deixou claro que poucos sabem explorar as habilidades dos chatbots. O resultado é que falharam em aproveitar a capacidade dos sistemas de IA para resolver problemas diagnósticos complexos e oferecer explicações para suas decisões.

Para Rodman, os sistemas de IA devem ser usados como “complementos médicos” que oferecem valiosas segundas opiniões na elaboração de diagnósticos. Mas parece que há um extenso caminho a percorrer antes que esse potencial seja posto em prática.


Histórico do caso, futuro do caso

O experimento envolveu 50 médicos, uma mistura de residentes e médicos assistentes recrutados nos grandes sistemas hospitalares americanos, e foi publicado mês passado na revista “Jama Network Open”.

Os participantes do teste receberam seis históricos de casos. Foram classificados em sua capacidade de sugerir diagnósticos e explicar por que os favoreciam ou os descartavam. Suas notas também incluíam acertar o diagnóstico final.


Os avaliadores eram especialistas médicos que viam apenas as respostas dos participantes, sem saber se eram de um médico que usava apoio do ChatGPT, de um médico sem ele ou do próprio chatbot.

Os históricos de casos usados no estudo foram baseados em pacientes reais e fazem parte de um conjunto de 105 casos que são usados por pesquisadores desde a década de 1990. Os casos, intencionalmente, nunca foram publicados, para que estudantes de medicina e outros pudessem ser testados neles sem nenhum conhecimento prévio. Isso significava também que o ChatGPT não poderia ter sido treinado neles.


Apenas para ilustrar o que o estudo envolveu, os pesquisadores publicaram um dos seis casos nos quais os médicos foram testados. A este juntaram respostas às perguntas do teste de um médico que obteve pontuação alta e de um cuja pontuação foi baixa.

O caso de teste envolveu um paciente de 76 anos com dor intensa na parte inferior das costas, nas nádegas e nas panturrilhas ao caminhar. A dor começou alguns dias depois de ter sido tratado com angioplastia com balão para alargar uma artéria coronária. Foi-lhe administrado o anticoagulante heparina por 48 horas depois do procedimento.

O homem reclamava que se sentia febril e cansado. Seu cardiologista havia feito exames laboratoriais que indicavam um novo início de anemia e um acúmulo de nitrogênio e outros resíduos renais no sangue. O homem havia passado por uma cirurgia de bypass por causa de uma doença cardíaca uma década antes.

O relato desse caso incluiu ainda detalhes do exame físico do homem e, em seguida, forneceu os resultados dos exames laboratoriais.

O diagnóstico correto era embolia por colesterol – condição na qual fragmentos de colesterol se desprendem da placa nas artérias e bloqueiam os vasos sanguíneos.

Os participantes foram questionados sobre três diagnósticos possíveis, com provas que sustentavam cada um. Também foram solicitados a fornecer, para cada diagnóstico possível, descobertas que não o apoiassem ou que eram esperadas, mas não estavam presentes.

Os participantes também tiveram de dar um diagnóstico final. Em seguida, deveriam nomear até três etapas adicionais que seguiriam em seu processo de diagnóstico.

Assim como o diagnóstico do caso publicado, os diagnósticos dos outros cinco casos no estudo não foram fáceis de descobrir. Mas também não eram tão raros a ponto de serem quase inéditos. No entanto, os médicos, em média, se saíram pior do que o chatbot.

Os pesquisadores se perguntaram o que estava acontecendo. A resposta parece depender de questões sobre como os médicos chegam a um diagnóstico e como usam uma ferramenta como a IA.

O médico na máquina

Portanto, como os médicos diagnosticam os pacientes?

Segundo Andrew Lea, historiador da medicina no Hospital Brigham and Women’s que não esteve envolvido no estudo, “o problema é que realmente não sabemos como os médicos pensam. Ao descrever como chegam a um diagnóstico, eles dizem que foi por ‘intuição’ ou ‘com base na minha experiência’”. Esse tipo de imprecisão desafia os pesquisadores há décadas, enquanto tentam fazer programas de computador que possam pensar como um médico. São quase 70 anos de busca. “Desde que surgiram os computadores, tentaram usá-los para fazer diagnósticos”, completou.

Uma das tentativas mais ambiciosas começou na década de 1970 na Universidade de Pittsburgh. Cientistas da computação convidaram Jack Myers, chefe do departamento de medicina interna, reconhecido por ser um mestre em diagnósticos. Ele tinha memória fotográfica e passava 20 horas por semana na biblioteca médica, tentando aprender tudo que era conhecido na medicina.

Myers recebeu detalhes médicos de casos e explicou seu raciocínio enquanto ponderava diagnósticos. Cientistas da computação converteram suas cadeias lógicas em código. O programa resultante, chamado Internist-1, incluía mais de 500 doenças e cerca de 3.500 sintomas de doenças.

Para testá-lo, os pesquisadores injetaram no programa casos do “New England Journal of Medicine”. “O computador se saiu muito bem. Seu desempenho foi provavelmente melhor do que um humano poderia fazer”, disse Rodman.

Mas o Internist-1 nunca decolou. Era difícil de usar, exigindo mais de uma hora para fornecer as informações necessárias para fazer um diagnóstico. Os próprios criadores observaram que “a forma atual do programa não é suficientemente confiável para aplicações clínicas”.

A pesquisa continuou. Em meados da década de 1990, havia cerca de meia dúzia de programas de computador que tentavam fazer diagnósticos médicos. Nenhum chegou a ser amplamente usado. “Não bastava que os programas pudessem ser operados com facilidade – os médicos também tinham de confiar neles”, comentou Rodman.

Com a incerteza sobre a maneira como os médicos pensam, especialistas se perguntaram se deveriam levar essa afirmação em conta. É realmente importante tentar projetar programas de computador para fazer diagnósticos da mesma forma que os humanos fazem? “Houve discussões sobre até que ponto um programa de computador deve imitar o raciocínio humano. Mas por que não aproveitar a força do computador? O computador pode não ser capaz de dar uma explicação clara sobre o caminho que usou para chegar a uma decisão, mas isso importa se ele acerta o diagnóstico?”, afirmou Lea.

A conversa mudou com o advento de grandes modelos de linguagem como o ChatGPT. Eles não fazem nenhuma tentativa explícita de replicar o pensamento de um médico; suas habilidades de diagnóstico vêm de sua capacidade de prever a linguagem. “A interface de chat é o aplicativo principal. Hoje podemos colocar um caso inteiro no computador. Há alguns anos, os computadores não entendiam a linguagem”, disse Jonathan H. Chen, médico e cientista da computação da Universidade Stanford, autor do novo estudo.

Apesar dos avanços, muitos médicos ainda não exploram o potencial das ferramentas disponíveis.

Erro do operador

Depois do choque inicial com os resultados do novo estudo, Rodman decidiu ir mais a fundo, investigando os dados e analisando os registros reais de mensagens entre os médicos e o ChatGPT. A pergunta principal era: se os médicos viram os diagnósticos e o raciocínio do chatbot, por que aqueles que o usaram não se saíram melhor?

O fato é que os médicos muitas vezes não eram convencidos pelo chatbot quando ele apontava algo que estava em desacordo com seus diagnósticos. Em vez disso, tendiam a se apegar à própria ideia do diagnóstico correto. “Eles não ouviam a IA quando esta dizia coisas com as quais não concordavam”, explicou Rodman.

“Isso faz sentido. Em geral, as pessoas são excessivamente confiantes quando acham que estão certas”, observou Laura Zwaan, que estuda raciocínio clínico e erro de diagnóstico no Centro Médico da Universidade Erasmus, em Roterdã, nos Países Baixos, e que não esteve envolvida no estudo.

Mas havia outro problema: muitos médicos não sabiam como usar um chatbot em toda a sua potencialidade. “Quando olhei os registros de chats dos médicos, percebi que estavam tratando a ferramenta como um mecanismo simples de busca para perguntas direcionadas: ‘A cirrose é um fator de risco para câncer?’ ‘Quais são os diagnósticos possíveis para dor ocular?’ Só uma fração dos médicos percebeu que poderia, literalmente, copiar e colar todo o histórico do caso no chatbot e pedir a ele que desse uma resposta abrangente. Só uma fração dos médicos aproveitou de fato as respostas surpreendentemente inteligentes e amplas que o chatbot era capaz de produzir”, disse Chen.

c. 2024 The New York Times Company

Últimas


Utilizamos cookies e tecnologia para aprimorar sua experiência de navegação de acordo com oAviso de Privacidade.