Se o ChatGPT fosse um pediatra, ele estaria 83% das vezes errado ao fazer diagnósticos de crianças
Um estudo publicado na JAMA Pediatrics realizou uma análise interessante sobre o desempenho do ChatGPT ao lidar com informações sobre as condições médicas em crianças. Spoiler: ele ainda não está preparado para atuar na área da saúde
Redação Exame
Publicado em 8 de janeiro de 2024 às 11h18.
Última atualização em 8 de janeiro de 2024 às 11h20.
Um estudo recente publicado no JAMA Pediatrics coloca em cheque a eficácia do ChatGPT-4, a quarta versão do modelo de linguagem de IA, em diagnósticos pediátricos.
A análise revelou uma taxa de precisão de apenas 17% ao analisar sintomas de crianças, um indicativo de que a tecnologia ainda não está pronta para substituir a experiência clínica humana em pediatria.
Esse resultado, significativamente inferior aos 39% de acurácia geral registrados no ano anterior, sublinha a importância da experiência clínica e o papel insubstituível dos pediatras.
Os autores do estudo destacam as limitações cruciais do ChatGPT, ao mesmo tempo em que apontam direções para transformá-lo em uma ferramenta útil no cuidado clínico.
O potencial da IA na medicina
A adoção de IA no campo médico tem sido marcada por sucessos e falhas. Enquanto tecnologias baseadas em IA têm contribuído para tarefas administrativas e análise de imagens médicas, casos de viés algorítmico racial também foram observados.
O estudo, conduzido por pesquisadores do Cohen Children’s Medical Center em Nova York, testou o ChatGPT-4 com 100 desafios de casos pediátricos publicados em periódicos médicos.
Estes casos, que são apresentados como desafios diagnósticos, exigem uma consideração cuidadosa da idade do paciente, uma tarefa particularmente desafiadora em bebês e crianças pequenas que não conseguem expressar todos os seus sintomas.
O ChatGPT-4 foi submetido a um teste envolvendo casos reais, onde duas avaliações médicas qualificadas categorizaram as respostas da IA como corretas, incorretas ou incompletas. A maioria dos diagnósticos estava errada ou não capturava totalmente o diagnóstico.
Por exemplo, em um caso, o ChatGPT diagnosticou erroneamente um cisto branchial, enquanto a condição correta era a síndrome de Branchio-oto-renal, doenças com tratamentos diferentes.
Apesar dos desafios enfrentados pelo chatbot, os pesquisadores sugerem que melhorias específicas e treinamento seletivo em literatura médica confiável poderiam aumentar a precisão diagnóstica dos chatbots baseados em modelos de linguagem de grande escala (LLM).