IA na Saúde: modelos de inteligência artificial para prever doenças podem ter sido treinados com dados inconsistentes, aponta estudo (Yaroslav Kushta/Getty Images)
Redatora
Publicado em 16 de abril de 2026 às 07h18.
Dezenas de modelos de inteligência artificial usados para prever o risco de doenças, como diabetes e acidente vascular cerebral (AVC), podem ter sido treinados com dados de origem incerta. A análise levanta dúvidas sobre a confiabilidade dessas ferramentas, algumas já aplicadas em ambientes clínicos.
As conclusões fazem parte de um estudo preliminar divulgado na plataforma medRxiv e reportado pela revista científica Nature na quarta-feira, 15.
Pesquisadores liderados por Adrian Barnett, da Queensland University of Technology, analisaram dois conjuntos amplamente usados no treinamento de modelos de aprendizado de máquina.
A avaliação identificou inconsistências incomuns em dados reais, como ausência quase total de lacunas e padrões repetitivos. Essas características levantam a hipótese de que parte das informações possa ter sido fabricada.
Segundo Barnett, a descoberta dessas anomalias foi inesperada.
Os pesquisadores identificaram 124 estudos científicos que utilizaram ao menos um desses conjuntos para treinar modelos preditivos.
Parte dessas pesquisas foi publicada em periódicos revisados por pares. Algumas revistas científicas já iniciaram investigações sobre a origem e a validade dos dados utilizados, e há registros de retratações de artigos após questionamentos.
De acordo com o artigo, os conjuntos analisados foram disponibilizados na plataforma Kaggle, com informações limitadas sobre a procedência dos dados.
Um dos conjuntos investigados reúne dados de pouco mais de 5 mil pessoas e foi usado em mais de 100 estudos sobre previsão de AVC. Entre os problemas identificados está a ausência de registros incompletos, algo incomum em bases reais, que geralmente apresentam falhas de acompanhamento.
Outro banco, voltado à previsão de diabetes, inclui informações de cerca de 100 mil pessoas. A análise encontrou número limitado de variações em indicadores como glicose no sangue, além de possíveis duplicações de dados.
O estudo aponta que ao menos dois modelos baseados nesses dados foram utilizados em hospitais, incluindo instituições na Indonésia e na Espanha. Também foram identificadas ferramentas online que permitem estimar riscos a partir de informações pessoais, além de registro em pedido de patente de dispositivo médico.
Apesar disso, não há confirmação de que essas aplicações tenham gerado diagnósticos incorretos.
Especialistas alertam que sistemas treinados com dados de procedência desconhecida podem comprometer decisões médicas ao gerar previsões imprecisas.
Diante dos resultados, especialistas defendem maior rigor na divulgação das fontes utilizadas no desenvolvimento de modelos voltados à saúde.
A recomendação é que estudos sem clareza sobre a origem dos dados sejam rejeitados por periódicos científicos, para reduzir riscos na aplicação dessas ferramentas. Também há indicação de que os conjuntos de dados identificados com inconsistências sejam removidos de plataformas públicas, a fim de evitar seu uso em novas pesquisas.