Dados de crianças brasileiras são usados em treinamento de IA sem consentimento, revela relatório

Documento da Human Rights Watch, organização da Universidade de Stanford, denuncia uso não autorizado de mais de 170 imagens e dados pessoais de menores em um banco de dados público para treinar IA

A menina Ella, 9, é a protagonista da campanha de privacidade da empresa alemã Deutsche Telekom: vídeo alerta como uma versão adulta dela foi criada usando IA

André Lopes

Repórter

Publicado em 10 de junho de 2024 às 08h47.

Última atualização em 10 de junho de 2024 às 08h57.

Tudo sobreAcompanhe tudo sobreInteligência artificial

Saiba mais

Mais de 170 imagens e dados pessoais de crianças do Brasil foram coletados por um banco de dados de código aberto sem o conhecimento ou consentimento de seus responsáveis e utilizados para treinar inteligências artificiais (IA), afirma um novo relatório da Human Rights Watch divulgado nesta segunda-feira, 10.

Segundo o documento, as imagens foram retiradas de conteúdos postados desde 2023 e até a década de 1990, muito antes de os usuários da internet anteciparem que seus conteúdos poderiam ser usados para treinar IA. O banco de dados chama-se LAION-5B, e é bastante popular entre startups de IA. No arquivo, também haviam dados pessoais dessas crianças, juntamente com links para suas fotografias, como revelou a Wired.

O LAION-5B — um repositório de dados criado por meio da coleta de informações da web e disponibilizado para pesquisadores — tem sido utilizado para treinar diversos modelos de IA, incluindo a ferramenta de geração de imagens Stable Diffusion da Stability AI. Criado pela organização sem fins lucrativos alemã LAION, o banco é abertamente acessível e agora inclui mais de 5,85 bilhões de pares de imagens e legendas, de acordo com seu site.

As imagens de crianças encontradas pelos pesquisadores vieram de blogs de maternidade e outros blogs pessoais, além de capturas de vídeos do YouTube com poucos acessos, aparentemente postados para serem compartilhados com familiares e amigos.

O porta-voz da LAION, Nate Tyler, informou que a organização já tomou medidas. “O LAION-5B foi retirado do ar em resposta a um relatório de Stanford que encontrou links no dataset apontando para conteúdo ilegal na web pública,” diz ele, acrescentando que a organização está atualmente trabalhando com a Internet Watch Foundation, o Centro Canadense para a Proteção da Criança, Stanford e a Human Rights Watch para remover todas as referências conhecidas a conteúdo ilegal.

Os termos de serviço do YouTube não permitem a coleta de dados, exceto sob certas circunstâncias; esses casos parecem violar essas políticas. “Deixamos claro que a coleta não autorizada de conteúdo do YouTube é uma violação de nossos Termos de Serviço,” afirma o porta-voz do YouTube, Jack Maon, “e continuamos a tomar medidas contra esse tipo de abuso.”

Em dezembro, pesquisadores da Universidade de Stanford descobriram que os dados de treinamento de IA coletados pelo LAION-5B continham material de abuso sexual infantil. O problema dos deepfakes explícitos está crescendo até mesmo entre estudantes nas escolas dos EUA, onde são usados para intimidar colegas, especialmente meninas.

A Human Rights Watch se preocupa que, além de usar fotos de crianças para gerar CSAM, o banco de dados possa revelar informações potencialmente sensíveis, como localização ou dados médicos. Em 2022, uma artista dos EUA encontrou sua própria imagem no dataset do LAION e percebeu que era de seus registros médicos privados.

No ano passado, uma campanha publicitária alemã usou um deepfake gerado por IA para alertar os pais contra postar fotos de crianças online, avisando que as imagens dos filhos poderiam ser usadas para intimidá-los ou criar CSAM. Mas isso não resolve a questão das imagens já publicadas ou das que têm décadas e ainda estão disponíveis online.

Conheça os maiores laboratórios de IA do mundo

1/7 (O MIT Computer Science and Artificial Intelligence Laboratory (CSAIL), em Cambridge, Massachusetts, desenvolveu o sistema de diagnóstico de câncer de mama baseado em IA, reduzindo erros em 15%.)
2/7 (O Google AI, com sede em Mountain View, Califórnia, criou o AlphaGo, o primeiro programa de IA a derrotar um campeão mundial de Go, revolucionando a pesquisa em aprendizado profundo.)
3/7 Localizado em Londres, Reino Unido, o DeepMind Lab é famoso pelo desenvolvimento do AlphaFold, um programa de IA que previu estruturas de proteínas com precisão sem precedentes, impactando a biologia molecular. (Localizado em Londres, Reino Unido, o DeepMind Lab é famoso pelo desenvolvimento do AlphaFold, um programa de IA que previu estruturas de proteínas com precisão sem precedentes, impactando a biologia molecular.)
4/7 (O IBM Watson Research Center, em Yorktown Heights, Nova York, desenvolveu a IA Watson, que venceu campeões humanos no programa de TV Jeopardy!, demonstrando avanços significativos em processamento de linguagem natural.)
5/7 (O Baidu Research Lab, em Pequim, China, é conhecido por seu sistema de reconhecimento de voz Deep Speech, que alcançou uma precisão de 97% na transcrição de áudio, superando as tecnologias anteriores.)
6/7 (O Berkeley Artificial Intelligence Research (BAIR) Lab, na Universidade da Califórnia, em Berkeley, criou algoritmos avançados de robótica, incluindo o Dex-Net, que melhorou a precisão da manipulação robótica em 99%.)
7/7 (O centro da Meta AI Research SuperCluster (RSC) tem um dos supercomputadores de IA mais rápidos da atualidade. Com ele, a empresa desenvolveu o sistema de tradução automática baseado em IA que suporta mais de 100 idiomas, melhorando a comunicação global em plataformas sociais da empresa.)

Acompanhe tudo sobre:Inteligência artificial Crianças

Senado discute PL para uso da inteligência artificial na terça-feira; saiba o que diz a lei

Mais de Inteligência Artificial

Acabou o shopping? Como a IA mudou a maneira de comprar

Mais na Exame

Imagem referente à matéria: MP-SP obriga Enel a reestabelecer energia sob multa de R$ 200 mil por hora

Brasil

Inteligência Artificial

Dados de crianças brasileiras são usados em treinamento de IA sem consentimento, revela relatório

Documento da Human Rights Watch, organização da Universidade de Stanford, denuncia uso não autorizado de mais de 170 imagens e dados pessoais de menores em um banco de dados público para treinar IA

Conheça os maiores laboratórios de IA do mundo

Mais de Inteligência Artificial

Acabou o shopping? Como a IA mudou a maneira de comprar

Disney investe R$ 5,4 bilhões em dona do ChatGPT

Reino Unido amplia parceria com Google DeepMind para impulsionar IA no país

No Copilot da Microsoft, usuários pedem ajuda para entender de saúde, carreira e amor

Mais na Exame

MP-SP obriga Enel a reestabelecer energia sob multa de R$ 200 mil por hora

'Hogwarts Legacy' é liberado para jogar gratuitamente; veja o passo a passo

Quantos prédios existem ao redor do mundo? Descubra com este novo mapa 3D

Ibovespa destoa de NY e fecha em alta de quase 1%; na semana avança 2,16%