A rede social Bluesky divulgou uma proposta no GitHub que permitiria aos usuários indicar se aceitam ou não que seus posts e dados sejam usados para o treinamento de inteligência artificial generativa e para arquivamento público. O plano foi mencionado pela CEO da empresa, Jay Graber, durante o festival South by Southwest, mas gerou controvérsia quando ela publicou sobre o assunto na própria plataforma.

Usuários reagiram com preocupação, vendo a medida como um recuo na promessa do Bluesky de não vender dados ou utilizá-los para treinar IA. Graber respondeu que empresas de IA já estão coletando dados públicos da internet, incluindo do Bluesky, uma vez que “tudo na plataforma é público, como um site”. Assim, a rede social estaria tentando criar um novo padrão semelhante ao arquivo robots.txt, usado para indicar permissões a rastreadores da web.

Ferramenta dependerá da boa-fé das empresas

A proposta sugere um sistema que permitiria aos usuários do Bluesky e de outras plataformas que utilizam o ATProtocol definir preferências sobre quatro categorias:

Treinamento de IA (uso de posts para alimentar modelos generativos)

(uso de posts para alimentar modelos generativos) Conexão entre redes sociais (interoperabilidade de dados)

(interoperabilidade de dados) Uso em grandes bases de dados

Arquivamento da web (como no Internet Archive)

A expectativa da empresa é que empresas e pesquisadores respeitem essas preferências ao coletar dados do Bluesky, seja por meio de raspagem direta ou transferência em massa via protocolo. No entanto, o modelo proposto não possui força legal.

A pesquisadora Molly White, conhecida por suas análises críticas sobre tecnologia, avaliou a proposta como positiva. Ela argumenta que o Bluesky não está incentivando a raspagem de dados, mas tentando estabelecer um mecanismo de consentimento para algo que já acontece.

Por outro lado, White destacou a fragilidade do sistema, já que ele depende da adesão voluntária das empresas de IA. Muitas delas já ignoram restrições como o próprio robots.txt, além de utilizarem material pirateado para treinar modelos de IA.

Debate sobre ética e regulação segue aberto

A iniciativa do Bluesky ocorre em um momento de intensificação dos debates sobre o uso de dados públicos para treinar modelos de inteligência artificial. Empresas como OpenAI e Google enfrentam processos por supostamente coletarem informações sem autorização.

Sem regulamentação específica, a proposta da rede social busca equilibrar transparência e controle dos usuários sobre seus dados, mas sua eficácia dependerá da adesão do setor.