O crescimento meteórico da inteligência artificial enfrenta um desafio: falta de dados de treinamento.

“Já esgotamos os dados”, afirmou Neema Raphael, diretor de dados do Goldman Sachs e responsável pela engenharia de dados, no podcast Exchanges do banco, publicado na terça-feira.

Raphael disse que essa escassez já influencia a forma como novos sistemas de IA são desenvolvidos. Ele citou a chinesa DeepSeek como exemplo, sugerindo que altos custos de desenvolvimento podem vir do uso de saídas de modelos existentes, e não de dados totalmente novos.

“Será interessante ver como os modelos anteriores vão moldar a próxima geração de sistemas”, comentou Raphael.

Com a web praticamente esgotada, desenvolvedores recorrem a dados sintéticos — textos, imagens e códigos gerados por máquinas. Embora ofereçam oferta ilimitada, há risco de sobrecarregar os modelos com conteúdos de baixa qualidade.

Ainda assim, Raphael acredita que a falta de dados frescos não será um grande obstáculo, já que muitas empresas guardam grandes volumes de informação ainda não explorados.

“Do ponto de vista corporativo, ainda há muito a ser aproveitado”, disse. Isso indica que a próxima fronteira não é a internet aberta, mas os conjuntos de dados proprietários das empresas. Informações como fluxos de negociação e interações com clientes podem tornar ferramentas de IA muito mais valiosas se forem utilizadas corretamente.

Desde o surgimento do ChatGPT há três anos, a indústria enfrenta o chamado “pico de dados”.

Para Raphael, o desafio não é apenas encontrar mais dados, mas garantir que eles sejam utilizáveis. “É preciso compreender o dado, o contexto de negócio e normalizá-lo de forma que faça sentido para a empresa”, disse.

Ele também alertou para o uso excessivo de dados sintéticos, que pode levar a um “platô criativo” na IA. “Se todos os dados forem gerados por máquinas, quanto de dado humano ainda poderá ser incorporado?”, questionou.

“Será interessante observar isso também de uma perspectiva filosófica”, concluiu.

