Uma startup londrina que promete acelerar o treinamento de inteligência artificial para empresas acaba de levantar US$ 7,5 milhões em uma rodada liderada por fundos de venture capital.

A AgileRL, fundada em 2023, diz que a demanda por aprendizado por reforço, um método de treinamento criado ainda na década de 1950, voltou a crescer após o boom dos modelos baseados em transformers, como os grandes modelos de linguagem.

A rodada foi liderada pelo Fusion Fund, com participação de Flying Fish, Octopus Ventures, Entrepreneur First e Counterview Capital.

Segundo a empresa, os recursos serão usados para expandir a operação, abrir um escritório em São Francisco e contratar mais de uma dúzia de pessoas para funções de engenharia e entrada no mercado. As informações foram retiradas de Business Insider.

A tese: IA corporativa precisa de mais do que transformers

O movimento da AgileRL se apoia em uma leitura objetiva sobre o mercado de IA corporativa: após o lançamento do ChatGPT no fim de 2022, empresas migraram orçamentos de projetos de reinforcement learning (RL) para iniciativas baseadas em transformers, tecnologia central dos modelos de linguagem.

Segundo Param Kumar, CEO da startup, esse redirecionamento foi motivado pelo apelo imediato dos LLMs, mas agora os limites dessa abordagem começaram a aparecer dentro das empresas.

“Percebemos desde o início que os Transformers são ótimos, mas são modelos estatísticos complexos”, disse Kumar. “Na realidade, você precisará adicionar aprendizado por reforço (RL) por cima disso, porque há um limite para o que você pode inferir dos dados.”

Essa fala dialoga diretamente com o que CFOs, controllers e executivos de finanças vêm observando: a conta de IA não fecha apenas com hype tecnológico. O desafio é reduzir ciclos de teste, controlar custos computacionais e garantir previsibilidade antes de colocar um modelo em produção, e esse é exatamente o tipo de dor que a AgileRL tenta endereçar.

Por que o aprendizado por reforço voltou ao radar

O aprendizado por reforço é um método no qual o sistema aprende por tentativa e erro, ajustando suas ações com base em feedback. Ao contrário dos transformers, que aprendem padrões a partir de grandes volumes de dados de uma só vez, o RL aprende “passo a passo”.

Kumar citou o exemplo de um braço robótico encarregado de mover uma bola de uma mesa para outra. Segundo ele, esse tipo de tarefa envolve várias etapas menores, como agarrar a bola, levantar o braço, mover articulações, e o Arena permite que engenheiros definam parâmetros para melhorar o desempenho em cada etapa.

É nesse tipo de aplicação prática que empresas começam a ver o RL como complemento de modelos estatísticos. Para o público de Finanças Corporativas, o ponto mais relevante não é o jargão técnico: é o impacto de reduzir falhas, melhorar produtividade e acelerar a curva de aprendizado dos sistemas, diminuindo o risco de colocar soluções imaturas no mercado.

