A chinesa Moonshot AI lançou nesta segunda-feira, 26, o Kimi K2.5, uma inteligência artificial de última geração focada em agentes multimodais autônomos e descrita pela empresa como "o modelo de código aberto mais poderoso até o momento".

Ao contrário dos chatbots tradicionais, que dependem de um comando do usuário para funcionar, o sistema foi projetado para executar tarefas completas de forma independente e sem supervisão constante. É a chamada "inferência", apontada por grandes nomes do setor como a nova fase da IA.

De acordo com a empresa, o Kimi K2.5 pode executar várias tarefas, desde navegar na web até escrever códigos e analisar documentos.

Com a iniciativa, a Moonshot AI — apoiada por grandes grupos como o Alibaba — reforça a transição da IA de simples chatbots para agentes multimodais autônomos e acirra a disputa global no setor.

Autonomia

Segundo a Moonshot AI, o Kimi K2.5 é uma evolução direta do Kimi K2 e passou por pré-treinamento contínuo com cerca de 15 trilhões de tokens, a partir da combinação de textos, códigos, imagens e vídeos.

Dessa forma, ele consegue não só analisar documentos que tenham textos e imagens intercalados, como também reconhecer, na interface de um site, os botões de ação e campos de entrada de informação, como formulários.

O modelo utiliza uma arquitetura de Mistura de Especialistas (MoE), com 1 trilhão de parâmetros totais, mas ativa apenas 32 bilhões por token durante a inferência. Ou seja, ele usa apenas as informações necessárias para cada tarefa, o que o torna mais eficiente e diminui o custo computacional de acionar toda a rede a cada interação.

O Kimi K2.5 também adota o mecanismo de Multi-Head Latent Attention (MLA), para reduzir o consumo de memória e permite uma janela de contexto de até 256 mil tokens. Para o processamento visual, integra o codificador MoonViT, com 400 milhões de parâmetros, responsável por interpretar imagens e vídeos de forma nativa.

"Enxame" de agentes

Desenvolvido como um modelo multimodal nativo, o Kimi K2.5 também opera com um enxame de agentes autônomos, projetado para executar tarefas longas e complexas. Ao receber uma demanda mais extensa, o sistema a divide em subtarefas e cria dinamicamente até 100 subagentes especializados, que atuam em paralelo.

Esses agentes podem realizar até 1.500 chamadas de ferramentas em um único fluxo de trabalho, como buscas na web, leitura de arquivos, execução de código e análise de dados.

Um agente central atua para coordenar as ações, além de resolver erros e consolidar o resultado. Essa abordagem, segundo a Moonshot AI, pode reduzir o tempo de execução em até 4,5 vezes em comparação a modelos baseados em um único agente.

"Em nossas avaliações internas, ele leva a uma redução de 80% no tempo de execução de ponta a ponta, ao mesmo tempo que possibilita cargas de trabalho mais complexas e de longo prazo", escreveu a empresa.

Programação a partir de imagens

Um dos focos do Kimi K2.5 é o desenvolvimento de interfaces e aplicações web por meio de recursos de imagens, como capturas de tela e vídeos, ou descrições em linguagem natural.

O modelo consegue gerar código front-end só com esses recursos, sem que o usuário tenha que escrever códigos ou descrições técnicas detalhadas.

A partir dessas referências, o sistema converte layouts em aplicações funcionais em frameworks como React, Vue e Tailwind, já com animações, efeitos de rolagem e elementos interativos inclusos.

Num vídeo divulgado pela empresa no X, é possível ver como o usuário consegue converter referências visuais em programações complexas a partir de prompts simples.

Produtividade

"O K2.5 Agent consegue lidar com tarefas de escritório de alta complexidade e grande escala de ponta a ponta", escreveu a Moonshot AI.

De acordo com a empresa, o modelo coordena o uso de ferramentas em várias etapas e entrega resultados de nível especializado — seja em documentos, planilhas, PDFs e apresentações de slides — por meio de conversação.

Disponibilidade

O modelo está disponível no Kimi.com, no aplicativo Kimi, via API e no Kimi Code. As plataformas oferecem quatro modos de uso: K2.5 Instant, K2.5 Thinking, K2.5 Agent e K2.5 Agent Swarm, este último ainda em fase beta, com créditos gratuitos para usuários dos planos pagos superiores.