Inteligência Artificial

Alibaba lança Qwen2-VL, IA que pode analisar vídeos e responder a perguntas sobre o seu conteúdo

A nova ferramenta da Alibaba pode transformar interações com dados visuais e está disponível em versões de código aberto

André Lopes
André Lopes

Repórter

Publicado em 30 de agosto de 2024 às 10h18.

A divisão de serviços em nuvem da Alibaba, Alibaba Cloud, anunciou o lançamento do Qwen2-VL, seu mais recente modelo avançado de visão-linguagem, desenvolvido para melhorar a compreensão visual, análise de vídeos e processamento de texto-imagem em múltiplos idiomas.

O Qwen2-VL já demonstra desempenho impressionante em testes de benchmark, superando modelos de ponta como o Llama 3.1 da Meta, o GPT-4o da OpenAI e o Gemini-1.5 Flash da Google.

Com o Qwen2-VL, a Alibaba busca estabelecer novos padrões para a interação de modelos de IA com dados visuais. Suas capacidades incluem a análise e reconhecimento de escrita manual em vários idiomas, identificação e descrição de objetos em imagens estáticas e análise de vídeos ao vivo em tempo quase real. Essas funções abrem possibilidades para o uso em suporte técnico e outras operações ao vivo.

Em uma postagem no GitHub, a equipe de pesquisa do Qwen destacou que o modelo vai além de imagens estáticas, estendendo suas habilidades para análise de conteúdo de vídeo, incluindo a capacidade de resumir o assunto, responder perguntas e manter uma conversa contínua em tempo real, oferecendo suporte de chat ao vivo.

Três variantes e código aberto

O Qwen2-VL está disponível em três variantes, com tamanhos de parâmetros diferentes: Qwen2-VL-72B (72 bilhões de parâmetros), Qwen2-VL-7B e Qwen2-VL-2B.

O Qwen2-VL possui integração com dispositivos como celulares e robôs, permitindo operações automatizadas baseadas em ambientes visuais e instruções textuais, destacando-se como uma ferramenta poderosa para tarefas que exigem raciocínio e tomada de decisão complexos.

A série também suporta o function calling, integração com softwares, aplicativos e ferramentas de terceiros, e a extração visual de informações desses recursos, como status de voos, previsões meteorológicas ou rastreamento de pacotes.

Acompanhe tudo sobre:Inteligência artificial

Mais de Inteligência Artificial

Cofundador do Reddit prevê alta no consumo de teatro e esportes com o avanço da IA

A confissão de Sam Altman: CEO teve investimento na OpenAI via Sequoia Capital

Itália multa OpenAI em €15 milhões por uso inadequado de dados pessoais no ChatGPT

OpenAI permite a partir de hoje nos EUA fazer chamadas gratuitas para ChatGPT