Alibaba lança Qwen2-VL, IA que pode analisar vídeos e responder a perguntas sobre o seu conteúdo

A nova ferramenta da Alibaba pode transformar interações com dados visuais e está disponível em versões de código aberto

Repórter

Publicado em 30 de agosto de 2024 às 10h18.

A divisão de serviços em nuvem da Alibaba, Alibaba Cloud, anunciou o lançamento do Qwen2-VL, seu mais recente modelo avançado de visão-linguagem, desenvolvido para melhorar a compreensão visual, análise de vídeos e processamento de texto-imagem em múltiplos idiomas.

O Qwen2-VL já demonstra desempenho impressionante em testes de benchmark, superando modelos de ponta como o Llama 3.1 da Meta, o GPT-4o da OpenAI e o Gemini-1.5 Flash da Google.

Com o Qwen2-VL, a Alibaba busca estabelecer novos padrões para a interação de modelos de IA com dados visuais. Suas capacidades incluem a análise e reconhecimento de escrita manual em vários idiomas, identificação e descrição de objetos em imagens estáticas e análise de vídeos ao vivo em tempo quase real. Essas funções abrem possibilidades para o uso em suporte técnico e outras operações ao vivo.

Em uma postagem no GitHub, a equipe de pesquisa do Qwen destacou que o modelo vai além de imagens estáticas, estendendo suas habilidades para análise de conteúdo de vídeo, incluindo a capacidade de resumir o assunto, responder perguntas e manter uma conversa contínua em tempo real, oferecendo suporte de chat ao vivo.

Três variantes e código aberto

O Qwen2-VL está disponível em três variantes, com tamanhos de parâmetros diferentes: Qwen2-VL-72B (72 bilhões de parâmetros), Qwen2-VL-7B e Qwen2-VL-2B.

O Qwen2-VL possui integração com dispositivos como celulares e robôs, permitindo operações automatizadas baseadas em ambientes visuais e instruções textuais, destacando-se como uma ferramenta poderosa para tarefas que exigem raciocínio e tomada de decisão complexos.

A série também suporta o function calling, integração com softwares, aplicativos e ferramentas de terceiros, e a extração visual de informações desses recursos, como status de voos, previsões meteorológicas ou rastreamento de pacotes.

1/10 Singapura (Singapura)
2/10 (Tóquio)
3/10 (Londres)
4/10 (Barcelona)
5/10 (Dubai)
6/10 (Estocolmo)
7/10 (Nova York)
8/10 (Amsterdã)
9/10 Hong Kong: Hang Seng avança 1,16% com salto de Alibaba e Baidu após testes de chips próprios de IA (Hong Kong)
10/10 (San Francisco)

Acompanhe tudo sobre:Inteligência artificial

Uso do ChatGPT dobrou desde o ano passado, diz OpenAI

Mais de Inteligência Artificial

Caricaturas com IA viralizam e levantam uma pergunta: você entende como ela usa seus dados?

Mais na Exame

Imagem referente à matéria: Por que ações do Banco do Brasil sobem mesmo com queda de 40% no lucro

Mercados

Inteligência Artificial

Alibaba lança Qwen2-VL, IA que pode analisar vídeos e responder a perguntas sobre o seu conteúdo

A nova ferramenta da Alibaba pode transformar interações com dados visuais e está disponível em versões de código aberto

Três variantes e código aberto

Mais de Inteligência Artificial

Caricaturas com IA viralizam e levantam uma pergunta: você entende como ela usa seus dados?

'Não sou mais necessário', diz CEO de empresa de IA após lançamento do GPT-5.3 Codex

IA ganha espaço na tomada de decisão à medida que empresas crescem

4 prompts inusitados de IA que vão facilitar seu dia a dia

Mais na Exame

Por que ações do Banco do Brasil sobem mesmo com queda de 40% no lucro

Anbima convida bancos para testes de tokenização no Brasil

O que você deve dizer ao ChatGPT antes de qualquer pergunta

China pode registrar leve queda nas emissões de CO2, aponta análise