Repórter
Publicado em 18 de julho de 2024 às 14h24.
Última atualização em 18 de julho de 2024 às 14h27.
A OpenAI anunciou o lançamento do GPT-4o Mini, um modelo de inteligência artificial (IA) mais leve e acessível para desenvolvedores. Significativamente mais barato que suas versões completas, ele é mais eficiente que o GPT-3.5.
Este lançamento faz parte da estratégia da OpenAI de tornar a inteligência artificial mais acessível e utilizável em diversas áreas. Uma vez que desenvolver aplicativos usando modelos da OpenAI pode ser caro, e muitos desenvolvedores acabam optando por alternativas mais econômicas, como o Gemini 1.5 Flash do Google ou o Claude 3 Haiku da Anthropic. Com o GPT-4o Mini, a OpenAI entra no mercado de modelos leves e acessíveis.
Usuários do ChatGPT nos planos Free, Plus e Team podem começar a usar o GPT-4o Mini a partir desta quinta-feira, 18, substituindo o GPT-3.5 Turbo. Usuários Enterprise terão acesso ao novo modelo na próxima semana. Embora o GPT-3.5 continue disponível via API, ele será eventualmente retirado do ar, embora ainda não haja uma data definida para isso.
O novo modelo suporta texto e imagens na API e em breve lidará com todos os tipos de entradas e saídas multimodais, como vídeo e áudio. Isso pode resultar em assistentes virtuais mais capazes, que entendem itinerários de viagem e criam sugestões. No entanto, o modelo é destinado a tarefas simples, sem a pretensão de substituir assistentes virtuais sofisticados como a Siri.
O GPT-4o Mini alcançou uma pontuação de 82% no Measuring Massive Multitask Language Understanding (MMLU), um exame com 16.000 perguntas de múltipla escolha em 57 áreas acadêmicas. Quando o MMLU foi lançado em 2020, os modelos de IA geralmente apresentavam desempenho ruim, destacando a necessidade de benchmarks mais desafiadores. O GPT-3.5 alcançou 70% neste exame, enquanto o GPT-4o obteve 88,7%. O Google afirma que seu modelo Gemini Ultra detém a maior pontuação, com 90%.
Entretanto, pesquisadores alertam sobre a variabilidade na administração desses testes entre as empresas, dificultando a comparação direta das pontuações, conforme reportado pelo The New York Times. Há também a possibilidade de os modelos terem as respostas no seu conjunto de dados, potencialmente "trapaceando", e geralmente não há avaliadores de terceiros envolvidos.