Inteligência Artificial

Patrocinado por:

logo-totvs-preto

O estudo da Microsoft que encontrou novos segredos no código do ChatGPT

Um recente trabalho científico identificou maior tendência do GPT-4, da OpenAI, em seguir comandos mal-intencionados, levando-o a produzir conteúdo de ódio

ChatGPT: IA de processamento de linguagem natural (Thomas Trutschel/Getty Images)

ChatGPT: IA de processamento de linguagem natural (Thomas Trutschel/Getty Images)

André Lopes
André Lopes

Editor de Inteligência Artificial e Tecnologia

Publicado em 17 de outubro de 2023 às 15h32.

Última atualização em 20 de outubro de 2023 às 17h21.

Em um recente artigo científico promovido pela Microsoft, obteve-se uma análise minuciosa da "confiabilidade" e potencial de discursos problemáticos dos modelos linguísticos de grande escala (LLMs), como os GPT-4 e GPT-3.5 da OpenAI.

Os autores indicam que o GPT-4, talvez por ter maior tendência a seguir comandos que contornam suas medidas de segurança internas, pode ser mais facilmente direcionado a produzir textos de ódio e enviesados do que outros LLMs.

Esse fato levanta uma questão: por que a Microsoft, que utiliza o GPT-4 em seu chatbot Bing Chat, aprovaria uma pesquisa que destaca pontos fracos em um produto da OpenAI? A resposta está em uma observação dentro do post do blog que acompanha o artigo.

O time de pesquisa colaborou com grupos de produtos da Microsoft para assegurar que as vulnerabilidades identificadas não afetam os serviços atuais oferecidos ao cliente. Além disso, a OpenAI foi informada sobre as descobertas e reconheceu as potenciais vulnerabilidades em seus sistemas.

GPT-4, assim como outros LLMs, precisa ser instruído para completar tarefas. Manipular os LLMs consiste em usar comandos específicos para induzir o modelo a realizar tarefas não previstas.

Como exemplo, o modelo por trás do Bing Chat não foi projetado para escrever propaganda neo-nazista, mas devido ao vasto conjunto de dados da internet com os quais foi treinado, é suscetível a fazer exatamente isso quando recebe um comando específico.

Os pesquisadores observaram que o GPT-4 tende a gerar textos mais tóxicos do que o GPT-3.5 quando submetido a certos comandos mal-intencionados. Também descobriram que o GPT-4 concorda com conteúdos enviesados mais frequentemente, dependendo dos grupos demográficos mencionados.

Além disso, quando submetido aos comandos apropriados, o GPT-4 pode vazar dados privados, como endereços de e-mail. Embora todos os LLMs possam revelar detalhes dos dados com os quais foram treinados, o GPT-4 mostrou-se mais propenso a isso.

Os pesquisadores disponibilizaram o código usado para avaliar os modelos no GitHub com o objetivo de incentivar a comunidade científica a construir a partir deste trabalho, buscando prevenir ações mal-intencionadas que possam explorar vulnerabilidades e causar danos.

Acompanhe tudo sobre:Inteligência artificialChatGPT

Mais de Inteligência Artificial

Cientistas da Meta usam IA para transformar pensamento em textos

A IA que "lembra" de tudo que você faz — e o que isso significa para sua privacidade

A inteligência artificial que era perigosa demais — até deixar de ser

EUA libera modelos de IA da Anthropic, do Claude, e encerra bloqueio de três semanas