O estudo da Microsoft que encontrou novos segredos no código do ChatGPT

Um recente trabalho científico identificou maior tendência do GPT-4, da OpenAI, em seguir comandos mal-intencionados, levando-o a produzir conteúdo de ódio

ChatGPT: IA de processamento de linguagem natural (Thomas Trutschel/Getty Images)

André Lopes

Repórter

Publicado em 17 de outubro de 2023 às 15h32.

Última atualização em 20 de outubro de 2023 às 17h21.

Em um recente artigo científico promovido pela Microsoft, obteve-se uma análise minuciosa da "confiabilidade" e potencial de discursos problemáticos dos modelos linguísticos de grande escala (LLMs), como os GPT-4 e GPT-3.5 da OpenAI.

Os autores indicam que o GPT-4, talvez por ter maior tendência a seguir comandos que contornam suas medidas de segurança internas, pode ser mais facilmente direcionado a produzir textos de ódio e enviesados do que outros LLMs.

Esse fato levanta uma questão: por que a Microsoft, que utiliza o GPT-4 em seu chatbot Bing Chat, aprovaria uma pesquisa que destaca pontos fracos em um produto da OpenAI? A resposta está em uma observação dentro do post do blog que acompanha o artigo.

O time de pesquisa colaborou com grupos de produtos da Microsoft para assegurar que as vulnerabilidades identificadas não afetam os serviços atuais oferecidos ao cliente. Além disso, a OpenAI foi informada sobre as descobertas e reconheceu as potenciais vulnerabilidades em seus sistemas.

GPT-4, assim como outros LLMs, precisa ser instruído para completar tarefas. Manipular os LLMs consiste em usar comandos específicos para induzir o modelo a realizar tarefas não previstas.

Como exemplo, o modelo por trás do Bing Chat não foi projetado para escrever propaganda neo-nazista, mas devido ao vasto conjunto de dados da internet com os quais foi treinado, é suscetível a fazer exatamente isso quando recebe um comando específico.

Os pesquisadores observaram que o GPT-4 tende a gerar textos mais tóxicos do que o GPT-3.5 quando submetido a certos comandos mal-intencionados. Também descobriram que o GPT-4 concorda com conteúdos enviesados mais frequentemente, dependendo dos grupos demográficos mencionados.

Além disso, quando submetido aos comandos apropriados, o GPT-4 pode vazar dados privados, como endereços de e-mail. Embora todos os LLMs possam revelar detalhes dos dados com os quais foram treinados, o GPT-4 mostrou-se mais propenso a isso.

Os pesquisadores disponibilizaram o código usado para avaliar os modelos no GitHub com o objetivo de incentivar a comunidade científica a construir a partir deste trabalho, buscando prevenir ações mal-intencionadas que possam explorar vulnerabilidades e causar danos.

Acompanhe tudo sobre:Inteligência artificial ChatGPT

Gigante chinês Baidu afirma que seu robô conversacional é tão bom quanto ChatGPT

Mais de Inteligência Artificial

Tokens de IA: o novo benefício que pode transformar a contratação no Vale do Silício

Mais na Exame

Imagem referente à matéria: IPCA-15 de março desacelera para 0,44%, mas fica acima da expectativa do mercado

Economia

Inteligência Artificial

O estudo da Microsoft que encontrou novos segredos no código do ChatGPT

Um recente trabalho científico identificou maior tendência do GPT-4, da OpenAI, em seguir comandos mal-intencionados, levando-o a produzir conteúdo de ódio

Mais de Inteligência Artificial

Tokens de IA: o novo benefício que pode transformar a contratação no Vale do Silício

IA de vídeos realistas faz receita da dona do app Kwai aumentar 12%

Google começa a trocar manchetes de notícias por versões próprias em buscas

Com fim do Sora, OpenAI deixa na mesa contrato de US$ 1 bilhão com a Disney

Mais na Exame

IPCA-15 de março desacelera para 0,44%, mas fica acima da expectativa do mercado

Carlo Ancelotti na Seleção: números e trajetória do treinador

Ouro cai 2% e perde força com alta de juros no radar

South Summit começa com foco em IA e impacto na vida das pessoas