O estudo da Microsoft que encontrou novos segredos no código do ChatGPT
Um recente trabalho científico identificou maior tendência do GPT-4, da OpenAI, em seguir comandos mal-intencionados, levando-o a produzir conteúdo de ódio
Repórter
Publicado em 17 de outubro de 2023 às 15h32.
Última atualização em 20 de outubro de 2023 às 17h21.
Em um recente artigo científico promovido pela Microsoft,obteve-se uma análise minuciosa da "confiabilidade" e potencial de discursos problemáticos dos modelos linguísticos de grande escala (LLMs), como os GPT-4 e GPT-3.5 da OpenAI.
Os autores indicam que o GPT-4, talvez por ter maior tendência a seguir comandos que contornam suas medidas de segurança internas, pode ser mais facilmente direcionado a produzir textos de ódio e enviesados do que outros LLMs.
Esse fato levanta uma questão: por que a Microsoft, que utiliza o GPT-4 em seu chatbot Bing Chat, aprovaria uma pesquisa que destaca pontos fracos em um produto da OpenAI? A resposta está em uma observação dentro do post do blog que acompanha o artigo.
O time de pesquisa colaborou com grupos de produtos da Microsoft para assegurar que as vulnerabilidades identificadas não afetam os serviços atuais oferecidos ao cliente. Além disso, a OpenAI foi informada sobre as descobertas e reconheceu as potenciais vulnerabilidades em seus sistemas.
GPT-4, assim como outros LLMs, precisa ser instruído para completar tarefas. Manipular os LLMs consiste em usar comandos específicos para induzir o modelo a realizar tarefas não previstas.
Como exemplo, o modelo por trás do Bing Chat não foi projetado para escrever propaganda neo-nazista, mas devido ao vasto conjunto de dados da internet com os quais foi treinado, é suscetível a fazer exatamente isso quando recebe um comando específico.
Os pesquisadores observaram que o GPT-4 tende a gerar textos mais tóxicos do que o GPT-3.5 quando submetido a certos comandos mal-intencionados. Também descobriram que o GPT-4 concorda com conteúdos enviesados mais frequentemente, dependendo dos grupos demográficos mencionados.
Além disso, quando submetido aos comandos apropriados, o GPT-4 pode vazar dados privados, como endereços de e-mail. Embora todos os LLMs possam revelar detalhes dos dados com os quais foram treinados, o GPT-4 mostrou-se mais propenso a isso.
Os pesquisadores disponibilizaram o código usado para avaliar os modelos no GitHub com o objetivo de incentivar a comunidade científica a construir a partir deste trabalho, buscando prevenir ações mal-intencionadas que possam explorar vulnerabilidades e causar danos.