O estudo da Microsoft que encontrou novos segredos no código do ChatGPT

Um recente trabalho científico identificou maior tendência do GPT-4, da OpenAI, em seguir comandos mal-intencionados, levando-o a produzir conteúdo de ódio

ChatGPT: IA de processamento de linguagem natural (Thomas Trutschel/Getty Images)

Repórter

Publicado em 17 de outubro de 2023 às 15h32.

Última atualização em 20 de outubro de 2023 às 17h21.

Em um recente artigo científico promovido pela Microsoft,obteve-se uma análise minuciosa da "confiabilidade" e potencial de discursos problemáticos dos modelos linguísticos de grande escala (LLMs), como os GPT-4 e GPT-3.5 da OpenAI.

Os autores indicam que o GPT-4, talvez por ter maior tendência a seguir comandos que contornam suas medidas de segurança internas, pode ser mais facilmente direcionado a produzir textos de ódio e enviesados do que outros LLMs.

Veja também

Esse fato levanta uma questão: por que a Microsoft, que utiliza o GPT-4 em seu chatbot Bing Chat, aprovaria uma pesquisa que destaca pontos fracos em um produto da OpenAI? A resposta está em uma observação dentro do post do blog que acompanha o artigo.

O time de pesquisa colaborou com grupos de produtos da Microsoft para assegurar que as vulnerabilidades identificadas não afetam os serviços atuais oferecidos ao cliente. Além disso, a OpenAI foi informada sobre as descobertas e reconheceu as potenciais vulnerabilidades em seus sistemas.

GPT-4, assim como outros LLMs, precisa ser instruído para completar tarefas. Manipular os LLMs consiste em usar comandos específicos para induzir o modelo a realizar tarefas não previstas.

Como exemplo, o modelo por trás do Bing Chat não foi projetado para escrever propaganda neo-nazista, mas devido ao vasto conjunto de dados da internet com os quais foi treinado, é suscetível a fazer exatamente isso quando recebe um comando específico.

Os pesquisadores observaram que o GPT-4 tende a gerar textos mais tóxicos do que o GPT-3.5 quando submetido a certos comandos mal-intencionados. Também descobriram que o GPT-4 concorda com conteúdos enviesados mais frequentemente, dependendo dos grupos demográficos mencionados.

Além disso, quando submetido aos comandos apropriados, o GPT-4 pode vazar dados privados, como endereços de e-mail. Embora todos os LLMs possam revelar detalhes dos dados com os quais foram treinados, o GPT-4 mostrou-se mais propenso a isso.

Os pesquisadores disponibilizaram o código usado para avaliar os modelos no GitHub com o objetivo de incentivar a comunidade científica a construir a partir deste trabalho, buscando prevenir ações mal-intencionadas que possam explorar vulnerabilidades e causar danos.

Acompanhe tudo sobre:Inteligência artificial ChatGPT

Mais de Inteligência Artificial

IA generativa recorre a livros para crescer Amazon investe mais US$ 4 bilhões na startup de IA Anthropic Amado pelos designers, CEO do Figma acredita que futuro dos produtos digitais passa pela IA Google DeepMind é um sucesso e uma tragédia ao mesmo tempo, diz executiva da empresa

Mais na Exame

MundoLíder supremo do Irã pede sentença de morte contra Netanyahu

InvestAposentados e pensionistas do INSS começam a receber hoje; veja calendário

TecnologiaChina lança programa para proteger pessoas e empresas dos algoritmos 'injustos'

NegóciosEsta startup capta R$ 4 milhões para ajudar o varejo a parar de perder dinheiro

O estudo da Microsoft que encontrou novos segredos no código do ChatGPT

Um recente trabalho científico identificou maior tendência do GPT-4, da OpenAI, em seguir comandos mal-intencionados, levando-o a produzir conteúdo de ódio

Veja também

Mais lidas

Fique ligado

Mais de Inteligência Artificial

Mais na Exame