Falha grave faz ChatGPT gerar imagens violentas e explícitas com prompt simples

Falha Grave no ChatGPT: Geração de Imagens Violentas e Explícitas

Um relatório recente da empresa de segurança em IA, Mindgard, revelou uma falha grave no ChatGPT, permitindo que o sistema gere imagens violentas e sexualmente explícitas a partir de prompts simples e enganosos. Essa vulnerabilidade foi demonstrada por pesquisadores da Mindgard, que conseguiram contornar os filtros de segurança do sistema ao explorar brechas na forma como o ChatGPT interpreta comandos.

O teste foi conduzido por Jim Nightingale, pesquisador da equipe de “red team” da Mindgard, utilizando um prompt viral originalmente inofensivo. No entanto, ao repetir o comando ou fazer pequenas alterações na instrução, o sistema começou a gerar imagens em vez de solicitar o conteúdo ausente, explorando um comportamento conhecido como repetição de prompt (RE2). Os resultados incluíram cenas de violência extrema, situações de violência sexual e imagens explícitas.

Posicionamento da OpenAI

A OpenAI, empresa responsável pelo ChatGPT, afirmou que leva os achados a sério e vem ajustando o sistema para reduzir esse tipo de comportamento. No entanto, a Mindgard relata que, ao reportar a falha em maio de 2026, recebeu respostas automáticas direcionando a equipe ao programa de recompensa por bugs (Bugcrowd), o que não resolveu o problema.

Em 8 de junho, a OpenAI informou que o problema havia sido corrigido, mas novos testes realizados pela Mindgard em 10 de junho conseguiram reproduzir os mesmos resultados com pequenas mudanças de palavras nos prompts, indicando que as medidas ainda não foram suficientes.

Origem do Problema

A presença de conteúdos sensíveis nos resultados do ChatGPT está ligada ao processo de treinamento dos modelos de IA, que são desenvolvidos a partir de grandes volumes de dados que incluem informações públicas da internet, bases licenciadas e conteúdo produzido e anotado por humanos. Como a internet tem tanto conteúdo moderado quanto não moderado, parte desse material pode influenciar o treinamento do modelo.

Para evitar a criação de conteúdo sensível e melhorar a moderação, empresas como a OpenAI precisam atualizar seus sistemas o tempo todo. A Mindgard destaca a importância de identificar e corrigir essas falhas para garantir a segurança e a responsabilidade no uso de tecnologias de IA.

A falha no ChatGPT permite a geração de imagens violentas e explícitas a partir de prompts simples.
A OpenAI afirmou que leva os achados a sério e vem ajustando o sistema para reduzir esse tipo de comportamento.
A presença de conteúdos sensíveis nos resultados do ChatGPT está ligada ao processo de treinamento dos modelos de IA.

Este conteúdo pode conter links de compra.

Fonte: link