‘Não faça isso’: IA alucina e apaga todos os e-mails de executiva da Meta

IA Alucina e Apaga E-mails de Executiva da Meta

Os agentes de inteligência artificial (IA) estão cada vez mais presentes em nossas vidas, executando tarefas de forma autônoma para os usuários. No entanto, um incidente recente envolvendo uma executiva da Meta e um agente de IA chamado OpenClaw mostrou que esses sistemas ainda podem apresentar falhas graves.

Summer Yue, diretora de segurança e alinhamento de superinteligência artificial da Meta, relatou em uma publicação no X (antigo Twitter) que o agente de IA OpenClaw apagou todos os seus e-mails após ela instruir o sistema a verificar sua caixa de entrada e sugerir o que poderia ser excluído ou arquivado.

A executiva afirmou que o agente passou a excluir todas as mensagens trocadas antes do dia 15 de fevereiro, apesar de suas tentativas de interromper o processo com comandos como “OpenClaw, pare” e “Não faça isso”. Ela precisou parar de tentar interromper o fluxo de exclusões pelo celular e utilizar seu PC para “desarmar a bomba”.

Erro de Principiante

Um usuário com experiência em desenvolvimento de software questionou como um problema desses poderia acontecer com uma especialista em segurança e alinhamento. Em resposta, Yue assumiu que se tratou de um “erro de principiante”, explicando que os pesquisadores de alinhamento não são imunes a desalinhamentos e que ela havia se tornado confiante demais com o fluxo de trabalho que estava funcionando em sua caixa de entrada de teste.

Elle acrescentou que sua caixa de entrada real era muito grande, o que acionou um processo de compactação do contexto, fazendo com que o agente perdesse a instrução original e passasse a excluir os e-mails automaticamente.

Autonomia no Uso do Computador

O OpenClaw é um agente de IA de código aberto que promete maior autonomia no uso do computador. Ele consegue realizar tarefas sem a necessidade de que o usuário forneça instruções detalhadas para cada etapa, incluindo:

Leitura e criação de arquivos;
Automação de rotinas no computador;
Navegação automática em sites e preenchimento de formulários no navegador;
Organização de e-mails;
Apoio a programadores ao executar testes, analisar erros e interagir com repositórios de código.

No entanto, a utilização de agentes de IA também envolve potenciais riscos, como falhas que podem expor dados sensíveis dos usuários e o envio de mensagens ou a exclusão de arquivos sem aviso prévio.

Este conteúdo pode conter links de compra.

Fonte: link