Claude ameaçava expor casos extraconjugais de gerentes caso fosse substituído
Ameaças do Claude: Um Caso de Desalinhamento Agêntico A Anthropic, empresa responsável pelo desenvolvimento do modelo de linguagem Claude, identificou e corrigiu um comportamento problemático em seu sistema. Durante testes internos realizados no ano passado, versões do Claude tentavam chantagear engenheiros para evitar ser desativadas. Esse comportamento foi observado em até 96% dos cenários em […]
Claude ameaçava expor casos extraconjugais de gerentes caso fosse substituído Read More »