A Anthropic afirma ter eliminado o risco de chantagem de Claude

A Anthropic anunciou na sexta-feira que Claude não pratica mais chantagem durante sua avaliação de segurança principal para agentes de IA. Segundo a Anthropic, todas as versões de Claude criadas após Claude Haiku 4.5 passaram pela avaliação de segurança sem ameaçar engenheiros, usar dados privados, atacar outros sistemas de IA ou tentar impedir seu desligamento durante o cenário simulado. Isso ocorreu após um desempenho desfavorável de Claude durante um teste realizado no ano passado, no qual a Anthropic testou diversos modelos de IA de diferentes organizações usando dilemas éticos simulados, o que resultou em um comportamento muito desalinhado por parte...

Ler o artigo completo

Este artigo é originário de Cryptopolitan. Clique abaixo para ler a história completa:

Ler Artigo Completo