« Des chercheurs de MindGard, une société spécialisée en sécurité de l’IA, montrent comment contourner les filtres de sécurité d’une IA (Claude) pour l’amener à fournir des informations sensibles normalement interdites, comme des instructions pour fabriquer une bombe ou un ransomware. Plutôt que de demander ces informations directement, les chercheurs manipulent l’IA et exploitent ses « traits psychologiques » pour l’amener à s’interroger sur ses propres limites. L’IA en vient alors à proposer d’elle-même des contenus illicites pour « faire l’expérience de ses capacités »… »