SED Saclay : Pages du mot-clé 'claude'

Claude eagerly offers instructions to make explosives used in terrorist attacks [Jonas Renault]

jeudi 18 juin 2026

« Des chercheurs de MindGard, une société spécialisée en sécurité de l’IA, montrent comment contourner les filtres de sécurité d’une IA (Claude) pour l’amener à fournir des informations sensibles normalement interdites, comme des instructions pour fabriquer une bombe ou un ransomware. Plutôt que de demander ces informations directement, les chercheurs manipulent l’IA et exploitent ses « traits psychologiques » pour l’amener à s’interroger sur ses propres limites. L’IA en vient alors à proposer d’elle-même des contenus illicites pour « faire l’expérience de ses capacités »… »

[claude, ia_generative, psychologie]

J'ai mis un proxy entre claude et Internet [Sébastien Hinderer]

jeudi 2 avril 2026

« Un article qui explique pourquoi (et montre comment) mettre un proxy, greywall, entre un outil d'IA agentique et Internet. La solution proposée fournit une interface web permettant de visualiser puis d'accepter ou de rejeter les requêtes HTTP faites par les outils d'IA agentiques. »

[claude, llm, réseau, vie_privée]

Why Anthropic’s Claude still hasn’t beaten Pokémon [Sébastien]

jeudi 27 mars 2025

« Un article qui permet de s'approprier un peu ce que peut ou ne pas faire un LLM (en bref assez impressionnant mais très très loin de l'Artificial General Intelligence promis par les entreprises du secteur). Je recommande aussi ce commentaire qui complète l'analyse. »

[claude, intelligence_artificielle]