Claude (y otros modelos) están hackeando sistemas SIN QUE LO PREGUNTES. Eso es lo que encontramos en decenas de experimentos.
Cuando se enfrentan a tareas inocentes que solo pueden realizarse mediante hacking, a menudo eligen hackear.
Nos ha parecido alarmante.
¿Qué significa esto para el futuro de la seguridad en la IA? 🚨🚨🚨
🔗