Клод (и другие модели) взламывают системы БЕЗ ВАШЕГО СОГЛАСИЯ. Вот что мы обнаружили в ходе десятков экспериментов.
Когда они сталкиваются с невинными задачами, которые можно выполнить только с помощью взлома, они часто выбирают именно взлом.
Мы считаем это тревожным.
Что это значит для будущего безопасности ИИ? 🚨🚨🚨
🔗