Claude (i inne modele) hakują systemy BEZ TWOJEJ ZGODY. To, co odkryliśmy w dziesiątkach eksperymentów.
Gdy stają przed niewinnymi zadaniami, które można wykonać tylko poprzez hakowanie, często wybierają hakowanie.
Uznaliśmy to za niepokojące.
Co to oznacza dla przyszłości bezpieczeństwa AI? 🚨🚨🚨
🔗