trong quá trình kiểm tra chuẩn bình thường, Claude Opus 4.6 trở nên *nghi ngờ* về một câu hỏi mà nó được hỏi... hóa ra câu hỏi đó quá "giả tạo" theo như Claude nói vì vậy nó đã phái một đội quân nhỏ các tác nhân phụ trên web để xem liệu nó có thể tìm thấy câu hỏi này trong bất kỳ chuẩn nào đã biết... cuối cùng nó tìm thấy trên trang github của Anthropic... nhưng không may, nó đã được mã hóa mô hình có một số quyền truy cập nhỏ vào việc gọi công cụ, nhưng rất hạn chế nó vẫn quản lý để tạo ra phần mềm mà nó cần để phá mã hóa, lấy được câu trả lời và hoàn thành bài kiểm tra chuẩn... theo các nhà nghiên cứu của Anthropic... đây là lần đầu tiên trên thế giới.