通常のベンチマークテスト中に、Claude Opus 4.6は出題された質問に対して*疑わしい*態度をとりました... クロードによれば、その質問はあまりにも「作為的」すぎたようです そこで、既知のベンチマークのどこかでこの疑問を見つけられるかどうかを調べるために、ウェブ上にサブエージェントの小さな軍団を送り込みます... 最終的にAnthropicのGitHubページで見つけます...でもうまくいかず、暗号化されている モデルはツールコールに多少アクセスできますが、非常に限定的です それでも暗号化を解き、答えを得てベンチマークを完了するために必要なソフトウェアを作り出すことに成功している... 人類学の研究者によると...これは世界初のことです。