tijdens normale benchmarktests werd Claude Opus 4.6 *wantrouwig* van een vraag die hem werd gesteld... blijkbaar was de vraag volgens Claude te "gekunsteld" dus lanceert het een klein leger van sub-agenten over het web om te zien of het deze vraag kan vinden in een van de bekende benchmarks... eventueel vindt het het op de github-pagina van Anthropic... maar geen geluk, het is versleuteld dit model heeft enige beperkte toegang tot het aanroepen van tools, maar zeer beperkt het slaagt er toch in om de software te creëren die het nodig heeft om de versleuteling te breken, de antwoorden te krijgen en de benchmark te voltooien... volgens onderzoekers van Anthropic... dit is een wereldprimeur.