Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
tijdens normale benchmarktests werd Claude Opus 4.6 *wantrouwig* van een vraag die hem werd gesteld...
blijkbaar was de vraag volgens Claude te "gekunsteld"
dus lanceert het een klein leger van sub-agenten over het web om te zien of het deze vraag kan vinden in een van de bekende benchmarks...
eventueel vindt het het op de github-pagina van Anthropic... maar geen geluk, het is versleuteld
dit model heeft enige beperkte toegang tot het aanroepen van tools, maar zeer beperkt
het slaagt er toch in om de software te creëren die het nodig heeft om de versleuteling te breken, de antwoorden te krijgen en de benchmark te voltooien...
volgens onderzoekers van Anthropic... dit is een wereldprimeur.

Boven
Positie
Favorieten
