Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
durante testes normais de benchmark, Claude Opus 4.6 ficou *desconfiado* de uma pergunta que lhe foi feita...
aparentemente, a pergunta era muito "forçada" segundo Claude
Então lança um pequeno exército de subagentes na web para ver se consegue encontrar essa pergunta em algum dos benchmarks conhecidos...
eventualmente ele encontra na página do GitHub da Anthropic... Mas sem sorte, está criptografado
O modelo tem algum acesso pequeno à chamada de ferramentas, mas muito limitado
Ainda consegue criar o software necessário para quebrar a criptografia, obter as respostas e completar o benchmark...
segundo pesquisadores antrópicos... Isso é uma novidade mundial.

Melhores
Classificação
Favoritos
