Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Quer que um agente LLM tenha sucesso em um ambiente OOD?
Abordamos o caso mais difícil com o SPA (Self-Play Agent). Sem dados extras, ferramentas ou modelos mais fortes. Puro auto-jogo.
Primeiro internalizamos um modelo de mundo via Self-Play, depois aprendemos como vencer por RL.
Como uma criança brincando com o env para simplesmente aprender sobre "e se eu fizer isso?"
Abaixo, mostramos nossas descobertas sobre: O que há de errado com os ambientes OOD? Quais são os principais fatores que permitem que o jogo próprio seja bem-sucedido?
(1/8)

Melhores
Classificação
Favoritos
