Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Quiere que un agente de LLM tenga éxito en un entorno OOD?
Abordamos el caso más difícil con SPA (Self-Play Agent). Sin datos adicionales, herramientas ni modelos más sólidos. Puro juego propio.
Primero internalizamos un modelo de mundo a través del autojuego, luego aprendemos a ganar por RL.
Como un niño que juega con el medio ambiente para simplemente aprender sobre "¿y si hago esto?"
A continuación, mostramos nuestros hallazgos sobre: ¿Qué hay de malo en los entornos OOD? ¿Cuáles son los factores clave que permiten que el autojuego tenga éxito?
(1/8)

Populares
Ranking
Favoritas
