Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vill du få en LLM-agent att lyckas i en OOD-miljö?
Vi tar oss an det svåraste fallet med SPA (Self-Play Agent). Inga extra data, verktyg eller starkare modeller. Rent självspel.
Vi internaliserar först en världsmodell via Self-Play, sedan lär vi oss hur man vinner med RL.
Som ett barn som leker med miljön för att helt enkelt lära sig om "vad händer om jag gör det här?"
Nedan visar vi våra resultat om: Vad är det för fel på OOD-miljöer? Vilka är de viktigaste faktorerna som gör att självspel kan lyckas?
(1/8)

Topp
Rankning
Favoriter
