Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Il y a trois jours, j'ai laissé l'autorecherche ajuster nanochat pendant environ 2 jours sur le modèle depth=12. Il a trouvé environ 20 changements qui ont amélioré la perte de validation. J'ai testé ces changements hier et tous étaient additifs et transférables à des modèles plus grands (depth=24). En cumulant tous ces changements, aujourd'hui j'ai mesuré que le "Temps jusqu'à GPT-2" du classement passe de 2,02 heures à 1,80 heures (environ 11 % d'amélioration), ce sera la nouvelle entrée du classement. Donc oui, ce sont de réelles améliorations et elles font une différence réelle. Je suis légèrement surpris que ma toute première tentative naïve ait déjà aussi bien fonctionné sur ce que je pensais être déjà un projet assez bien ajusté manuellement.
C'est une première pour moi car je suis très habitué à faire l'optimisation itérative de l'entraînement des réseaux de neurones manuellement. Vous proposez des idées, vous les mettez en œuvre, vous vérifiez si elles fonctionnent (meilleure perte de validation), vous proposez de nouvelles idées basées sur cela, vous lisez des articles pour vous inspirer, etc. C'est le pain et le beurre de ce que je fais quotidiennement depuis 2 décennies. Voir l'agent faire tout ce flux de travail de bout en bout et tout seul en parcourant environ 700 changements de manière autonome est incroyable. Il a vraiment examiné la séquence des résultats des expériences et utilisé cela pour planifier les suivantes. Ce n'est pas une "recherche" novatrice et révolutionnaire (pour l'instant), mais tous les ajustements sont "réels", je ne les avais pas trouvés manuellement auparavant, et ils s'accumulent et ont réellement amélioré nanochat. Parmi les choses plus importantes, par exemple :
- Il a remarqué un oubli que mon QKnorm sans paramètre n'avait pas de multiplicateur de mise à l'échelle attaché, donc mon attention était trop diffuse. L'agent a trouvé des multiplicateurs pour l'affiner, pointant vers un travail futur.
- Il a découvert que les Value Embeddings aiment vraiment la régularisation et je n'en appliquais aucune (oups).
- Il a trouvé que mon attention bandée était trop conservatrice (j'ai oublié de l'ajuster).
- Il a constaté que les betas d'AdamW étaient tous dérangés.
- Il a ajusté le calendrier de décroissance du poids.
- Il a ajusté l'initialisation du réseau.
C'est en plus de tout l'ajustement que j'ai déjà fait sur une bonne période. Le commit exact est ici, de ce "round 1" d'autorecherche. Je vais lancer le "round 2", et en parallèle, je regarde comment plusieurs agents peuvent collaborer pour débloquer le parallélisme.
Tous les laboratoires de pointe en LLM feront cela. C'est le combat final. C'est bien plus complexe à grande échelle, bien sûr - vous n'avez pas juste un seul fichier train.py à ajuster. Mais le faire est "juste de l'ingénierie" et ça va fonctionner. Vous déployez un essaim d'agents, vous les faites collaborer pour ajuster des modèles plus petits, vous promouvez les idées les plus prometteuses à des échelles de plus en plus grandes, et les humains (en option) contribuent sur les bords.
Et plus généralement, *toute* métrique qui vous intéresse et qui est raisonnablement efficace à évaluer (ou qui a des métriques proxy plus efficaces comme l'entraînement d'un réseau plus petit) peut être autorecherchée par un essaim d'agents. Cela vaut la peine de réfléchir à savoir si votre problème entre également dans cette catégorie.

Meilleurs
Classement
Favoris
