Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
For tre dager siden forlot jeg autoresearch tuning nanochat i ~2 dager på depth=12-modellen. Den fant ~20 endringer som forbedret valideringstapet. Jeg testet disse endringene i går, og alle var additive og overført til større (dybde=24) modeller. Når man legger sammen alle disse endringene, målte jeg i dag at ledertavlens «Tid til GPT-2» går ned fra 2,02 timer til 1,80 timer (~11 % forbedring), dette blir den nye topplisteoppføringen. Så ja, dette er reelle forbedringer og de gjør en reell forskjell. Jeg er litt overrasket over at mitt aller første naive forsøk allerede fungerte så bra, i tillegg til det jeg trodde var et ganske manuelt godt tilpasset prosjekt.
Dette er første gang for meg fordi jeg er veldig vant til å gjøre iterativ optimalisering av nevrale nettverkstrening manuelt. Du kommer opp med ideer, du implementerer dem, sjekker om de fungerer (bedre tap av validering), du kommer opp med nye ideer basert på det, du leser noen artikler for inspirasjon, osv. Dette er grunnlaget for det jeg gjør daglig i to tiår. Å se agenten gjøre hele denne arbeidsflyten fra ende til ende og helt alene mens den jobbet seg gjennom omtrent 700 endringer autonomt, er helt vilt. Den så virkelig på rekkefølgen av resultater fra eksperimenter og brukte det til å planlegge de neste. Det er ikke ny, banebrytende «forskning» (enda), men alle justeringene er «ekte», jeg fant dem ikke manuelt tidligere, og de holder seg opp og forbedret faktisk nanochat. Blant de større tingene, for eksempel:
- Den oppdaget en glipp at min parameterløse QKnorm ikke hadde en skaler-multiplikator festet, så oppmerksomheten min var for spredt. Agenten fant multiplikatorer for å skjerpe den, og pekte på fremtidig arbeid.
- Den fant ut at Value Embeddings virkelig liker regularisering, og jeg brukte ingen (oops).
- Den fant ut at min båndede oppmerksomhet var for konservativ (jeg glemte å stemme den).
- Den fant ut at AdamW-betaer var helt ødelagte.
- Den justerte vektnedbrytningsplanen.
- Den justerte nettverksinitialiseringen.
Dette kommer i tillegg til all tuning jeg allerede har gjort over lang tid. Den eksakte commit er her, fra denne "runde 1" av autoresearch. Jeg skal starte «runde 2», og parallelt ser jeg på hvordan flere agenter kan samarbeide for å låse opp parallellisme.
Alle LLM Frontier-laboratorier gjør dette. Det er den siste bosskampen. Det er selvfølgelig mye mer komplekst i stor skala – du har ikke bare ett enkelt tog. PY-filen skal justeres. Men å gjøre det er «bare ingeniørkunst» og det kommer til å fungere. Du setter sammen en sverm av agenter, får dem til å samarbeide for å finjustere mindre modeller, du promoterer de mest lovende ideene til stadig større skalaer, og mennesker bidrar (valgfritt) på kantene.
Og mer generelt kan *enhver* måling du bryr deg om som er rimelig effektiv å evaluere (eller som har mer effektive proxy-målinger som å trene et mindre nettverk) forskes automatisk av en agentsverm. Det er verdt å tenke på om problemet ditt også faller inn under denne kategorien.

Topp
Rangering
Favoritter
