Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hace tres días dejé el nanochat de autoresearch ajustando durante ~2 días en depth=12 modelo. Encontró ~20 cambios que mejoraron la pérdida de validación. Probé estos cambios ayer y todos fueron aditivos y se trasladaron a modelos más grandes (profundidad=24). Sumando todos estos cambios, hoy he medido que el "Tiempo para GPT-2" en la clasificación baja de 2,02 horas a 1,80 horas (~11% de mejora), esta será la nueva entrada en la clasificación. Así que sí, son mejoras reales y realmente marcan la diferencia. Me sorprende un poco que mi primer intento ingenuo ya haya funcionado tan bien encima de lo que pensaba que era un proyecto bastante bien ajustado manualmente.
Esto es una novedad para mí porque estoy muy acostumbrado a hacer manualmente la optimización iterativa del entrenamiento de redes neuronales. Se te ocurren ideas, las implementas, compruebas si funcionan (mejor pérdida de validación), creas nuevas ideas basadas en eso, lees algunos artículos para inspirarte, etcétera. Esto es el pan de cada día de lo que hago a diario durante dos décadas. Ver al agente hacer todo este flujo de trabajo de principio a fin y todo por sí solo mientras procesaba aproximadamente 700 cambios de forma autónoma es increíble. Realmente analizaba la secuencia de resultados de los experimentos y la utilizaba para planificar los siguientes. No es una "investigación" novedosa ni revolucionaria (todavía), pero todos los ajustes son "reales", no los encontré manualmente antes, y se acumulan y de hecho mejoran nanochat. Entre las cosas más importantes, por ejemplo:
- Notó un descuido de que mi QKnorm sin parámetros no tenía un multiplicador escalador adjunto, así que mi atención estaba demasiado dispersa. El agente encontró multiplicadores para afilarla, apuntando a trabajos futuros.
- Descubrió que a los Value Embeddings les gusta mucho la regularización y yo no estaba aplicando ninguna (ups).
- Descubrió que mi atención en banda era demasiado conservadora (se me olvidó afinarla).
- Descubrió que los betas de AdamW estaban todos desajustados.
- Ajustó el calendario de desintegración de peso.
- Ajustó la inicialización de la red.
Esto además de toda la afinación que ya he hecho durante bastante tiempo. El commit exacto está aquí, de esta "ronda 1" de autoinvestigación. Voy a iniciar la "ronda 2", y en paralelo estoy analizando cómo varios agentes pueden colaborar para desbloquear el paralelismo.
Todos los laboratorios de LLM en Frontier hacen esto. Es la batalla final contra el jefe. Por supuesto, es mucho más complejo a gran escala: no tienes solo un tren. Archivo PY para ajustar. Pero hacerlo es "solo ingeniería" y va a funcionar. Generas un enjambre de agentes, los haces colaborar para ajustar modelos más pequeños, promueves las ideas más prometedoras a escalas cada vez mayores, y los humanos (opcionalmente) contribuyen en los bordes.
Y más generalmente, *cualquiera* métrica que te importe y que sea razonablemente eficiente de evaluar (o que tenga métricas proxy más eficientes, como entrenar una red más pequeña) puede ser autoinvestigada por un enjambre de agentes. Vale la pena pensar si tu problema también entra en ese grupo.

Populares
Ranking
Favoritas
