Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Linus ✦ Ekenstam
Evangelista y optimista de la IA. Últimas noticias y tendencias de IA y aprenda a usar las herramientas de IA para aumentar sus habilidades.
impresionante

Andrej Karpathy10 mar, 06:28
Hace tres días dejé que autoresearch ajustara nanochat durante ~2 días en el modelo depth=12. Encontró ~20 cambios que mejoraron la pérdida de validación. Probé estos cambios ayer y todos ellos fueron aditivos y se transfirieron a modelos más grandes (depth=24). Acumulando todos estos cambios, hoy medí que el "Tiempo hasta GPT-2" en la tabla de clasificación baja de 2.02 horas a 1.80 horas (~11% de mejora), esta será la nueva entrada en la tabla de clasificación. Así que sí, estas son mejoras reales y hacen una diferencia real. Estoy ligeramente sorprendido de que mi primer intento ingenuo ya funcionara tan bien sobre lo que pensé que ya era un proyecto bastante bien ajustado manualmente.
Esto es algo nuevo para mí porque estoy muy acostumbrado a hacer la optimización iterativa del entrenamiento de redes neuronales manualmente. Se te ocurren ideas, las implementas, verificas si funcionan (mejor pérdida de validación), se te ocurren nuevas ideas basadas en eso, lees algunos artículos para inspirarte, etc., etc. Este es el pan y la mantequilla de lo que hago a diario desde hace 2 décadas. Ver al agente hacer todo este flujo de trabajo de principio a fin y todo por sí mismo mientras trabajaba en aproximadamente 700 cambios de forma autónoma es increíble. Realmente observó la secuencia de resultados de los experimentos y utilizó eso para planificar los siguientes. No es una "investigación" novedosa y revolucionaria (aún), pero todos los ajustes son "reales", no los encontré manualmente antes, y se acumulan y realmente mejoraron nanochat. Entre las cosas más grandes, por ejemplo:
- Notó un descuido que mi QKnorm sin parámetros no tenía un multiplicador de escala adjunto, así que mi atención era demasiado difusa. El agente encontró multiplicadores para agudizarlo, señalando trabajos futuros.
- Encontró que las Value Embeddings realmente les gusta la regularización y no estaba aplicando ninguna (oops).
- Encontró que mi atención en bandas era demasiado conservadora (olvidé ajustarla).
- Encontró que los betas de AdamW estaban todos desordenados.
- Ajustó el programa de decaimiento de peso.
- Ajustó la inicialización de la red.
Esto es además de todo el ajuste que ya he hecho durante un buen tiempo. El commit exacto está aquí, de esta "ronda 1" de autoresearch. Voy a iniciar la "ronda 2", y en paralelo estoy viendo cómo múltiples agentes pueden colaborar para desbloquear el paralelismo.
Todos los laboratorios de frontera de LLM harán esto. Es la batalla final del jefe. Es mucho más complejo a gran escala, por supuesto: no solo tienes un solo archivo train.py para ajustar. Pero hacerlo es "solo ingeniería" y va a funcionar. Levantas un enjambre de agentes, los haces colaborar para ajustar modelos más pequeños, promueves las ideas más prometedoras a escalas cada vez más grandes, y los humanos (opcionalmente) contribuyen en los bordes.
Y más generalmente, *cualquier* métrica que te importe y que sea razonablemente eficiente de evaluar (o que tenga métricas proxy más eficientes como entrenar una red más pequeña) puede ser investigada automáticamente por un enjambre de agentes. Vale la pena pensar si tu problema también cae en esta categoría.

4
Parte superior
Clasificación
Favoritos
