Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ich habe Autokernel open-sourced – Autoresearch für GPU-Kerne.
Du gibst ihm ein beliebiges PyTorch-Modell. Es profiliert das Modell, findet die Engpasskerne, schreibt Triton-Ersatzlösungen und führt über Nacht Experimente durch. Eine Datei bearbeiten, benchmarken, behalten oder zurücksetzen, immer wieder.
Der gleiche Loop wie @karpathy Autoresearch, angewendet auf die Optimierung von Kernen.
95 Experimente. 18 TFLOPS → 187 TFLOPS. 1,31x im Vergleich zu cuBLAS. alles autonom.
9 Kerntypen (matmul, flash attention, fused mlp, layernorm, rmsnorm, softmax, rope, cross entropy, reduce). Amdahls Gesetz entscheidet, was als Nächstes optimiert werden soll. 5-stufige Korrektheitsprüfungen, bevor irgendein Geschwindigkeitszuwachs zählt.
Der Agent liest program.md (den "Forschungs-Org-Code"), bearbeitet, führt aus und behält entweder oder setzt zurück. ~40 Experimente/Stunde. ~320 über Nacht.
Wird mit selbständigen GPT-2-, LLaMA- und BERT-Definitionen geliefert, sodass du nicht die Transformers-Bibliothek benötigst, um zu starten.

Top
Ranking
Favoriten
