Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Sharbel
Mitbegründer https://t.co/pItSfUAFlS. Ich helfe, Marken aufzubauen, die Menschen wichtig sind. https://t.co/YoqorEACki
Perplexity hat gerade den Personal Computer gestartet.
Ein immer aktives KI-System, das 24/7 auf einem Mac mini läuft, verbunden mit deinen Dateien, Apps und Sitzungen.
Hier ist der Unterschied zu openclaw:
Die Version von Perplexity: ihre KI, ihre Server, deine Daten fließen durch ihre Pipeline. Ein Modell. Ein Produkt. Nimm es oder lass es.
Openclaw: Open Source. Läuft mit jedem Modell, Claude, Grok, Kimi, was auch immer du willst. Deine Daten verlassen niemals deine Maschine. Du baust die Agenten, du legst die Regeln fest, du besitzt den Stack.
Was ist jetzt möglich, da ein Unternehmen im Wert von 1 Milliarde Dollar die Kategorie validiert hat:
→ KI, die deine E-Mails überprüft, bevor du aufwachst
→ Agenten, die dein Geschäft 24/7 überwachen
→ Cron-Jobs, die Strategien ausführen, während du offline bist
→ Dein gesamter Workflow automatisiert, auf Hardware, die dir gehört
Der Unterschied zwischen der Version von Perplexity und dem, was du selbst bauen kannst, sind nicht die Funktionen.
Es ist die Kontrolle.
Perplexity = Shopify.
OpenClaw = den Server besitzen.

PerplexityVor 7 Stunden
Ankündigung des Personal Computers.
Der Personal Computer ist ein immer aktives, lokales Merge mit dem Perplexity Computer, der 24/7 für Sie arbeitet.
Er ist persönlich, sicher und funktioniert über Ihre Dateien, Apps und Sitzungen hinweg durch einen kontinuierlich laufenden Mac mini.
65
Ich baue einen Autoresearcher, um jede einzelne Handelsstrategie zu testen und die beste mögliche zu finden.
Das ist ein riesiger Fortschritt für die prädiktive Analyse.
Drückt mir die Daumen. 🤝


Andrej Karpathy10. März, 06:28
Vor drei Tagen habe ich das Autoresearch-Tuning von Nanochat für ~2 Tage mit dem Modell depth=12 laufen lassen. Es wurden ~20 Änderungen gefunden, die den Validierungsverlust verbessert haben. Ich habe diese Änderungen gestern getestet und alle waren additiv und wurden auf größere (depth=24) Modelle übertragen. Wenn ich all diese Änderungen zusammenzähle, habe ich heute gemessen, dass die "Zeit bis zu GPT-2" auf der Rangliste von 2,02 Stunden auf 1,80 Stunden sinkt (~11% Verbesserung), das wird der neue Ranglisteneintrag sein. Ja, das sind echte Verbesserungen und sie machen einen tatsächlichen Unterschied. Ich bin leicht überrascht, dass mein erster naiver Versuch bereits so gut funktioniert hat, auf dem, was ich für ein bereits ziemlich manuell gut abgestimmtes Projekt hielt.
Das ist das erste Mal für mich, weil ich es gewohnt bin, die iterative Optimierung des Trainings von neuronalen Netzwerken manuell durchzuführen. Man entwickelt Ideen, implementiert sie, überprüft, ob sie funktionieren (besserer Validierungsverlust), entwickelt neue Ideen basierend darauf, liest einige Papers zur Inspiration usw. Das ist das Brot und Butter dessen, was ich täglich seit 2 Jahrzehnten mache. Es ist verrückt zu sehen, wie der Agent diesen gesamten Workflow von Anfang bis Ende und ganz allein durch ca. 700 Änderungen autonom durchgeführt hat. Er hat wirklich die Reihenfolge der Ergebnisse von Experimenten betrachtet und das genutzt, um die nächsten zu planen. Es ist noch keine neuartige, bahnbrechende "Forschung", aber alle Anpassungen sind "echt", ich habe sie vorher nicht manuell gefunden, und sie summieren sich und haben Nanochat tatsächlich verbessert. Unter den größeren Dingen z.B.:
- Er bemerkte ein Versäumnis, dass mein parameterloses QKnorm keinen Skalierungsfaktor hatte, sodass meine Aufmerksamkeit zu diffus war. Der Agent fand Multiplikatoren, um sie zu schärfen, was auf zukünftige Arbeiten hinweist.
- Er stellte fest, dass die Value Embeddings wirklich Regularisierung mögen und ich keine anwendete (ups).
- Er fand heraus, dass meine banded attention zu konservativ war (ich habe vergessen, sie abzustimmen).
- Er stellte fest, dass die AdamW-Betas alle durcheinander waren.
- Er stimmte den Gewichtungsabfallzeitplan ab.
- Er stimmte die Netzwerkinitialisierung ab.
Das ist zusätzlich zu all dem Tuning, das ich bereits über einen längeren Zeitraum durchgeführt habe. Der genaue Commit ist hier, aus dieser "Runde 1" des Autoresearch. Ich werde "Runde 2" starten, und parallel schaue ich, wie mehrere Agenten zusammenarbeiten können, um Parallelität freizuschalten.
Alle LLM-Frontier-Labore werden dies tun. Es ist der letzte Bosskampf. Es ist natürlich viel komplexer im großen Maßstab - man hat nicht einfach eine einzelne train.py-Datei, die man abstimmen kann. Aber es zu tun ist "einfach Ingenieurwesen" und es wird funktionieren. Man startet einen Schwarm von Agenten, lässt sie zusammenarbeiten, um kleinere Modelle abzustimmen, fördert die vielversprechendsten Ideen auf zunehmend größere Maßstäbe und Menschen (optional) tragen an den Rändern bei.
Und allgemeiner gesagt, *jede* Metrik, die Ihnen wichtig ist und die vernünftig effizient zu bewerten ist (oder die effizientere Proxy-Metriken hat, wie das Training eines kleineren Netzwerks), kann von einem Agentenschwarm autoresearched werden. Es lohnt sich zu überlegen, ob Ihr Problem auch in diese Kategorie fällt.

30
Der wirkliche Unterschied zwischen "ich benutze Claude" und "Claude leitet mein Leben" ist die Erlaubnis.
Die meisten Menschen bitten Claude, etwas zu tun, erhalten ein Ergebnis und machen weiter.
Ich habe ganze Arbeitsabläufe, wiederkehrende Systeme und laufende Verantwortlichkeiten an meine Agenten delegiert.
Eine Möglichkeit, Agenten zu nutzen, ist als Werkzeug. Die andere ist als Mitarbeiter.
Wenn du immer noch im ersten Lager bist und dich fragst, warum du keinen ROI erhältst: Du gibst ihm Aufgaben, keine Rollen.
Systemaufforderungsfixes beheben das nicht. Delegation tut es.




105
Top
Ranking
Favoriten
