Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Sharbel
Co-fondatore https://t.co/pItSfUAFlS. Aiuto a costruire marchi a cui la gente tiene. https://t.co/YoqorEACki
Perplexity ha appena lanciato Personal Computer.
un AI sempre attivo che funziona 24 ore su 24, 7 giorni su 7 su un Mac mini, connesso ai tuoi file, app e sessioni.
ecco la differenza con openclaw:
la versione di perplexity: la loro AI, i loro server, i tuoi dati scorrono attraverso il loro pipeline. un modello. un prodotto. accettalo o lascialo.
openclaw: open source. esegue qualsiasi modello, Claude, Grok, Kimi, qualunque cosa tu voglia. i tuoi dati non lasciano mai la tua macchina. costruisci gli agenti, imposti le regole, possiedi lo stack.
cosa è possibile ora che un'azienda da 1 miliardo di dollari ha appena convalidato la categoria:
→ AI che controlla la tua email prima che ti svegli
→ agenti che monitorano la tua attività 24 ore su 24, 7 giorni su 7
→ cron job che eseguono strategie mentre sei offline
→ l'intero flusso di lavoro automatizzato, su hardware che possiedi
differenza tra la versione di perplexity e ciò che puoi costruire tu stesso non sono le funzionalità.
è il controllo.
Perplexity = Shopify.
OpenClaw = possedere il server.

Perplexity4 ore fa
Annuncio del Personal Computer.
Il Personal Computer è un merge locale sempre attivo con il Perplexity Computer che lavora per te 24 ore su 24, 7 giorni su 7.
È personale, sicuro e funziona attraverso i tuoi file, app e sessioni tramite un Mac mini in esecuzione continua.
27
Sto costruendo un autoresearcher per testare ogni singola strategia di trading possibile e trovare la migliore possibile.
Questo è un enorme passo avanti per l'analisi predittiva.
Auguratemi buona fortuna. 🤝


Andrej Karpathy10 mar, 06:28
Tre giorni fa ho lasciato autoresearch a sintonizzare nanochat per ~2 giorni sul modello depth=12. Ha trovato ~20 modifiche che hanno migliorato la perdita di validazione. Ho testato queste modifiche ieri e tutte erano additive e trasferite a modelli più grandi (depth=24). Accumulando tutte queste modifiche, oggi ho misurato che il "Tempo per GPT-2" della classifica scende da 2,02 ore a 1,80 ore (~11% di miglioramento), questo sarà il nuovo ingresso nella classifica. Quindi sì, questi sono miglioramenti reali e fanno una differenza concreta. Sono leggermente sorpreso che il mio primo tentativo naive abbia già funzionato così bene su quello che pensavo fosse già un progetto abbastanza ben sintonizzato manualmente.
Questo è un primo per me perché sono molto abituato a fare l'ottimizzazione iterativa dell'addestramento delle reti neurali manualmente. Ti vengono idee, le implementi, controlli se funzionano (migliore perdita di validazione), ti vengono nuove idee basate su quelle, leggi alcuni articoli per ispirazione, ecc. Questo è il pane quotidiano di ciò che faccio da 2 decenni. Vedere l'agente fare questo intero flusso di lavoro end-to-end e tutto da solo mentre lavorava attraverso circa 700 modifiche in modo autonomo è incredibile. Ha davvero esaminato la sequenza dei risultati degli esperimenti e l'ha usata per pianificare i successivi. Non è "ricerca" nuova e rivoluzionaria (ancora), ma tutti gli aggiustamenti sono "reali", non li avevo trovati manualmente in precedenza, e si accumulano e hanno effettivamente migliorato nanochat. Tra le cose più grandi, ad esempio:
- Ha notato una svista che il mio QKnorm senza parametri non aveva un moltiplicatore di scala attaccato, quindi la mia attenzione era troppo diffusa. L'agente ha trovato moltiplicatori per affilarla, indicando un lavoro futuro.
- Ha scoperto che i Value Embeddings gradiscono davvero la regolarizzazione e non ne stavo applicando alcuna (oops).
- Ha trovato che la mia attenzione a bande era troppo conservativa (ho dimenticato di sintonizzarla).
- Ha scoperto che i betas di AdamW erano tutti sballati.
- Ha sintonizzato il programma di decadimento del peso.
- Ha sintonizzato l'inizializzazione della rete.
Questo è oltre tutta la sintonizzazione che ho già fatto nel corso di un buon periodo di tempo. Il commit esatto è qui, da questo "round 1" di autoresearch. Sto per avviare il "round 2", e in parallelo sto guardando come più agenti possono collaborare per sbloccare il parallelismo.
Tutti i laboratori di frontiera LLM faranno questo. È la battaglia finale del boss. È molto più complesso su scala, ovviamente - non hai solo un singolo file train.py da sintonizzare. Ma farlo è "solo ingegneria" e funzionerà. Avvii uno sciame di agenti, li fai collaborare per sintonizzare modelli più piccoli, promuovi le idee più promettenti a scale sempre più grandi, e gli esseri umani (opzionalmente) contribuiscono ai margini.
E più in generale, *qualsiasi* metrica che ti interessa e che è ragionevolmente efficiente da valutare (o che ha metriche proxy più efficienti come l'addestramento di una rete più piccola) può essere autoresearched da uno sciame di agenti. Vale la pena pensare se il tuo problema rientra anche in questo ambito.

7
la vera differenza tra "io uso claude" e "claude gestisce la mia vita" è il permesso.
la maggior parte delle persone chiede a claude di fare qualcosa, ottiene un risultato e passa oltre.
io ho delegato interi flussi di lavoro, sistemi ricorrenti e responsabilità in corso ai miei agenti.
un modo di usare gli agenti è come uno strumento. l'altro è come un dipendente.
se sei ancora nel primo gruppo e ti chiedi perché non stai ottenendo ROI: stai dando compiti, non ruoli.
le correzioni del prompt di sistema non risolvono questo. la delega sì.




89
Principali
Ranking
Preferiti
