トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
3日前にdepth=12モデルでautoresearchのnanochatを~2日間離れました。検証損失を改善するために~20の変更点を見つけました。昨日これらの変更をテストしたところ、すべて加算的で、より大きな(深さ=24)モデルに転送されました。これらすべての変更を総合して、今日はリーダーボードの「GPT-2までの時間」が2.02時間から1.80時間に減少し(~11%改善)、これが新しいリーダーボードエントリーとなります。ですから、これらは本当に大きな改善であり、実際に違いを生み出しています。私の最初の素朴な試みが、すでにかなり手動で調整されたプロジェクトの上に、これほどうまくいったことに少し驚いています。
これは私にとって初めての経験です。なぜなら、ニューラルネットワークのトレーニングを手動で反復最適化することに慣れているからです。アイデアを思いつき、実行し、効果を確認し(より良い検証性の損失)、それに基づいて新しいアイデアを考え、インスピレーションを得るために論文を読むなど、さまざまな作業を行います。これが私が20年間毎日やってきた基本業務です。エージェントがこのワークフロー全体をエンドツーエンドで、そして自律的に処理しながら約700件の変更を自律的に処理しているのを見るのは驚きです。実験結果の順序をよく見て、それを使って次の実験を計画していました。まだ斬新で画期的な「研究」ではありませんが、すべての調整は「本物」で、以前は手動で見つけたことがなく、積み重なって実際にナノチャットを改善しています。例えば、大きなこととしては:
- パラメータレスQKnormにスケーラマルチプライヤーが付いていないという見落としに気づき、注意が分散しすぎました。エージェントはそれを鋭くするための乗数を見つけ、将来の研究を示唆した。
- 値埋め込みは正則化を非常に好んでいて、私は正則化を適用していなかったことがわかりました(あっ、そうなりました)。
- バンドの注意が保守的すぎると判明しました(チューニングを忘れていました)。
- アダムのベータがみんなおかしかったってわかった。
- 重量減衰スケジュールを調整したんだ。
- ネットワークの初期化を調整した。
これは、すでにかなりの時間をかけて調整してきたことに加えてのことです。正確なコミットはこちら、autoresearchの「ラウンド1」からの情報です。「ラウンド2」を始め、同時に複数のエージェントが協力して並列性を解放する方法を検討しています。
すべてのLLMフロンティアラボはこれを行っています。これが最終ボス戦だ。もちろん規模はずっと複雑で、単一の列車だけではありません。pyファイルからチューニング。でも、それをやるのは「ただの工学」であり、うまくいくはずです。エージェントの群れを作り、協力して小さなモデルを調整し、最も有望なアイデアをますます大きなスケールに推進し、人間は(選択的には)周辺で貢献します。
そしてより一般的には、評価が比較的効率的に(またはより効率的なプロキシ指標を持つ、例えば小規模なネットワークの訓練など)気にする指標は、エージェントスウォームによって自動調査できます。あなたの問題もこのカテゴリーに当てはまるかどうか考える価値があります。

トップ
ランキング
お気に入り
