Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Tôi thích đào tạo các mạng nơ-ron sâu lớn. Trước đây là Giám đốc AI @ Tesla, nhóm sáng lập @ OpenAI, Tiến sĩ @ Stanford.
Ba ngày trước, tôi đã để autoresearch điều chỉnh nanochat trong khoảng ~2 ngày với mô hình depth=12. Nó đã tìm thấy ~20 thay đổi giúp cải thiện độ mất mát xác thực. Tôi đã thử nghiệm những thay đổi này hôm qua và tất cả chúng đều cộng thêm và được chuyển sang các mô hình lớn hơn (depth=24). Tích lũy tất cả những thay đổi này, hôm nay tôi đo được rằng "Thời gian đến GPT-2" trên bảng xếp hạng giảm từ 2.02 giờ xuống 1.80 giờ (~11% cải thiện), đây sẽ là mục mới trên bảng xếp hạng. Vậy nên, đúng là những cải tiến này là có thật và chúng tạo ra sự khác biệt thực sự. Tôi hơi ngạc nhiên rằng nỗ lực đầu tiên ngây thơ của tôi đã hoạt động tốt như vậy trên những gì tôi nghĩ đã là một dự án được điều chỉnh khá tốt bằng tay.
Đây là lần đầu tiên đối với tôi vì tôi rất quen với việc thực hiện tối ưu hóa lặp đi lặp lại của việc đào tạo mạng nơ-ron một cách thủ công. Bạn đưa ra ý tưởng, bạn thực hiện chúng, bạn kiểm tra xem chúng có hoạt động hay không (độ mất mát xác thực tốt hơn), bạn đưa ra những ý tưởng mới dựa trên điều đó, bạn đọc một số tài liệu để lấy cảm hứng, v.v. Đây là công việc chính mà tôi làm hàng ngày trong 2 thập kỷ qua. Thấy tác nhân thực hiện toàn bộ quy trình này từ đầu đến cuối và hoàn toàn tự động khi nó làm việc qua khoảng 700 thay đổi một cách tự chủ thật là điên rồ. Nó thực sự đã xem xét chuỗi kết quả của các thí nghiệm và sử dụng điều đó để lên kế hoạch cho những thí nghiệm tiếp theo. Nó không phải là "nghiên cứu" mới mẻ, đột phá (chưa), nhưng tất cả các điều chỉnh đều là "thực", tôi không tìm thấy chúng một cách thủ công trước đó, và chúng tích lũy và thực sự cải thiện nanochat. Trong số những điều lớn hơn, ví dụ:
- Nó đã nhận thấy một sự thiếu sót rằng QKnorm không có tham số của tôi không có bộ nhân tỷ lệ gắn kèm, vì vậy sự chú ý của tôi quá phân tán. Tác nhân đã tìm thấy các bộ nhân để làm sắc nét nó, chỉ ra công việc trong tương lai.
- Nó đã phát hiện rằng các Value Embeddings thực sự thích việc điều chỉnh và tôi đã không áp dụng bất kỳ điều nào (ôi).
- Nó đã phát hiện rằng sự chú ý băng của tôi quá bảo thủ (tôi quên điều chỉnh nó).
- Nó đã phát hiện rằng các beta của AdamW đã bị rối loạn.
- Nó đã điều chỉnh lịch trình giảm trọng số.
- Nó đã điều chỉnh khởi tạo mạng.
Điều này là trên tất cả các điều chỉnh mà tôi đã thực hiện trong một khoảng thời gian dài. Cam kết chính xác ở đây, từ "vòng 1" của autoresearch. Tôi sẽ bắt đầu "vòng 2", và song song tôi đang xem xét cách nhiều tác nhân có thể hợp tác để mở khóa tính song song.
Tất cả các phòng thí nghiệm LLM tiên phong sẽ làm điều này. Đây là trận chiến với ông trùm cuối cùng. Tất nhiên, nó phức tạp hơn nhiều khi mở rộng quy mô - bạn không chỉ có một tệp train.py để điều chỉnh. Nhưng việc thực hiện nó chỉ là "kỹ thuật" và nó sẽ hoạt động. Bạn khởi động một đàn tác nhân, bạn để chúng hợp tác để điều chỉnh các mô hình nhỏ hơn, bạn thúc đẩy những ý tưởng hứa hẹn nhất lên quy mô lớn hơn, và con người (tùy chọn) đóng góp ở các rìa.
Và nói chung, *bất kỳ* chỉ số nào bạn quan tâm mà có thể đánh giá một cách hợp lý (hoặc có các chỉ số proxy hiệu quả hơn như đào tạo một mạng nhỏ hơn) có thể được autoresearch bởi một đàn tác nhân. Đáng để suy nghĩ xem liệu vấn đề của bạn có rơi vào nhóm này không.

407
Tôi đã đóng gói dự án "autoresearch" vào một kho lưu trữ tối thiểu tự chứa mới nếu mọi người muốn thử nghiệm vào cuối tuần. Nó cơ bản là lõi đào tạo LLM nanochat được rút gọn xuống phiên bản một tệp, một GPU với khoảng 630 dòng mã, sau đó:
- con người lặp lại trên prompt (.md)
- tác nhân AI lặp lại trên mã đào tạo (.py)
Mục tiêu là thiết kế các tác nhân của bạn để đạt được tiến bộ nghiên cứu nhanh nhất vô hạn mà không cần sự tham gia của bạn. Trong hình, mỗi chấm là một lần chạy đào tạo LLM hoàn chỉnh kéo dài đúng 5 phút. Tác nhân làm việc trong một vòng lặp tự động trên một nhánh tính năng git và tích lũy các cam kết git vào kịch bản đào tạo khi nó tìm thấy các cài đặt tốt hơn (có độ mất mát xác thực thấp hơn vào cuối) của kiến trúc mạng nơ-ron, bộ tối ưu hóa, tất cả các siêu tham số, v.v. Bạn có thể tưởng tượng so sánh tiến bộ nghiên cứu của các prompt khác nhau, các tác nhân khác nhau, v.v.
Một phần mã, một phần khoa học viễn tưởng, và một chút tâm thần :)

1,39K
Hàng đầu
Thứ hạng
Yêu thích
