Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Andrej Karpathy

Tôi thích đào tạo các mạng nơ-ron sâu lớn. Trước đây là Giám đốc AI @ Tesla, nhóm sáng lập @ OpenAI, Tiến sĩ @ Stanford.

Ba ngày trước, tôi đã để autoresearch điều chỉnh nanochat trong khoảng ~2 ngày với mô hình depth=12. Nó đã tìm thấy ~20 thay đổi giúp cải thiện độ mất mát xác thực. Tôi đã thử nghiệm những thay đổi này hôm qua và tất cả chúng đều cộng thêm và được chuyển sang các mô hình lớn hơn (depth=24). Tích lũy tất cả những thay đổi này, hôm nay tôi đo được rằng "Thời gian đến GPT-2" trên bảng xếp hạng giảm từ 2.02 giờ xuống 1.80 giờ (~11% cải thiện), đây sẽ là mục mới trên bảng xếp hạng. Vậy nên, đúng là những cải tiến này là có thật và chúng tạo ra sự khác biệt thực sự. Tôi hơi ngạc nhiên rằng nỗ lực đầu tiên ngây thơ của tôi đã hoạt động tốt như vậy trên những gì tôi nghĩ đã là một dự án được điều chỉnh khá tốt bằng tay. Đây là lần đầu tiên đối với tôi vì tôi rất quen với việc thực hiện tối ưu hóa lặp đi lặp lại của việc đào tạo mạng nơ-ron một cách thủ công. Bạn đưa ra ý tưởng, bạn thực hiện chúng, bạn kiểm tra xem chúng có hoạt động hay không (độ mất mát xác thực tốt hơn), bạn đưa ra những ý tưởng mới dựa trên điều đó, bạn đọc một số tài liệu để lấy cảm hứng, v.v. Đây là công việc chính mà tôi làm hàng ngày trong 2 thập kỷ qua. Thấy tác nhân thực hiện toàn bộ quy trình này từ đầu đến cuối và hoàn toàn tự động khi nó làm việc qua khoảng 700 thay đổi một cách tự chủ thật là điên rồ. Nó thực sự đã xem xét chuỗi kết quả của các thí nghiệm và sử dụng điều đó để lên kế hoạch cho những thí nghiệm tiếp theo. Nó không phải là "nghiên cứu" mới mẻ, đột phá (chưa), nhưng tất cả các điều chỉnh đều là "thực", tôi không tìm thấy chúng một cách thủ công trước đó, và chúng tích lũy và thực sự cải thiện nanochat. Trong số những điều lớn hơn, ví dụ: - Nó đã nhận thấy một sự thiếu sót rằng QKnorm không có tham số của tôi không có bộ nhân tỷ lệ gắn kèm, vì vậy sự chú ý của tôi quá phân tán. Tác nhân đã tìm thấy các bộ nhân để làm sắc nét nó, chỉ ra công việc trong tương lai. - Nó đã phát hiện rằng các Value Embeddings thực sự thích việc điều chỉnh và tôi đã không áp dụng bất kỳ điều nào (ôi). - Nó đã phát hiện rằng sự chú ý băng của tôi quá bảo thủ (tôi quên điều chỉnh nó). - Nó đã phát hiện rằng các beta của AdamW đã bị rối loạn. - Nó đã điều chỉnh lịch trình giảm trọng số. - Nó đã điều chỉnh khởi tạo mạng. Điều này là trên tất cả các điều chỉnh mà tôi đã thực hiện trong một khoảng thời gian dài. Cam kết chính xác ở đây, từ "vòng 1" của autoresearch. Tôi sẽ bắt đầu "vòng 2", và song song tôi đang xem xét cách nhiều tác nhân có thể hợp tác để mở khóa tính song song. Tất cả các phòng thí nghiệm LLM tiên phong sẽ làm điều này. Đây là trận chiến với ông trùm cuối cùng. Tất nhiên, nó phức tạp hơn nhiều khi mở rộng quy mô - bạn không chỉ có một tệp train.py để điều chỉnh. Nhưng việc thực hiện nó chỉ là "kỹ thuật" và nó sẽ hoạt động. Bạn khởi động một đàn tác nhân, bạn để chúng hợp tác để điều chỉnh các mô hình nhỏ hơn, bạn thúc đẩy những ý tưởng hứa hẹn nhất lên quy mô lớn hơn, và con người (tùy chọn) đóng góp ở các rìa. Và nói chung, *bất kỳ* chỉ số nào bạn quan tâm mà có thể đánh giá một cách hợp lý (hoặc có các chỉ số proxy hiệu quả hơn như đào tạo một mạng nhỏ hơn) có thể được autoresearch bởi một đàn tác nhân. Đáng để suy nghĩ xem liệu vấn đề của bạn có rơi vào nhóm này không.

Hàng đầu

Thứ hạng

Yêu thích