📍 Bisakah LLM menemukan, mengabstraksi, dan menggunakan kembali keterampilan alat tingkat tinggi di seluruh tugas? Tolok ukur penggunaan alat yang ada menguji tugas pemecahan dengan alat tetap. Tetapi alur kerja nyata berisi struktur berulang di mana efisiensi berasal dari komposisi alat yang dapat digunakan kembali, bukan panggilan terisolasi. Kami memperkenalkan SkillCraft: 126 tugas di 6 domain yang dirancang untuk menguji apakah agen LLM dapat memperoleh keterampilan komposisi, bukan hanya memanggil alat atom. Kami juga mengusulkan Mode Keterampilan, protokol ringan dengan empat primitif MCP yang memungkinkan agen menyusun, memverifikasi, meng-cache, dan menggunakan kembali rantai alat pada waktu pengujian. Temuan utama kami dalam mengevaluasi 8 model SOTA: ⚡Mode Keterampilan memungkinkan agen untuk menemukan sendiri dan menggunakan kembali keterampilan, yang mengarah pada kesuksesan dan efisiensi yang lebih tinggi daripada agen tanpanya. Keuntungannya lebih besar untuk model yang lebih kuat. 🧠 Model yang lebih kuat (misalnya, Claude) menemukan keterampilan yang lebih dapat digeneralisasikan, yang ditransfer lintas tugas dan bahkan antar model. 🔍 Komposisi yang lebih dalam ≠ lebih baik - keterampilan yang dangkal dan teruji dengan baik menggeneralisasi yang terbaik. 🔗 Kertas: 💻 Kode: 🏠 Halaman: (1/7)