📍 Können LLMs höhere Werkzeugfähigkeiten über Aufgaben hinweg entdecken, abstrahieren und wiederverwenden? Bestehende Benchmarks zur Werkzeugnutzung testen das Lösen von Aufgaben mit festen Werkzeugen. Aber echte Arbeitsabläufe enthalten wiederkehrende Strukturen, bei denen die Effizienz aus wiederverwendbaren Werkzeugkompositionen und nicht aus isolierten Aufrufen resultiert. Wir stellen SkillCraft vor: 126 Aufgaben in 6 Bereichen, die darauf ausgelegt sind zu testen, ob LLM-Agenten kompositorische Fähigkeiten erwerben können, nicht nur atomare Werkzeuge aufrufen. Wir schlagen auch den Skill Mode vor, ein leichtgewichtiges Protokoll mit vier MCP-Primitiven, das es Agenten ermöglicht, Werkzeugketten zur Testzeit zu komponieren, zu verifizieren, zu cachen und wiederzuverwenden. Unsere wichtigsten Erkenntnisse aus der Bewertung von 8 SOTA-Modellen: ⚡ Der Skill Mode ermöglicht es Agenten, Fähigkeiten selbst zu entdecken und wiederzuverwenden, was zu höheren Erfolgen und Effizienz führt als bei Agenten ohne ihn. Die Gewinne sind größer für stärkere Modelle. 🧠 Stärkere Modelle (z. B. Claude) entdecken allgemeinere Fähigkeiten, die über Aufgaben und sogar über Modelle hinweg übertragen werden. 🔍 Tiefere Komposition ≠ besser — flache, gut getestete Fähigkeiten generalisieren am besten. 🔗 Papier: 💻 Code: 🏠 Seite: (1/7)