📍 Mohou LLM objevovat, abstrahovat a znovu využívat pokročilé dovednosti nástrojů napříč úkoly? Stávající benchmarky pro používání nástrojů testují řešení úkolů s pevně danými nástroji. Ale skutečné pracovní postupy obsahují opakující se struktury, kde efektivita vychází z opakovaně použitelných nástrojů, nikoli z izolovaných volání. Představujeme SkillCraft: 126 úkolů napříč 6 doménami, navržených k ověření, zda agenti LLM mohou získat kompoziční dovednosti, nejen nazývat atomové nástroje. Navrhujeme také Skill Mode, lehký protokol se čtyřmi MCP primitivy, které umožňují agentům skládat, ověřovat, cacheovat a znovu používat nástroje v době testování. Naše klíčové poznatky při hodnocení 8 modelů SOTA: ⚡Režim dovedností umožňuje agentům objevovat a znovu používat dovednosti, což vede k vyššímu úspěchu a efektivitě než agentům bez něj. Zisky jsou větší u silnějších modelů. 🧠 Silnější modely (např. Claude) objevují obecnější dovednosti, které se přenášejí napříč úkoly a dokonce i mezi modely. 🔍 Hlubší slohová ≠ lepší — povrchní, dobře prověřené dovednosti se nejlépe zobecňují. 🔗 Článek: 💻 Kód: 🏠 Stránka: (1/7)