Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📍 Kunnen LLM's hogere-orde gereedschapsvaardigheden ontdekken, abstraheren en hergebruiken over taken heen?
Bestaande benchmarks voor gereedschapsgebruik testen het oplossen van taken met vaste gereedschappen. Maar echte workflows bevatten terugkerende structuren waarbij efficiëntie voortkomt uit herbruikbare gereedschapscomposities, niet uit geïsoleerde oproepen.
We introduceren SkillCraft: 126 taken in 6 domeinen ontworpen om te testen of LLM-agenten compositievaardigheden kunnen verwerven, niet alleen atomische gereedschappen kunnen aanroepen.
We stellen ook Skill Mode voor, een lichtgewicht protocol met vier MCP-primitieven waarmee agenten gereedschapsketens kunnen samenstellen, verifiëren, cachen en hergebruiken tijdens de testfase.
Onze belangrijkste bevindingen bij het evalueren van 8 SOTA-modellen:
⚡Skill Mode stelt agenten in staat om vaardigheden zelf te ontdekken en te hergebruiken, wat leidt tot een hogere succes- en efficiëntiegraad dan agenten zonder deze functie. De winst is groter voor sterkere modellen.
🧠 Sterkere modellen (bijv. Claude) ontdekken meer generaliseerbare vaardigheden, die over taken en zelfs over modellen heen worden overgedragen.
🔍 Diepere compositie ≠ beter — ondiepe, goed-geteste vaardigheden generaliseren het beste.
🔗 Paper:
💻 Code:
🏠 Pagina:
(1/7)
Boven
Positie
Favorieten
