Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📍 Kan LLM-er oppdage, abstrahere og gjenbruke ferdigheter på høyere nivå av verktøy på tvers av oppgaver?
Eksisterende verktøybruk tester løsningsoppgaver med faste verktøy. Men ekte arbeidsflyter inneholder gjentakende strukturer der effektiviteten kommer fra gjenbrukbare verktøysammensetninger, ikke isolerte kall.
Vi introduserer SkillCraft: 126 oppgaver på tvers av 6 domener designet for å teste om LLM-agenter kan tilegne seg komposisjonelle ferdigheter, ikke bare bruke atomverktøy.
Vi foreslår også Skill Mode, en lettvektsprotokoll med fire MCP-primitiver som lar agenter komponere, verifisere, cache og gjenbruke verktøykjeder under test.
Våre viktigste funn på tvers av evaluering av 8 SOTA-modeller:
⚡Ferdighetsmodus gjør det mulig for agenter å selv oppdage og gjenbruke ferdigheter, noe som gir høyere suksess og effektivitet enn agenter uten den. Gevinstene er større for sterkere modeller.
🧠 Sterkere modeller (f.eks. Claude) oppdager mer generaliserbare ferdigheter, som overføres mellom oppgaver og til og med mellom modeller.
🔍 Dypere komposisjon ≠ bedre — grunne, velprøvde ferdigheter generaliseres best.
🔗 Artikkel:
💻 Kode:
🏠 Side:
(1/7)
Topp
Rangering
Favoritter
