Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📍 Kan LLM:er upptäcka, abstrahera och återanvända högre verktygskompetens över olika uppgifter?
Befintliga verktygsanvändningsbenchmarks testar lösningsuppgifter med fasta verktyg. Men verkliga arbetsflöden innehåller återkommande strukturer där effektiviteten kommer från återanvändbara verktygssammansättningar, inte isolerade samtal.
Vi introducerar SkillCraft: 126 uppgifter över 6 domäner utformade för att testa om LLM-agenter kan förvärva kompositionsfärdigheter, inte bara kalla atomverktyg.
Vi föreslår också Skill Mode, ett lättviktigt protokoll med fyra MCP-primitiva som låter agenter komponera, verifiera, cacha och återanvända verktygskedjor vid testtid.
Våra viktigaste fynd från utvärderingen av 8 SOTA-modeller:
⚡Färdighetsläge gör det möjligt för agenter att själva upptäcka och återanvända färdigheter, vilket leder till högre framgång och effektivitet än agenter utan det. Vinsterna är större för starkare modeller.
🧠 Starkare modeller (t.ex. Claude) upptäcker mer generaliserbara färdigheter, vilka överförs mellan uppgifter och till och med mellan modeller.
🔍 Djupare komposition ≠ bättre — ytliga, vältestade färdigheter generaliserar bäst.
🔗 Papper:
💻 Kod:
🏠 Sida:
(1/7)
Topp
Rankning
Favoriter
