Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📍 Voivatko LLM:t löytää, abstrahdata ja hyödyntää uudelleen korkeamman tason työkalutaitoja eri tehtävissä?
Olemassa olevat työkalujen käyttöbenchmarkit testaavat tehtävien ratkaisemista kiinteillä työkaluilla. Mutta todelliset työnkulut sisältävät toistuvia rakenteita, joissa tehokkuus perustuu uudelleenkäytettäviin työkalukoostumuksiin, ei erillisiin kutsuihin.
Esittelemme SkillCraftin: 126 tehtävää kuudessa eri osa-alueessa, joiden tarkoituksena on testata, voivatko LLM-agentit oppia koostumustaidot, eivät pelkästään kutsua atomityökaluja.
Ehdotamme myös Skill Mode -protokollaa, kevyttä protokollaa, jossa on neljä MCP-primitiiviä ja jonka avulla agentit voivat koota, varmistaa, välimuistittaa ja käyttää työkaluketjuja testiaikana.
Keskeiset havaintomme kahdeksan SOTA-mallin arvioinnissa:
⚡Taitotila mahdollistaa agenttien itseoppimisen ja uudelleenkäytön taitojen uudelleenkäyttöön, mikä johtaa suurempaan menestykseen ja tehokkuuteen kuin agentit ilman taitoa. Vahvistukset ovat suurempia vahvemmille malleille.
🧠 Vahvemmat mallit (esim. Claude) löytävät yleistettävämpiä taitoja, jotka siirtyvät tehtävien ja jopa mallien välillä.
🔍 Syvempi kirjoittaminen ≠ parempi — pinnalliset, hyvin testatut taidot yleistävät parhaiten.
🔗 Artikkeli:
💻 Koodi:
🏠 Sivu:
(1/7)
Johtavat
Rankkaus
Suosikit
