DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

📍 Voivatko LLM:t löytää, abstrahdata ja hyödyntää uudelleen korkeamman tason työkalutaitoja eri tehtävissä? Olemassa olevat työkalujen käyttöbenchmarkit testaavat tehtävien ratkaisemista kiinteillä työkaluilla. Mutta todelliset työnkulut sisältävät toistuvia rakenteita, joissa tehokkuus perustuu uudelleenkäytettäviin työkalukoostumuksiin, ei erillisiin kutsuihin. Esittelemme SkillCraftin: 126 tehtävää kuudessa eri osa-alueessa, joiden tarkoituksena on testata, voivatko LLM-agentit oppia koostumustaidot, eivät pelkästään kutsua atomityökaluja. Ehdotamme myös Skill Mode -protokollaa, kevyttä protokollaa, jossa on neljä MCP-primitiiviä ja jonka avulla agentit voivat koota, varmistaa, välimuistittaa ja käyttää työkaluketjuja testiaikana. Keskeiset havaintomme kahdeksan SOTA-mallin arvioinnissa: ⚡Taitotila mahdollistaa agenttien itseoppimisen ja uudelleenkäytön taitojen uudelleenkäyttöön, mikä johtaa suurempaan menestykseen ja tehokkuuteen kuin agentit ilman taitoa. Vahvistukset ovat suurempia vahvemmille malleille. 🧠 Vahvemmat mallit (esim. Claude) löytävät yleistettävämpiä taitoja, jotka siirtyvät tehtävien ja jopa mallien välillä. 🔍 Syvempi kirjoittaminen ≠ parempi — pinnalliset, hyvin testatut taidot yleistävät parhaiten. 🔗 Artikkeli: 💻 Koodi: 🏠 Sivu: (1/7)

Johtavat

Rankkaus

Suosikit