Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📍 Les LLM peuvent-ils découvrir, abstraire et réutiliser des compétences d'outils de niveau supérieur à travers des tâches ?
Les benchmarks d'utilisation d'outils existants testent la résolution de tâches avec des outils fixes. Mais les flux de travail réels contiennent des structures récurrentes où l'efficacité provient de compositions d'outils réutilisables, et non d'appels isolés.
Nous introduisons SkillCraft : 126 tâches à travers 6 domaines conçues pour tester si les agents LLM peuvent acquérir des compétences compositionnelles, et pas seulement appeler des outils atomiques.
Nous proposons également le Mode Compétence, un protocole léger avec quatre primitives MCP qui permettent aux agents de composer, vérifier, mettre en cache et réutiliser des chaînes d'outils au moment du test.
Nos principales conclusions lors de l'évaluation de 8 modèles SOTA :
⚡ Le Mode Compétence permet aux agents de découvrir et de réutiliser des compétences, ce qui conduit à un taux de réussite et une efficacité plus élevés que pour les agents qui n'en disposent pas. Les gains sont plus importants pour les modèles plus puissants.
🧠 Les modèles plus puissants (par exemple, Claude) découvrent des compétences plus généralisables, qui se transfèrent d'une tâche à l'autre et même entre les modèles.
🔍 Une composition plus profonde ≠ mieux — des compétences superficielles et bien testées se généralisent le mieux.
🔗 Papier :
💻 Code :
🏠 Page :
(1/7)
Meilleurs
Classement
Favoris
