Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📍 Чи можуть LLM відкривати, абстрагувати та повторно використовувати навички високого рівня інструментів у різних завданнях?
Існуючі інструменти тестують розв'язання завдань за допомогою фіксованих інструментів. Але справжні робочі процеси містять повторювані структури, де ефективність залежить від композицій інструментів, а не ізольованих викликів.
Ми представляємо SkillCraft: 126 завдань у 6 доменах, спрямованих на перевірку, чи можуть агенти LLM набути композиційних навичок, а не просто викликати атомарні інструменти.
Ми також пропонуємо Skill Mode — легкий протокол із чотирма примітивами MCP, який дозволяє агентам складати, перевіряти, кешувати та повторно використовувати ланцюжки інструментів під час тестування.
Наші ключові висновки з оцінки 8 моделей SOTA:
⚡Режим навичок дозволяє агентам самостійно відкривати та повторно використовувати навички, що веде до вищого успіху та ефективності, ніж агенти без них. Вигода більша для сильніших моделей.
🧠 Сильніші моделі (наприклад, Клод) відкривають більш узагальнені навички, які переносяться між завданнями і навіть між моделями.
🔍 Глибша композиція ≠ краще — поверхневі, добре перевірені навички найкраще узагальнюють.
🔗 Стаття:
💻 Код:
🏠 Сторінка:
(1/7)
Найкращі
Рейтинг
Вибране
