SkillsBench — первый бенчмарк, где тестируют не модели, а скиллы для AI-агентов
Все обсуждают модели. Кто круче на SWE-bench, у кого больше контекст, кто дешевле за миллион токенов. Но есть вопрос, который до сих пор никто не мерил: а скиллы-то работают? Те самые markdown-инструкции, CLAUDE.md файлы, Superpowers-плагины — они реально помогают агентам или это плацебо?
SkillsBench — первый бенчмарк, который отвечает именно на этот вопрос. 84 задачи, 11 доменов, 7 конфигураций моделей, 7 308 траекторий с детерминированными верификаторами на pytest.
TL;DR: Готовые скиллы поднимают pass rate в среднем на 16.2 процентных пункта. Но самогенерация скиллов не работает — модели не умеют создавать знания, которыми умеют пользоваться. А Haiku 4.5 со скиллами обходит Opus 4.5 без них.
Что тестировали
Команда из 40 исследователей собрала 84 задачи из совершенно разных областей — от сейсмологии и квантовой механики до кибербезопасности и экономики. Каждая задача имеет детерминированный верификатор: никаких «вроде правильно» — или pytest проходит, или нет.
Три условия для каждой задачи:
- No Skills — агент решает задачу как есть, без подсказок
- Curated Skills — агенту дают готовые экспертные скиллы (markdown-инструкции с примерами, API, best practices)
- Self-Generated Skills — агент сначала сам пишет себе скиллы, потом решает задачу
Модели: Claude Code (Opus 4.5, Opus 4.6, Sonnet 4.5, Haiku 4.5), Gemini CLI (Gemini 3 Pro, Gemini 3 Flash), Codex CLI (GPT-5.2). Каждая задача прогонялась 5 раз для статистической надёжности.
Главные числа
Средний pass rate без скиллов — 24.3%. С готовыми скиллами — 40.6%. Прирост +16.2 процентных пункта. Это много — рост на две трети относительно базы.
Лидерборд выглядит так:
- Gemini 3 Flash — 48.7% со скиллами (31.3% без) — лучший абсолютный результат
- Claude Opus 4.5 — 45.3% (22.0% без) — самый большой прирост: +23.3 п.п.
- GPT-5.2 (Codex) — 44.7% (30.6% без)
- Claude Opus 4.6 — 44.5% (30.6% без)
- Gemini 3 Pro — 41.2% (27.6% без)
- Claude Sonnet 4.5 — 31.8% (17.3% без)
- Claude Haiku 4.5 — 27.7% (11.0% без)
Полный лидерборд с фильтрами по доменам — на сайте.
Где скиллы дают максимум — и где почти ничего
Самый интересный результат — разброс по доменам. Скиллы работают тем сильнее, чем хуже модель знает предметную область из обучающих данных:
- Healthcare — +51.9 п.п. (клинические протоколы, которых нет в обучающей выборке)
- Manufacturing — +41.9 п.п. (промышленные воркфлоу, специфические стандарты)
- Software Engineering — +4.5 п.п. (модель и так знает, как писать код)
Логика прозрачная. В медицине скилл объясняет агенту конкретный клинический протокол — без него модель просто не знает, что делать. В кодинге модель уже обучена на миллионах репозиториев, и markdown-инструкция мало что добавляет.
Важный нюанс: в 16 из 84 задач скиллы ухудшили результат. Скилл — не волшебная таблетка. Плохо написанный скилл хуже, чем никакого.
Самогенерация не работает
Это главный неожиданный результат. Когда моделям предложили сначала написать себе скиллы, а потом решать задачу, средний pass rate упал на 1.3% по сравнению с работой вообще без скиллов.
По моделям:
- Claude Opus 4.6 — единственный с плюсом: +1.4%
- Gemini 3 Pro — -0.8%
- GPT-5.2 — провал: -5.6%
Почему? Эксперимент не давал моделям доступ к вебу, документации или кодовым базам. Агент мог написать только то, что уже знает — а это по определению не добавляет нового знания. На Hacker News обсуждение справедливо отмечает: в реальности скиллы создаются итеративно — попробовал, упал, зафиксировал решение, улучшил. Холодная генерация «из головы» — это совсем другая задача.
Но вывод всё равно важный: модели не умеют надёжно создавать то знание, которым умеют пользоваться. Скиллы — это внешняя экспертиза, а не самопомощь.
Меньше — лучше
Ещё один неочевидный результат — про объём скиллов:
- 2–3 модуля — оптимум, прирост +18.6 п.п.
- 4+ модулей — прирост падает до +5.9 п.п.
- Подробная документация — отрицательный эффект: -2.9 п.п.
Агент буквально тонет в контексте. Когда скиллов слишком много, модель тратит токены на парсинг инструкций вместо решения задачи. Короткий, конкретный скилл с 2-3 примерами работает лучше, чем развёрнутый гайд на 50 страниц.
Это прямое руководство к действию для всех, кто пишет CLAUDE.md или Superpowers-скиллы: будь лаконичен.
Дешёвая модель со скиллами vs дорогая без
Haiku 4.5 со скиллами (27.7%) обходит Opus 4.5 без скиллов (22.0%). Менее мощная, более дешёвая модель с правильными инструкциями бьёт старшую модель, которая работает вслепую.
По стоимости за задачу:
- Gemini 3 Flash — $0.57 (лучший результат 48.7%)
- Gemini 3 Pro — $1.06 (41.2%)
- Claude Haiku 4.5 — самый дешёвый вариант в линейке Claude
Это переворачивает экономику: вместо покупки дорогой модели можно вложиться в написание хороших скиллов и использовать дешёвую.
Кому это важно
- Разработчику — если пишешь CLAUDE.md или Superpowers-скиллы, теперь есть данные: 2-3 модуля лучше, чем 10. Держи скиллы короткими и конкретными. И не надейся, что модель сама себе напишет хорошие инструкции
- Тимлиду — Haiku со скиллами дешевле и эффективнее Opus без них. Инвестиция в написание скиллов для команды окупается буквально на первой задаче. Особенно если домен нестандартный (не чистый кодинг)
- Следишь за рынком — SkillsBench легитимизирует «скиллы для агентов» как отдельную категорию. Superpowers набрал 56K звёзд, теперь появился академический бенчмарк. Ждём маркетплейсы доменных скиллов
Как попробовать
-
Зайди на лидерборд и посмотри результаты по интересующему домену
-
Изучи примеры скиллов — это хороший шаблон для написания своих
-
Прочитай полную статью — особенно секции про domain breakdown и skill volume
-
Примени принцип «2-3 модуля» к своему CLAUDE.md: убери лишнее, оставь самое важное
-
Если работаешь в нестандартном домене (медицина, производство, финансы) — скиллы дадут максимальный эффект. Начни с описания ключевых протоколов и воркфлоу