> 21 Feb 2026 · 5 мин

SkillsBench — первый бенчмарк, где тестируют не модели, а скиллы для AI-агентов

Все обсуждают модели. Кто круче на SWE-bench, у кого больше контекст, кто дешевле за миллион токенов. Но есть вопрос, который до сих пор никто не мерил: а скиллы-то работают? Те самые markdown-инструкции, CLAUDE.md файлы, Superpowers-плагины — они реально помогают агентам или это плацебо?

SkillsBench — первый бенчмарк, который отвечает именно на этот вопрос. 84 задачи, 11 доменов, 7 конфигураций моделей, 7 308 траекторий с детерминированными верификаторами на pytest.

TL;DR: Готовые скиллы поднимают pass rate в среднем на 16.2 процентных пункта. Но самогенерация скиллов не работает — модели не умеют создавать знания, которыми умеют пользоваться. А Haiku 4.5 со скиллами обходит Opus 4.5 без них.

Что тестировали

Команда из 40 исследователей собрала 84 задачи из совершенно разных областей — от сейсмологии и квантовой механики до кибербезопасности и экономики. Каждая задача имеет детерминированный верификатор: никаких «вроде правильно» — или pytest проходит, или нет.

Три условия для каждой задачи:

No Skills — агент решает задачу как есть, без подсказок
Curated Skills — агенту дают готовые экспертные скиллы (markdown-инструкции с примерами, API, best practices)
Self-Generated Skills — агент сначала сам пишет себе скиллы, потом решает задачу

Модели: Claude Code (Opus 4.5, Opus 4.6, Sonnet 4.5, Haiku 4.5), Gemini CLI (Gemini 3 Pro, Gemini 3 Flash), Codex CLI (GPT-5.2). Каждая задача прогонялась 5 раз для статистической надёжности.

Главные числа

Средний pass rate без скиллов — 24.3%. С готовыми скиллами — 40.6%. Прирост +16.2 процентных пункта. Это много — рост на две трети относительно базы.

Лидерборд выглядит так:

Gemini 3 Flash — 48.7% со скиллами (31.3% без) — лучший абсолютный результат
Claude Opus 4.5 — 45.3% (22.0% без) — самый большой прирост: +23.3 п.п.
GPT-5.2 (Codex) — 44.7% (30.6% без)
Claude Opus 4.6 — 44.5% (30.6% без)
Gemini 3 Pro — 41.2% (27.6% без)
Claude Sonnet 4.5 — 31.8% (17.3% без)
Claude Haiku 4.5 — 27.7% (11.0% без)

Полный лидерборд с фильтрами по доменам — на сайте.

Где скиллы дают максимум — и где почти ничего

Самый интересный результат — разброс по доменам. Скиллы работают тем сильнее, чем хуже модель знает предметную область из обучающих данных:

Healthcare — +51.9 п.п. (клинические протоколы, которых нет в обучающей выборке)
Manufacturing — +41.9 п.п. (промышленные воркфлоу, специфические стандарты)
Software Engineering — +4.5 п.п. (модель и так знает, как писать код)

Логика прозрачная. В медицине скилл объясняет агенту конкретный клинический протокол — без него модель просто не знает, что делать. В кодинге модель уже обучена на миллионах репозиториев, и markdown-инструкция мало что добавляет.

Важный нюанс: в 16 из 84 задач скиллы ухудшили результат. Скилл — не волшебная таблетка. Плохо написанный скилл хуже, чем никакого.

Самогенерация не работает

Это главный неожиданный результат. Когда моделям предложили сначала написать себе скиллы, а потом решать задачу, средний pass rate упал на 1.3% по сравнению с работой вообще без скиллов.

По моделям:

Claude Opus 4.6 — единственный с плюсом: +1.4%
Gemini 3 Pro — -0.8%
GPT-5.2 — провал: -5.6%

Почему? Эксперимент не давал моделям доступ к вебу, документации или кодовым базам. Агент мог написать только то, что уже знает — а это по определению не добавляет нового знания. На Hacker News обсуждение справедливо отмечает: в реальности скиллы создаются итеративно — попробовал, упал, зафиксировал решение, улучшил. Холодная генерация «из головы» — это совсем другая задача.

Но вывод всё равно важный: модели не умеют надёжно создавать то знание, которым умеют пользоваться. Скиллы — это внешняя экспертиза, а не самопомощь.

Меньше — лучше

Ещё один неочевидный результат — про объём скиллов:

2–3 модуля — оптимум, прирост +18.6 п.п.
4+ модулей — прирост падает до +5.9 п.п.
Подробная документация — отрицательный эффект: -2.9 п.п.

Агент буквально тонет в контексте. Когда скиллов слишком много, модель тратит токены на парсинг инструкций вместо решения задачи. Короткий, конкретный скилл с 2-3 примерами работает лучше, чем развёрнутый гайд на 50 страниц.

Это прямое руководство к действию для всех, кто пишет CLAUDE.md или Superpowers-скиллы: будь лаконичен.

Дешёвая модель со скиллами vs дорогая без

Haiku 4.5 со скиллами (27.7%) обходит Opus 4.5 без скиллов (22.0%). Менее мощная, более дешёвая модель с правильными инструкциями бьёт старшую модель, которая работает вслепую.

По стоимости за задачу:

Gemini 3 Flash — $0.57 (лучший результат 48.7%)
Gemini 3 Pro — $1.06 (41.2%)
Claude Haiku 4.5 — самый дешёвый вариант в линейке Claude

Это переворачивает экономику: вместо покупки дорогой модели можно вложиться в написание хороших скиллов и использовать дешёвую.

Кому это важно

Разработчику — если пишешь CLAUDE.md или Superpowers-скиллы, теперь есть данные: 2-3 модуля лучше, чем 10. Держи скиллы короткими и конкретными. И не надейся, что модель сама себе напишет хорошие инструкции
Тимлиду — Haiku со скиллами дешевле и эффективнее Opus без них. Инвестиция в написание скиллов для команды окупается буквально на первой задаче. Особенно если домен нестандартный (не чистый кодинг)
Следишь за рынком — SkillsBench легитимизирует «скиллы для агентов» как отдельную категорию. Superpowers набрал 56K звёзд, теперь появился академический бенчмарк. Ждём маркетплейсы доменных скиллов

Как попробовать

Зайди на лидерборд и посмотри результаты по интересующему домену
Изучи примеры скиллов — это хороший шаблон для написания своих
Прочитай полную статью — особенно секции про domain breakdown и skill volume
Примени принцип «2-3 модуля» к своему CLAUDE.md: убери лишнее, оставь самое важное
Если работаешь в нестандартном домене (медицина, производство, финансы) — скиллы дадут максимальный эффект. Начни с описания ключевых протоколов и воркфлоу