$ grep -r "research" ./posts/

# research

skillsbench-agent-skills.md
SkillsBench — первый бенчмарк, где тестируют не модели, а скиллы для AI-агентов
> · 5 мин

SkillsBench — первый бенчмарк, где тестируют не модели, а скиллы для AI-агентов

SkillsBench — бенчмарк из 84 задач в 11 доменах. Skills поднимают pass rate на 16.2%, но самогенерация не работает. Haiku со скиллами бьёт Opus без них.

ai agents llm benchmark