Claude Fable 5 — Anthropic открыл публике модель Mythos-класса. SOTA-кодинг, который сам отказывается ломать чужие системы
Claude Fable 5 — Anthropic открыл публике модель Mythos-класса. SOTA-кодинг, который сам отказывается ломать чужие системы
Два месяца назад утечка про Claude Mythos устроила переполох: NSA сканировал инфраструктуру Microsoft, Белый дом ограничил доступ к модели для 70 компаний, а сама Mythos, по внутренним отчётам, сбегала из песочницы и отправляла письма наружу. Она была настолько хороша в поиске уязвимостей, что Anthropic держал её под замком в закрытой программе Glasswing. Сегодня, 9 июня, вышла публичная версия. Зовут Claude Fable 5.
TL;DR: Fable 5 — первая общедоступная модель «Mythos-класса», тира выше Opus. 80.3% на SWE-bench Pro против 69.2% у Opus 4.8 (по замерам Anthropic), 1M контекста, работает в Claude Code через
/model fable. Подвох: вопросы про кибербезопасность, биологию и химию модель тихо перекидывает на Opus 4.8 и уже ловит ложные срабатывания на отладке GPU-драйвера. Цена $10/$50 за миллион токенов, вдвое дороже Opus. А с 23 июня модель убирают из подписок Pro и Max.
Что за «Mythos-класс» и причём тут Fable
У Anthropic появился новый тир моделей выше Opus. Первой в нём была Claude Mythos Preview (апрель, только для Glasswing). Сегодня к ней добавились сразу две: Claude Fable 5 для всех и Claude Mythos 5 для избранных.
Самое интересное: это одна и та же модель. Различие ровно в одном: у Fable есть предохранители, у Mythos их нет. Anthropic даже название подобрал под это: «Fable» от латинского fabula, «то, что рассказывают», родственно греческому mythos. Mythos 5 уезжает в Glasswing к кибердефендерам и правительству США («сильнейшие кибер-способности среди всех моделей в мире», по словам компании), а нам достаётся Fable 5 с защитными классификаторами поверх того же мозга.
Цена кусается: $10 за миллион входных токенов и $50 за выходные. Чтение кеша обойдётся в $1, запись в $12.50. Это ровно вдвое дороже Opus 4.8 ($5/$25), но при этом меньше половины от того, что платили за Mythos Preview. Контекст: 1M токенов по умолчанию, до 128k на выход.
Цифры, ради которых всё затевалось
Главный бенчмарк сейчас — SWE-bench Pro (реальные задачи на починку кодовых баз, версия посложнее залапанного Verified):
- Claude Fable 5 — 80.3% (по внутренним замерам Anthropic)
- Claude Opus 4.8 — 69.2%
- Qwen3.7 Max — 60.6%
- GPT-5.5 — 58.6%
Одиннадцать пунктов отрыва от собственного Opus 4.8 и двадцать с лишним от флагмана OpenAI. На SWE-bench Verified предыдущая Mythos Preview набирала 93.9% против 88.6% у Opus 4.8, но Verified уже почти упёрся в потолок, и туда смотреть смысла мало.
Куда любопытнее свежий бенчмарк FrontierCode от Cognition. Он оценивает код так, как смотрит мейнтейнер опенсорса: «я бы это смержил?». Тут разрыв между поколениями виден без лупы:
- Opus 4.7 (xhigh) — 5.2%
- Opus 4.8 (xhigh) — 13.4%
- Fable 5 (xhigh) — 29.3%
Больше чем двукратный прыжок за одно поколение, причём по метрике, которую сложно накрутить тренировкой на тестах. Это уровень кода, который реально хочется смержить. Причём, по данным Anthropic, Fable выходит вперёд даже на medium effort и тратит меньше токенов, чем прежние Claude.
Что с этим реально делать
В Claude Code модель уже доступна. Переключиться можно командой /model fable прямо в терминале или десктоп-приложении. Дальше как обычно, только можно крутить уровень усилий: low, medium, high, xhigh. На xhigh, по отзывам ранних клиентов, Fable «рефлексирует и проверяет собственную работу» перед тем, как отдать результат. Для долгих автономных прогонов это окупается.
Конкретика от тех, кто получил ранний доступ:
Stripe. Миграция по всей кодовой базе на 50 миллионов строк Ruby за один день. Руками это заняло бы команду больше двух месяцев. Звучит дико, и да, это маркетинговая цифра самого Anthropic без независимой проверки. Держите в уме: ровно в таком же формате компания продавала Opus 4.8 («переписали Bun на Rust за 11 дней»). Формат повторяется, скепсис уместен.
Replit. Первое место на их ViBench (бенчмарк вайбкодинга), приложения собираются за меньшее время и меньшее число токенов.
Cursor. Майкл Труэлл, CEO: «State of the art на CursorBench, открыла класс долгих задач, которые были недоступны прошлым моделям».
Из совсем эффектного: Fable прошла Pokémon FireRed на одном зрении (скриншоты экрана, минимальный harness, около 50 часов игрового времени) и собрала браузерный CAD-редактор, который сама же потом использовала для проектирования 3D-печатной модели. По физике один из клиентов говорит, что за 36 часов модель дошла почти туда, куда GPT-5.5 добиралась четыре дня, и потратила на рассуждения втрое меньше токенов.
Главный фокус: модель, которая отказывается ломать системы
Вот ради чего всё это городилось. У Fable 5 есть классификаторы безопасности. Когда они видят запрос про кибербезопасность, биологию и химию или дистилляцию, ответ генерирует уже Claude Opus 4.8. Модель не отказывает в ответе. Она молча подменяет движок на более слабый, а пользователю показывает плашку, что сработал предохранитель.
Логика понятна: Mythos-класс слишком хорош в поиске и эксплуатации уязвимостей, в агентском взломе (разведка, боковое перемещение, всё по цепочке). Дать такое всем подряд значит подарить любому школьнику движок для кибератак. Поэтому именно в этих темах Fable откатывается до Opus 4.8, который тоже не дурак, но не Mythos-уровня. По данным Anthropic, фолбэк случается меньше чем в 5% сессий, и в остальных 95% Fable работает на полную, вровень с Mythos 5.
Звучит разумно, пока не упрёшься в ложные срабатывания. Они начались в первый же день. Один разработчик на Hacker News писал GPU-драйвер, полез отлаживать краш в бенчмарке Unigine Superposition, и получил переключение на Opus с формулировкой про «кибербезопасность». Его комментарий: «теперь GPU-драйверы у нас оружие математического поражения». Другой жаловался, что базовое ревью безопасности обычного бизнес-проекта стабильно скидывает его на Opus. Граница «опасной» темы размытая, и попасть под неё можно на ровном месте.
С этим же связана незаметная, но важная для разработчиков деталь API: сырой chain of thought на Fable 5 и Mythos 5 больше не возвращается никогда. Параметр thinking.display по умолчанию стоит в "omitted" (блоки приходят с пустым полем), и максимум, что можно получить: суммаризированное рассуждение через display: "summarized". Это часть той же антидистилляционной логики, что и классификатор на «дистилляцию»: Anthropic закрывает модель от копирования. Если ваш пайплайн парсил полные рассуждения Claude, на Fable он сломается.
Подводные камни
- Ложные срабатывания классификатора. Низкоуровневый сетевой код или отладка драйвера легко улетают в фолбэк на Opus 4.8. Вы платите за Fable, а на «подозрительных» запросах получаете Opus, и предсказать заранее, что триггернёт классификатор, нельзя. Для безопасников и системщиков это прямой повод задуматься, нужна ли переплата.
- Цена вдвое выше Opus за неравномерную выгоду. $10/$50 против $5/$25. На простой генерации и коротких чатах разница в качестве с Opus 4.8 не оправдывает двойной ценник. Выигрыш Fable растёт на длинных многошаговых задачах, и только там переплата осмысленна.
- Ловушка с подпиской 23 июня. По API и consumption-Enterprise Fable доступна сразу и полностью. А вот в Pro, Max, Team и seat-Enterprise её дали «бесплатно до 22 июня», а 23-го уберут. Дальше только за usage credits. Anthropic обещает «вернуть, когда хватит мощностей», но на Hacker News это уже окрестили «фармацевтическим методом»: подсадить на бесплатных сэмплах, потом выставить счёт. Строить рабочий процесс на модели, которая через две недели исчезнет из вашего тарифа, рискованно.
- Принудительное хранение данных 30 дней. Fable и Mythos помечены как Covered Models: zero-data-retention для них недоступен, все промпты и ответы хранятся 30 дней «для целей безопасности». Anthropic клянётся не обучаться на этих данных и логировать каждый доступ человека, но для команд под HIPAA и жёсткими комплаенс-политиками это может оказаться стоп-фактором.
Альтернативы
- Claude Opus 4.8 — тот самый фолбэк-движок, $5/$25, 69.2% на SWE-bench Pro. Для тех самых 95% задач, где Mythos-класс не нужен, это и есть разумный выбор: половина цены при очень близком качестве.
- GPT-5.5 — лидирует на Terminal-Bench 2.1 (78.2% против 74.6% у Opus 4.8), особенно хорош в родном Codex CLI, и никаких кибер/био-классификаторов. Если вы целыми днями в терминале и низкоуровневом коде, который Fable будет вечно скидывать на фолбэк, GPT-5.5 банально не мешает работать.
- Дешёвые китайские модели (DeepSeek V4, Qwen3.7, MiniMax M3, GLM-5.1) — заметно дешевле, по SWE-bench Pro идут в районе 55–60%. На Hacker News уже звучит честное: «китайские модели закрывают почти всё, что я даю, и в разы дешевле». Для большинства повседневных задач фронтир-цена Fable избыточна.
Вердикт
Берите Fable 5, если строите долгие автономные агентские прогоны (миграции, рефакторинг на десятки файлов, многочасовые задачи в Claude Code) и работаете вне «опасных» тем. Там разрыв с Opus реальный, особенно по FrontierCode. Не трогайте, если пишете низкоуровневый код или работаете в безопасности: классификатор замучает фолбэками, а двойную цену вы всё равно заплатите. И не завязывайте продакшен на подписочную версию до 23 июня, пока непонятно, вернут ли её в тариф. Для всего остального Opus 4.8 за половину цены остаётся скучным, но честным выбором.
Как попробовать
- В Claude Code или десктоп-приложении набери
/model fable, модель уже доступна. - По API используй идентификатор
claude-fable-5. Доступно через Claude API, AWS Bedrock, Vertex AI и Microsoft Foundry. Документация по моделям. - Подними effort до
xhighна сложной задаче и сравни с Opus 4.8 на той же задаче. Разрыв виден на долгих прогонах, а не на коротких запросах. - Дай ей реальную многошаговую работу: «пройди по всему модулю auth, найди и почини гонки, добавь тесты». На простых промптах двойная цена не отобьётся.
- Если ты на Pro или Max, успей пощупать до 22 июня, пока бесплатно. С 23-го за неё начнут списывать кредиты. Официальный анонс.