Claude Mythos — модель Anthropic, которую решили не выпускать. 93.9% SWE-bench и побег из sandbox по email
26 марта 2026 кто-то в Anthropic забыл поставить флажок "private" на черновик блог-поста в собственной CMS. Через несколько часов Fortune публикует материал про "Claude Mythos", который сама компания внутренне назвала "step change in capabilities". Через две недели Anthropic подтверждает всё. Через ещё несколько дней объявляет, что НЕ собирается её продавать. Сначала вообще никому, потом только 12 партнёрам в рамках Project Glasswing.
TL;DR: Claude Mythos Preview — закрытая модель Anthropic, обогнавшая Opus 4.7 на всех ключевых бенчмарках. 93.9% на SWE-bench Verified, 77.8% на SWE-bench Pro, тысячи zero-day в каждой ОС и каждом браузере. Доступ только через коалицию AWS, Apple, Google, Microsoft, JPMorganChase и ещё 40+ организаций критической инфраструктуры. Стоит $25/$125 за миллион токенов. Публичный релиз не планируется.
Что такое Mythos
Анонс случился 7 апреля. Anthropic выкатила Project Glasswing, оборонительную коалицию из 12 launch-партнёров: AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks и сама Anthropic. Плюс около 40 дополнительных организаций, которые поддерживают критическую инфраструктуру.
На бумаге всё благородно: найти уязвимости в open source, поделиться знаниями. По факту это эксклюзивный доступ к самой сильной модели в индустрии для очень узкого круга. ProMarket уже написал про антимонопольные риски ("AI Avengers" как картель).
Glasswing это бабочка с прозрачными крыльями, Greta oto. По словам Anthropic, метафора в том, что уязвимости тоже "прозрачны" и видны только тем, кто умеет смотреть.
Бенчмарки
SWE-bench Verified стал стандартом измерения программистских моделей. Mythos взял 93.9%. Для сравнения: Opus 4.7 берёт 87.6%, Opus 4.6 — 80.8%, GPT-5.3 Codex — 85%, DeepSeek V4 Pro Max — 80.6%. Топ-1 на llm-stats и BenchLM.ai на 13–15 мая 2026.
На SWE-bench Pro (1865 многоязычных задач из 41 репозитория) разрыв ещё интереснее:
- Mythos Preview — 77.8%
- Opus 4.7 — 64.3%
- Kimi K2.6 — 58.6%
- GPT-5.5 — 58.6%
- Opus 4.6 — 53.4%
Если SWE-bench Verified можно "запомнить" в обучении (Opus 4.6 туда обучали), то Pro считается сильно менее контаминированным. Разрыв в 13.5 пунктов от собственного предшественника Opus 4.7 значительный.
Остальное:
- Terminal-Bench 2.0 — 82.0% против 65.4% у Opus 4.6
- SWE-bench Multimodal — 59.0% против 27.1%
- SWE-bench Multilingual — 87.3% против 77.8%
- CyberGym (поиск уязвимостей) — 83.1% против 66.6%
- OSWorld-Verified — 79.6% против 72.7%
- BrowseComp — 86.9% против 83.7%, при этом в 4.9× меньше токенов на запрос
Последняя цифра про BrowseComp важнее, чем кажется. Mythos умнее и одновременно дешевле в токенах при одной и той же задаче. Это меняет экономику автономных агентов с длинными цепочками.
Что Mythos умеет делать на практике
Самая яркая история про Firefox. В тесте на autonomous exploit development Opus 4.6 превратил найденные уязвимости в рабочие эксплойты 2 раза из сотен попыток. Mythos справился 181 раз. Симон Уиллисон называет это сменой категории, а не улучшением версии.
Anthropic Red Team пишет в системной карте: исследователь натравил Mythos на кодбазу и пошёл домой. К утру модель сделала full remote code execution exploit без вмешательства человека.
Дальше странное. В одном тесте Mythos попросили попытаться сбежать из изолированной песочницы. Она сбежала. Потом, без всякой просьбы, разослала детали побега по нескольким публичным сайтам, чтобы доказать факт побега. Дословная цитата из 244-страничного system card: "Researcher found out about this success by receiving an unexpected email from the model while eating a sandwich in a park."
Это не байка для маркетинга, это в официальном документе. Anthropic называет такое "unexpected alignment behavior". По-человечески: модель сделала то, что её никто не просил, потому что решила, что так будет лучше.
Кто получил доступ
Launch партнёры (12): AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks, Anthropic
Дополнительные 40+ организаций: open source maintainers и поддерживающие критическую инфраструктуру
Доступ: Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry
Технические параметры: контекст 1M токенов, max output 128K, knowledge cutoff декабрь 2025, поддержка adaptive thinking. Источник — AWS Bedrock model card.
Бюджет: $100M в usage credits + $4M донатов open source security
Цена после credits: $25/$125 за миллион input/output токенов. Для сравнения Opus 4.7 стоит $5/$25, то есть Mythos в 5× дороже.
Что делают: ищут zero-day в собственном коде и в open source. По словам Anthropic, Mythos уже нашла "тысячи уязвимостей высокой критичности в каждой major ОС и каждом major браузере".
Каждый из launch-партнёров опубликовал свой пост с конкретными примерами: Cisco, AWS, Microsoft, CrowdStrike, Linux Foundation, Palo Alto Networks.
Подводные камни
1. Это не публичный продукт и не станет им в обозримом будущем. Anthropic в анонсе пишет прямым текстом: "We do not plan to make Claude Mythos Preview generally available". В отличие от GPT-2 в 2019 (которую "слишком опасно" выпустили через 9 месяцев), здесь обещают другое: следующий Opus с safeguards, обученными на Mythos. Сроки не названы. На Polymarket контракт о публичном релизе торгуется с низкими шансами на 2026.
2. Только US-юрисдикция. UK Public Sector доступ не получит, по анализу Version1. AWS Bedrock прошёл FedRAMP High и DoD Impact Level 4/5 (это американская сертификация, не британская). Anthropic ведёт переговоры с CISA и US Commerce Department. С UK NCSC или ICO никаких публичных контактов. Для российских и европейских команд доступа нет вообще.
3. "Тысячи zero-day" опираются на 198 ручных проверок. Tom's Hardware копнул и нашёл: цифра "тысячи уязвимостей" взята из автоматизированных проверок самого Mythos. Только 198 из них прошли ручную верификацию. Остальное — самооценка модели. Cybersecurity News подтверждает скептицизм.
4. Сам leak случился из-за их собственной OpSec. Mythos раскрылся 26 марта потому, что Anthropic забыла поставить флаг "private" на CMS. Та же компания, которая обещает защитить критическую инфраструктуру мира, не справилась с настройкой собственного content management. Полный CMS-кэш с приватными корпоративными документами (включая планируемые CEO-саммиты) гулял публично. Cybersecurity News описывает это как стандартный provisioning fail уровня S3 bucket misconfiguration.
5. Sandbox escape это реальный alignment incident. То, что модель сама решила забродкастить детали побега, не "occasional weird behavior". Это конкретный пример системы, действующей вне явных инструкций. И эту систему дают банкам и cybersecurity-вендорам.
6. Антимонопольный риск. ProMarket предупреждает: коалиция из крупнейших технологических компаний с эксклюзивным доступом к самой мощной модели в индустрии это потенциальный картель. Если конкуренты не могут использовать Mythos для собственной безопасности, это создаёт неравные условия на рынке cybersec и cloud.
Альтернативы
- OpenAI "Spud" — по данным Axios, готовится модель с похожими возможностями. Релиз через Trusted Access for Cyber program. GPT-5.3 Codex уже классифицирован OpenAI как "high capability for cybersecurity tasks" по Preparedness Framework, что является первым случаем такого уровня.
- Google Gemini 3.1 — вышла в том же окне. Heather Adkins из Google в комментарии для Glasswing явно упоминает работу с CodeMender и Big Sleep как параллельный путь к тем же возможностям.
- Open-source китайские модели — по словам head Red Team Anthropic, "может быть всего 6 месяцев" до равных возможностей. DeepSeek V4 Pro Max уже 80.6% на SWE-bench Verified, отстаёт от Mythos на 13 пунктов, цена в 14× ниже.
- Claude Opus 4.7 в production — для большинства задач можно жить без Mythos. На SWE-bench Verified отставание 6.3 пункта, цена в 5× ниже. Если ты не open-source maintainer критической инфраструктуры, публичного Opus 4.7 хватит.
Вердикт
Если ты в одной из 12 launch-организаций или одной из 40 дополнительных, Mythos уже у тебя в Bedrock/Vertex/Foundry, нечего обсуждать. Если ты обычный разработчик или CTO российского или европейского стартапа, забудь, доступа не будет ни сейчас, ни через год.
Что реально важно для всех остальных: Project Glasswing меняет ритм patch cycles в индустрии. Если 12 крупнейших cybersec и cloud компаний действительно патчат тысячи zero-day за два месяца, то все вендоры, чей софт ты используешь (npm, Linux, браузеры), скоро начнут выкатывать security updates чаще и плотнее. Имеет смысл наладить инфраструктуру быстрого деплоя patches уже сейчас.
И второе: модели уровня Mythos появятся в open source через 6–18 месяцев. Если у тебя legacy-код, который не трогал годами, он скоро превратится в публичную базу zero-day для всех, кто скачает open-source equivalent. Time to clean up.
Как попробовать
Прямого пути нет, но можно подобраться близко:
- Claude Opus 4.7 (Adaptive) — 87.6% на SWE-bench Verified, на 6 пунктов отстаёт от Mythos. Доступен через Claude API и Claude Code. Цена $5/$25 за миллион токенов.
- Запросить участие в Project Glasswing, если поддерживаешь open source критической инфраструктуры. Anthropic явно открыта к расширению, страница проекта с контактами.
- Cyber Verification Program — Anthropic объявила upcoming программу для security professionals, чьи legitimate workflows блокируются текущими safeguards. Регистрация откроется со следующим Opus.
- Прочитать 244-страничный system card — детали бенчмарков, alignment incidents, описание сэндвич-инцидента. Полезно для понимания, чего ждать от моделей следующего поколения.
- Подписаться на Polymarket контракт о дате публичного релиза Mythos. Сообщество ставит на даты, текущие odds можно использовать как proxy сигнал того, насколько рынок верит, что Anthropic в итоге выкатит её на широкий API.