Spud утёк за сутки до релиза: GPT-5.5 засветили в пикере Codex, а Simon Willison собрал «backdoor-API»
22 апреля в Codex кто-то из OpenAI забыл закрыть дев-флаг. У Pro-юзеров в пикере моделей внезапно появился целый зоопарк: gpt-5.5, oai-2.1, arcanine и пачка glacier-alpha. Скриншот разлетелся раньше, чем список прикрыли. Через сутки OpenAI выкатила GPT-5.5 официально. А Simon Willison параллельно опубликовал пакет llm-openai-via-codex. Он крадёт авторизацию твоего Codex CLI и стучится ей в API, которого «пока нет».
TL;DR: GPT-5.5 (он же «Spud») вышел 23 апреля. Первая полностью перетренированная база со времён GPT-4.5, Terminal-Bench 2.0 на 82.7% (SOTA), цена вдвое выше GPT-5.4. Официального API пока нет, OpenAI обещает «очень скоро». Simon Willison уже сделал обёртку над Codex CLI, чтобы не ждать.
Как протёк пикер
Весь сюжет в одном скриншоте от @marmaduke091: список моделей в Codex внезапно показал то, что видеть было нельзя. gpt-5.5 очевидно будущий флагман. oai-2.1 звучит как отдельная линейка (возможно, computer-use агент). arcanine — внутреннее кодовое имя ещё одной модели, о которой нигде ни слова. Серия glacier-alpha выглядит как чекпоинты тестирования. Всё это держалось в продакшене несколько часов. Хватило, чтобы народ прощёлкал каждую модель и снял выдачу.

Sam Altman одновременно усилил активность на X — типичный паттерн за сутки до релиза OpenAI. Polymarket к вечеру 22 апреля переставил «GPT-5.5 к 23 апреля» с 72% на 83%.
Что оказалось внутри Spud'а
GPT-5.5 стала первой полностью перетренированной базой со времён GPT-4.5. Это не дистилляция поверх старого фундамента, а новое обучение с нуля. По бенчмаркам, которые OpenAI выложила вместе с релизом (и которые уже верифицированы The Decoder):
- Terminal-Bench 2.0 — 82.7%. У GPT-5.4 было 75.1%, у Opus 4.7 — 69.4%, у Gemini 3.1 Pro — 68.5%. SOTA для любой публичной модели. Бенчмарк меряет multi-tool workflows с планированием и восстановлением после ошибок. Ровно то, что болит у всех, кто строит coding-агентов.
- SWE-bench Verified — 88.7%. Базовая метрика «умеет закрывать реальные GitHub issues».
- GDPval — 84.9% против 83% у GPT-5.4. Это бенчмарк из экономических задач (финансовый анализ, юридические черновики), где +2 пункта что-то значат: он близок к saturation.
- FrontierMath Tier 4 — 35.4% у обычной, 39.6% у Pro. У Opus 4.7 тут 22.9%, у Gemini 3.1 Pro — 16.7%. Почти вдвое.
- Галлюцинации — минус 60% относительно GPT-5.4.
Отдельный блок — SWE-bench Pro, где модель решает issue в несколько файлов. GPT-5.5 набирает 58.6%. Выше GPT-5.4 (57.7%), но Opus 4.7 всё ещё впереди с 64.3%. Anthropic на чисто программистских multi-file задачах держится лучше. А Mythos с его 77.8% ты всё равно не потрогаешь.
Backdoor от Willison
Самое весёлое в релизе — API ещё нет. В блоге OpenAI формулировка такая:
API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale. We'll bring GPT-5.5 and GPT-5.5 Pro to the API very soon.
«Очень скоро» — срок неопределённый, а бенчмарк-тестировать хочется сейчас. Simon Willison решил это радикально. Он опубликовал пакет llm-openai-via-codex 0.1a0, который берёт авторизацию из твоего Codex CLI и использует её для вызовов API напрямую.
uv pip install llm-openai-via-codex llm keys set openai-via-codex llm -m openai-via-codex/gpt-5.5 "Нарисуй SVG пеликана на велосипеде"
Это не дыра в безопасности OpenAI, это эксплуатация того факта, что Codex CLI сам ходит по API от имени пользователя. Willison переиспользует тот же токен. В своём посте он честно называет это «semi-official Codex backdoor API» и предупреждает: если OpenAI решит, что это нарушает ToS — разбираться будешь сам.
Pricing: вдвое дороже, и «эффективность» спасает не всё
$5 за 1M input и $30 за 1M output. Ровно вдвое от GPT-5.4 ($2.5/$15). У GPT-5.5 Pro ценник $30/$180, в шесть раз дороже базовой.
OpenAI объясняет удорожание тем, что модель тратит меньше токенов на ту же задачу. Независимые замеры The Decoder показывают чистое удорожание Intelligence-Index около +20% после учёта этой «эффективности». На коротких промптах разница сжимается почти до нуля. На длинных агентских цепочках с 15+ tool-calls всё ещё ощутимо.
Контекст: 922K по замерам Artificial Analysis, официально заявлен 1M tier. В Codex CLI окно урезано до 400K на всех планах. Gemini 3.1 Pro по-прежнему держит 2M и цену ниже.
Подводные камни
1. Официального API нет, и когда появится — непонятно. «Very soon» у OpenAI в 2025-26 году растягивалось на недели и даже месяцы (см. Advanced Voice). Если у тебя продакшен, жди, не надейся на бэкдор Willison. У Codex CLI нет SLA, rate limits работают иначе, и OpenAI может закрыть эту лазейку одним патчем.
2. Контекст в Codex — 400K, не 1M. Если твой workflow опирался на миллионный контекст GPT-5.4, переход на 5.5 в Codex означает откат на 2.5x по окну. В API обещают 1M, но API пока нет. Для длинных кодбаз это больно.
3. Opus 4.7 всё ещё выигрывает SWE-bench Pro. 64.3% против 58.6% — это реальная разница, и если твой агент закрывает multi-file GitHub issue, не торопись переключаться только из-за Terminal-Bench. Прогони на своих задачах, а не на табличках из анонса.
4. «Arcanine» и glacier-alpha никто не объяснил. Они были в том же пикере, что и 5.5. OpenAI не комментирует. Похоже, это OSWorld-агенты или отдельная линейка, но официальной информации ноль. Вывод: OpenAI готовит что-то ещё в ближайшие недели. Если сегодня решаешь, на какую модель мигрировать в проде, знай, что через месяц, возможно, придётся снова.
5. Pro-вариант в 6x дороже базового. $30/$180 — это уже диапазон, где неправильный промпт за минуту съедает $1 на один запрос. Pro имеет смысл точечно, а не как дефолт.
Альтернативы
- Claude Opus 4.7 — лидер по SWE-bench Pro (64.3%), сильнее на multi-file GitHub-задачах. Стоит $15/$75 на выход. За precision в коде готов платить — бери Opus.
- Gemini 3.1 Pro — 2M контекст, цена ниже, но проигрывает почти все агентские бенчмарки. Имеет смысл там, где нужно прожевать очень длинный документ.
- DeepSeek V4 — вышел буквально сутки спустя, 24 апреля. Simon Willison пишет «almost on the frontier, a fraction of the price». Если важен бюджет и не страшна задержка при самостоятельном деплое, это реальный конкурент базовой GPT-5.5.
Вердикт
Строишь coding-агента с длинными tool-chains — переключайся на GPT-5.5 через Codex сегодня. Прирост в Terminal-Bench (+7.6) и OSWorld (+3.7) реальный и окупает двойную цену. Делаешь однострочные запросы или пишешь short-prompt сервис — оставайся на GPT-5.4, двойной ценник без юридически гарантированного API это рулетка. Гоняешь multi-file refactor в проде — сравни бок о бок с Opus 4.7 на своих задачах, бенчмарки расходятся в разные стороны. И забудь про «дождёмся Mythos»: Project Glasswing закрыт 40 корпоративными клиентами, тебе туда ходу нет.
Как попробовать
- Через ChatGPT — Plus/Pro/Business/Enterprise, выбираешь GPT-5.5 в пикере. Контекст 1M.
- Через Codex CLI — установить
codex, внутри выбрать/model gpt-5.5. Доступно на всех планах, включая Free и Go (временно, с rate-лимитами). Контекст 400K. - Через обёртку Willison'а — если нужен API-доступ прямо сейчас:
uv pip install llm-openai-via-codex llm keys set openai-via-codex llm -m openai-via-codex/gpt-5.5 "Build a FastAPI endpoint that accepts a file upload and returns extracted text"
Работает через Codex-авторизацию, это не публичный API. Подходит для тестирования, не для прода. - Pelican-тест Willison'а — попроси модель нарисовать SVG с пеликаном на велосипеде. Быстрая проверка, что отвечает действительно GPT-5.5, а не подмешанная 5.4 под капотом.
- Дождись API для продакшена — если делаешь что-то стоящее. Рейт-лимиты и SLA только там.