> · 7 мин

Spud утёк за сутки до релиза: GPT-5.5 засветили в пикере Codex, а Simon Willison собрал «backdoor-API»

Spud утёк за сутки до релиза: GPT-5.5 засветили в пикере Codex, а Simon Willison собрал «backdoor-API»

22 апреля в Codex кто-то из OpenAI забыл закрыть дев-флаг. У Pro-юзеров в пикере моделей внезапно появился целый зоопарк: gpt-5.5, oai-2.1, arcanine и пачка glacier-alpha. Скриншот разлетелся раньше, чем список прикрыли. Через сутки OpenAI выкатила GPT-5.5 официально. А Simon Willison параллельно опубликовал пакет llm-openai-via-codex. Он крадёт авторизацию твоего Codex CLI и стучится ей в API, которого «пока нет».

TL;DR: GPT-5.5 (он же «Spud») вышел 23 апреля. Первая полностью перетренированная база со времён GPT-4.5, Terminal-Bench 2.0 на 82.7% (SOTA), цена вдвое выше GPT-5.4. Официального API пока нет, OpenAI обещает «очень скоро». Simon Willison уже сделал обёртку над Codex CLI, чтобы не ждать.

Как протёк пикер

Весь сюжет в одном скриншоте от @marmaduke091: список моделей в Codex внезапно показал то, что видеть было нельзя. gpt-5.5 очевидно будущий флагман. oai-2.1 звучит как отдельная линейка (возможно, computer-use агент). arcanine — внутреннее кодовое имя ещё одной модели, о которой нигде ни слова. Серия glacier-alpha выглядит как чекпоинты тестирования. Всё это держалось в продакшене несколько часов. Хватило, чтобы народ прощёлкал каждую модель и снял выдачу.

Codex model picker leak

Sam Altman одновременно усилил активность на X — типичный паттерн за сутки до релиза OpenAI. Polymarket к вечеру 22 апреля переставил «GPT-5.5 к 23 апреля» с 72% на 83%.

Что оказалось внутри Spud'а

GPT-5.5 стала первой полностью перетренированной базой со времён GPT-4.5. Это не дистилляция поверх старого фундамента, а новое обучение с нуля. По бенчмаркам, которые OpenAI выложила вместе с релизом (и которые уже верифицированы The Decoder):

  • Terminal-Bench 2.0 — 82.7%. У GPT-5.4 было 75.1%, у Opus 4.7 — 69.4%, у Gemini 3.1 Pro — 68.5%. SOTA для любой публичной модели. Бенчмарк меряет multi-tool workflows с планированием и восстановлением после ошибок. Ровно то, что болит у всех, кто строит coding-агентов.
  • SWE-bench Verified — 88.7%. Базовая метрика «умеет закрывать реальные GitHub issues».
  • GDPval — 84.9% против 83% у GPT-5.4. Это бенчмарк из экономических задач (финансовый анализ, юридические черновики), где +2 пункта что-то значат: он близок к saturation.
  • FrontierMath Tier 4 — 35.4% у обычной, 39.6% у Pro. У Opus 4.7 тут 22.9%, у Gemini 3.1 Pro — 16.7%. Почти вдвое.
  • Галлюцинации — минус 60% относительно GPT-5.4.

Отдельный блок — SWE-bench Pro, где модель решает issue в несколько файлов. GPT-5.5 набирает 58.6%. Выше GPT-5.4 (57.7%), но Opus 4.7 всё ещё впереди с 64.3%. Anthropic на чисто программистских multi-file задачах держится лучше. А Mythos с его 77.8% ты всё равно не потрогаешь.

Backdoor от Willison

Самое весёлое в релизе — API ещё нет. В блоге OpenAI формулировка такая:

API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale. We'll bring GPT-5.5 and GPT-5.5 Pro to the API very soon.

«Очень скоро» — срок неопределённый, а бенчмарк-тестировать хочется сейчас. Simon Willison решил это радикально. Он опубликовал пакет llm-openai-via-codex 0.1a0, который берёт авторизацию из твоего Codex CLI и использует её для вызовов API напрямую.

uv pip install llm-openai-via-codex
llm keys set openai-via-codex
llm -m openai-via-codex/gpt-5.5 "Нарисуй SVG пеликана на велосипеде"

Это не дыра в безопасности OpenAI, это эксплуатация того факта, что Codex CLI сам ходит по API от имени пользователя. Willison переиспользует тот же токен. В своём посте он честно называет это «semi-official Codex backdoor API» и предупреждает: если OpenAI решит, что это нарушает ToS — разбираться будешь сам.

Pricing: вдвое дороже, и «эффективность» спасает не всё

$5 за 1M input и $30 за 1M output. Ровно вдвое от GPT-5.4 ($2.5/$15). У GPT-5.5 Pro ценник $30/$180, в шесть раз дороже базовой.

OpenAI объясняет удорожание тем, что модель тратит меньше токенов на ту же задачу. Независимые замеры The Decoder показывают чистое удорожание Intelligence-Index около +20% после учёта этой «эффективности». На коротких промптах разница сжимается почти до нуля. На длинных агентских цепочках с 15+ tool-calls всё ещё ощутимо.

Контекст: 922K по замерам Artificial Analysis, официально заявлен 1M tier. В Codex CLI окно урезано до 400K на всех планах. Gemini 3.1 Pro по-прежнему держит 2M и цену ниже.

Подводные камни

1. Официального API нет, и когда появится — непонятно. «Very soon» у OpenAI в 2025-26 году растягивалось на недели и даже месяцы (см. Advanced Voice). Если у тебя продакшен, жди, не надейся на бэкдор Willison. У Codex CLI нет SLA, rate limits работают иначе, и OpenAI может закрыть эту лазейку одним патчем.

2. Контекст в Codex — 400K, не 1M. Если твой workflow опирался на миллионный контекст GPT-5.4, переход на 5.5 в Codex означает откат на 2.5x по окну. В API обещают 1M, но API пока нет. Для длинных кодбаз это больно.

3. Opus 4.7 всё ещё выигрывает SWE-bench Pro. 64.3% против 58.6% — это реальная разница, и если твой агент закрывает multi-file GitHub issue, не торопись переключаться только из-за Terminal-Bench. Прогони на своих задачах, а не на табличках из анонса.

4. «Arcanine» и glacier-alpha никто не объяснил. Они были в том же пикере, что и 5.5. OpenAI не комментирует. Похоже, это OSWorld-агенты или отдельная линейка, но официальной информации ноль. Вывод: OpenAI готовит что-то ещё в ближайшие недели. Если сегодня решаешь, на какую модель мигрировать в проде, знай, что через месяц, возможно, придётся снова.

5. Pro-вариант в 6x дороже базового. $30/$180 — это уже диапазон, где неправильный промпт за минуту съедает $1 на один запрос. Pro имеет смысл точечно, а не как дефолт.

Альтернативы

  • Claude Opus 4.7 — лидер по SWE-bench Pro (64.3%), сильнее на multi-file GitHub-задачах. Стоит $15/$75 на выход. За precision в коде готов платить — бери Opus.
  • Gemini 3.1 Pro — 2M контекст, цена ниже, но проигрывает почти все агентские бенчмарки. Имеет смысл там, где нужно прожевать очень длинный документ.
  • DeepSeek V4 — вышел буквально сутки спустя, 24 апреля. Simon Willison пишет «almost on the frontier, a fraction of the price». Если важен бюджет и не страшна задержка при самостоятельном деплое, это реальный конкурент базовой GPT-5.5.

Вердикт

Строишь coding-агента с длинными tool-chains — переключайся на GPT-5.5 через Codex сегодня. Прирост в Terminal-Bench (+7.6) и OSWorld (+3.7) реальный и окупает двойную цену. Делаешь однострочные запросы или пишешь short-prompt сервис — оставайся на GPT-5.4, двойной ценник без юридически гарантированного API это рулетка. Гоняешь multi-file refactor в проде — сравни бок о бок с Opus 4.7 на своих задачах, бенчмарки расходятся в разные стороны. И забудь про «дождёмся Mythos»: Project Glasswing закрыт 40 корпоративными клиентами, тебе туда ходу нет.

Как попробовать

  1. Через ChatGPT — Plus/Pro/Business/Enterprise, выбираешь GPT-5.5 в пикере. Контекст 1M.
  2. Через Codex CLI — установить codex, внутри выбрать /model gpt-5.5. Доступно на всех планах, включая Free и Go (временно, с rate-лимитами). Контекст 400K.
  3. Через обёртку Willison'а — если нужен API-доступ прямо сейчас:
    uv pip install llm-openai-via-codex
    llm keys set openai-via-codex
    llm -m openai-via-codex/gpt-5.5 "Build a FastAPI endpoint that accepts a file upload and returns extracted text"
    
    Работает через Codex-авторизацию, это не публичный API. Подходит для тестирования, не для прода.
  4. Pelican-тест Willison'а — попроси модель нарисовать SVG с пеликаном на велосипеде. Быстрая проверка, что отвечает действительно GPT-5.5, а не подмешанная 5.4 под капотом.
  5. Дождись API для продакшена — если делаешь что-то стоящее. Рейт-лимиты и SLA только там.
$ ls ./related/

Похожие статьи

hermes-agent-self-improving.md
Hermes Agent — self-improving AI-агент от Nous Research, который собрал +32K звёзд за неделю
> · 6 мин

Hermes Agent — self-improving AI-агент от Nous Research, который собрал +32K звёзд за неделю

Hermes Agent от Nous Research — опенсорсный self-improving агент, который сам пишет себе Skills, улучшает их через DSPy+GEPA и живёт в Telegram, Discord, Slack и на VPS за $5. Разбираю v0.9, архитектуру и подводные камни.

ai agents llm open-source
claude-opus-47-sonnet-48-leak.md
Claude Opus 4.7 и Sonnet 4.8 нашли в утечке кода Anthropic. Тем временем Opus 4.6 деградирует на глазах
> · 10 мин

Claude Opus 4.7 и Sonnet 4.8 нашли в утечке кода Anthropic. Тем временем Opus 4.6 деградирует на глазах

Двойная утечка кода Anthropic раскрыла Opus 4.7, Sonnet 4.8 и новый тир Capybara выше Opus. Одновременно директор AI в AMD доказала деградацию Opus 4.6 данными из 6852 сессий: reasoning упал на 67%, расходы выросли в 122 раза. Разбираем что произошло, зачем нерфить модель и как починить.

ai llm claude anthropic
caveman-claude-skill.md
Caveman Claude — Claude Code skill, который говорит как неандерталец и экономит 75% output-токенов
> · 9 мин

Caveman Claude — Claude Code skill, который говорит как неандерталец и экономит 75% output-токенов

Мем с Reddit про «научил Claude говорить как пещерный человек» за неделю стал Claude Code skill с 13 тысячами звёзд. Считаем, сколько реально экономит (спойлер: не 75%), как ставить и кому не подходит.

ai llm anthropic open-source
subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe