GPT-5.3-Codex — первый кодинг-агент, которым можно рулить на лету
5 февраля, в один день с Claude Opus 4.6, OpenAI выкатили GPT-5.3-Codex — кодинг-агента нового типа. Через неделю добавили Codex-Spark на чипах Cerebras — 1000 токенов в секунду. Два релиза за неделю, и оба меняют правила игры. Но самое интересное не в бенчмарках.
TL;DR: GPT-5.3-Codex объединяет кодинг GPT-5.2-Codex и reasoning GPT-5.2, работает на 25% быстрее. Главная фича — steering: можно вмешаться в работу агента на лету, не теряя контекст. Codex-Spark на Cerebras выдаёт 1000+ tok/s для real-time кодинга. API пока нет, но CLI и IDE extension уже доступны.
Модель, которая помогала себя создать
OpenAI заявляют, что GPT-5.3-Codex — первая модель, которая «была ключевой в собственном создании». Ранние версии модели использовались инженерами OpenAI для дебага тренировочного пайплайна, управления деплоем и диагностики тестов. Если раньше AI-ассистенты помогали писать код — теперь они помогают создавать AI-ассистентов. Рекурсия замкнулась.
По сути, OpenAI слили два успешных продукта в один: GPT-5.2-Codex (лучший на тот момент кодинг) + GPT-5.2 (reasoning, профессиональные знания). Результат — агент, который не только пишет код, но и рассуждает о бизнес-логике, читает документацию, планирует архитектуру.
Бенчмарки: где лидер, а где нет
Начнём с сильных сторон:
- Terminal-Bench 2.0 — 77.3% (было 64% у GPT-5.2-Codex, +13 пунктов). Лучший результат среди всех моделей, включая Claude Opus 4.6 (65.4%)
- OSWorld-Verified — 64.7% (было 38.2%, +26.5 пунктов). Громадный скачок, но Opus 4.6 впереди с 72.7%
- Cybersecurity CTF — 77.6% (было 67.4%). Первая модель с классификацией «High capability for cybersecurity»
- SWE-Lancer IC Diamond — 81.4% (было 76%)
- SWE-Bench Pro — 56.8% (было 56.4%, минимальный рост)
Картина понятная: на терминальных задачах и кибербезопасности GPT-5.3-Codex — абсолютный лидер. На computer use (OSWorld) — всё ещё отстаёт от Claude. SWE-Bench Pro вырос символически — основной прорыв не в решении GitHub issues, а в реальной продуктивности агента.
И важная деталь: GPT-5.3-Codex решает SWE-Bench Pro задачи с меньшим количеством output-токенов, чем любая предыдущая модель. Для тех, кто платит за токены — каждый принятый патч стоит дешевле.
Steering — рулить агентом прямо во время работы
Это главное нововведение, и оно меняет парадигму. Раньше ты отправлял задачу агенту и ждал результат. Если через 20 минут работы он пошёл не туда — приходилось перезапускать с нуля.
Steering позволяет вмешаться в процесс, не теряя контекст. Агент работает, ты видишь, что он делает, и в любой момент можешь:
- Задать вопрос: «Почему ты выбрал этот подход?»
- Скорректировать: «Не трогай auth модуль, он работает»
- Перенаправить: «Сначала напиши тесты, потом рефактори»
Агент подхватывает твой фидбек и продолжает с того же места. Никакого перезапуска, никакой потери контекста.
Включить: Settings → General → Follow-up behavior в Codex app.
Если сравнивать с Claude — Opus 4.6 работает как автономный коллега: ты ставишь задачу и уходишь. GPT-5.3-Codex — как парный программист: ты рядом, можешь подсказать в любой момент. Два разных подхода, и оба имеют смысл.
Codex-Spark — 1000 токенов в секунду на Cerebras
12 февраля, через неделю после основной модели, OpenAI показали Codex-Spark — компактную версию GPT-5.3-Codex, оптимизированную для real-time кодинга.
Цифры: 1000+ токенов в секунду. Для сравнения, стандартный GPT-5.3-Codex выдаёт ~240 tok/s, Claude Opus 4.6 — порядка 95 tok/s. Spark быстрее основной модели в 4 раза и быстрее Opus в 10 раз.
Достигается это за счёт партнёрства с Cerebras — их wafer-scale чипы заточены под inference с минимальной латентностью. Spark — первая модель OpenAI, спроектированная специально под такое железо.
Характеристики Spark:
- 128K контекст (у основной модели ~256K)
- Text-only — без vision
- На SWE-Bench Pro и Terminal-Bench показывает результаты выше GPT-5.1-Codex-Max
Но есть ограничение: Spark доступен только на ChatGPT Pro ($200/мес) в режиме research preview. Ни в API, ни на Plus-плане его пока нет.
Deep Diffs и другие фичи для code review
Помимо steering, GPT-5.3-Codex улучшил повседневную работу разработчика:
Deep Diffs — модель не просто показывает что изменилось, а объясняет почему. Ревьюер видит reasoning за каждым изменением, а не просто зелёные/красные строки.
Улучшенные follow-ups — в cloud threads и комментариях к PR модель лучше подхватывает контекст предыдущих обсуждений.
Меньше linting-петель — снизили количество случаев, когда агент зацикливается на автоматических фиксах стиля.
Лучше с flaky-тестами — модель реже объявляет задачу выполненной, если тесты нестабильны.
Доступ и цены: хорошие новости и плохие
Хорошие: GPT-5.3-Codex доступен прямо сейчас в Codex app (macOS), CLI, IDE extension (VS Code) и на web. Любой платный план ChatGPT:
- Plus — $20/мес, 45-225 локальных сообщений / 5 часов
- Pro — $200/мес, 6x лимиты + доступ к Spark
- Business — $30/пользователь/мес
Плохие: API пока нет. OpenAI обещают «в ближайшие недели», но конкретной даты и цен нет. Для команд, которые строят продукты поверх API — это стоппер. Для справки: GPT-5.2-Codex стоил $1.75/$14 за миллион токенов.
CLI уже работает — это самый быстрый способ попробовать:
# Установить Codex CLI npm install -g @openai/codex # Запустить с авторизацией через ChatGPT codex
В CLI доступен steer mode по умолчанию, параллельное выполнение shell-команд, и с версии 0.100.0 — экспериментальный JavaScript REPL с сохранением состояния.
Кому это важно
- Разработчику — установи CLI (
npm install -g @openai/codex), попробуй steering: дай задачу, и пока агент работает — корректируй его в реальном времени. Это реально другой опыт - Тимлиду — пока API нет, интеграция в продуктовые пайплайны невозможна. Но для внутренних задач через CLI/IDE — уже рабочий инструмент. Планируй миграцию с GPT-5.2-Codex, когда появится API
- Следишь за рынком — Codex-Spark на Cerebras — первый сигнал, что OpenAI начинает проектировать модели под конкретное железо. 1000 tok/s — это уровень, где AI-кодинг становится по-настоящему интерактивным
Как попробовать
- Установи CLI:
npm install -g @openai/codex - Авторизуйся через ChatGPT аккаунт (нужен любой платный план)
- Попробуй steering — дай задачу вроде «refactor this auth module» и корректируй в процессе
- Включи steer mode: Settings → General → Follow-up behavior (в Codex app)
- Документация: Codex changelog, блогпост, Codex-Spark на Cerebras