> 18 Feb 2026 · 6 мин

GPT-5.3-Codex — первый кодинг-агент, которым можно рулить на лету

5 февраля, в один день с Claude Opus 4.6, OpenAI выкатили GPT-5.3-Codex — кодинг-агента нового типа. Через неделю добавили Codex-Spark на чипах Cerebras — 1000 токенов в секунду. Два релиза за неделю, и оба меняют правила игры. Но самое интересное не в бенчмарках.

TL;DR: GPT-5.3-Codex объединяет кодинг GPT-5.2-Codex и reasoning GPT-5.2, работает на 25% быстрее. Главная фича — steering: можно вмешаться в работу агента на лету, не теряя контекст. Codex-Spark на Cerebras выдаёт 1000+ tok/s для real-time кодинга. API пока нет, но CLI и IDE extension уже доступны.

Модель, которая помогала себя создать

OpenAI заявляют, что GPT-5.3-Codex — первая модель, которая «была ключевой в собственном создании». Ранние версии модели использовались инженерами OpenAI для дебага тренировочного пайплайна, управления деплоем и диагностики тестов. Если раньше AI-ассистенты помогали писать код — теперь они помогают создавать AI-ассистентов. Рекурсия замкнулась.

По сути, OpenAI слили два успешных продукта в один: GPT-5.2-Codex (лучший на тот момент кодинг) + GPT-5.2 (reasoning, профессиональные знания). Результат — агент, который не только пишет код, но и рассуждает о бизнес-логике, читает документацию, планирует архитектуру.

Бенчмарки: где лидер, а где нет

Начнём с сильных сторон:

Terminal-Bench 2.0 — 77.3% (было 64% у GPT-5.2-Codex, +13 пунктов). Лучший результат среди всех моделей, включая Claude Opus 4.6 (65.4%)
OSWorld-Verified — 64.7% (было 38.2%, +26.5 пунктов). Громадный скачок, но Opus 4.6 впереди с 72.7%
Cybersecurity CTF — 77.6% (было 67.4%). Первая модель с классификацией «High capability for cybersecurity»
SWE-Lancer IC Diamond — 81.4% (было 76%)
SWE-Bench Pro — 56.8% (было 56.4%, минимальный рост)

Картина понятная: на терминальных задачах и кибербезопасности GPT-5.3-Codex — абсолютный лидер. На computer use (OSWorld) — всё ещё отстаёт от Claude. SWE-Bench Pro вырос символически — основной прорыв не в решении GitHub issues, а в реальной продуктивности агента.

И важная деталь: GPT-5.3-Codex решает SWE-Bench Pro задачи с меньшим количеством output-токенов, чем любая предыдущая модель. Для тех, кто платит за токены — каждый принятый патч стоит дешевле.

Steering — рулить агентом прямо во время работы

Это главное нововведение, и оно меняет парадигму. Раньше ты отправлял задачу агенту и ждал результат. Если через 20 минут работы он пошёл не туда — приходилось перезапускать с нуля.

Steering позволяет вмешаться в процесс, не теряя контекст. Агент работает, ты видишь, что он делает, и в любой момент можешь:

Задать вопрос: «Почему ты выбрал этот подход?»
Скорректировать: «Не трогай auth модуль, он работает»
Перенаправить: «Сначала напиши тесты, потом рефактори»

Агент подхватывает твой фидбек и продолжает с того же места. Никакого перезапуска, никакой потери контекста.

Включить: Settings → General → Follow-up behavior в Codex app.

Если сравнивать с Claude — Opus 4.6 работает как автономный коллега: ты ставишь задачу и уходишь. GPT-5.3-Codex — как парный программист: ты рядом, можешь подсказать в любой момент. Два разных подхода, и оба имеют смысл.

Codex-Spark — 1000 токенов в секунду на Cerebras

12 февраля, через неделю после основной модели, OpenAI показали Codex-Spark — компактную версию GPT-5.3-Codex, оптимизированную для real-time кодинга.

Цифры: 1000+ токенов в секунду. Для сравнения, стандартный GPT-5.3-Codex выдаёт ~240 tok/s, Claude Opus 4.6 — порядка 95 tok/s. Spark быстрее основной модели в 4 раза и быстрее Opus в 10 раз.

Достигается это за счёт партнёрства с Cerebras — их wafer-scale чипы заточены под inference с минимальной латентностью. Spark — первая модель OpenAI, спроектированная специально под такое железо.

Характеристики Spark:

128K контекст (у основной модели ~256K)
Text-only — без vision
На SWE-Bench Pro и Terminal-Bench показывает результаты выше GPT-5.1-Codex-Max

Но есть ограничение: Spark доступен только на ChatGPT Pro ($200/мес) в режиме research preview. Ни в API, ни на Plus-плане его пока нет.

Deep Diffs и другие фичи для code review

Помимо steering, GPT-5.3-Codex улучшил повседневную работу разработчика:

Deep Diffs — модель не просто показывает что изменилось, а объясняет почему. Ревьюер видит reasoning за каждым изменением, а не просто зелёные/красные строки.

Улучшенные follow-ups — в cloud threads и комментариях к PR модель лучше подхватывает контекст предыдущих обсуждений.

Меньше linting-петель — снизили количество случаев, когда агент зацикливается на автоматических фиксах стиля.

Лучше с flaky-тестами — модель реже объявляет задачу выполненной, если тесты нестабильны.

Доступ и цены: хорошие новости и плохие

Хорошие: GPT-5.3-Codex доступен прямо сейчас в Codex app (macOS), CLI, IDE extension (VS Code) и на web. Любой платный план ChatGPT:

Plus — $20/мес, 45-225 локальных сообщений / 5 часов
Pro — $200/мес, 6x лимиты + доступ к Spark
Business — $30/пользователь/мес

Плохие: API пока нет. OpenAI обещают «в ближайшие недели», но конкретной даты и цен нет. Для команд, которые строят продукты поверх API — это стоппер. Для справки: GPT-5.2-Codex стоил $1.75/$14 за миллион токенов.

CLI уже работает — это самый быстрый способ попробовать:

# Установить Codex CLI
npm install -g @openai/codex

# Запустить с авторизацией через ChatGPT
codex

В CLI доступен steer mode по умолчанию, параллельное выполнение shell-команд, и с версии 0.100.0 — экспериментальный JavaScript REPL с сохранением состояния.

Кому это важно

Разработчику — установи CLI (npm install -g @openai/codex), попробуй steering: дай задачу, и пока агент работает — корректируй его в реальном времени. Это реально другой опыт
Тимлиду — пока API нет, интеграция в продуктовые пайплайны невозможна. Но для внутренних задач через CLI/IDE — уже рабочий инструмент. Планируй миграцию с GPT-5.2-Codex, когда появится API
Следишь за рынком — Codex-Spark на Cerebras — первый сигнал, что OpenAI начинает проектировать модели под конкретное железо. 1000 tok/s — это уровень, где AI-кодинг становится по-настоящему интерактивным

Как попробовать

Установи CLI: npm install -g @openai/codex
Авторизуйся через ChatGPT аккаунт (нужен любой платный план)
Попробуй steering — дай задачу вроде «refactor this auth module» и корректируй в процессе
Включи steer mode: Settings → General → Follow-up behavior (в Codex app)
Документация: Codex changelog, блогпост, Codex-Spark на Cerebras