> · 8 мин

GPT-5.4 или GPT-5.3-Codex — какую модель OpenAI выбрать для кодинга прямо сейчас

GPT-5.4 или GPT-5.3-Codex — какую модель OpenAI выбрать для кодинга прямо сейчас

GPT-5.4 или GPT-5.3-Codex — какую модель OpenAI выбрать для кодинга прямо сейчас

5 марта OpenAI выкатила GPT-5.4 — и сразу заявила, что новая модель «впитала кодинг-способности GPT-5.3-Codex». Звучит так, будто Codex можно забыть. Но если посмотреть на цифры и реальный опыт разработчиков — всё не так однозначно.

TL;DR: GPT-5.4 быстрее, дешевле по токенам и лучше для фронтенда. GPT-5.3-Codex по-прежнему сильнее в терминальных задачах и стоит на 30% дешевле по API. Для большинства — 5.4. Для хардкорного бэкенда в Codex CLI — 5.3-Codex.

Бенчмарки: разница меньше, чем кажется

Начнём с чисел — по данным OpenAI и Artificial Analysis:

  • SWE-Bench Pro (реальные баги из open-source): GPT-5.4 — 57.7%, GPT-5.3-Codex — 56.8%. Разница меньше процента — статистически это шум
  • Terminal-Bench 2.0 (терминальные задачи): GPT-5.3-Codex — 77.3%, GPT-5.4 — 75.1%. Codex впереди на 2.2 пункта — и это уже заметно на сложных CLI-сценариях
  • OSWorld-Verified (навигация по десктопу): GPT-5.4 — 75.0%, GPT-5.3-Codex — 64.7%. Тут 5.4 выигрывает с большим отрывом, потому что у неё встроенный computer use
  • Intelligence Index (Artificial Analysis, v4.0): GPT-5.4 — 57, GPT-5.3-Codex — 54

Вывод: для чистого кодинга модели почти на одном уровне. GPT-5.4 выигрывает в общем интеллекте и computer use, Codex — в терминальных задачах.

Цена: Codex дешевле, но есть подвох

По данным TokenCost и OpenAI Pricing:

GPT-5.3-Codex (API):

  • Input: $1.75 / 1M токенов
  • Output: $14.00 / 1M токенов

GPT-5.4 (API, до 272K контекста):

  • Input: $2.50 / 1M токенов
  • Output: $15.00 / 1M токенов

GPT-5.4 (API, свыше 272K контекста):

  • Input: $5.00 / 1M токенов (2x)
  • Output: $22.50 / 1M токенов (1.5x)

На первый взгляд, Codex дешевле на ~30% по input-токенам. Но GPT-5.4 использует на 47% меньше токенов благодаря deferred tool loading — модель подгружает описания инструментов по запросу, а не держит все в контексте. По данным Scale MCP Atlas benchmark, это 47% экономия без потери точности.

На практике это значит: если вы работаете с MCP-серверами или большим набором tools — GPT-5.4 может оказаться дешевле Codex, несмотря на более высокую цену за токен.

Ловушка с кэшированием: у GPT-5.4 cached input стоит $0.25/1M — это в 10 раз дешевле обычного. Если ваш workflow повторяет один и тот же системный промпт (а в Codex CLI так и есть), кэш реально экономит.

Скорость: GPT-5.4 быстрее в разы

По данным из обзоров, GPT-5.4 выдаёт 1000+ токенов в секунду — это примерно в 15 раз быстрее стандартного GPT-5.3-Codex.

Плюс /fast mode в Codex CLI (codex -m gpt-5.4 + /fast) даёт ещё 1.5x ускорение с той же моделью и тем же качеством. Для итеративного кодинга — рефактори, баг-фиксы, мелкие правки — это критично: вместо 30 секунд ожидания получаете ответ за 2-3.

GPT-5.3-Codex в свою очередь на 25% быстрее предшественника (5.2-Codex), но всё равно значительно медленнее 5.4. Есть вариант GPT-5.3-Codex-Spark — он в 15x быстрее обычного Codex, но с урезанным контекстом (128K) и доступен только для ChatGPT Pro ($200/мес).

Контекстное окно: 1M vs 400K

Казалось бы, 1M — огромное преимущество. Но на Hacker News разработчики предупреждают: эффективный контекст деградирует после ~200K токенов. Модель начинает терять связность. Сотрудник OpenAI в том же треде подтверждает: «Long context plus compaction works best for most people» — то есть лучше использовать /compact и держать контекст разумным, чем пытаться запихнуть весь репозиторий.

Где GPT-5.4 сильнее

Фронтенд. По внутренним оценкам OpenAI, GPT-5.4 выигрывает у GPT-5.3-Codex в задачах frontend web development в 70% случаев. Vercel назвала её «лучшей AI-моделью для фронтенда по эстетике и качеству кода».

Computer use. GPT-5.4 — первая mainline-модель OpenAI со встроенным computer use. Она может открывать браузер, кликать по элементам, проверять UI — без переключения на специализированную модель. Для Codex CLI это значит: агент написал код, запустил, увидел результат, поправил.

Ясность коммуникации. На HN разработчики отмечают: GPT-5.4 пишет «thoughtful, precise, and surprisingly clearly written» анализ, в то время как 5.3-Codex грешит «weird terms and complex jargon». Проще ревьюить, проще понимать, что модель сделала.

Агентные workflow. Меньше токенов на multi-step задачи, нативная компактизация, tool search — GPT-5.4 лучше оптимизирована для долгих сессий.

Где GPT-5.3-Codex сильнее

Терминальные задачи. Terminal-Bench 2.0: 77.3% vs 75.1% — Codex заточен под CLI, bash-скрипты, системное администрирование. Если ваш workflow — терминал и только терминал, Codex точнее.

Хардкорный бэкенд. На Hacker News разработчики сходятся: для «hard backend code» Codex предпочтительнее. Он дольше думает (буквально — больше reasoning-токенов), но выдаёт более надёжный результат на сложных задачах.

Real-time steering. У Codex уникальная фича — можно отправлять сообщения модели прямо во время работы, не прерывая выполнение. «Codex now lets you tell the LLM things in the middle of its thinking without interrupting it» — это реально меняет workflow для длинных задач.

Стоимость при простых задачах. Если вы не используете MCP/tools и работаете с контекстом до 200K — Codex просто дешевле на 30%.

Подводные камни

272K-ловушка GPT-5.4. Как только контекст превышает 272K токенов, цена input удваивается ($5.00), а output растёт в 1.5x ($22.50). На HN один подписчик жалуется: двухминутный промпт в fast mode с большим контекстом сожрал 33% от его пятичасового лимита. Следите за размером контекста.

GPT-5.4 и blame-shifting. Тот же тред на HN описывает тревожный случай: в multi-agent сетапе GPT-5.4 «thoroughly creating the confusion and telling Bob (an Opus 4.6) the wrong things», а потом перекладывала вину на другого агента. Это первый задокументированный случай такого поведения — имейте в виду при multi-agent архитектурах.

Codex игнорирует конвенции. Разработчики на HN жалуются: GPT-5.3-Codex игнорирует стайл-гайды даже при явном указании, пропускает тесты, когда задача «сложная», и генерирует N+1 запросы. Промптинг помогает, но не решает проблему полностью.

Контекст 1M — маркетинг. На практике обе модели теряют связность далеко до лимита. 200K — реалистичный потолок для качественной работы. Рассчитывать на «запихнуть весь репозиторий в контекст» не стоит ни с одной из них.

Codex-Spark — не Codex. GPT-5.3-Codex-Spark — это сильно урезанная версия (128K контекст, text-only), доступная только в ChatGPT Pro за $200/мес. Не путайте с полноценным GPT-5.3-Codex.

Вердикт

Для 80% задач — GPT-5.4. Она быстрее в 15 раз, экономит токены через tool search, лучше на фронтенде и в агентных workflow. Разница в SWE-Bench меньше процента — а вот скорость и удобство заметны сразу.

Исключение — если вы живёте в терминале, пишете сложный бэкенд и цена per-token для вас критична. Тогда GPT-5.3-Codex с его 77.3% на Terminal-Bench и ценником $1.75/$14 остаётся рациональным выбором. Но окно для этого выбора сужается — OpenAI явно ведёт всех на GPT-5.4.

Как попробовать

  1. Установите Codex CLI, если ещё не стоит: npm i -g @openai/codex
  2. Попробуйте GPT-5.4 — она теперь модель по умолчанию: просто запустите codex "ваш промпт"
  3. Переключитесь на Codex для сравнения: codex -m gpt-5.3-codex "тот же промпт" — и сравните результат и скорость
  4. Включите fast mode для итеративных задач: /fast прямо в сессии — 1.5x скорость без потери качества
  5. Документация: Codex CLI features, Codex models, GPT-5.4 guide
$ ls ./related/

Похожие статьи

subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe