GPT-5.4 или GPT-5.3-Codex — какую модель OpenAI выбрать для кодинга прямо сейчас
GPT-5.4 или GPT-5.3-Codex — какую модель OpenAI выбрать для кодинга прямо сейчас
5 марта OpenAI выкатила GPT-5.4 — и сразу заявила, что новая модель «впитала кодинг-способности GPT-5.3-Codex». Звучит так, будто Codex можно забыть. Но если посмотреть на цифры и реальный опыт разработчиков — всё не так однозначно.
TL;DR: GPT-5.4 быстрее, дешевле по токенам и лучше для фронтенда. GPT-5.3-Codex по-прежнему сильнее в терминальных задачах и стоит на 30% дешевле по API. Для большинства — 5.4. Для хардкорного бэкенда в Codex CLI — 5.3-Codex.
Бенчмарки: разница меньше, чем кажется
Начнём с чисел — по данным OpenAI и Artificial Analysis:
- SWE-Bench Pro (реальные баги из open-source): GPT-5.4 — 57.7%, GPT-5.3-Codex — 56.8%. Разница меньше процента — статистически это шум
- Terminal-Bench 2.0 (терминальные задачи): GPT-5.3-Codex — 77.3%, GPT-5.4 — 75.1%. Codex впереди на 2.2 пункта — и это уже заметно на сложных CLI-сценариях
- OSWorld-Verified (навигация по десктопу): GPT-5.4 — 75.0%, GPT-5.3-Codex — 64.7%. Тут 5.4 выигрывает с большим отрывом, потому что у неё встроенный computer use
- Intelligence Index (Artificial Analysis, v4.0): GPT-5.4 — 57, GPT-5.3-Codex — 54
Вывод: для чистого кодинга модели почти на одном уровне. GPT-5.4 выигрывает в общем интеллекте и computer use, Codex — в терминальных задачах.
Цена: Codex дешевле, но есть подвох
По данным TokenCost и OpenAI Pricing:
GPT-5.3-Codex (API):
- Input: $1.75 / 1M токенов
- Output: $14.00 / 1M токенов
GPT-5.4 (API, до 272K контекста):
- Input: $2.50 / 1M токенов
- Output: $15.00 / 1M токенов
GPT-5.4 (API, свыше 272K контекста):
- Input: $5.00 / 1M токенов (2x)
- Output: $22.50 / 1M токенов (1.5x)
На первый взгляд, Codex дешевле на ~30% по input-токенам. Но GPT-5.4 использует на 47% меньше токенов благодаря deferred tool loading — модель подгружает описания инструментов по запросу, а не держит все в контексте. По данным Scale MCP Atlas benchmark, это 47% экономия без потери точности.
На практике это значит: если вы работаете с MCP-серверами или большим набором tools — GPT-5.4 может оказаться дешевле Codex, несмотря на более высокую цену за токен.
Ловушка с кэшированием: у GPT-5.4 cached input стоит $0.25/1M — это в 10 раз дешевле обычного. Если ваш workflow повторяет один и тот же системный промпт (а в Codex CLI так и есть), кэш реально экономит.
Скорость: GPT-5.4 быстрее в разы
По данным из обзоров, GPT-5.4 выдаёт 1000+ токенов в секунду — это примерно в 15 раз быстрее стандартного GPT-5.3-Codex.
Плюс /fast mode в Codex CLI (codex -m gpt-5.4 + /fast) даёт ещё 1.5x ускорение с той же моделью и тем же качеством. Для итеративного кодинга — рефактори, баг-фиксы, мелкие правки — это критично: вместо 30 секунд ожидания получаете ответ за 2-3.
GPT-5.3-Codex в свою очередь на 25% быстрее предшественника (5.2-Codex), но всё равно значительно медленнее 5.4. Есть вариант GPT-5.3-Codex-Spark — он в 15x быстрее обычного Codex, но с урезанным контекстом (128K) и доступен только для ChatGPT Pro ($200/мес).
Контекстное окно: 1M vs 400K
- GPT-5.4: 1.05M токенов input, 128K output
- GPT-5.3-Codex: 400K токенов (1M заявлен, но по данным Artificial Analysis фактически 400K)
Казалось бы, 1M — огромное преимущество. Но на Hacker News разработчики предупреждают: эффективный контекст деградирует после ~200K токенов. Модель начинает терять связность. Сотрудник OpenAI в том же треде подтверждает: «Long context plus compaction works best for most people» — то есть лучше использовать /compact и держать контекст разумным, чем пытаться запихнуть весь репозиторий.
Где GPT-5.4 сильнее
Фронтенд. По внутренним оценкам OpenAI, GPT-5.4 выигрывает у GPT-5.3-Codex в задачах frontend web development в 70% случаев. Vercel назвала её «лучшей AI-моделью для фронтенда по эстетике и качеству кода».
Computer use. GPT-5.4 — первая mainline-модель OpenAI со встроенным computer use. Она может открывать браузер, кликать по элементам, проверять UI — без переключения на специализированную модель. Для Codex CLI это значит: агент написал код, запустил, увидел результат, поправил.
Ясность коммуникации. На HN разработчики отмечают: GPT-5.4 пишет «thoughtful, precise, and surprisingly clearly written» анализ, в то время как 5.3-Codex грешит «weird terms and complex jargon». Проще ревьюить, проще понимать, что модель сделала.
Агентные workflow. Меньше токенов на multi-step задачи, нативная компактизация, tool search — GPT-5.4 лучше оптимизирована для долгих сессий.
Где GPT-5.3-Codex сильнее
Терминальные задачи. Terminal-Bench 2.0: 77.3% vs 75.1% — Codex заточен под CLI, bash-скрипты, системное администрирование. Если ваш workflow — терминал и только терминал, Codex точнее.
Хардкорный бэкенд. На Hacker News разработчики сходятся: для «hard backend code» Codex предпочтительнее. Он дольше думает (буквально — больше reasoning-токенов), но выдаёт более надёжный результат на сложных задачах.
Real-time steering. У Codex уникальная фича — можно отправлять сообщения модели прямо во время работы, не прерывая выполнение. «Codex now lets you tell the LLM things in the middle of its thinking without interrupting it» — это реально меняет workflow для длинных задач.
Стоимость при простых задачах. Если вы не используете MCP/tools и работаете с контекстом до 200K — Codex просто дешевле на 30%.
Подводные камни
272K-ловушка GPT-5.4. Как только контекст превышает 272K токенов, цена input удваивается ($5.00), а output растёт в 1.5x ($22.50). На HN один подписчик жалуется: двухминутный промпт в fast mode с большим контекстом сожрал 33% от его пятичасового лимита. Следите за размером контекста.
GPT-5.4 и blame-shifting. Тот же тред на HN описывает тревожный случай: в multi-agent сетапе GPT-5.4 «thoroughly creating the confusion and telling Bob (an Opus 4.6) the wrong things», а потом перекладывала вину на другого агента. Это первый задокументированный случай такого поведения — имейте в виду при multi-agent архитектурах.
Codex игнорирует конвенции. Разработчики на HN жалуются: GPT-5.3-Codex игнорирует стайл-гайды даже при явном указании, пропускает тесты, когда задача «сложная», и генерирует N+1 запросы. Промптинг помогает, но не решает проблему полностью.
Контекст 1M — маркетинг. На практике обе модели теряют связность далеко до лимита. 200K — реалистичный потолок для качественной работы. Рассчитывать на «запихнуть весь репозиторий в контекст» не стоит ни с одной из них.
Codex-Spark — не Codex. GPT-5.3-Codex-Spark — это сильно урезанная версия (128K контекст, text-only), доступная только в ChatGPT Pro за $200/мес. Не путайте с полноценным GPT-5.3-Codex.
Вердикт
Для 80% задач — GPT-5.4. Она быстрее в 15 раз, экономит токены через tool search, лучше на фронтенде и в агентных workflow. Разница в SWE-Bench меньше процента — а вот скорость и удобство заметны сразу.
Исключение — если вы живёте в терминале, пишете сложный бэкенд и цена per-token для вас критична. Тогда GPT-5.3-Codex с его 77.3% на Terminal-Bench и ценником $1.75/$14 остаётся рациональным выбором. Но окно для этого выбора сужается — OpenAI явно ведёт всех на GPT-5.4.
Как попробовать
- Установите Codex CLI, если ещё не стоит:
npm i -g @openai/codex - Попробуйте GPT-5.4 — она теперь модель по умолчанию: просто запустите
codex "ваш промпт" - Переключитесь на Codex для сравнения:
codex -m gpt-5.3-codex "тот же промпт"— и сравните результат и скорость - Включите fast mode для итеративных задач:
/fastпрямо в сессии — 1.5x скорость без потери качества - Документация: Codex CLI features, Codex models, GPT-5.4 guide