GPT-5.4 или Claude Code Opus 4.6 — кто реально лучше для кодинга, а кто побеждает только в бенчмарках
GPT-5.4 или Claude Code Opus 4.6 — кто реально лучше для кодинга, а кто побеждает только в бенчмарках
Март 2026 — первый месяц, когда обе модели вышли почти одновременно и у разработчиков наконец появился выбор. GPT-5.4 приземлился 5 марта с миллионом токенов контекста и computer use. Opus 4.6 получил 1M контекст по умолчанию через неделю. Оба хотят быть твоим главным кодинг-агентом.
Проблема в том, что бенчмарки показывают одну картину, а реальный опыт — совершенно другую. 500+ разработчиков на Reddit обсуждали, какой инструмент лучше, и результат оказался неожиданным.
TL;DR: По бенчмаркам — почти паритет (GPT-5.4 берёт 7 из 12, Opus — 5). На практике — Claude Code пишет лучший код (67% побед в слепых тестах), но упирается в лимиты после 1-2 сложных промптов. GPT-5.4 вдвое дешевле и не блокирует. Оптимальная стратегия — использовать оба.
12 бенчмарков: кто побеждает и где это важно
Данные из сравнения Apiyi по 12 стандартным бенчмаркам:
Claude Opus 4.6 побеждает в 5 категориях:
- SWE-Bench Verified (реальные баги с GitHub): 80.8% vs 77.2% — Opus по-прежнему лучше резолвит реальные issue
- MMMU-Pro (визуальное рассуждение): 85.1% vs 81.2%
- ARC-AGI v2 (общий интеллект): 75.2% vs 73.3%
- Humanity's Last Exam: 53.1% vs 39.8% — самый большой разрыв в пользу Opus
- BrowseComp (веб-поиск): 84.0% vs 82.7%
GPT-5.4 побеждает в 7 категориях:
- SWE-Bench Pro (сложные приватные кодовые базы): 57.7% vs 45.9% — и это ключевой момент, потому что Pro тестирует на нетривиальных задачах, а не на стандартных GitHub issue
- Terminal-Bench (терминальные операции): 75.1% vs 65.4%
- OSWorld (computer use): 75.0% vs 72.7%
- FrontierMath (математика): 47.6% vs 27.2% — почти двукратный разрыв
- GDPval (профессиональные задачи): 83.0% vs 78.0%
- GPQA (graduate-уровень рассуждений): 92.8% vs 91.3%
- Tau2: 98.9% vs 99.3% — но тут разница в пределах погрешности
Счёт 7:5 в пользу GPT-5.4, но важнее не количество, а какие именно бенчмарки каждый выигрывает.
Что это значит для кодинга
SWE-Bench Verified vs SWE-Bench Pro — тут самый интересный сюжет. Opus лидирует на стандартном SWE-Bench (80.8%), где задачи — это реальные issue из публичных репозиториев. Но GPT-5.4 разносит на SWE-Bench Pro (57.7% vs 45.9%) — это тесты на приватных кодовых базах с нетривиальными задачами, которые модель гарантированно видит впервые.
Интерпретация: Opus лучше работает с паттернами, которые встречал в обучении. GPT-5.4 лучше справляется с задачами, где нужно разбираться с нуля. Если твой проект — типичный веб-сервис на стандартном стеке, Opus будет эффективнее. Если нестандартная архитектура или проприетарный фреймворк — GPT-5.4 надёжнее.
Terminal-Bench (75.1% vs 65.4%) — GPT-5.4 значительно лучше в терминальных операциях. Если ты работаешь через Codex CLI и много гоняешь команды, скрипты, CI/CD — это заметная разница.
Слепое тестирование Blake Crosley на 36 раундах дало другой результат: Claude Code побеждает в 67% случаев по качеству кода. Бенчмарки измеряют "решил/не решил", но не "насколько чисто решил".
Цена: GPT-5.4 вдвое дешевле
API-цены (данные Apiyi):
- Claude Opus 4.6 — $5.00 / $25.00 за 1M токенов (вход/выход), кешированный вход $0.50
- GPT-5.4 — $2.50 / $15.00 за 1M токенов (вход/выход), кешированный вход $0.25
GPT-5.4 стоит на 40-50% дешевле за токен. Плюс Tool Search сокращает общий расход токенов на 47% без потери точности — по данным OpenAI на 250 задачах Scale MCP Atlas. Если всё сложить: задача за $1.00 на Opus может стоить $0.10-$0.15 на GPT-5.4.
Но для большинства разработчиков API-цены не главное — они платят за подписку.
Подписки: где начинается боль
Claude Code:
- Pro ($20/мес) — хватает на 1-2 серьёзных промпта, потом лимит
- Max 5x ($100/мес) — комфортно для активной работы
- Max 20x ($200/мес) — для тех, кто кодит целый день
Codex CLI (через ChatGPT):
- Plus ($20/мес) — щедрые лимиты, один разработчик сообщает: "Кодил весь день и ни разу не упёрся в лимит"
- Pro ($200/мес) — для heavy users
Парадокс: Claude Code пишет лучший код, но на Pro-плане ты упираешься в потолок после 1-2 сложных задач. По данным опроса 500+ разработчиков на Reddit, один сложный промпт сжигает 50-70% пятичасового лимита. Один разработчик купил два аккаунта Max ($200) и сразу отменил оба.
Результат: в прямом опросе 65.3% разработчиков предпочитают Codex, а с учётом апвотов — 79.9%. Не потому что код лучше, а потому что он доступен.
Контекст: миллион токенов, но по-разному
Оба заявляют 1M токенов контекста. На практике — есть нюансы.
GPT-5.4 — 1,050K токенов штатно, без оговорок. Работает из коробки.
Claude Opus 4.6 — 1M стал доступен по умолчанию только с v2.1.75, до этого было 200K. При этом multi-needle retrieval accuracy — 76%, то есть в 24% случаев модель теряет нужную информацию в длинном контексте. Для большинства задач кодинга это не критично, потому что файлы редко растягиваются на сотни тысяч токенов. Но если ты загоняешь в контекст целый монорепозиторий — будь готов.
Уникальные фишки каждого
Claude Code — Agent Teams. Можно запустить несколько экземпляров Opus, которые работают параллельно и координируются через общие задачи. Frontend, backend и база данных пишутся одновременно. У Codex CLI аналога нет.
GPT-5.4 — нативный computer use. 75% на OSWorld — модель реально управляет десктопом: кликает кнопки, заполняет формы, навигирует UI. Claude тоже умеет computer use, но через отдельный MCP-сервер, а не нативно.
Claude Code — интерактивный режим. Показывает рассуждения, спрашивает на решающих моментах, работает вместе с тобой. Developer-in-the-loop.
Codex CLI — sandbox по умолчанию. Запускает задачу в изолированной среде, возвращает готовый результат. Бросил задачу — получил PR. Меньше контроля, но меньше и внимания требует.
Реальный workflow: "Opus строит, GPT шлифует"
Один из самых цитируемых паттернов в сравнениях — гибридный подход. Разработчик, который описал свой опыт на Medium, обнаружил: Opus быстро собирает фичу, но оставляет инлайновые стили вместо Tailwind-классов, дыры в типизации и компоненты, которые работают только на happy path. GPT-5.3 Codex (а теперь GPT-5.4) потом вычитывал код, находил паттерны и чистил систематически.
CodeRabbit проверил на 300 pull request'ах: GPT-5 нашёл 254 из 300 багов (85%), остальные модели — 200-207. Разрыв в 16-22% на детекции багов — серьёзный аргумент для code review.
Отсюда рабочая стратегия: Claude Code генерирует фичу, Codex CLI ревьюит перед мержем. Два плана по $20 ($40/мес) часто эффективнее одного Claude Code Max 5x ($100/мес).
Подводные камни
1. Лимиты Claude Code с Agent Teams. Cowork (мульти-агентный режим) спавнит 6-12 субагентов на одну задачу, каждый запрашивает 1M контекст. На Max-плане это мгновенный rate limit. Не запускай Agent Teams на тривиальных задачах — это артиллерия для крупных фич.
2. GPT-5.4 жрёт лимиты быстрее GPT-5.3-Codex. Разработчики жалуются, что GPT-5.4 расходует квоту значительно быстрее предшественника. OpenAI применил митигацию, но проблема остаётся. 10 марта 2026 модель временно стала недоступна в Codex CLI для части пользователей.
3. 76% retrieval accuracy на 1M контексте у Opus — не 100%. Если закидываешь в контекст целый репозиторий и рассчитываешь, что модель найдёт конкретную строку в 800K токенов — шанс промаха ~24%. GPT-5.4 пока не публикует аналогичную метрику, поэтому сравнить напрямую невозможно.
4. Auto-compact в Claude Code. При длинных сессиях контекст компактифицируется, и детали ранних решений теряются. Ты можешь дебажить по кругу, потому что модель забыла, почему час назад выбрала именно этот подход.
5. Vercel внутренне оценил GPT-5.4 как лучший для фронтенда — побеждает GPT-5.3-Codex в 70% случаев по качеству кода и эстетике. Если пишешь React/Next.js — стоит попробовать.
Вердикт
Бенчмарки дают GPT-5.4 преимущество 7:5, но для чистого кодинга разрыв минимален — Opus всё ещё лидирует на стандартном SWE-Bench (80.8% vs 77.2%). Реальную разницу определяют два фактора: лимиты и тип задач.
Claude Code Opus 4.6 — это лучшее качество кода из коробки (67% побед в слепых тестах), мощный мульти-агентный режим и глубокое понимание архитектуры. Но на $20-плане ты не работаешь — ты дегустируешь. Реальная работа начинается с Max 5x ($100).
GPT-5.4 через Codex CLI — это $20/мес, щедрые лимиты, лучший code review (85% детекция багов), и нативный computer use. Код чуть менее аккуратный, но доступный весь день.
Самая прагматичная стратегия 2026 года: Claude Code на фичи + Codex на ревью, $40/мес вместо $100. Или честно — $100 за Claude Code Max, если ты кодишь по 8 часов в день и лимиты на $20 тебя бесят.
Как попробовать
- Установи Claude Code:
npm install -g @anthropic-ai/claude-code→ запустиclaudeв папке проекта → он подхватитCLAUDE.mdи начнёт с контекста - Установи Codex CLI:
npm install -g @openai/codex→ авторизуйся черезcodex login→ попробуйcodex "добавь тесты для auth модуля" - Тестовые промпты для сравнения:
- "Отрефактори этот файл — вынеси общую логику в отдельный модуль" (тут Opus обычно чище)
- "Найди баги в этом PR" (тут GPT-5.4 находит больше)
- "Напиши CI/CD pipeline для деплоя на AWS" (тут Terminal-Bench преимущество GPT-5.4 ощущается)
- Документация: Claude Code docs, Codex CLI docs
- Для гибридного workflow — начни фичу в Claude Code, перед коммитом прогони
codex "review this diff for bugs and style issues"