> · 9 мин

GPT-5.4 или Claude Code Opus 4.6 — кто реально лучше для кодинга, а кто побеждает только в бенчмарках

GPT-5.4 или Claude Code Opus 4.6 — кто реально лучше для кодинга, а кто побеждает только в бенчмарках

GPT-5.4 или Claude Code Opus 4.6 — кто реально лучше для кодинга, а кто побеждает только в бенчмарках

Март 2026 — первый месяц, когда обе модели вышли почти одновременно и у разработчиков наконец появился выбор. GPT-5.4 приземлился 5 марта с миллионом токенов контекста и computer use. Opus 4.6 получил 1M контекст по умолчанию через неделю. Оба хотят быть твоим главным кодинг-агентом.

Проблема в том, что бенчмарки показывают одну картину, а реальный опыт — совершенно другую. 500+ разработчиков на Reddit обсуждали, какой инструмент лучше, и результат оказался неожиданным.

TL;DR: По бенчмаркам — почти паритет (GPT-5.4 берёт 7 из 12, Opus — 5). На практике — Claude Code пишет лучший код (67% побед в слепых тестах), но упирается в лимиты после 1-2 сложных промптов. GPT-5.4 вдвое дешевле и не блокирует. Оптимальная стратегия — использовать оба.

12 бенчмарков: кто побеждает и где это важно

Данные из сравнения Apiyi по 12 стандартным бенчмаркам:

Claude Opus 4.6 побеждает в 5 категориях:

  • SWE-Bench Verified (реальные баги с GitHub): 80.8% vs 77.2% — Opus по-прежнему лучше резолвит реальные issue
  • MMMU-Pro (визуальное рассуждение): 85.1% vs 81.2%
  • ARC-AGI v2 (общий интеллект): 75.2% vs 73.3%
  • Humanity's Last Exam: 53.1% vs 39.8% — самый большой разрыв в пользу Opus
  • BrowseComp (веб-поиск): 84.0% vs 82.7%

GPT-5.4 побеждает в 7 категориях:

  • SWE-Bench Pro (сложные приватные кодовые базы): 57.7% vs 45.9% — и это ключевой момент, потому что Pro тестирует на нетривиальных задачах, а не на стандартных GitHub issue
  • Terminal-Bench (терминальные операции): 75.1% vs 65.4%
  • OSWorld (computer use): 75.0% vs 72.7%
  • FrontierMath (математика): 47.6% vs 27.2% — почти двукратный разрыв
  • GDPval (профессиональные задачи): 83.0% vs 78.0%
  • GPQA (graduate-уровень рассуждений): 92.8% vs 91.3%
  • Tau2: 98.9% vs 99.3% — но тут разница в пределах погрешности

Счёт 7:5 в пользу GPT-5.4, но важнее не количество, а какие именно бенчмарки каждый выигрывает.

Что это значит для кодинга

SWE-Bench Verified vs SWE-Bench Pro — тут самый интересный сюжет. Opus лидирует на стандартном SWE-Bench (80.8%), где задачи — это реальные issue из публичных репозиториев. Но GPT-5.4 разносит на SWE-Bench Pro (57.7% vs 45.9%) — это тесты на приватных кодовых базах с нетривиальными задачами, которые модель гарантированно видит впервые.

Интерпретация: Opus лучше работает с паттернами, которые встречал в обучении. GPT-5.4 лучше справляется с задачами, где нужно разбираться с нуля. Если твой проект — типичный веб-сервис на стандартном стеке, Opus будет эффективнее. Если нестандартная архитектура или проприетарный фреймворк — GPT-5.4 надёжнее.

Terminal-Bench (75.1% vs 65.4%) — GPT-5.4 значительно лучше в терминальных операциях. Если ты работаешь через Codex CLI и много гоняешь команды, скрипты, CI/CD — это заметная разница.

Слепое тестирование Blake Crosley на 36 раундах дало другой результат: Claude Code побеждает в 67% случаев по качеству кода. Бенчмарки измеряют "решил/не решил", но не "насколько чисто решил".

Цена: GPT-5.4 вдвое дешевле

API-цены (данные Apiyi):

  • Claude Opus 4.6 — $5.00 / $25.00 за 1M токенов (вход/выход), кешированный вход $0.50
  • GPT-5.4 — $2.50 / $15.00 за 1M токенов (вход/выход), кешированный вход $0.25

GPT-5.4 стоит на 40-50% дешевле за токен. Плюс Tool Search сокращает общий расход токенов на 47% без потери точности — по данным OpenAI на 250 задачах Scale MCP Atlas. Если всё сложить: задача за $1.00 на Opus может стоить $0.10-$0.15 на GPT-5.4.

Но для большинства разработчиков API-цены не главное — они платят за подписку.

Подписки: где начинается боль

Claude Code:

  • Pro ($20/мес) — хватает на 1-2 серьёзных промпта, потом лимит
  • Max 5x ($100/мес) — комфортно для активной работы
  • Max 20x ($200/мес) — для тех, кто кодит целый день

Codex CLI (через ChatGPT):

  • Plus ($20/мес) — щедрые лимиты, один разработчик сообщает: "Кодил весь день и ни разу не упёрся в лимит"
  • Pro ($200/мес) — для heavy users

Парадокс: Claude Code пишет лучший код, но на Pro-плане ты упираешься в потолок после 1-2 сложных задач. По данным опроса 500+ разработчиков на Reddit, один сложный промпт сжигает 50-70% пятичасового лимита. Один разработчик купил два аккаунта Max ($200) и сразу отменил оба.

Результат: в прямом опросе 65.3% разработчиков предпочитают Codex, а с учётом апвотов — 79.9%. Не потому что код лучше, а потому что он доступен.

Контекст: миллион токенов, но по-разному

Оба заявляют 1M токенов контекста. На практике — есть нюансы.

GPT-5.4 — 1,050K токенов штатно, без оговорок. Работает из коробки.

Claude Opus 4.6 — 1M стал доступен по умолчанию только с v2.1.75, до этого было 200K. При этом multi-needle retrieval accuracy — 76%, то есть в 24% случаев модель теряет нужную информацию в длинном контексте. Для большинства задач кодинга это не критично, потому что файлы редко растягиваются на сотни тысяч токенов. Но если ты загоняешь в контекст целый монорепозиторий — будь готов.

Уникальные фишки каждого

Claude Code — Agent Teams. Можно запустить несколько экземпляров Opus, которые работают параллельно и координируются через общие задачи. Frontend, backend и база данных пишутся одновременно. У Codex CLI аналога нет.

GPT-5.4 — нативный computer use. 75% на OSWorld — модель реально управляет десктопом: кликает кнопки, заполняет формы, навигирует UI. Claude тоже умеет computer use, но через отдельный MCP-сервер, а не нативно.

Claude Code — интерактивный режим. Показывает рассуждения, спрашивает на решающих моментах, работает вместе с тобой. Developer-in-the-loop.

Codex CLI — sandbox по умолчанию. Запускает задачу в изолированной среде, возвращает готовый результат. Бросил задачу — получил PR. Меньше контроля, но меньше и внимания требует.

Реальный workflow: "Opus строит, GPT шлифует"

Один из самых цитируемых паттернов в сравнениях — гибридный подход. Разработчик, который описал свой опыт на Medium, обнаружил: Opus быстро собирает фичу, но оставляет инлайновые стили вместо Tailwind-классов, дыры в типизации и компоненты, которые работают только на happy path. GPT-5.3 Codex (а теперь GPT-5.4) потом вычитывал код, находил паттерны и чистил систематически.

CodeRabbit проверил на 300 pull request'ах: GPT-5 нашёл 254 из 300 багов (85%), остальные модели — 200-207. Разрыв в 16-22% на детекции багов — серьёзный аргумент для code review.

Отсюда рабочая стратегия: Claude Code генерирует фичу, Codex CLI ревьюит перед мержем. Два плана по $20 ($40/мес) часто эффективнее одного Claude Code Max 5x ($100/мес).

Подводные камни

1. Лимиты Claude Code с Agent Teams. Cowork (мульти-агентный режим) спавнит 6-12 субагентов на одну задачу, каждый запрашивает 1M контекст. На Max-плане это мгновенный rate limit. Не запускай Agent Teams на тривиальных задачах — это артиллерия для крупных фич.

2. GPT-5.4 жрёт лимиты быстрее GPT-5.3-Codex. Разработчики жалуются, что GPT-5.4 расходует квоту значительно быстрее предшественника. OpenAI применил митигацию, но проблема остаётся. 10 марта 2026 модель временно стала недоступна в Codex CLI для части пользователей.

3. 76% retrieval accuracy на 1M контексте у Opus — не 100%. Если закидываешь в контекст целый репозиторий и рассчитываешь, что модель найдёт конкретную строку в 800K токенов — шанс промаха ~24%. GPT-5.4 пока не публикует аналогичную метрику, поэтому сравнить напрямую невозможно.

4. Auto-compact в Claude Code. При длинных сессиях контекст компактифицируется, и детали ранних решений теряются. Ты можешь дебажить по кругу, потому что модель забыла, почему час назад выбрала именно этот подход.

5. Vercel внутренне оценил GPT-5.4 как лучший для фронтенда — побеждает GPT-5.3-Codex в 70% случаев по качеству кода и эстетике. Если пишешь React/Next.js — стоит попробовать.

Вердикт

Бенчмарки дают GPT-5.4 преимущество 7:5, но для чистого кодинга разрыв минимален — Opus всё ещё лидирует на стандартном SWE-Bench (80.8% vs 77.2%). Реальную разницу определяют два фактора: лимиты и тип задач.

Claude Code Opus 4.6 — это лучшее качество кода из коробки (67% побед в слепых тестах), мощный мульти-агентный режим и глубокое понимание архитектуры. Но на $20-плане ты не работаешь — ты дегустируешь. Реальная работа начинается с Max 5x ($100).

GPT-5.4 через Codex CLI — это $20/мес, щедрые лимиты, лучший code review (85% детекция багов), и нативный computer use. Код чуть менее аккуратный, но доступный весь день.

Самая прагматичная стратегия 2026 года: Claude Code на фичи + Codex на ревью, $40/мес вместо $100. Или честно — $100 за Claude Code Max, если ты кодишь по 8 часов в день и лимиты на $20 тебя бесят.

Как попробовать

  1. Установи Claude Code: npm install -g @anthropic-ai/claude-code → запусти claude в папке проекта → он подхватит CLAUDE.md и начнёт с контекста
  2. Установи Codex CLI: npm install -g @openai/codex → авторизуйся через codex login → попробуй codex "добавь тесты для auth модуля"
  3. Тестовые промпты для сравнения:
    • "Отрефактори этот файл — вынеси общую логику в отдельный модуль" (тут Opus обычно чище)
    • "Найди баги в этом PR" (тут GPT-5.4 находит больше)
    • "Напиши CI/CD pipeline для деплоя на AWS" (тут Terminal-Bench преимущество GPT-5.4 ощущается)
  4. Документация: Claude Code docs, Codex CLI docs
  5. Для гибридного workflow — начни фичу в Claude Code, перед коммитом прогони codex "review this diff for bugs and style issues"
$ ls ./related/

Похожие статьи

subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe