> diffnotes · 20 Feb 2026 · 6 мин

Opus vs Codex vs Gemini — три AI-модели, один workflow, ноль хаоса

ai agents llm gemini coding claude codex workflow

5 февраля 2026 года произошло то, чего давно ждали — Anthropic и OpenAI выкатили свои флагманы в один день. Claude Opus 4.6 и GPT-5.3 Codex. Интернет тут же разделился на два лагеря: одни кричат «Opus лучше», другие — «Codex быстрее». Но после двух недель использования обоих стало понятно: спор бессмысленный. Это разные инструменты для разных задач.

Натолкнулся на разбор от Peter Steinberger — создателя OpenClaw, того самого open-source агента с 190k+ звёзд на GitHub. Его выводы удивительно совпали с моими. Разберу их, добавлю свои наблюдения и встрою в картину Gemini 3.1 Pro, который тоже заслуживает места в этой тройке.

TL;DR: Codex — осторожный архитектор, Opus — креативный senior. Лучший workflow: Opus быстро строит, Codex стабилизирует, Opus расширяет, Codex доводит до прода. Gemini 3.1 Pro — универсал с лучшими бенчмарками, но пока без CLI-агента уровня Claude Code.

Два характера, одна профессия

Steinberger точно уловил суть. Эти модели — не конкуренты. Они коллеги с разным стилем работы.

GPT-5.3 Codex — осторожный инженер-архитектор. Сначала читает код. Потом ещё раз читает. Понимает систему целиком. Меняет минимально. Почти не ломает. Если дать ему конкретную задачу с чётким описанием — выдаст стабильный результат быстрее, чем ты допьёшь кофе. На SWE-Bench Pro он лидирует с 78.2%, а на Terminal-Bench набирает 77.3%.

Claude Opus 4.6 — креативный senior-разработчик. Не ждёт идеального ТЗ. Сразу начинает писать. Делает фичи быстро, иногда слишком быстро — потом приходится подчищать. Зато когда задача размытая и нужно самому придумать архитектуру — Opus в своей стихии. На SWE-Bench Verified набирает ~80%, контекстное окно — 1M токенов в бете, а Agent Teams позволяют запускать несколько агентов параллельно.

Если совсем просто:

Codex — идеален для продакшена, багов, рефакторинга, больших кодовых баз
Opus — идеален для прототипов, новых фич, UI, старта проекта

Цифры: кто сильнее

Бенчмарки в 2026-м — уже не то, что раньше. Как пишет Interconnects, мы вошли в «пост-бенчмарковую эру», где разница в 2-3% ничего не значит на практике. Но всё-таки:

SWE-Bench Verified — Opus ~80%, Codex ~75%
SWE-Bench Pro — Codex 78.2%, лидер
Terminal-Bench 2.0 — Codex 77.3%, Opus на первом месте по общему рейтингу
OSWorld (computer use) — Codex 64.7% (рекорд), Opus ~42%
HumanEval+ — практически паритет: Codex ~92%, Opus ~91%

По деньгам — Codex дешевле в 4-5 раз:

Codex — $1.25 / $10 за миллион токенов (input/output)
Opus — $5 / $25 за миллион токенов

По контексту — Opus вне конкуренции: 1M токенов (бета) против 400K у Codex. Max output: 128K у Opus, ~64K у Codex.

Workflow мечты

Вот что реально работает — и тут мой опыт полностью совпадает с тем, что описывает Steinberger и Claire Vo, которая отправила 44 PR за 5 дней:

Шаг 1: Opus быстро построил. Даёшь задачу в Claude Code: «Сделай авторизацию через JWT с refresh-токенами». Opus за 10 минут набросает структуру, создаст middleware, напишет роуты. 80-90% готово.

Шаг 2: Codex стабилизировал. Берёшь этот код и кидаешь в Codex: «Ревью архитектуры и перформанса, ищи edge cases». Codex находит проблемы, которые Opus пропустил — race conditions, отсутствие валидации, неоптимальные запросы.

Шаг 3: Opus расширил. Возвращаешься к Opus с фидбеком: «Добавь rate limiting, логирование, и интеграцию с Redis». Opus быстро наращивает функциональность.

Шаг 4: Codex довёл до прода. Финальный прогон через Codex: тесты, edge cases, документация. Код готов к деплою.

Это не просто теория. Один эксперимент показал: на сложной задаче (e-commerce с 11 фичами) Opus набрал 9.25/10, Codex — 7.5/10. Но Codex делает это стабильнее и предсказуемее. Вместе — идеальная пара.

А что Gemini 3.1 Pro?

Вот тут становится совсем интересно. Google выкатил Gemini 3.1 Pro и забрал лидерство по 13 из 16 бенчмарков. По SWE-Bench Verified — 80.6%, обогнав и Opus, и Codex. По Terminal-Bench 2.0 — 68.5%.

Но бенчмарки — это одно, а практика — другое.

Где Gemini 3.1 Pro силён:

Лучший универсальный reasoning среди всех моделей
Отличная работа с Google-стеком (Android, Angular, Firebase)
Gemini Code Assist прямо в IDE — нулевое переключение контекста
Дешевле Opus, сопоставим по цене с Codex

Где пока отстаёт:

Нет CLI-агента уровня Claude Code или Codex CLI
Меньше доверия к выводу — на сложных задачах чаще нужна ручная проверка
На Humanity's Last Exam с инструментами: Opus 53.1%, Gemini 51.4%
Экосистема агентов пока слабее

Если вставить Gemini в workflow, он хорош как третий голос — когда Opus и Codex расходятся во мнениях, Gemini может дать третью точку зрения. Плюс он отлично подходит для планирования и project management.

Стратегия «одна модель» мертва

Главный вывод 2026 года: стратегия одной модели больше не работает. Как пишет CEO одной из компаний, его собственный split — «50/50: vibe code с Opus, серьёзный инжиниринг с Codex».

Победит не тот, кто нашёл «лучшую модель», а тот, кто построил роутер — систему, которая направляет задачи в нужную модель в зависимости от риска, объёма и стоимости итерации.

Steinberger отмечает ещё один важный момент: нужна примерно неделя, чтобы выработать интуицию переключения между моделями. Их стили настолько разные, что первые дни будет ломка привычного workflow.

Кому это важно

Разработчику — попробуй workflow «Opus строит → Codex ревьюит» на реальном проекте. Разница заметна с первого PR
Тимлиду — пора думать о мульти-модельном стеке в команде. Один инструмент для прототипов, другой для стабилизации — это реальный буст скорости
Следишь за рынком — мы в пост-бенчмарковой эре. Бенчмарки сходятся, характеры расходятся. Побеждает не модель, а workflow

Как попробовать

Claude Code уже работает в CLI. Если есть подписка Claude Pro или API-ключ — запусти claude в терминале и дай первую задачу
Codex CLI доступен через OpenAI — codex в терминале с API-ключом OpenAI
Gemini Code Assist — ставится как расширение в VS Code или JetBrains, бесплатный тир для индивидуалов
Начни с простого: дай Opus задачу на новую фичу, потом скопируй результат в Codex на ревью. Почувствуй разницу стилей
Посмотри разбор Steinberger — 20 минут, которые сэкономят неделю проб и ошибок