> 20 Mar 2026 · 8 мин

Cursor Composer 2 — собственная модель, которая бьёт Claude Opus 4.6 за десятую часть цены. Но пользователи уже просят вернуть старую версию

Cursor наконец перестал быть просто красивой обёрткой над чужими моделями. Вчера компания выкатила Composer 2 — собственную модель, обученную исключительно на коде, которая на двух из трёх бенчмарков обходит Claude Opus 4.6. И стоит при этом в 10-30 раз дешевле.

TL;DR: Composer 2 — собственная модель Cursor, обученная на коде через continued pretraining + RL на длинных цепочках действий. Набирает 61.3 на CursorBench (Opus 4.6 — 58.2), стоит $0.50/$2.50 за миллион токенов. Но архитектуру не раскрывают, на SWE-bench уступает Opus, а пользователи жалуются, что модель «думает за тебя, когда не просили».

Зачем Cursor своя модель

У Cursor структурный конфликт: компания конкурирует с Anthropic и OpenAI за рынок AI-кодинга, при этом полностью завися от их моделей. Каждый раз, когда Anthropic поднимает цены или меняет API — Cursor нервно пересчитывает юнит-экономику. Подписки на $20/месяц работают в минус, и только корпоративные контракты вытягивают бизнес.

Composer 2 — попытка вырваться из этой ловушки. Модель, обученная исключительно на коде, не тащит на себе знания о поэзии и кулинарии, поэтому может быть значительно компактнее — а значит, дешевле в инференсе.

Как её обучали

Cursor описывает двухфазный процесс:

Фаза 1 — continued pretraining. Взяли некую базовую модель (какую — не говорят, об этом ниже) и дообучили на большом корпусе кода. Cursor называет это «первым continued pretraining run, который даёт значительно более сильную базу для RL».

Фаза 2 — reinforcement learning на длинных цепочках. Модель учится решать задачи, требующие сотен последовательных действий: редактирование файлов, запуск команд в терминале, анализ ошибок, итеративный дебаг. Это не одноходовая генерация кода, а полноценное агентное поведение.

Отдельная фишка — self-summarization. Когда контекст разговора приближается к лимиту (200K токенов), модель сама сжимает историю, сохраняя ключевую информацию. Это обучено на этапе тренировки, а не приколочено сбоку как post-hoc суммаризация.

Бенчмарки: где Composer 2 побеждает, а где нет

Бенчмарк Composer 2 vs конкуренты

Три бенчмарка — три разные истории:

CursorBench (внутренний бенчмарк Cursor на реальных задачах из их кодовой базы):

Composer 2 — 61.3
Claude Opus 4.6 — 58.2
GPT-5.4 Thinking — 63.9
Composer 1.5 — 44.2

Прирост в 39% над предшественником. Opus 4.6 позади, но GPT-5.4 всё ещё впереди.

Terminal-Bench 2.0 (внешний бенчмарк на задачи в CLI):

Terminal-Bench 2.0

GPT-5.4 — 75.1
Composer 2 — 61.7
Claude Opus 4.6 — 58.0
Composer 1.5 — 47.9

Здесь Composer 2 обгоняет Opus, но отстаёт от GPT-5.4 на 13.4 пункта — разрыв, который сложно списать на погрешность.

SWE-bench Multilingual (задачи из реальных open-source проектов):

Claude Opus 4.6 — 77.8
Composer 2 — 73.7
Composer 1.5 — 65.9

А вот тут Opus берёт реванш — +4.1 пункта. На сложных мультиязычных задачах из реальных репозиториев Cursor пока не догнал Anthropic.

Важный нюанс: CursorBench — закрытый бенчмарк. Cursor сам пишет задачи, сам оценивает, сам публикует результаты. Это защищает от «натаскивания» конкурентов, но и независимо проверить числа нельзя. Terminal-Bench и SWE-bench — внешние и более достоверные.

Цена: вот где реальная история

Цена vs производительность

Два варианта:

Standard — $0.50/M input, $2.50/M output
Fast (по умолчанию) — $1.50/M input, $7.50/M output

Для сравнения:

Claude Opus 4.6 — $15/M input, $75/M output
GPT-5.4 — $10/M input, $30/M output

Composer 2 Standard — в 30 раз дешевле Opus по входным токенам и в 30 раз по выходным. Даже Fast-вариант дешевле GPT-5.4 в 6-7 раз. При этом на CursorBench и Terminal-Bench модель бьёт Opus.

Для пользователей Cursor Pro/Business это означает, что Composer 2 Fast стоит по умолчанию — и каждый запрос сжигает значительно меньше от пула кредитов, чем запрос к Opus или GPT-5.4. Cursor заявляет «generous included usage» для подписчиков, и с такими ценами это впервые звучит правдоподобно.

Но есть подвох: кешированные токены стоят $0.125/M — при том что индустриальный стандарт (Anthropic, OpenAI) — $0.05/M. Для длинных сессий с большим контекстом это может нивелировать экономию.

Что внутри чёрного ящика

И вот тут начинается самое интересное. Cursor не раскрывает:

Какая базовая модель использовалась
Сколько параметров
Какая архитектура (хотя некоторые наблюдатели предполагают MoE с кастомными MXFP8-ядрами для Blackwell GPU)
Размер обучающего датасета
Нет MMLU, HumanEval или LiveCodeBench — только свои бенчмарки + два внешних

Для компании с оценкой $29.3 млрд (и попытками поднять раунд на $50 млрд) это сознательный выбор. Если ты знаешь, что модель построена на, скажем, Qwen3-Coder или GLM 4.6 — это одна история. А если окажется, что это fine-tune Llama — совсем другая. Cursor хранит молчание, и разработчики остаются гадать.

Что говорят пользователи (и почему просят вернуть 1.5)

На форуме Cursor за первые сутки — 28 тредов и 838 просмотров. Картина смешанная.

Что хвалят:

Скорость Fast-варианта — заметно быстрее 1.5
Логическое мышление на сложных задачах
Хороший субагент для параллельных задач

Что ломается:

Модель «думает за тебя» — переписывает копирайт, меняет структуру компонентов, дропает лейблы. Один пользователь дал Vue-компонент с конкретным текстом — Composer 2 переписал формулировки, убрал лейблы и сломал структуру
На простом рефакторинге замены функций — «тупые ошибки в трети вызовов»
4 500 лишних строк изменений и 6.4M потраченных токенов на задаче с переводами — модель полезла ручками править типы, хотя не просили
Не видит MCP-серверы, которые нормально работают с Opus и Sonnet — приходится перезапускать или указывать путь вручную
Облачный агент прерывается «без видимой причины»

Суть проблемы один из разработчиков сформулировал точно: «Есть разница между моделью, которая умеет думать, и моделью, которая не может перестать думать». Composer 1.5 просто делал, что просили. Composer 2 решает, что ты на самом деле хотел — и часто ошибается.

Подводные камни

1. Баг с тихим откатом кода. В марте 2026 Cursor подтвердил баг, при котором редактор молча откатывал изменения пользователя. Сколько людей затронуто — неизвестно. Для инструмента, которому ты доверяешь свой код, это серьёзно.

2. CursorBench — свой бенчмарк, свои правила. Задачи из внутренней кодовой базы Cursor, оценка Cursor'ом, публикация Cursor'ом. На внешнем SWE-bench Multilingual Opus выигрывает на 4 пункта. Стоит ли доверять одному внутреннему бенчмарку больше, чем двум внешним?

3. Кешированные токены в 2.5x дороже рынка. $0.125/M за кешированные токены при индустриальном стандарте $0.05/M. На коротких запросах не заметно, но если ваш контекст регулярно превышает 100K токенов — разница начинает складываться.

4. Нет архитектурных деталей = нет гарантий. Без параметров, архитектуры и информации о датасете невозможно оценить: потолок модели, поведение на edge-кейсах, потенциал для fine-tuning, и что произойдёт, если лицензия базовой модели изменится.

5. Over-engineering по умолчанию. Модель обучена на RL с длинными цепочками действий — и это видно. Она пытается оптимизировать даже тогда, когда нужно просто скопировать код. Для vibe-кодинга это плюс, для точечных правок — головная боль.

Альтернативы

Claude Code (Opus 4.6) — терминальный агент, 1M контекст, лучший на сложных мультифайловых задачах. SWE-bench 77.8 против 73.7 у Composer 2. Но $15/$75 за миллион токенов — в 30 раз дороже. Тратит в 5.5 раз меньше токенов на идентичные задачи, чем Cursor, поэтому реальная разница в стоимости меньше, чем кажется по ценнику.
Codex CLI (GPT-5.4) — фоновое выполнение задач, лучший Terminal-Bench 2.0 (75.1 vs 61.7). $10/$30 за миллион токенов. Можно запустить 5 задач и заниматься другим. Для автономной работы — сильнее, но дороже и нет IDE-интеграции.
Windsurf — IDE-конкурент Cursor с Cascade-агентом. Дешевле по подписке ($15/мес), но модели слабее, и сообщество значительно меньше. Вариант для тех, кому Cursor слишком дорог, а Claude Code слишком терминален.

Вердикт

Composer 2 — первая серьёзная заявка на то, что AI-IDE-компания может строить свои модели, а не только оборачивать чужие. По соотношению цена/качество на бенчмарках — лучшее предложение на рынке прямо сейчас. Если вы на Cursor Pro и хотите сэкономить на токенах без сильной потери качества — ставьте Composer 2 Fast как основную модель.

Но для сложного рефакторинга в больших кодовых базах Opus 4.6 пока надёжнее (77.8 vs 73.7 на SWE-bench). А отсутствие прозрачности по архитектуре — это не мелочь для тех, кто строит production-pipeline вокруг модели.

Как попробовать

Обновите Cursor до последней версии — Composer 2 Fast стоит по умолчанию в модели Agent
Откройте Settings → Models — убедитесь, что composer-2 или composer-2-fast активны
Попробуйте задачу средней сложности: Зарефактори этот файл — вынеси повторяющуюся логику в отдельный хук
Сравните с Opus 4.6 на той же задаче — переключите модель в Settings и повторите промпт
Документация: cursor.com/docs/models/cursor-composer-2, блогпост: cursor.com/blog/composer-2

Cursor Composer 2 — собственная модель, которая бьёт Claude Opus 4.6 за десятую часть цены. Но пользователи уже просят вернуть старую версию