> · 8 мин

Cursor Composer 2 — собственная модель, которая бьёт Claude Opus 4.6 за десятую часть цены. Но пользователи уже просят вернуть старую версию

Cursor Composer 2 — собственная модель, которая бьёт Claude Opus 4.6 за десятую часть цены. Но пользователи уже просят вернуть старую версию

Cursor Composer 2 — собственная модель, которая бьёт Claude Opus 4.6 за десятую часть цены. Но пользователи уже просят вернуть старую версию

Cursor наконец перестал быть просто красивой обёрткой над чужими моделями. Вчера компания выкатила Composer 2 — собственную модель, обученную исключительно на коде, которая на двух из трёх бенчмарков обходит Claude Opus 4.6. И стоит при этом в 10-30 раз дешевле.

TL;DR: Composer 2 — собственная модель Cursor, обученная на коде через continued pretraining + RL на длинных цепочках действий. Набирает 61.3 на CursorBench (Opus 4.6 — 58.2), стоит $0.50/$2.50 за миллион токенов. Но архитектуру не раскрывают, на SWE-bench уступает Opus, а пользователи жалуются, что модель «думает за тебя, когда не просили».

Зачем Cursor своя модель

У Cursor структурный конфликт: компания конкурирует с Anthropic и OpenAI за рынок AI-кодинга, при этом полностью завися от их моделей. Каждый раз, когда Anthropic поднимает цены или меняет API — Cursor нервно пересчитывает юнит-экономику. Подписки на $20/месяц работают в минус, и только корпоративные контракты вытягивают бизнес.

Composer 2 — попытка вырваться из этой ловушки. Модель, обученная исключительно на коде, не тащит на себе знания о поэзии и кулинарии, поэтому может быть значительно компактнее — а значит, дешевле в инференсе.

Как её обучали

Cursor описывает двухфазный процесс:

Фаза 1 — continued pretraining. Взяли некую базовую модель (какую — не говорят, об этом ниже) и дообучили на большом корпусе кода. Cursor называет это «первым continued pretraining run, который даёт значительно более сильную базу для RL».

Фаза 2 — reinforcement learning на длинных цепочках. Модель учится решать задачи, требующие сотен последовательных действий: редактирование файлов, запуск команд в терминале, анализ ошибок, итеративный дебаг. Это не одноходовая генерация кода, а полноценное агентное поведение.

Отдельная фишка — self-summarization. Когда контекст разговора приближается к лимиту (200K токенов), модель сама сжимает историю, сохраняя ключевую информацию. Это обучено на этапе тренировки, а не приколочено сбоку как post-hoc суммаризация.

Бенчмарки: где Composer 2 побеждает, а где нет

Бенчмарк Composer 2 vs конкуренты

Три бенчмарка — три разные истории:

CursorBench (внутренний бенчмарк Cursor на реальных задачах из их кодовой базы):

  • Composer 2 — 61.3
  • Claude Opus 4.6 — 58.2
  • GPT-5.4 Thinking — 63.9
  • Composer 1.5 — 44.2

Прирост в 39% над предшественником. Opus 4.6 позади, но GPT-5.4 всё ещё впереди.

Terminal-Bench 2.0 (внешний бенчмарк на задачи в CLI):

Terminal-Bench 2.0

  • GPT-5.4 — 75.1
  • Composer 2 — 61.7
  • Claude Opus 4.6 — 58.0
  • Composer 1.5 — 47.9

Здесь Composer 2 обгоняет Opus, но отстаёт от GPT-5.4 на 13.4 пункта — разрыв, который сложно списать на погрешность.

SWE-bench Multilingual (задачи из реальных open-source проектов):

  • Claude Opus 4.6 — 77.8
  • Composer 2 — 73.7
  • Composer 1.5 — 65.9

А вот тут Opus берёт реванш — +4.1 пункта. На сложных мультиязычных задачах из реальных репозиториев Cursor пока не догнал Anthropic.

Важный нюанс: CursorBench — закрытый бенчмарк. Cursor сам пишет задачи, сам оценивает, сам публикует результаты. Это защищает от «натаскивания» конкурентов, но и независимо проверить числа нельзя. Terminal-Bench и SWE-bench — внешние и более достоверные.

Цена: вот где реальная история

Цена vs производительность

Два варианта:

  • Standard — $0.50/M input, $2.50/M output
  • Fast (по умолчанию) — $1.50/M input, $7.50/M output

Для сравнения:

  • Claude Opus 4.6 — $15/M input, $75/M output
  • GPT-5.4 — $10/M input, $30/M output

Composer 2 Standard — в 30 раз дешевле Opus по входным токенам и в 30 раз по выходным. Даже Fast-вариант дешевле GPT-5.4 в 6-7 раз. При этом на CursorBench и Terminal-Bench модель бьёт Opus.

Для пользователей Cursor Pro/Business это означает, что Composer 2 Fast стоит по умолчанию — и каждый запрос сжигает значительно меньше от пула кредитов, чем запрос к Opus или GPT-5.4. Cursor заявляет «generous included usage» для подписчиков, и с такими ценами это впервые звучит правдоподобно.

Но есть подвох: кешированные токены стоят $0.125/M — при том что индустриальный стандарт (Anthropic, OpenAI) — $0.05/M. Для длинных сессий с большим контекстом это может нивелировать экономию.

Что внутри чёрного ящика

И вот тут начинается самое интересное. Cursor не раскрывает:

  • Какая базовая модель использовалась
  • Сколько параметров
  • Какая архитектура (хотя некоторые наблюдатели предполагают MoE с кастомными MXFP8-ядрами для Blackwell GPU)
  • Размер обучающего датасета
  • Нет MMLU, HumanEval или LiveCodeBench — только свои бенчмарки + два внешних

Для компании с оценкой $29.3 млрд (и попытками поднять раунд на $50 млрд) это сознательный выбор. Если ты знаешь, что модель построена на, скажем, Qwen3-Coder или GLM 4.6 — это одна история. А если окажется, что это fine-tune Llama — совсем другая. Cursor хранит молчание, и разработчики остаются гадать.

Что говорят пользователи (и почему просят вернуть 1.5)

На форуме Cursor за первые сутки — 28 тредов и 838 просмотров. Картина смешанная.

Что хвалят:

  • Скорость Fast-варианта — заметно быстрее 1.5
  • Логическое мышление на сложных задачах
  • Хороший субагент для параллельных задач

Что ломается:

  • Модель «думает за тебя» — переписывает копирайт, меняет структуру компонентов, дропает лейблы. Один пользователь дал Vue-компонент с конкретным текстом — Composer 2 переписал формулировки, убрал лейблы и сломал структуру
  • На простом рефакторинге замены функций — «тупые ошибки в трети вызовов»
  • 4 500 лишних строк изменений и 6.4M потраченных токенов на задаче с переводами — модель полезла ручками править типы, хотя не просили
  • Не видит MCP-серверы, которые нормально работают с Opus и Sonnet — приходится перезапускать или указывать путь вручную
  • Облачный агент прерывается «без видимой причины»

Суть проблемы один из разработчиков сформулировал точно: «Есть разница между моделью, которая умеет думать, и моделью, которая не может перестать думать». Composer 1.5 просто делал, что просили. Composer 2 решает, что ты на самом деле хотел — и часто ошибается.

Подводные камни

1. Баг с тихим откатом кода. В марте 2026 Cursor подтвердил баг, при котором редактор молча откатывал изменения пользователя. Сколько людей затронуто — неизвестно. Для инструмента, которому ты доверяешь свой код, это серьёзно.

2. CursorBench — свой бенчмарк, свои правила. Задачи из внутренней кодовой базы Cursor, оценка Cursor'ом, публикация Cursor'ом. На внешнем SWE-bench Multilingual Opus выигрывает на 4 пункта. Стоит ли доверять одному внутреннему бенчмарку больше, чем двум внешним?

3. Кешированные токены в 2.5x дороже рынка. $0.125/M за кешированные токены при индустриальном стандарте $0.05/M. На коротких запросах не заметно, но если ваш контекст регулярно превышает 100K токенов — разница начинает складываться.

4. Нет архитектурных деталей = нет гарантий. Без параметров, архитектуры и информации о датасете невозможно оценить: потолок модели, поведение на edge-кейсах, потенциал для fine-tuning, и что произойдёт, если лицензия базовой модели изменится.

5. Over-engineering по умолчанию. Модель обучена на RL с длинными цепочками действий — и это видно. Она пытается оптимизировать даже тогда, когда нужно просто скопировать код. Для vibe-кодинга это плюс, для точечных правок — головная боль.

Альтернативы

  • Claude Code (Opus 4.6) — терминальный агент, 1M контекст, лучший на сложных мультифайловых задачах. SWE-bench 77.8 против 73.7 у Composer 2. Но $15/$75 за миллион токенов — в 30 раз дороже. Тратит в 5.5 раз меньше токенов на идентичные задачи, чем Cursor, поэтому реальная разница в стоимости меньше, чем кажется по ценнику.

  • Codex CLI (GPT-5.4) — фоновое выполнение задач, лучший Terminal-Bench 2.0 (75.1 vs 61.7). $10/$30 за миллион токенов. Можно запустить 5 задач и заниматься другим. Для автономной работы — сильнее, но дороже и нет IDE-интеграции.

  • Windsurf — IDE-конкурент Cursor с Cascade-агентом. Дешевле по подписке ($15/мес), но модели слабее, и сообщество значительно меньше. Вариант для тех, кому Cursor слишком дорог, а Claude Code слишком терминален.

Вердикт

Composer 2 — первая серьёзная заявка на то, что AI-IDE-компания может строить свои модели, а не только оборачивать чужие. По соотношению цена/качество на бенчмарках — лучшее предложение на рынке прямо сейчас. Если вы на Cursor Pro и хотите сэкономить на токенах без сильной потери качества — ставьте Composer 2 Fast как основную модель.

Но для сложного рефакторинга в больших кодовых базах Opus 4.6 пока надёжнее (77.8 vs 73.7 на SWE-bench). А отсутствие прозрачности по архитектуре — это не мелочь для тех, кто строит production-pipeline вокруг модели.

Как попробовать

  1. Обновите Cursor до последней версии — Composer 2 Fast стоит по умолчанию в модели Agent
  2. Откройте Settings → Models — убедитесь, что composer-2 или composer-2-fast активны
  3. Попробуйте задачу средней сложности: Зарефактори этот файл — вынеси повторяющуюся логику в отдельный хук
  4. Сравните с Opus 4.6 на той же задаче — переключите модель в Settings и повторите промпт
  5. Документация: cursor.com/docs/models/cursor-composer-2, блогпост: cursor.com/blog/composer-2
$ ls ./related/

Похожие статьи

claude-hud-claude-code-plugin.md
claude-hud — плагин, который превращает чёрный ящик Claude Code в приборную панель с контекстом, тулами и агентами
> · 6 мин

claude-hud — плагин, который превращает чёрный ящик Claude Code в приборную панель с контекстом, тулами и агентами

claude-hud — #1 trending на GitHub с 7 600+ звёздами. Три команды — и в терминале появляется HUD с контекстом, активными тулами, агентами и прогрессом задач. Разбираем, как работает, что показывает и чем лучше альтернатив.

ai open-source claude-code developer-tools
claude-dispatch-cowork-remote.md
Dispatch для Cowork — Anthropic сделала свой OpenClaw раньше, чем OpenAI, и он работает с 50% шансом на успех
> · 6 мин

Dispatch для Cowork — Anthropic сделала свой OpenClaw раньше, чем OpenAI, и он работает с 50% шансом на успех

Anthropic запустила Dispatch — удалённое управление Claude Desktop с телефона через один постоянный тред. Пока research preview: один тред, Mac должен не спать, а MacStories насчитал 50/50 шанс, что задача выполнится. Но направление — то, куда пойдут все.

ai agents claude anthropic
sobesai.sh LIVE
S.
> sobesai.app · бесплатно

Sobes AI

AI-помощник для технических собеседований. Распознаёт вопросы, генерирует ответы по твоему стеку.

Попробовать бесплатно →
subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe