Claude Opus 4.7 — 1:1 пиксельные координаты, task budgets и тихо убитые thinking budgets
Anthropic выкатил Claude Opus 4.7. На первый взгляд — обычный point-релиз после 4.6, но если открыть migration guide, становится видно: Anthropic тихо выключил половину настроек, которые все привыкли передавать в API, и переписал токенизатор так, что тот же текст теперь жрёт до 35% больше токенов. Зато цифры в бенчмарках такие, что их стоит разобрать.
TL;DR: Opus 4.7 — самый автономный Claude на сегодня: SWE-bench Pro 64.3%, SWE-bench Verified 87.6%, Terminal-Bench 2.0 69.4%, visual acuity у XBOW вырос с 54.5% до 98.5%. Картинки до 3.75 Мп с 1:1 координатами, 1M контекста без long-context premium, новый уровень усилия
xhigh, task budgets с обратным отсчётом. Но adaptive thinking теперь выключен по умолчанию, extended thinking budgets иtemperature/top_p/top_kудалены, а токенизатор другой — если обновиться в лоб, счета за API могут неприятно удивить.
Цифры, на которые стоит смотреть
Цена осталась такая же: $5 за миллион input токенов, $25 за output. То же, что у Opus 4.6. Но на бенчмарках:
- SWE-bench Pro — 64.3%
- SWE-bench Verified — 87.6%
- Terminal-Bench 2.0 — 69.4%
- Finance Agent v1.1 — 64.4% (state-of-the-art, по заявлению Anthropic)
- CursorBench — 70% против 58% у Opus 4.6
- Rakuten-SWE-Bench — 3x больше решённых production-задач по сравнению с 4.6
- XBOW visual acuity — 98.5% против 54.5% у 4.6
Последняя цифра — главная. Для computer use агентов, которые читают скриншоты интерфейсов, это переход из "как-то работает" в "работает надёжно". XBOW делает автономный pentesting — для них это сняло их "самую большую головную боль при работе с Opus".
Ещё одна деталь, которую отметил CTO Hex: low-effort Opus 4.7 по качеству примерно равен medium-effort Opus 4.6. То есть если переключиться и понизить effort на шаг, можно сохранить качество и сэкономить токены.
Что реально поменялось под капотом
Самое заметное — это то, чего больше нет. В 4.6 можно было передать thinking: {type: "enabled", budget_tokens: 32000} и жёстко ограничить, сколько модель думает. В 4.7 такой запрос возвращает 400. Единственный поддерживаемый режим размышлений — adaptive, и рулите им через effort.
# Было (4.6) thinking = {"type": "enabled", "budget_tokens": 32000} # Стало (4.7) thinking = {"type": "adaptive"} output_config = {"effort": "xhigh"}
Также улетели в бан temperature, top_p и top_k. Любое ненулевое отклонение от дефолта — 400 error. Anthropic рекомендует просто убрать эти параметры из запросов и управлять поведением модели через промпт. Если вы ставили temperature=0 для детерминизма — он всё равно никогда не гарантировал идентичные ответы, так что потеря минимальная.
Есть нюанс, который легко пропустить: adaptive thinking в 4.7 выключен по умолчанию. Если вы не передаёте thinking, модель отвечает вообще без размышлений. В 4.6 она думала почти всегда. Для простых запросов это даже хорошо — быстрее и дешевле. Для агентов это значит, что нужно явно включать thinking там, где он нужен.
Вторая тихая диверсия — thinking content теперь пустой в ответе. Стрим отдаёт thinking блоки, но поле thinking в них пустое, если явно не попросить. Если у вас UI показывает ход мыслей модели, пользователь увидит долгую паузу перед ответом и подумает, что всё зависло. Лечится одной строкой:
thinking = { "type": "adaptive", "display": "summarized", # вернёт видимые размышления }
Task budgets — Claude сам себя ограничивает
Самая интересная фича — task budgets в бете. Это не max_tokens, это принципиально другое. max_tokens — жёсткий потолок на один запрос, модель про него не знает. Task budget — рекомендация модели: "у тебя примерно столько токенов на весь агентный цикл, включая размышления, tool calls и финальный ответ". Модель видит обратный отсчёт и сама решает, где упростить работу.
response = client.beta.messages.create( model="claude-opus-4-7-20260416", max_tokens=128000, output_config={ "effort": "xhigh", "task_budget": {"type": "tokens", "total": 128000}, }, messages=[{"role": "user", "content": "Review the codebase and propose a refactor plan."}], betas=["task-budgets-2026-03-13"], )
Минимальный бюджет — 20k токенов. Меньше — модель может отказаться выполнять задачу или сделать её халтурно. Официальная рекомендация: не ставить task budget вообще на open-ended задачи, где важнее качество. Ставить — когда нужна предсказуемая стоимость на одну задачу.
Это умнее, чем обрубать генерацию по max_tokens посреди ответа. Тот же refactor plan с task budget = 50k токенов завершится связным документом, а не оборвётся на полуслове.
High-res vision и 1:1 координаты
Opus 4.7 — первая модель Claude с честной поддержкой высокого разрешения. Максимум картинки вырос с 1568px / 1.15 Мп до 2576px / 3.75 Мп. И — внимание, те кто делал computer use — координаты модели теперь 1:1 с пикселями. Никакого пересчёта scale factor больше не нужно.
Это меняет UX computer use агентов радикально. Раньше код выглядел так:
# Было: модель вернула координаты в своём координатном пространстве model_x, model_y = 123, 456 real_x = model_x * scale_factor_x real_y = model_y * scale_factor_y pyautogui.click(real_x, real_y)
Теперь — pyautogui.click(model_x, model_y). Точка. Это то, чего не хватало почти год.
Побочка: high-res картинки жрут больше токенов. Если полная детализация не нужна (например, для простого OCR), даунсемплите до отправки.
Новый xhigh effort и токенизатор
effort теперь имеет уровень xhigh — между high и max. Anthropic явно рекомендует xhigh как стартовый уровень для кодинга и агентов, high — как минимум для задач, требующих интеллекта. В Claude Code default effort подняли до xhigh на всех планах.
Про токенизатор честно: это сюрприз с ценником. По заявлению Anthropic, новый токенизатор улучшает качество модели, но тот же текст теперь токенизируется в 1x–1.35x раз больше — до 35% прироста. Независимых замеров на момент публикации нет, только цифры из официального migration guide.
Практические последствия:
- Ваши существующие prompts стали дороже до 35%
max_tokensнужно пересчитать с запасом- Триггеры компакции истории тоже
- Счёт в конце месяца вырастет даже если вы ничего не меняли
Хорошая новость: 1M контекст доступен без long-context premium — по стандартным ценам Opus.
Поведенческие изменения
Это тот раздел, который обычно пролистывают, а зря. Opus 4.7 ведёт себя заметно иначе, чем 4.6:
- Буквальное следование инструкциям — модель перестала "догадываться" и обобщать. Сказано "добавь логирование в auth модуль" — добавит только в auth, а не везде, где выглядит похоже.
- Меньше tool calls по умолчанию — модель чаще рассуждает сама и реже лезет в инструменты. Поднимете effort — tool calls вернутся.
- Меньше субагентов по умолчанию — Claude Code и другие multi-agent системы почувствуют это сильнее всего. Если раньше на сложную задачу спавнилось 3–5 субагентов, теперь может быть 1–2. Управляется промптом.
- Более прямой, opinionated тон — меньше "отличный вопрос!" и эмодзи, больше мнений по делу. Президент Replit в официальных отзывах отдельно хвалит, что модель "пушит назад во время технических обсуждений" и помогает принимать лучшие решения. Для enterprise это плюс, для чат-ботов, где клиенты привыкли к тёплой манере 4.6, — минус.
- Регулярные progress updates в долгих агентных задачах — наконец-то. Если вы писали костыли, чтобы модель сообщала о прогрессе, их можно снести.
- Real-time cybersecurity safeguards — запросы на темы с высоким риском теперь могут отказываться. Это не замена стандартным guardrails, это дополнительный слой. Для легитимных security researchers есть отдельный Cyber Verification Program.
Отдельный бонус для Claude Code: новая команда /ultrareview запускает полноценное code review — не линтер, а глубокий разбор с поиском багов и архитектурных проблем. У Pro и Max планов — три бесплатных запуска за биллинг-цикл.
Подводные камни
-
Thinking off by default не возвращает ошибку. Если вы делали
client.messages.create(model="claude-opus-4-7", messages=[...])и ожидали размышлений — их не будет, и вы об этом не узнаете, пока не заметите просадку качества на сложных задачах. Нет предупреждения в логах, нет warning — это silent change. -
Токенизатор ломает кэширование промптов между моделями. Если у вас промпт закэширован под 4.6, переключение на 4.7 не использует этот кэш — токенизация другая. Первые запросы после миграции будут дороже и медленнее, пока кэш не прогреется заново. Для high-volume продакшена это значит всплеск счёта в день релиза.
-
Task budget — это подсказка, не жёсткий лимит. Модель может её проигнорировать, если задача требует больше. Не используйте task_budget вместо max_tokens для контроля cost ceiling — для этого есть
max_tokens. Это разные инструменты, и migration guide это упоминает мелким шрифтом. -
High-res картинки через URL могут ломать pipeline. 3.75 Мп — это ~15 МБ PNG. Если отправляете через HTTP, timeout на upload может убить запрос. Для computer use агентов, которые шлют скриншоты каждые пару секунд, это потенциальная дыра.
-
Буквальное следование инструкциям ломает старые промпты. Anthropic честно предупреждает: prompts, написанные под 4.6 и раньше, могут давать неожиданные результаты на 4.7. То, что модель раньше "додумывала", теперь просто не делает. Перед миграцией нужно прогнать eval set и перепроверить.
Альтернативы
- GPT-5.4 (OpenAI) — по бенчмарку CodeRabbit, Opus 4.7 обгоняет GPT-5.4 xhigh на код-ревью задачах и работает чуть быстрее. Сильнее на математике и структурированных задачах, слабее на долгом агентном кодинге. Цена сопоставимая.
- Gemini 3 Pro (Google) — 2M контекста, самый дешёвый в семействе frontier-моделей, но слабее на tool use и follow-through в длинных агентных задачах. Хорош как "читатель документов", слабее как "автономный разработчик".
- DeepSeek V3.5 / Qwen3 Max — open-weight альтернативы. Можно хостить локально, но отставание по агентным benchmark'ам — 10–20%. Для self-hosted enterprise — единственный вариант, если Anthropic API недоступен по compliance.
Вердикт
Если пишете агентов, которые работают часами и стоят на Opus 4.6, обновляйтесь, но не в пятницу вечером. Прочитайте migration guide целиком, обновите thinking, max_tokens с запасом 35%, включите display: "summarized" если показываете размышления пользователю, уберите temperature/top_p/top_k. Реальный выигрыш — 1:1 координаты для computer use, +12% на SWE-bench и task budgets для предсказуемой стоимости.
Если используете Claude через чат-интерфейс и не трогаете API — можно не торопиться, Anthropic сам подкатит 4.7 в claude.ai.
Если только начинаете проект — берите сразу 4.7, 4.6 теперь legacy.
Как попробовать
- Обновите SDK:
pip install -U anthropic(минимум 0.45+ для task budgets beta) - В коде поменяйте
model="claude-opus-4-6"наmodel="claude-opus-4-7"(или пин-версияclaude-opus-4-7-20260416) - Уберите
thinking.budget_tokens, замените наthinking={"type": "adaptive", "display": "summarized"} - Уберите
temperature,top_p,top_kиз запросов — они теперь 400 error - Для агентного кодинга поставьте
output_config={"effort": "xhigh"} - Попробуйте task budget на одной задаче:
"task_budget": {"type": "tokens", "total": 50000}и beta-headertask-budgets-2026-03-13 - В Claude Code запустите
/ultrareviewна open PR — посмотрите, что найдёт - Прогоните свой оценочный set из 20–30 задач на обеих моделях и сравните качество/стоимость — новый токенизатор может съесть часть выигрыша от улучшенной модели
Полный migration guide и reference — в официальной документации Anthropic и анонсе релиза.