> · 9 мин

Claude Opus 4.7 — 1:1 пиксельные координаты, task budgets и тихо убитые thinking budgets

Claude Opus 4.7 — 1:1 пиксельные координаты, task budgets и тихо убитые thinking budgets

Anthropic выкатил Claude Opus 4.7. На первый взгляд — обычный point-релиз после 4.6, но если открыть migration guide, становится видно: Anthropic тихо выключил половину настроек, которые все привыкли передавать в API, и переписал токенизатор так, что тот же текст теперь жрёт до 35% больше токенов. Зато цифры в бенчмарках такие, что их стоит разобрать.

TL;DR: Opus 4.7 — самый автономный Claude на сегодня: SWE-bench Pro 64.3%, SWE-bench Verified 87.6%, Terminal-Bench 2.0 69.4%, visual acuity у XBOW вырос с 54.5% до 98.5%. Картинки до 3.75 Мп с 1:1 координатами, 1M контекста без long-context premium, новый уровень усилия xhigh, task budgets с обратным отсчётом. Но adaptive thinking теперь выключен по умолчанию, extended thinking budgets и temperature/top_p/top_k удалены, а токенизатор другой — если обновиться в лоб, счета за API могут неприятно удивить.

Цифры, на которые стоит смотреть

Цена осталась такая же: $5 за миллион input токенов, $25 за output. То же, что у Opus 4.6. Но на бенчмарках:

  • SWE-bench Pro — 64.3%
  • SWE-bench Verified — 87.6%
  • Terminal-Bench 2.0 — 69.4%
  • Finance Agent v1.1 — 64.4% (state-of-the-art, по заявлению Anthropic)
  • CursorBench — 70% против 58% у Opus 4.6
  • Rakuten-SWE-Bench — 3x больше решённых production-задач по сравнению с 4.6
  • XBOW visual acuity — 98.5% против 54.5% у 4.6

Последняя цифра — главная. Для computer use агентов, которые читают скриншоты интерфейсов, это переход из "как-то работает" в "работает надёжно". XBOW делает автономный pentesting — для них это сняло их "самую большую головную боль при работе с Opus".

Ещё одна деталь, которую отметил CTO Hex: low-effort Opus 4.7 по качеству примерно равен medium-effort Opus 4.6. То есть если переключиться и понизить effort на шаг, можно сохранить качество и сэкономить токены.

Что реально поменялось под капотом

Самое заметное — это то, чего больше нет. В 4.6 можно было передать thinking: {type: "enabled", budget_tokens: 32000} и жёстко ограничить, сколько модель думает. В 4.7 такой запрос возвращает 400. Единственный поддерживаемый режим размышлений — adaptive, и рулите им через effort.

# Было (4.6)
thinking = {"type": "enabled", "budget_tokens": 32000}

# Стало (4.7)
thinking = {"type": "adaptive"}
output_config = {"effort": "xhigh"}

Также улетели в бан temperature, top_p и top_k. Любое ненулевое отклонение от дефолта — 400 error. Anthropic рекомендует просто убрать эти параметры из запросов и управлять поведением модели через промпт. Если вы ставили temperature=0 для детерминизма — он всё равно никогда не гарантировал идентичные ответы, так что потеря минимальная.

Есть нюанс, который легко пропустить: adaptive thinking в 4.7 выключен по умолчанию. Если вы не передаёте thinking, модель отвечает вообще без размышлений. В 4.6 она думала почти всегда. Для простых запросов это даже хорошо — быстрее и дешевле. Для агентов это значит, что нужно явно включать thinking там, где он нужен.

Вторая тихая диверсия — thinking content теперь пустой в ответе. Стрим отдаёт thinking блоки, но поле thinking в них пустое, если явно не попросить. Если у вас UI показывает ход мыслей модели, пользователь увидит долгую паузу перед ответом и подумает, что всё зависло. Лечится одной строкой:

thinking = {
    "type": "adaptive",
    "display": "summarized",  # вернёт видимые размышления
}

Task budgets — Claude сам себя ограничивает

Самая интересная фича — task budgets в бете. Это не max_tokens, это принципиально другое. max_tokens — жёсткий потолок на один запрос, модель про него не знает. Task budget — рекомендация модели: "у тебя примерно столько токенов на весь агентный цикл, включая размышления, tool calls и финальный ответ". Модель видит обратный отсчёт и сама решает, где упростить работу.

response = client.beta.messages.create(
    model="claude-opus-4-7-20260416",
    max_tokens=128000,
    output_config={
        "effort": "xhigh",
        "task_budget": {"type": "tokens", "total": 128000},
    },
    messages=[{"role": "user", "content": "Review the codebase and propose a refactor plan."}],
    betas=["task-budgets-2026-03-13"],
)

Минимальный бюджет — 20k токенов. Меньше — модель может отказаться выполнять задачу или сделать её халтурно. Официальная рекомендация: не ставить task budget вообще на open-ended задачи, где важнее качество. Ставить — когда нужна предсказуемая стоимость на одну задачу.

Это умнее, чем обрубать генерацию по max_tokens посреди ответа. Тот же refactor plan с task budget = 50k токенов завершится связным документом, а не оборвётся на полуслове.

High-res vision и 1:1 координаты

Opus 4.7 — первая модель Claude с честной поддержкой высокого разрешения. Максимум картинки вырос с 1568px / 1.15 Мп до 2576px / 3.75 Мп. И — внимание, те кто делал computer use — координаты модели теперь 1:1 с пикселями. Никакого пересчёта scale factor больше не нужно.

Это меняет UX computer use агентов радикально. Раньше код выглядел так:

# Было: модель вернула координаты в своём координатном пространстве
model_x, model_y = 123, 456
real_x = model_x * scale_factor_x
real_y = model_y * scale_factor_y
pyautogui.click(real_x, real_y)

Теперь — pyautogui.click(model_x, model_y). Точка. Это то, чего не хватало почти год.

Побочка: high-res картинки жрут больше токенов. Если полная детализация не нужна (например, для простого OCR), даунсемплите до отправки.

Новый xhigh effort и токенизатор

effort теперь имеет уровень xhigh — между high и max. Anthropic явно рекомендует xhigh как стартовый уровень для кодинга и агентов, high — как минимум для задач, требующих интеллекта. В Claude Code default effort подняли до xhigh на всех планах.

Про токенизатор честно: это сюрприз с ценником. По заявлению Anthropic, новый токенизатор улучшает качество модели, но тот же текст теперь токенизируется в 1x–1.35x раз больше — до 35% прироста. Независимых замеров на момент публикации нет, только цифры из официального migration guide.

Практические последствия:

  • Ваши существующие prompts стали дороже до 35%
  • max_tokens нужно пересчитать с запасом
  • Триггеры компакции истории тоже
  • Счёт в конце месяца вырастет даже если вы ничего не меняли

Хорошая новость: 1M контекст доступен без long-context premium — по стандартным ценам Opus.

Поведенческие изменения

Это тот раздел, который обычно пролистывают, а зря. Opus 4.7 ведёт себя заметно иначе, чем 4.6:

  • Буквальное следование инструкциям — модель перестала "догадываться" и обобщать. Сказано "добавь логирование в auth модуль" — добавит только в auth, а не везде, где выглядит похоже.
  • Меньше tool calls по умолчанию — модель чаще рассуждает сама и реже лезет в инструменты. Поднимете effort — tool calls вернутся.
  • Меньше субагентов по умолчанию — Claude Code и другие multi-agent системы почувствуют это сильнее всего. Если раньше на сложную задачу спавнилось 3–5 субагентов, теперь может быть 1–2. Управляется промптом.
  • Более прямой, opinionated тон — меньше "отличный вопрос!" и эмодзи, больше мнений по делу. Президент Replit в официальных отзывах отдельно хвалит, что модель "пушит назад во время технических обсуждений" и помогает принимать лучшие решения. Для enterprise это плюс, для чат-ботов, где клиенты привыкли к тёплой манере 4.6, — минус.
  • Регулярные progress updates в долгих агентных задачах — наконец-то. Если вы писали костыли, чтобы модель сообщала о прогрессе, их можно снести.
  • Real-time cybersecurity safeguards — запросы на темы с высоким риском теперь могут отказываться. Это не замена стандартным guardrails, это дополнительный слой. Для легитимных security researchers есть отдельный Cyber Verification Program.

Отдельный бонус для Claude Code: новая команда /ultrareview запускает полноценное code review — не линтер, а глубокий разбор с поиском багов и архитектурных проблем. У Pro и Max планов — три бесплатных запуска за биллинг-цикл.

Подводные камни

  1. Thinking off by default не возвращает ошибку. Если вы делали client.messages.create(model="claude-opus-4-7", messages=[...]) и ожидали размышлений — их не будет, и вы об этом не узнаете, пока не заметите просадку качества на сложных задачах. Нет предупреждения в логах, нет warning — это silent change.

  2. Токенизатор ломает кэширование промптов между моделями. Если у вас промпт закэширован под 4.6, переключение на 4.7 не использует этот кэш — токенизация другая. Первые запросы после миграции будут дороже и медленнее, пока кэш не прогреется заново. Для high-volume продакшена это значит всплеск счёта в день релиза.

  3. Task budget — это подсказка, не жёсткий лимит. Модель может её проигнорировать, если задача требует больше. Не используйте task_budget вместо max_tokens для контроля cost ceiling — для этого есть max_tokens. Это разные инструменты, и migration guide это упоминает мелким шрифтом.

  4. High-res картинки через URL могут ломать pipeline. 3.75 Мп — это ~15 МБ PNG. Если отправляете через HTTP, timeout на upload может убить запрос. Для computer use агентов, которые шлют скриншоты каждые пару секунд, это потенциальная дыра.

  5. Буквальное следование инструкциям ломает старые промпты. Anthropic честно предупреждает: prompts, написанные под 4.6 и раньше, могут давать неожиданные результаты на 4.7. То, что модель раньше "додумывала", теперь просто не делает. Перед миграцией нужно прогнать eval set и перепроверить.

Альтернативы

  • GPT-5.4 (OpenAI) — по бенчмарку CodeRabbit, Opus 4.7 обгоняет GPT-5.4 xhigh на код-ревью задачах и работает чуть быстрее. Сильнее на математике и структурированных задачах, слабее на долгом агентном кодинге. Цена сопоставимая.
  • Gemini 3 Pro (Google) — 2M контекста, самый дешёвый в семействе frontier-моделей, но слабее на tool use и follow-through в длинных агентных задачах. Хорош как "читатель документов", слабее как "автономный разработчик".
  • DeepSeek V3.5 / Qwen3 Max — open-weight альтернативы. Можно хостить локально, но отставание по агентным benchmark'ам — 10–20%. Для self-hosted enterprise — единственный вариант, если Anthropic API недоступен по compliance.

Вердикт

Если пишете агентов, которые работают часами и стоят на Opus 4.6, обновляйтесь, но не в пятницу вечером. Прочитайте migration guide целиком, обновите thinking, max_tokens с запасом 35%, включите display: "summarized" если показываете размышления пользователю, уберите temperature/top_p/top_k. Реальный выигрыш — 1:1 координаты для computer use, +12% на SWE-bench и task budgets для предсказуемой стоимости.

Если используете Claude через чат-интерфейс и не трогаете API — можно не торопиться, Anthropic сам подкатит 4.7 в claude.ai.

Если только начинаете проект — берите сразу 4.7, 4.6 теперь legacy.

Как попробовать

  1. Обновите SDK: pip install -U anthropic (минимум 0.45+ для task budgets beta)
  2. В коде поменяйте model="claude-opus-4-6" на model="claude-opus-4-7" (или пин-версия claude-opus-4-7-20260416)
  3. Уберите thinking.budget_tokens, замените на thinking={"type": "adaptive", "display": "summarized"}
  4. Уберите temperature, top_p, top_k из запросов — они теперь 400 error
  5. Для агентного кодинга поставьте output_config={"effort": "xhigh"}
  6. Попробуйте task budget на одной задаче: "task_budget": {"type": "tokens", "total": 50000} и beta-header task-budgets-2026-03-13
  7. В Claude Code запустите /ultrareview на open PR — посмотрите, что найдёт
  8. Прогоните свой оценочный set из 20–30 задач на обеих моделях и сравните качество/стоимость — новый токенизатор может съесть часть выигрыша от улучшенной модели

Полный migration guide и reference — в официальной документации Anthropic и анонсе релиза.

$ ls ./related/

Похожие статьи

microsoft-agent-framework-10.md
Microsoft Agent Framework 1.0 — один pip install вместо Semantic Kernel и AutoGen, и ваши MCP-серверы теперь работают из .NET
> · 6 мин

Microsoft Agent Framework 1.0 — один pip install вместо Semantic Kernel и AutoGen, и ваши MCP-серверы теперь работают из .NET

Microsoft выпустила Agent Framework 1.0 — эволюцию Semantic Kernel и AutoGen в одном пакете. Python, .NET, MCP из коробки, мульти-агентная оркестрация и коннекторы для Claude, GPT, Gemini, Ollama. Разбираем код, грабли и 766 багов.

ai agents open-source mcp
caveman-claude-skill.md
Caveman Claude — Claude Code skill, который говорит как неандерталец и экономит 75% output-токенов
> · 9 мин

Caveman Claude — Claude Code skill, который говорит как неандерталец и экономит 75% output-токенов

Мем с Reddit про «научил Claude говорить как пещерный человек» за неделю стал Claude Code skill с 13 тысячами звёзд. Считаем, сколько реально экономит (спойлер: не 75%), как ставить и кому не подходит.

ai llm anthropic open-source
claude-managed-agents.md
Claude Managed Agents — $0.08 в час за инфраструктуру, которую вы строили бы три месяца
> · 8 мин

Claude Managed Agents — $0.08 в час за инфраструктуру, которую вы строили бы три месяца

Anthropic запустила Managed Agents — облачную инфраструктуру для продакшен-агентов с sandbox, Vaults, MCP и трейсингом. Разбираем архитектуру brain/hands, цены и альтернативы.

ai agents claude anthropic
subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe