> · 6 мин

Claude Sonnet 4.6 — мозги Opus за пятую часть цены

Claude Sonnet 4.6 — мозги Opus за пятую часть цены

Две недели назад Anthropic выпустили Opus 4.6 — самую умную модель в линейке. $5/$25 за миллион токенов, мощнейший reasoning, агентные команды. Круто, но дорого. А 17 февраля случилось то, что меняет расклад: Sonnet 4.6 подобрался к Opus вплотную — и стоит в 5 раз дешевле.

TL;DR: Claude Sonnet 4.6 показывает 79.6% на SWE-bench (Opus — 80.8%), 72.5% на OSWorld (Opus — 72.7%), стоит $3/$15 за миллион токенов. Новый Adaptive Thinking сам решает, когда и сколько думать. Контекст 1M токенов в бете. Web search, code execution, memory tool — всё вышло из беты в GA.

Sonnet, который ест Opus на завтрак

Цифры говорят сами за себя:

  • SWE-bench Verified — 79.6% (Opus 4.6 — 80.8%, разница 1.2%)
  • OSWorld — 72.5% (Opus 4.6 — 72.7%, разница 0.2%)
  • ARC-AGI-1 — 86.5%
  • ARC-AGI-2 — 60.4% (с 120K thinking budget)
  • GPQA Diamond — 74.1% (тут Opus впереди — 91.3%)

На кодинге и computer use Sonnet 4.6 практически неотличим от Opus. Юзеры в слепом тестировании предпочитали Sonnet 4.6 старому Sonnet 4.5 в 70% случаев. А вот что интереснее — Sonnet 4.6 выбирали чаще, чем Opus 4.5, в 59% тестов. Модель среднего ценового сегмента обошла бывший флагман.

Databricks подтверждают, что на задачах анализа документов Sonnet 4.6 сравнялся с Opus 4.6. GitHub отмечает качество на «complex code fixes» в больших кодовых базах. Cognition говорит, что разрыв с Opus по детекции багов почти закрылся.

Где Opus 4.6 всё ещё впереди — глубокий научный reasoning (GPQA: 91.3% против 74.1%) и самые сложные агентные цепочки. Для остального Sonnet 4.6 — это 98% возможностей за 20% цены.

Бенчмарки Claude Sonnet 4.6

Adaptive Thinking — модель сама решает, когда думать

Главное архитектурное новшество. Раньше для extended thinking нужно было руками задавать budget_tokens — сколько токенов модель может потратить на размышления. Угадать правильный бюджет — отдельный квест: поставишь мало — модель не додумает, поставишь много — сожрёт токены впустую.

Adaptive Thinking убирает эту проблему. Модель сама оценивает сложность запроса и решает: думать или нет, и как глубоко. Простой вопрос — отвечает мгновенно. Сложная задача рефакторинга — включает полноценный reasoning.

В API это одна строчка:

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    messages=[
        {"role": "user", "content": "Зарефактори auth модуль, разбей на слои"}
    ],
)

for block in response.content:
    if block.type == "thinking":
        print(f"Думает: {block.thinking}")
    elif block.type == "text":
        print(f"Ответ: {block.text}")

Хочется контролировать глубину — есть параметр effort:

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    output_config={"effort": "medium"},
    messages=[{"role": "user", "content": "Что такое SOLID?"}],
)

Четыре уровня effort:

  • max — думает без ограничений (только Opus 4.6)
  • high — думает всегда, глубоко (по умолчанию)
  • medium — умеренный thinking, может пропустить для простых задач
  • low — минимум thinking, максимум скорости

Бонус: Adaptive Thinking автоматически включает interleaved thinking — модель думает между вызовами инструментов. Для агентных воркфлоу это критически важно: Claude планирует следующий шаг, прежде чем вызвать tool. Никаких beta-хедеров не нужно.

Старый budget_tokens пока работает, но помечен как deprecated. Если вы на Sonnet 4.5 или старше — ничего менять не надо, adaptive пока только для 4.6.

Computer use: от 14.9% до 72.5% за 16 месяцев

Когда Anthropic впервые показала computer use в октябре 2024, было 14.9% на OSWorld. Честно, выглядело как демо-игрушка. Сейчас — 72.5%. Пятикратный рост за полтора года — и это уже уровень, где можно строить продукты.

Ранние тестеры говорят о реальном «human-level» — модель уверенно навигирует сложные таблицы, заполняет многошаговые формы, переключается между вкладками браузера. Pace (страховая платформа) отчитывается о 94% точности на своём бенчмарке — лучший результат среди всех моделей, которые они тестировали.

И что важно для безопасности: Sonnet 4.6 показал значительное улучшение устойчивости к prompt injection по сравнению с Sonnet 4.5, на уровне Opus 4.6.

Web search вышел из беты — и стал умнее

Три изменения, которые стоит знать:

Dynamic filtering. Sonnet 4.6 автоматически пишет и запускает код, чтобы отфильтровать результаты поиска до того, как они попадут в контекстное окно. Меньше мусора — меньше потраченных токенов — точнее ответы. Подробнее в документации dynamic filtering.

Code execution бесплатно с web search. Если вы используете code execution вместе с web search или web fetch — Anthropic не берёт за него деньги. Они буквально субсидируют quality фичу, чтобы вы тратили меньше токенов на мусорные результаты.

Всё в GA. Web search, web fetch, code execution, memory tool, tool search, programmatic tool calling — всё вышло из беты. Убирайте beta-хедеры из кода.

Контекст 1M токенов

Окно контекста по умолчанию — 200K токенов. Но в бете доступен 1M — это примерно 750 тысяч слов. Целая кодовая база среднего проекта, стопка юридических документов или десятки исследовательских статей в одном запросе.

Для активации добавьте beta-хедер context-1m-2025-08-07. Запросы свыше 200K входных токенов тарифицируются по long context pricing.

$3/$15 — цена не изменилась

Sonnet 4.6 стоит столько же, сколько стоил Sonnet 4.5:

  • Sonnet 4.6 — $3 вход / $15 выход за миллион токенов
  • Opus 4.6 — $5 вход / $25 выход (в 1.7x дороже)
  • Haiku 4.5 — $1 вход / $5 выход (быстрее, но слабее)

Модель уже стоит по умолчанию на Free и Pro планах в claude.ai. Доступна через API (claude-sonnet-4-6), Claude Code, AWS Bedrock (anthropic.claude-sonnet-4-6) и Google Vertex AI.

Кому это важно

  • Разработчику — обновите model на claude-sonnet-4-6, попробуйте thinking: {"type": "adaptive"} вместо budget_tokens. Уберите beta-хедеры для web search и code execution — они теперь GA
  • Тимлиду — переход с Opus 4.5 на Sonnet 4.6 может сэкономить до 80% бюджета на API при сопоставимом качестве кодинга. Computer use дозрел для автоматизации рутинных UI-задач
  • Следишь за рынком — Sonnet-класс догоняет предыдущие флагманы за год. Anthropic выпустили два мажорных релиза за 12 дней (Opus 5 февраля, Sonnet 17 февраля). Гонка ускоряется

Как попробовать

  1. Обновите SDK: pip install --upgrade anthropic
  2. Замените model ID на claude-sonnet-4-6 в ваших вызовах
  3. Попробуйте Adaptive Thinking — добавьте thinking={"type": "adaptive"} в запрос
  4. Поиграйте с effort: output_config={"effort": "low"} для быстрых ответов, "high" для глубокого reasoning
  5. Документация: Adaptive Thinking, модели и цены, release notes
$ ls ./related/

Похожие статьи

subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe