Claude Sonnet 4.6 — мозги Opus за пятую часть цены
Две недели назад Anthropic выпустили Opus 4.6 — самую умную модель в линейке. $5/$25 за миллион токенов, мощнейший reasoning, агентные команды. Круто, но дорого. А 17 февраля случилось то, что меняет расклад: Sonnet 4.6 подобрался к Opus вплотную — и стоит в 5 раз дешевле.
TL;DR: Claude Sonnet 4.6 показывает 79.6% на SWE-bench (Opus — 80.8%), 72.5% на OSWorld (Opus — 72.7%), стоит $3/$15 за миллион токенов. Новый Adaptive Thinking сам решает, когда и сколько думать. Контекст 1M токенов в бете. Web search, code execution, memory tool — всё вышло из беты в GA.
Sonnet, который ест Opus на завтрак
Цифры говорят сами за себя:
- SWE-bench Verified — 79.6% (Opus 4.6 — 80.8%, разница 1.2%)
- OSWorld — 72.5% (Opus 4.6 — 72.7%, разница 0.2%)
- ARC-AGI-1 — 86.5%
- ARC-AGI-2 — 60.4% (с 120K thinking budget)
- GPQA Diamond — 74.1% (тут Opus впереди — 91.3%)
На кодинге и computer use Sonnet 4.6 практически неотличим от Opus. Юзеры в слепом тестировании предпочитали Sonnet 4.6 старому Sonnet 4.5 в 70% случаев. А вот что интереснее — Sonnet 4.6 выбирали чаще, чем Opus 4.5, в 59% тестов. Модель среднего ценового сегмента обошла бывший флагман.
Databricks подтверждают, что на задачах анализа документов Sonnet 4.6 сравнялся с Opus 4.6. GitHub отмечает качество на «complex code fixes» в больших кодовых базах. Cognition говорит, что разрыв с Opus по детекции багов почти закрылся.
Где Opus 4.6 всё ещё впереди — глубокий научный reasoning (GPQA: 91.3% против 74.1%) и самые сложные агентные цепочки. Для остального Sonnet 4.6 — это 98% возможностей за 20% цены.

Adaptive Thinking — модель сама решает, когда думать
Главное архитектурное новшество. Раньше для extended thinking нужно было руками задавать budget_tokens — сколько токенов модель может потратить на размышления. Угадать правильный бюджет — отдельный квест: поставишь мало — модель не додумает, поставишь много — сожрёт токены впустую.
Adaptive Thinking убирает эту проблему. Модель сама оценивает сложность запроса и решает: думать или нет, и как глубоко. Простой вопрос — отвечает мгновенно. Сложная задача рефакторинга — включает полноценный reasoning.
В API это одна строчка:
import anthropic client = anthropic.Anthropic() response = client.messages.create( model="claude-sonnet-4-6", max_tokens=16000, thinking={"type": "adaptive"}, messages=[ {"role": "user", "content": "Зарефактори auth модуль, разбей на слои"} ], ) for block in response.content: if block.type == "thinking": print(f"Думает: {block.thinking}") elif block.type == "text": print(f"Ответ: {block.text}")
Хочется контролировать глубину — есть параметр effort:
response = client.messages.create( model="claude-sonnet-4-6", max_tokens=16000, thinking={"type": "adaptive"}, output_config={"effort": "medium"}, messages=[{"role": "user", "content": "Что такое SOLID?"}], )
Четыре уровня effort:
- max — думает без ограничений (только Opus 4.6)
- high — думает всегда, глубоко (по умолчанию)
- medium — умеренный thinking, может пропустить для простых задач
- low — минимум thinking, максимум скорости
Бонус: Adaptive Thinking автоматически включает interleaved thinking — модель думает между вызовами инструментов. Для агентных воркфлоу это критически важно: Claude планирует следующий шаг, прежде чем вызвать tool. Никаких beta-хедеров не нужно.
Старый budget_tokens пока работает, но помечен как deprecated. Если вы на Sonnet 4.5 или старше — ничего менять не надо, adaptive пока только для 4.6.
Computer use: от 14.9% до 72.5% за 16 месяцев
Когда Anthropic впервые показала computer use в октябре 2024, было 14.9% на OSWorld. Честно, выглядело как демо-игрушка. Сейчас — 72.5%. Пятикратный рост за полтора года — и это уже уровень, где можно строить продукты.
Ранние тестеры говорят о реальном «human-level» — модель уверенно навигирует сложные таблицы, заполняет многошаговые формы, переключается между вкладками браузера. Pace (страховая платформа) отчитывается о 94% точности на своём бенчмарке — лучший результат среди всех моделей, которые они тестировали.
И что важно для безопасности: Sonnet 4.6 показал значительное улучшение устойчивости к prompt injection по сравнению с Sonnet 4.5, на уровне Opus 4.6.
Web search вышел из беты — и стал умнее
Три изменения, которые стоит знать:
Dynamic filtering. Sonnet 4.6 автоматически пишет и запускает код, чтобы отфильтровать результаты поиска до того, как они попадут в контекстное окно. Меньше мусора — меньше потраченных токенов — точнее ответы. Подробнее в документации dynamic filtering.
Code execution бесплатно с web search. Если вы используете code execution вместе с web search или web fetch — Anthropic не берёт за него деньги. Они буквально субсидируют quality фичу, чтобы вы тратили меньше токенов на мусорные результаты.
Всё в GA. Web search, web fetch, code execution, memory tool, tool search, programmatic tool calling — всё вышло из беты. Убирайте beta-хедеры из кода.
Контекст 1M токенов
Окно контекста по умолчанию — 200K токенов. Но в бете доступен 1M — это примерно 750 тысяч слов. Целая кодовая база среднего проекта, стопка юридических документов или десятки исследовательских статей в одном запросе.
Для активации добавьте beta-хедер context-1m-2025-08-07. Запросы свыше 200K входных токенов тарифицируются по long context pricing.
$3/$15 — цена не изменилась
Sonnet 4.6 стоит столько же, сколько стоил Sonnet 4.5:
- Sonnet 4.6 — $3 вход / $15 выход за миллион токенов
- Opus 4.6 — $5 вход / $25 выход (в 1.7x дороже)
- Haiku 4.5 — $1 вход / $5 выход (быстрее, но слабее)
Модель уже стоит по умолчанию на Free и Pro планах в claude.ai. Доступна через API (claude-sonnet-4-6), Claude Code, AWS Bedrock (anthropic.claude-sonnet-4-6) и Google Vertex AI.
Кому это важно
- Разработчику — обновите
modelнаclaude-sonnet-4-6, попробуйтеthinking: {"type": "adaptive"}вместоbudget_tokens. Уберите beta-хедеры для web search и code execution — они теперь GA - Тимлиду — переход с Opus 4.5 на Sonnet 4.6 может сэкономить до 80% бюджета на API при сопоставимом качестве кодинга. Computer use дозрел для автоматизации рутинных UI-задач
- Следишь за рынком — Sonnet-класс догоняет предыдущие флагманы за год. Anthropic выпустили два мажорных релиза за 12 дней (Opus 5 февраля, Sonnet 17 февраля). Гонка ускоряется
Как попробовать
- Обновите SDK:
pip install --upgrade anthropic - Замените model ID на
claude-sonnet-4-6в ваших вызовах - Попробуйте Adaptive Thinking — добавьте
thinking={"type": "adaptive"}в запрос - Поиграйте с effort:
output_config={"effort": "low"}для быстрых ответов,"high"для глубокого reasoning - Документация: Adaptive Thinking, модели и цены, release notes