Claude Code v2.1.75 — Opus 4.6 получил 1M контекст по умолчанию, и за это не берут ни цента сверху
Claude Code v2.1.75 — Opus 4.6 получил 1M контекст по умолчанию, и за это не берут ни цента сверху
Два месяца Anthropic дразнили разработчиков: Opus 4.6 формально поддерживал миллион токенов, но на практике Claude Code упирался в 200K, а для 1M нужен был beta-заголовок context-1m-2025-08-07 и API tier 4. Пользователи Max-плана за $200/мес заваливали GitHub баг-репортами — сессии крашились на 200K без предупреждения, а документация обещала миллион.
Сегодня, 13 марта, Anthropic объявили: 1M контекст стал GA для Opus 4.6 и Sonnet 4.6. Claude Code v2.1.75 подхватил это изменение — на Max, Team и Enterprise планах Opus автоматически работает с 1M контекстом. Никаких заголовков, никаких env-переменных, никаких дополнительных настроек.
TL;DR: Opus 4.6 теперь по умолчанию работает с 1M контекстом в Claude Code — это 5× больше, чем было. Цена осталась прежней: $5/$25 за миллион токенов, без premium за длинный контекст. Beta-заголовок больше не нужен. Если не хочешь —
CLAUDE_CODE_DISABLE_1M_CONTEXT=1.
Что конкретно изменилось
Раньше Opus 4.6 в Claude Code работал так: 200K контекст по умолчанию, 1M — только через API с beta-header и только для организаций в tier 4. Max-подписчики вообще не могли получить 1M, потому что их биллинг шёл по другой ветке.
Теперь:
- Opus 4.6 — 1M контекст по умолчанию на Max, Team, Enterprise. Без конфигурации
- Sonnet 4.6 — 1M доступен, но требует extra usage на Max/Team (на API — полный доступ)
- Pro — 1M доступен через extra usage для обеих моделей
- API pay-as-you-go — полный доступ к 1M для Opus 4.6 и Sonnet 4.6
Пять иксов за те же деньги
Главная новость — не сам миллион токенов (он формально существовал с beta), а ценообразование. Anthropic убрали long-context premium для Opus 4.6 и Sonnet 4.6 полностью:
- Opus 4.6: $5 input / $25 output за миллион токенов — одинаково для 9K и 900K запросов
- Sonnet 4.6: $3 input / $15 output за миллион токенов — та же история
Для сравнения, у старых Sonnet 4.5/4 при превышении 200K токенов на входе включался premium: $6/$22.50 вместо $3/$15 — двукратная наценка на input. Opus 4.6 и Sonnet 4.6 этого не имеют.
Prompt caching и Batch API скидки работают на полном окне. Запрос на 800K токенов с кешем обойдётся в $0.50/MTok на cache hits — ровно как запрос на 50K.
Как это выглядит в Claude Code
После обновления до v2.1.75 (npm install -g @anthropic-ai/claude-code) на Max-плане Opus сразу работает с 1M. Проверить можно через /model — там появляется opus[1m] как вариант, но для Max/Team/Enterprise обычный opus уже включает 1M.
# Обновить Claude Code npm install -g @anthropic-ai/claude-code # Проверить версию claude --version # 2.1.75 # В сессии — проверить модель /model # opus → Claude Opus 4.6 (1M context)
Для сторонних провайдеров (Bedrock, Vertex, Foundry) нужно добавить [1m] к модели:
export ANTHROPIC_DEFAULT_OPUS_MODEL='claude-opus-4-6[1m]'
Claude Code сам уберёт суффикс перед отправкой провайдеру.
Если 1M не нужен (например, для экономии на auto-compact циклах), отключается одной переменной:
export CLAUDE_CODE_DISABLE_1M_CONTEXT=1
Зачем вообще миллион токенов в CLI-агенте
200K — это примерно 150K слов или ~500 страниц кода. Звучит много, но на практике тяжёлые сессии с чтением файлов, bash-командами и tool calls прожигали 200K за 30-45 минут. Пользователи сообщали, что JSONL-файлы сессий вырастали до 1.8 МБ, а auto-compact не успевал сработать.
1M — это 5× запас. Конкретные сценарии, где это меняет workflow:
- Монорепы — можно загрузить в контекст десятки файлов одновременно и рассуждать о cross-module зависимостях, вместо того чтобы читать по одному
- Figma MCP — один разработчик отметил, что средний раздел Figma-страницы занимает ~300K токенов. При 200K это не влезало вообще
- Длинные агентные сессии — agent teams, параллельные субагенты, многочасовые рефакторинги теперь могут идти значительно дольше до первого compact
- 600 изображений/PDF в одном запросе (было 100 при 200K) — полезно для code review с визуальными диффами или анализа документации
Подводные камни
Context rot никуда не делся. Больше токенов ≠ лучше. Anthropic сами признают: "as token count grows, accuracy and recall degrade." На 8-needle MRCR v2 бенчмарке Opus 4.6 набирает 76% при 1M — неплохо, но это значит, что каждый четвёртый "иголка в стоге сена" запрос промахивается. Если забить контекст 900K токенами "на всякий случай", модель начнёт "забывать" ранние инструкции.
Утечки памяти в Claude Code — хроническая проблема. Даже при 200K контексте пользователи фиксировали утечки до 18 ГБ RAM за одну сессию. В v2.1.73-74 закрыли несколько утечек (streaming buffer, CircularBuffer, ChildProcess), но свежие репорты показывают 5.9 ГБ в ArrayBuffers через 26 секунд после старта. При 1M контексте объём данных в памяти процесса вырастет пропорционально — следите за htop.
Auto-compact может не спасти. Auto-compaction — механизм, который сжимает ранние части контекста при приближении к лимиту. Но при 1M лимите compact должен обработать гораздо больший объём. Если compact запустится на 950K, ему придётся суммаризировать сотни тысяч токенов — это и дорого, и может потерять важный контекст. Стратегия "сначала заполню весь миллион, потом compact разберётся" — плохая идея.
Альтернативы
- Codex CLI (OpenAI) — GPT-5.4 с 1M контекстом по умолчанию с момента выхода. Преимущество: встроенный sandbox с network isolation, container-based исполнение. Недостаток: 300 запросов в день на Pro ($20), fast mode жрёт 2× кредитов, и никто не предупреждает
- Gemini CLI (Google) — 1M контекст на Gemini 2.5 Pro, и это бесплатно: 1000 запросов в день с обычным Google-аккаунтом. Auto-routing между Flash и Pro экономит токены. Недостаток: 63.8% на SWE-bench Verified (против 80.8% у Claude Code), качество кода заметно ниже
- GitHub Copilot CLI — гибкая смена моделей (Sonnet 4.5, GPT-5, Opus 4.6 Fast), но привязка к GitHub-экосистеме. Контекстное окно не документировано публично, и plan mode ограничен по сравнению с Claude Code
Вердикт
Если ты на Max/Team и работаешь с большими кодовыми базами — обновляйся до v2.1.75 сегодня. 1M контекст без доплат — это реальное преимущество, особенно для монореп и длинных агентных сессий. Но не заливай контекст до краёв "потому что можно" — context rot на 800K+ токенах заметен, и модель начнёт пропускать детали. Оптимальная стратегия: используй расширенный контекст для тяжёлых задач (cross-module рефакторинг, анализ больших PR), но для повседневных задач держи контекст компактным. А если сидишь на Pro — 1M доступен только через extra usage, так что считай, окупается ли.
Как попробовать
- Обнови Claude Code:
npm install -g @anthropic-ai/claude-code - Проверь версию:
claude --version→ 2.1.75 - Открой сессию и выбери модель:
/model opus— на Max/Team/Enterprise 1M включён автоматически - Проверь контекст:
/contextпокажет доступный объём - Попробуй загрузить крупный проект:
прочитай все файлы в src/ и найди потенциальные проблемы с безопасностью - Документация по 1M контексту и настройка модели в Claude Code