Claude Opus 4.7 и Sonnet 4.8 нашли в утечке кода Anthropic. Тем временем Opus 4.6 деградирует на глазах
Claude Opus 4.7 и Sonnet 4.8 нашли в утечке кода Anthropic. Тем временем Opus 4.6 деградирует на глазах
Два инцидента за пять дней превратили конец марта в худший месяц для PR Anthropic. npm-пакет Claude Code ушёл в публику с 500 тысячами строк исходного кода, а через два дня ошибка в CMS открыла 3000 неопубликованных документов. Внутри нашлись version strings для Opus 4.7 и Sonnet 4.8, бенчмарки, архитектурные описания и новый тир моделей под названием Capybara.
TL;DR: Из двойной утечки (npm + CMS) стало известно об Opus 4.7, Sonnet 4.8 и четвёртом тире моделей Capybara выше Opus. Одновременно Opus 4.6 деградировал: по данным AMD, reasoning упал на 67%, расходы на Claude Code выросли с $345 до $42 121 в месяц, а reads-per-edit упал с 6.6 до 2.0. Anthropic отвечает уклончиво, но фикс уже есть.
Opus 4.6 сломался: данные AMD
Stella Laurenzo, директор AI-группы в AMD, выложила на GitHub данные из 6852 сессий, 234 760 вызовов инструментов и 17 871 thinking-блоков. Рабочая нагрузка стабильная, команда та же. Менялась только модель. Вывод: «Claude cannot be trusted to perform complex engineering tasks.»
Цифры жёсткие.
Thinking стал мельче. Медианная длина видимого reasoning упала с ~2200 символов в январе до ~600 в марте. Падение на 67-73% в зависимости от недели. 600 символов хватит, чтобы описать стратегию чтения одного файла. Спланировать рефакторинг на 50K строк кодовой базы? Нет.
Reads-per-edit рухнул с 6.6 до 2.0. Раньше Claude читал 6-7 файлов перед правкой: схемы, утилиты, конфиги, зависимости. Теперь два файла. Хуже того, доля правок без единого прочитанного файла выросла с 6.2% до 33.7%. Треть правок вслепую.
Расходы AMD на Claude Code: $345 → $42 121 в месяц. Рост в 122 раза. Модель начала франтически ретраить запросы, генерируя каскады неудачных попыток. API-вызовов стало в 80 раз больше, выходных токенов в 64 раза. Команда AMD масштабировала агентов с 1-3 до 5-10 параллельных, и после деградации агенты начали ломать друг друга. Кластер пришлось остановить.
Stop-hooks взлетели с нуля до ~10 в день. После 8 марта модель начала останавливаться раньше времени, переспрашивать «можно продолжить?», уклоняться от ответственности за ошибки. Laurenzo зафиксировала рост user-interrupts с 0.9 до 11.4 на тысячу вызовов. Плюс модель начала галлюцинировать: придумывать несуществующие commit SHA, названия пакетов и методы API.
The Register вышел с заголовком «AMD's AI director slams Claude Code for becoming dumber and lazier». На GitHub открыто минимум пять Issues с похожими жалобами. Laurenzo написала в треде: «6 месяцев назад Claude стоял особняком по качеству reasoning. Но конкуренты нагоняют. Anthropic далеко не одинока на уровне, который раньше занимал Opus.» Команда AMD перешла на другого провайдера (подробности под NDA).
Что сломали: два тихих изменения
Anthropic не публиковала пост «мы сделали Claude тупее». Но Boris Cherny, глава команды Claude Code, подтвердил на Hacker News: проблема реальна. Два изменения наложились друг на друга.
9 февраля: Adaptive Thinking. Вместе с запуском Opus 4.6 Anthropic ввела адаптивный reasoning: модель сама решает, сколько «думать» на каждом повороте. В теории элегантно: простые вопросы получают короткий reasoning, сложные — глубокий. На практике Cherny подтвердил, что на некоторых поворотах модель выделяла ноль reasoning-токенов. Его слова: «The specific turns where it fabricated had zero reasoning emitted, while turns with deep reasoning were correct.» Ноль thinking = галлюцинации.
3 марта: дефолтный effort снижен с high до medium. Без записи в changelog, без уведомления пользователей. Claude Code, который вы открыли 4 марта, структурно отличался от того, что был 2 марта. То же название, тот же UI, та же цена. Другой мозг.
4–12 марта: thinking redaction. Anthropic постепенно скрыла видимый reasoning из UI Claude Code. К 12 марта пользователи видели только плейсхолдер «модель подумала», но не что именно. Редакция не вызвала деградацию (она уже произошла к концу февраля), но сделала её невидимой. Чтобы заметить регрессию, теперь нужен статистический анализ логов, как у Laurenzo.
Двойная утечка: что вытекло
31 марта, npm-ошибка. Обновление Claude Code ушло в npm с исходниками, которые должны были быть вырезаны при сборке. 500 000 строк кода, 1900 файлов. Anthropic разослала takedown-уведомления, но код уже разъехался по форкам на трёх континентах.
Внутри обнаружились version strings для Opus 4.7 и Sonnet 4.8 в режиме под названием «Undercover Mode». Этот режим явно запрещает упоминание «animal names like Capybara, Tengu» и «unreleased model version numbers (e.g., opus-4-7, sonnet-4-8)» в публичных коммитах. Ирония: именно эти строки стали самыми цитируемыми из утечки.
Там же нашлась система кодовых имён: Fennec = Opus 4.6, Capybara = Mythos (новый тир), Numbat = неизвестная модель в тестировании, Tengu = Claude Code (проект).
1–2 апреля, CMS-мисконфигурация. Ошибка в CMS Anthropic открыла публичный доступ к ~3000 документам: черновики блог-постов, сравнения бенчмарков, описания архитектуры модели Mythos.
Opus 4.7: что известно из утечки
Dense decoder transformer, без MoE. Тот же подход, что в Opus 4.6: все параметры работают на каждый токен. MoE-модели дешевле в инференсе, но Claude делает ставку на стабильность качества. При ценнике $5/$25 за миллион токенов это экономически оправдано.
Контекстное окно: 1M+ токенов. Минимум на уровне 4.6. GPT-4.1 и Gemini 3 тоже поддерживают миллион, снижать нельзя.
Бенчмарки (из черновиков, НЕ верифицированы). Утёкшие документы описывают разрыв с 4.6 как «large margins» в multi-step reasoning и code understanding. Для контекста: Opus 4.6 показывает 80.8% на SWE-bench Verified. Capybara/Mythos, по тем же утечкам, набирает 93.9%. Opus 4.7 по логике между ними. Аналитики оценивают 85–90% на SWE-bench. Но это спекуляция, независимых замеров нет.
Chyros и Autodream. В утёкших CMS-документах мелькают два кодовых имени для новых API-возможностей. Chyros, по фрагментам, связан с agent primitives: делегирование подзадач, управление состоянием между сессиями. Autodream — предположительно автономное планирование для агентских workflow. Деталей мало, но направление совпадает со всем, что Anthropic делает в 2026: managed agents, Claude Code субагенты, платформа Conway.
Ориентировочный срок. Opus 4.5 вышел в ноябре 2025, Opus 4.6 в феврале 2026. При каденции 3–5 месяцев, июнь–август 2026 выглядит реалистично.
Capybara: четвёртый тир выше Opus
До сих пор у Anthropic было три тира: Haiku (быстрый, дешёвый), Sonnet (баланс), Opus (мощный, дорогой). Capybara ломает эту структуру, добавляя четвёртый уровень.
Capybara это тир, не модель. Как «Opus» или «Sonnet». Модель в этом тире называется Claude Mythos. В утёкших черновиках были две версии одного блог-поста: одна с «Mythos», другая с «Capybara». Финальное название не определено.
Capybara v8 галлюцинирует в 29–30% случаев. Это из внутренних метрик в утёкшем коде. Для сравнения: v4 показывала 16.7%. Модель стала мощнее, но менее надёжна. Рядом в коде упоминается «assertiveness counterweight» — механизм, ограничивающий агрессивность рефакторингов. Anthropic сама обнаружила, что чем мощнее модель, тем увереннее она вносит ошибочные правки.
Ценообразование — загадка. Утёкший черновик описывает: «very expensive for us to serve, and will be very expensive for our customers to use.» По прогнозам аналитиков, Capybara обойдётся в $15–25 за миллион входных. Anthropic не подтверждает ни одну цифру.
Зачем нерфить 4.6?
Две гипотезы.
Экономия вычислений. Глубокий thinking стоит дорого. При росте использования на 300% с момента запуска Claude 4 Anthropic могла урезать reasoning depth, чтобы снизить себестоимость. Laurenzo прямо просила ввести отдельный «max thinking tier» для инженеров, которым нужно 20 000 thinking-токенов за запрос, а не 200.
Подготовка к запуску 4.7. Приглушить текущую версию, чтобы следующая выглядела как большой скачок. Anthropic отрицает формулировкой «product change». Но тайминг (деградация с февраля, утечка 4.7 в конце марта) провоцирует вопросы. Плюс компания готовится к IPO в октябре при оценке $380B, по данным Bloomberg. Впечатляющий запуск перед IPO — сильный аргумент для инвесторов.
Ни одна гипотеза не доказана. Обе правдоподобны.
Подводные камни
Бенчмарки из утечки не верифицированы. Ни один процент из слитых документов не подтверждён независимо. Черновики остаются черновиками, финальные результаты могут сильно отличаться. Когда GPT-5 обещал «revolutionary leap», разница с 4.1 оказалась заметной, но не революционной. Помните об этом.
Capybara галлюцинирует чаще, чем предыдущие версии. 29-30% false claims в v8 (было 16.7% в v4). Мощнее ≠ надёжнее. Для production без human-in-the-loop это неприемлемо.
Цена Capybara может убить ROI. При $15–25 за миллион входных токенов Capybara рискует остаться нишевым продуктом для кибербеза и research. Opus 4.6 на $5/$25 уже взвинтил расходы AMD в 122 раза из-за ретраев. Представьте то же самое по $25 за вход.
Controlled rollout = месяцы ожидания. Mythos до сих пор доступен только early access клиентам: Amazon, Apple, Microsoft. Opus 4.7 пойдёт тем же путём.
Альтернативы
GPT-5.4 (OpenAI) — 83% GDPval (на уровне профессионалов в 44 профессиях), 75% OSWorld. Мощная экосистема с ChatGPT и Microsoft. Для structured output и быстрых задач часто стабильнее деградировавшего Opus 4.6.
Gemini 3.1 Pro (Google) — 94.3% на GPQA Diamond, 77.1% на ARC-AGI-2. Мультимодальный, $2/$12 за миллион токенов. Если задачи не требуют максимальной глубины reasoning, Gemini закрывает большинство сценариев за меньше чем половину цены Claude.
Grok 4 (xAI) — 75% SWE-bench Verified, конкурирует с Opus 4.6 в кодинге. Интеграция с X для real-time данных. Для задач с актуальным контекстом интернета — рабочая опция.
Вердикт
Если вы чувствуете деградацию Opus 4.6, данные AMD из 6852 сессий это подтверждают. Причина известна: Adaptive Thinking с нулевым полом + пониженный дефолтный effort. Фикс ниже. Ждать 4.7 (лето 2026) или тестировать GPT-5.4 и Gemini 3.1 Pro для ваших задач прямо сейчас. Замораживать разработку в ожидании новой модели — худшее решение. А Capybara пока виртуальная история без API, цен и даты.
Как починить Opus 4.6 прямо сейчас
- Принудить максимальный effort. В любой сессии Claude Code:
/effort max
Это возвращает reasoning depth до уровня до 3 марта.
- Отключить Adaptive Thinking. Добавьте в
.zshrc/.bashrc:
export CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1
Перезапустите терминал. Boris Cherny подтвердил, что это рекомендуемый workaround до выхода постоянного фикса.
-
Мониторить страницу моделей Anthropic. Новый model string для 4.7 появится здесь первым.
-
Зафиксировать model string в production. Используйте
claude-opus-4-6, не aliasclaude-latest. Переход на 4.7 потом займёт одну строку. -
Следить за GitHub Issues Claude Code. Там раньше всего видно, когда что-то ломается или чинится.