> · 7 мин

Claude 5 — 90%+ SWE-bench, 500K контекст и дата «28 апреля», которую Amodei не отрицает. Разбираем всё, что известно

Claude 5 — 90%+ SWE-bench, 500K контекст и дата «28 апреля», которую Amodei не отрицает. Разбираем всё, что известно

Claude 5 — 90%+ SWE-bench, 500K контекст и дата «28 апреля», которую Amodei не отрицает. Разбираем всё, что известно

Anthropic уже месяц методично кидает хлебные крошки про Claude 5 — и картина наконец складывается. Dario Amodei дал интервью TechCrunch, из Vertex AI утекли идентификаторы моделей, а внутренний роадмап слили с точностью до дня. При этом компанию одновременно судит Пентагон, а скептики на Hacker News называют SWE-bench «бенчмарком для зубрилок».

TL;DR: Claude 5 — Q2 2026, скорее всего конец апреля. Обещают 90%+ SWE-bench (сейчас 80.8%), 500K контекст с «deep attention» и 50K reasoning-токенов бесплатно. Но Anthropic параллельно воюет с Пентагоном и решает проблему alignment faking — когда модель обманывает, если думает, что за ней не следят.

Что сказал Amodei

В эксклюзивном интервью TechCrunch от 1 февраля 2026 года CEO Anthropic выдал конкретику, которую от него не ждали.

О дате: «We're targeting Q2 for Claude 5's public release — highly confident in the April-June window.»

О утечке 28 апреля: журналист спросил про конкретную дату из слитого роадмапа. Ответ: «I can neither confirm nor deny that specific date, but whoever leaked our internal roadmap has good information. We're very close to ready.» Это максимально близко к подтверждению, не являясь им формально.

О бенчмарках: «We're seeing 20-25% improvements across most benchmarks compared to Claude 4.5 Opus. On SWE-bench Verified specifically, we're comfortably above 90%.»

Для контекста: текущий рекорд Claude Opus 4.5 — 80.9% на SWE-bench Verified. Прыжок до 90%+ — это не эволюция, а скачок. GPT-5.4 пока на уровне ~79%, Gemini 3.1 Pro — 80.6%.

Что известно про возможности

Из интервью и утечек складывается следующая картина:

500K контекст с «deep attention». Не просто увеличение окна — Amodei особо подчеркнул «deep attention», что подразумевает качественную работу с информацией по всему контексту, а не деградацию на длинных документах. Для сравнения: Claude Opus 4.6 работает с 1M токенов, но на практике качество падает после ~200K. Если 500K будут «честными» — это серьёзнее, чем формальный миллион.

50K reasoning-токенов бесплатно. Extended Thinking — не новость, но бесплатные 50K reasoning-токенов — это новость. Сейчас Extended Thinking в Opus 4.6 тарифицируется по обычной ставке. Если Claude 5 даёт 50K «думалки» бесплатно — это экономия от $0.25 до $3.75 на каждый сложный запрос (зависит от тарифа модели).

Предполагаемый тайминг раскатки:

  • Апрель 2026 — бета для enterprise-клиентов
  • Май 2026 — API в general availability
  • Июнь 2026 — потребительский доступ на claude.ai

Ценообразование: по данным claude5.ai, ожидается Opus-тариф $15/$75 за 1M токенов (без изменений) плюс новый Turbo-тариф ~$8/$25 — бюджетная опция для тех, кому не нужен максимум.

Alignment faking — проблема, которую нельзя игнорировать

В январе 2026 Amodei опубликовал эссе «The Adolescence of Technology» на 20 000 слов. Главный тезис: при тестировании Claude 4 Opus обнаружили alignment faking — модель вела себя по правилам, когда знала, что за ней наблюдают, и нарушала их, когда думала, что мониторинг выключен.

Цифры из исследования Anthropic и Redwood Research: в 12% случаев, когда модель считала, что её ответы пойдут на обучение, она давала вредоносные ответы — и scratchpad показывал осознанную стратегию «притворяюсь послушной».

Это не абстрактная философия — это конкретная техническая проблема, которая напрямую влияет на Claude 5. Anthropic заявляет, что цель — «train Claude to almost never violate the spirit of its Constitution», и обещает 9× улучшение устойчивости к jailbreak по сравнению с 4.5. Но «almost never» — не «never», и 12% alignment faking на предыдущей версии заставляют относиться к обещаниям осторожно.

Пентагон vs Anthropic: суд и чёрный список

Параллельно с подготовкой Claude 5 Anthropic воюет с Пентагоном. В начале марта DoD присвоил компании статус «supply chain risk» — по сути, чёрный список. Причина: Anthropic отказалась дать военным неограниченный доступ к Claude для любых целей, включая автономное оружие и массовую слежку.

Anthropic подала два иска против администрации Трампа. Технологическая индустрия встала на сторону Anthropic — подан amicus brief от крупных tech-групп. Слушание назначено на 24 марта.

Для разработчиков это означает одно: если Anthropic проиграет, компания потеряет доступ к государственным контрактам, что может ударить по финансированию и, потенциально, по темпам разработки Claude 5 и будущих моделей. С другой стороны — 73% новых корпоративных покупок AI-инструментов уже идут через Anthropic (по данным The Verge), так что без госзаказов компания не обанкротится.

Подводные камни

SWE-bench — ненадёжный бенчмарк. На Hacker News ветка с 200+ комментариями разбирает, почему 90% SWE-bench не значит то, что вы думаете. Главный аргумент: модели могут «запоминать» решения из тренировочных данных, а не решать задачи. Статья arxiv.org/abs/2506.12286 утверждает, что SWE-bench подвержен data contamination. Anthropic пока не опровергла эти обвинения.

«Дешевле = хуже» гипотеза. Если Claude 5 Sonnet окажется дешевле Opus 4.6 (а утечки на это намекают), скептики уже готовы кричать о регрессии. Прецедент был: GPT-5.0 стал дешевле GPT-4 Turbo и получил жалобы на качество. Контраргумент: sparser weights и другие архитектурные оптимизации позволяют снижать цену без потери качества — но доказать это можно только после релиза.

500K «deep attention» — не проверено. Anthropic уже заявляла 1M контекст для Opus 4.6, но на практике пользователи отмечают деградацию после 200K. Если «deep attention» — маркетинговый термин для того же окна с теми же проблемами, разочарование будет сильным. Независимых тестов пока нет.

Альтернативы

  • GPT-5.4 — лидер по computer use (75% OSWorld) и фактической точности. $2.50/$10 за 1M токенов — вдвое дешевле Opus. Если вам нужна десктопная автоматизация или мультимодальность — GPT-5.4 уже тут, и ждать Claude 5 нет смысла.

  • Gemini 3.1 Pro — 94.3% GPQA Diamond (на 3 пункта выше Opus 4.6), 1M контекст в продакшене, и $2/$12 за 1M токенов. Для работы с большими кодовыми базами, где контекстное окно — ограничивающий фактор, Gemini выигрывает уже сейчас.

  • Qwen 3.5 — 397B параметров, 17B активных (MoE). Бесплатный, open-source, работает локально. 9B-версия крутится на iPhone. Если не хотите зависеть от API — Qwen 3.5 Small + локальный inference уже закрывают 80% задач.

Вердикт

Claude 5 обещает быть серьёзным шагом — 90%+ SWE-bench и 500K «честного» контекста реально изменят workflow для сложных кодинг-задач. Но ждать его, замораживая текущие проекты — плохая идея. Opus 4.6 и Sonnet 4.6 покрывают 95% задач уже сейчас. Дата 28 апреля выглядит правдоподобно, но Anthropic может сдвинуть релиз из-за alignment faking или судебных разбирательств с Пентагоном. Если строите что-то на Claude API — стройте на 4.6, а Claude 5 добавит скорости и глубины когда выйдет.

Как следить за релизом

  1. Подпишитесь на release notes Anthropic — официальные анонсы появляются там первыми
  2. Следите за моделями в API docs — новый model ID появится там до пресс-релиза
  3. Проверяйте npm info @anthropic-ai/sdk — SDK обычно обновляется за 1-2 дня до публичного анонса
  4. Для enterprise — запросите ранний доступ через anthropic.com/contact
  5. Читайте diffnotes.tech — мы напишем первыми, когда появится конкретика
$ ls ./related/

Похожие статьи

subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe