Claude Opus 4.8 — Anthropic переписал Bun на Rust за 11 дней. И ещё четыре фичи, которые меняют день разработчика
Claude Opus 4.8 — Anthropic переписал Bun на Rust за 11 дней. И ещё четыре фичи, которые меняют день разработчика
Anthropic только что выпустил Claude Opus 4.8. От Opus 4.7 прошло шесть недель. Для Anthropic это уже привычный ритм минорных релизов уровня Sonnet'ов 2025-го. Цена та же, $5/$25 за миллион токенов. Вместе с моделью прилетели три фичи, которые объясняют, зачем нужен ещё один минорный бамп.
TL;DR: Opus 4.8 — это осторожный апгрейд по интеллекту, и интересен он больше тем, что вокруг. Claude Code получил dynamic workflows (Bun переписан на Rust за 11 дней силами агента), fast mode подешевел втрое, в claude.ai появился слайдер effort'a, а Messages API теперь умеет переписывать system-prompt прямо в середине разговора без сброса кэша.
Что внутри: модель
По бенчмаркам Opus 4.8 обгоняет Opus 4.7 по всем категориям, но дельта скромная. Самый заметный прыжок касается computer-use:
- Online-Mind2Web: 84%, выше Opus 4.7 и GPT-5.5. Лучший browser-agent на рынке сегодня
- CursorBench: выше Opus 4.7 на всех уровнях effort'a, при этом меньше tool calls на ту же задачу
- Genie у Databricks: мультимодальный reasoning по PDF и диаграммам на 61% дешевле в токенах, чем у Opus 4.7
- Legal Agent Benchmark от Harvey: первая модель, перешагнувшая 10% на all-pass standard
Cognition (Devin) отдельно отмечают, что Opus 4.8 чинит две раздражающие проблемы Opus 4.7: модель больше не строчит комментарии на каждую строку и не залипает на лишних tool calls.
По умолчанию модель работает на high effort вместо medium, как было в 4.7. Anthropic пишут, что high у 4.8 тратит примерно столько же токенов, сколько default у 4.7, но даёт лучший результат. Можно явно поднять до xhigh ("extra" в UI) или max для тяжёлых асинхронных задач.
Dynamic workflows: пример с Bun важнее модели
Главная новость дня для разработчиков касается не самой модели Opus 4.8. Это dynamic workflows в Claude Code. Anthropic называют их research preview, доступны на Max, Team и Enterprise.
Идея простая. Одна команда → Claude составляет план → запускает сотни параллельных subagent'ов → проверяет результаты каждого → итерирует до сходимости → выдаёт PR. Прогресс сохраняется, прерванная задача продолжается с того же места.
Главный пример из релиза: порт Bun из Zig в Rust. 750 000 строк Rust, 99.8% существующих тестов проходят, 11 дней от первого коммита до merge. Anthropic в посте формулирует это так: "work you'd normally plan in quarters now finishes in days".
Запустить можно двумя способами:
# Способ 1: прямо в чате "Create a workflow to migrate all eslint configs to flat config across the monorepo" # Способ 2: через эффорт /ultracode # Это выставит xhigh и автоматически решит, нужен ли workflow
Anthropic честно предупреждают: dynamic workflows жрут токены кратно больше обычной сессии. Поэтому первый запуск всегда требует подтверждения, и стоит начать с ограниченной по scope задачи, чтобы прикинуть бюджет.
Реальные сценарии, под которые это сделано:
- Codebase-wide migration (Bun, eslint configs, RxJS на Signals)
- Security audit всей кодовой базы с проверкой каждого endpoint
- Поиск багов по всему сервису с воспроизведением и фиксом
- Стресс-тест архитектурного плана до того, как начнёшь его делать
Fast mode подешевел втрое
Opus 4.7 fast mode стоил неприличных денег. Opus 4.8 fast mode стоит $10 за миллион input и $50 за миллион output. Это в три раза дешевле прошлого фасткой и работает на 2.5× быстрее регулярного режима.
Регулярный режим:
- Input: $5/M
- Output: $25/M
Fast mode:
- Input: $10/M
- Output: $50/M
Fast всё ещё дороже обычного режима в 2 раза, так что включать его поголовно смысла нет. Но для интерактивного кодинга, где важна латентность ответа, разница в скорости заметна сразу.
Effort control теперь в UI
То, что раньше было только параметром API (effort: low | medium | high | xhigh | max), теперь живёт рядом с селектором модели в claude.ai и Cowork. Слайдер доступен на всех планах, включая бесплатный.
Логика простая. На низком effort'е Claude думает меньше, отвечает быстрее, медленнее съедает rate limits. На высоком думает дольше и тщательнее. Раньше Pro-юзеры жаловались, что Opus 4.6 на default-настройках выжирал квоту за 2-3 тяжёлые сессии. Теперь у юзера есть рычаг.
Messages API: system entries внутри messages
Маленькая, но злая фича для тех, кто пишет агентов. Раньше, чтобы обновить инструкции Claude посреди задачи, приходилось либо пересоздавать сессию (потеря prompt cache), либо переписывать через user-turn (загрязнение истории). Теперь API принимает entries с role: "system" прямо внутри массива messages.
messages = [ {"role": "system", "content": "You are a refactoring agent."}, {"role": "user", "content": "Find all uses of moment.js"}, {"role": "assistant", "content": "Found 47 imports..."}, # Меняем правила игры посреди разговора без сброса кэша: {"role": "system", "content": "Now you also have permission to delete files."}, {"role": "user", "content": "Now replace them with date-fns and remove moment."}, ]
Это нужно ровно тем, кто строит долгоиграющих агентов: динамически менять permissions, обновлять token budgets, добавлять context о новой среде, не теряя cache hit и не путая модель user-сообщениями, которые на самом деле не от user'a.
Mythos идёт следом
Anthropic тонким намёком пишут: "we plan to release a new class of model with even higher intelligence than Opus". Это Claude Mythos, модель класса выше Opus. Сейчас доступна узкому кругу в рамках Project Glasswing для cybersecurity работы. Из утечек Vellum и DataCamp известно, что Mythos Preview набирает 93.9% на SWE-bench Verified и 77.8% на SWE-bench Pro (для сравнения, Opus 4.7 даёт 64.3%).
Mythos придерживают, потому что модели такого уровня требуют более серьёзных cyber-safeguards. "Coming weeks", формулировка размытая, но это первый официальный таймлайн.
Подводные камни
Новый tokenizer Opus 4.7+ ест больше токенов. По данным World of AI и Geeky Gadgets, на ~30% больше на той же задаче. Цена за токен не изменилась, но реальный счёт за миллион "полезных" токенов вырос. Прежде чем мигрировать прод-нагрузку, прогоните свои репрезентативные задачи и сравните счёт.
Default = high effort = больше денег. Opus 4.7 на medium и Opus 4.8 на high якобы тратят примерно одинаково. Звучит хорошо, пока не вспомнишь, что "примерно одинаково" у Anthropic исторически означает "в их benchmark suite". На реальных репозиториях у разработчиков на Medium часто были жалобы про /effort medium, который "ест квоту вдвое быстрее Opus 4.5". С Opus 4.8 ситуация скорее ухудшится, чем улучшится.
Dynamic workflows доступны только на Max/Team/Enterprise. Pro-юзеры за $20 пролетают. Если хочется попробовать workflows и платить меньше $100/мес, придётся идти через API на Bedrock или Vertex и собирать harness руками.
Workflows жгут токены тоннами. Anthropic явно пишут: "substantially more tokens than a typical Claude Code session". Цифра не названа, но по аналогии с Devin'ом один workflow-run на средний проект может стоить десятки долларов. Подтверждение перед первым запуском не зря добавили.
Fast mode всё ещё 2× к регулярной цене. Включать его на всё подряд = удваивать счёт ради латентности. Полезен для интерактива. Для batch-job'ов и для агентов, которым всё равно ждать tool calls, смысла нет.
Альтернативы
GPT-5.5 от OpenAI стоит $5/$30 за миллион (output дороже на 20%, чем у Opus). Уступает Opus на SWE-bench Pro (58.6% против 64.3%), но обгоняет на Terminal-Bench 2.0 (82.7% против 69.4%) и тратит на 72% меньше output-токенов на ту же задачу. Для shell-heavy DevOps пайплайнов и долгого computer-use часто выходит дешевле в реальном счёте.
Cursor Composer 2.5 стоит $0.50/$2.50 за стандартный режим, $3.00/$15 за fast. На порядок дешевле Opus 4.8 на input. Не флагман по интеллекту, зато прекрасно встроен в Cursor и обучен на специфике редактора. Подходит для повседневной работы, но не для архитектурных задач.
DeepSeek V4 Pro стоит $1.74/$3.48, open weights под MIT. SWE-bench Pro 55.4%, отстаёт от Opus 4.8 примерно на 10 пунктов, при этом в три раза дешевле и можно хостить self-hosted. Если есть GPU-кластер и риск-аппетит, серьёзный конкурент.
Gemini 3.5 Flash стоит $1.50/$9. Не для тяжёлого кодинга, но 4× быстрее по tokens/sec у Google. Хороший выбор для агентов, где важна реакция, а не Opus-tier интеллект.
Вердикт
Если вы уже на Opus 4.7 в Claude Code, обновляйтесь сегодня. Цена та же, поведение лучше, меньше commentary-spam, меньше лишних tool calls. Причин оставаться на 4.7 нет.
Если вы на Max/Team, попробуйте dynamic workflows на одной задаче, которую раньше откладывали как "слишком большую". Миграция конфигов, рефакторинг всего использования lodash, security audit. Бюджет ставьте ограниченный, прогноз по токенам берите с запасом 3×.
Если вы Pro-юзер за $20, workflows вам недоступны, и за этим придётся идти на платный тариф или через API. Сама модель доступна, но без workflows главная фишка релиза проходит мимо.
Если строите production-агентов в бюджетной зоне, посмотрите на DeepSeek V4 Pro и Composer 2.5 до решения. Opus 4.8 действительно лучший по качеству среди general-purpose моделей, но не по цене за полезный токен на конкретной задаче.
Mythos подождите. Недели три-четыре, не больше.
Как попробовать
- Обновите Claude Code:
npm install -g @anthropic-ai/claude-codeилиclaude update. Минимум v2.1.150. - Через API: в запросах используйте
model: "claude-opus-4-8". Идентификатор уже активен на platform.claude.com. - На claude.ai: новый dropdown с effort'ом появится рядом с селектором модели. Уровни: Low / Medium / High / Extra / Max.
- Включить dynamic workflows: напишите в Claude Code
"Create a workflow to [your task]"или используйте/ultracodeдля авто-режима. Доступно только на Max/Team/Enterprise. - Первые задачи под workflow: миграция тестов с Jest на Vitest. Замена
axiosнаfetchпо репозиторию. Аудит безопасности всех публичных API endpoints. Начинайте с малого, Anthropic советуют ограничить scope на первом запуске.
Системная карточка модели лежит на anthropic.com/claude-opus-4-8-system-card. Там полная таблица бенчмарков и красные флаги по safety, если интересно копать глубже.