Qwen 3.7 Max — модель, которая 35 часов сама оптимизировала GPU-кернел на неизвестном железе. И стоит в 4 раза дешевле Opus

Alibaba выкатила Qwen 3.7 Max почти молча: блог появился 20 мая, API заработал днём раньше, а официальный пресс-релиз с Alibaba Cloud Summit прилетел только 25-го. Никакого хайпа уровня Anthropic-кейноута. Только сухой заголовок «The Agent Frontier» и одна цифра, после которой всё остальное становится неинтересным: 35 часов автономной работы, 1158 tool calls, 10× ускорение GPU-кернела на железе, которое модель никогда раньше не видела.
TL;DR: Qwen 3.7 Max — флагман Alibaba, заточенный под агентов. 1M контекст, $2.50/$7.50 за миллион токенов (в 4 раза дешевле Opus 4.7), нативная поддержка Anthropic Messages API. Drop-in замена в Claude Code меняется одной env-переменной. Цена: впервые в истории Qwen Max-вариант не вышел в open-source, плюс модель в 4× многословнее средней — реальный счёт раздувается.
35 часов, которые сломали обычное представление об агентах
Кейс из официального блога: Qwen 3.7 Max посадили на ECS-машину с T-Head ZW-M890 PPU — это китайский AI-чип, которого нет ни в одном датасете обучения. Никакой документации. Никаких примеров кода. Только описание задачи, референсная имплементация SGLang Extend Attention на Triton и evaluation-скрипт.
Что произошло за 35 часов:
- Часы 0-2: Split-KV parallelism. С 0.33× до 2.58×
- Часы 2-3: Снятие overhead. 5.37×
- Часы 3-15: Workload-adaptive tuning. 6.85×
- Часы 15-25: Register и batching. 8.50×
- Часы 25-35: Полный редизайн кернела. 10.0×
432 запуска бенчмарка. 1158 вызовов инструментов. Модель сама диагностировала ошибки компиляции, чинила корректность, профилировала ботлнеки и переписывала архитектуру.
Что сделали остальные топ-модели на том же железе и в тех же условиях:
- GLM 5.1 — 7.3×
- Kimi K2.6 — 5.0×
- DeepSeek V4 Pro — 3.3×
Все три на каком-то этапе сами решали закончить — упирались в потолок и сдавались. Qwen всё ещё находил улучшения после 30-го часа. Это и есть «agent era thing» — не слайд из презентации, а реальный заход в задачу, которую человек-инженер сделал бы за неделю.
Бенчмарки — где Qwen берёт верх, где проигрывает
Цифры из официального блога, сравнение с топ-моделями:
Coding Agent (где Qwen лидирует):
- Terminal Bench 2.0-Terminus — Qwen 69.7, DeepSeek V4-Pro Max 67.9, Opus-4.6 Max 65.4
- SWE-Pro — Qwen 60.6, K2.6 Thinking 59.5, DS-V4-Pro Max 59.0
- SWE-Multilingual — Qwen 78.3, Opus-4.6 Max 77.5
- SciCode — Qwen 53.5, K2.6 Thinking 52.2
General Agent (где разрыв ещё больше):
- MCP-Mark — Qwen 60.8, GLM-5.1 57.5, Opus-4.6 Max 56.7
- MCP-Atlas — Qwen 76.4, Opus-4.6 Max 75.8
- Skillsbench — Qwen 59.2, K2.6 Thinking 56.2
Где Qwen проигрывает:
- SWE-Verified — Qwen 80.4, Opus-4.6 Max 80.8 (на копейку, но всё же)
- Apex Math Reasoning — тут Qwen 44.5 против Opus-4.6 Max 34.5, разрыв в 10 пунктов
- Kernel Bench L3 — Qwen 1.98× median, Opus-4.6 Max 2.63×
На Artificial Analysis Intelligence Index Qwen набирает 56.6. Это #5 глобально и #1 среди китайских. Впереди GPT-5.5 (60.2), Opus 4.7 (57.3) и Gemini 3.1 Pro Preview (57.2). Зазор маленький, цена в разы меньше.
Drop-in замена Claude Code — одной env-переменной
Самая жирная фича для разработчика: Qwen 3.7 Max нативно говорит по Anthropic Messages протоколу. Не через прослойку с edge-кейсами на tool-use и streaming, а на уровне endpoint'а.
Что это значит на практике — берёшь свой Claude Code и переключаешь на Qwen за 4 строки:
npm install -g @anthropic-ai/claude-code export ANTHROPIC_MODEL="qwen3.7-max" export ANTHROPIC_SMALL_FAST_MODEL="qwen3.7-max" export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic export ANTHROPIC_AUTH_TOKEN=<your_api_key> claude
Всё. UI, плагины, скиллы, кастомные команды — работает как с Opus. Это первый китайский флагман, который реально drop-in. Все остальные «Anthropic-compatible» модели на рынке — шим с подводными камнями на tool-use схемах.
Поддержка preserve_thinking — мысли из предыдущих ходов сохраняются в messages. Алибаба явно пишет: для агентных задач включать обязательно.
Цены: дёшево на бумаге, дорого в реальности
Прайс через Alibaba Cloud Model Studio:
- Input — $2.50 за 1M токенов
- Output — $7.50 за 1M токенов
- Cached input — $0.25 за 1M (90% скидка)
- Web search — $10 за 1000 запросов (отдельный счёт)
- Code interpreter — пока бесплатно
Для сравнения, флагманы:
- Claude Opus 4.7 — $5/$25 за 1M
- GPT-5.5 — $1.25/$10 за 1M (входной токен дешевле, выходной сопоставим)
- DeepSeek V4 Pro — $0.30/$1.20
Кажется, что Qwen бьёт Opus в 3-4 раза. Но есть нюанс.
Подводные камни
Каждая фича Qwen 3.7 Max имеет тёмную сторону, про которую почти никто не пишет.
1. Налог на многословие — 4× инфляция счёта. Artificial Analysis замерили: на одном и том же оценочном прогоне Qwen 3.7 Max генерирует 97 миллионов output-токенов против медианных 24 миллионов у моделей того же тира. Extended thinking включён по умолчанию, флага «выключить» нет. На длинной агентной сессии заявленные $7.50 за миллион превращаются в реальные $30 — и ты уже в зоне Opus 4.7. Лечится: жёстко капать max_tokens (2048-4096 на ход вместо 65K по умолчанию) и активно использовать prompt caching.
2. Поле reasoning_content оплачивается как output, даже если ты его выбрасываешь. Если в твоём пайплайне ты дропаешь thinking из финального ответа клиенту — деньги за него ты всё равно заплатил. Артефакт API-дизайна: токены не трекаются отдельно. Лечится: тримминг до отправки в biller, мониторинг billing-логов Alibaba Cloud.
3. Tool use менее надёжен, чем у Opus 4.7 на длинных цепочках. На задачах с 15+ tool-вызовами и хрупкими JSON-схемами Qwen чаще ломает loop одним невалидным вызовом. На SWE-Verified он отстаёт от Opus на 0.4 пункта — но это среднее, а на хвосте распределения разрыв заметнее. Лечится: hybrid routing — длинные планировочные ходы Qwen'у, критичные тулы Opus'у.
4. Закрытые веса — впервые в истории Qwen Max. Раньше Алибаба выкладывала всё, включая Max-варианты. Qwen 3.7 Max — только API. Хостинг в Китае. Для EU/US-enterprise с compliance-требованиями это блокер. Для опен-сорс-комьюнити — большой шаг назад. Из VentureBeat: «historically, Alibaba's Qwen has been a hero to the open-source community». Не теперь.
5. Никакого multimodal. Только текст. Не парсит скриншоты, не читает диаграммы, не понимает PDF с картинками. Для современных enterprise-воркфлоу — серьёзный пробел. На Q4 2026 обещают Vision-версию, но это roadmap, а не релиз.
6. Цензура на чувствительных темах. Hacker News-комьюнити уже отметило: Qwen-модели пост-обучены отказываться обсуждать Тяньаньмэнь и подобное. На код это не влияет, но в RAG-системах с произвольным пользовательским вводом — внезапный отказ возможен.
7. Латентность extended thinking. Каждый ответ идёт через deliberation. Time-to-first-answer-token измеряется в десятках секунд на сложных задачах. Для интерактивного UI — раздражает. Скорость генерации после thinking — 195 t/s, это нормально, но первая задержка съедает UX.
Альтернативы
Claude Opus 4.7 — главный конкурент. $5/$25 за 1M, frontier-лидер, на 0.7 пункта выше в Intelligence Index. Кодит надёжнее на хрупких tool-схемах. Дороже в 3-4 раза. Брать когда long-horizon agent с критичными вызовами и компания платит без вопросов.
GLM 5.1 — open-source из Китая, MIT-лицензия. 7.3× на том же кернел-бенчмарке (против 10× у Qwen), но веса можно качнуть. $5.80 у вендоров. Брать когда нужно self-hosted или есть compliance-блокер на проприетарные API.
DeepSeek V4 Pro — открытые веса под MIT, $0.30/$1.20 (после permanent price cut 24 мая). 3.3× на кернел-бенче — заметно слабее, но дёшево как грязь. Брать на простые длинные сессии, где экономика важнее предельной интеллектуальности.
Kimi K2.6 Thinking — Moonshot, тоже open-source. 5× на кернеле, дёшево. SWE-Pro 59.5 (близко к Qwen 60.6). Брать когда нужны открытые веса и приличный coding-агент.
Вердикт
Если ты гоняешь Claude Code на Opus и платишь $200-500 в месяц за токены — попробуй переключить на Qwen 3.7 Max на одной не-критической репе на неделю. С max_tokens=4096 и cached input ты увидишь -60-70% по счёту при сравнимом качестве. Это реальные деньги. Если у тебя enterprise с compliance-блокером на Китай или нужны открытые веса — даже не смотри в эту сторону, бери GLM 5.1 или DeepSeek V4 Pro. Если строишь агент с 20+ tool-вызовами и одна ошибка ломает loop — остаёшься на Opus 4.7, Qwen ещё не дотянул до его надёжности на хвосте.
Главное, что Qwen 3.7 Max доказал: drop-in замена в Claude Code больше не миф. Один env-var — и Anthropic-протокол говорит с китайским флагманом без шимов. Это новая реальность для рынка кодинг-агентов, и Anthropic с OpenAI это услышат не в финансовом отчёте, а в дашбордах оттока в ближайший квартал.
Как попробовать
- Получи API-ключ на Alibaba Cloud Model Studio. Регистрация через международный домен
dashscope-intl.aliyuncs.com(для не-китайских аккаунтов). - Установи Claude Code:
npm install -g @anthropic-ai/claude-code. - Прописай env-переменные:
export ANTHROPIC_MODEL="qwen3.7-max" export ANTHROPIC_BASE_URL="https://dashscope-intl.aliyuncs.com/apps/anthropic" export ANTHROPIC_AUTH_TOKEN="<your_key>"
- Жёстко закапай
max_tokensчерез настройки или per-call. Без этого extended thinking сожрёт бюджет. - Запусти
claudeи кинь модели задачу средней сложности — рефакторинг модуля, миграцию схемы, написание тестов. Сравни счёт с тем, что отдал бы Opus за то же.
Для быстрого теста без своего ключа — chat.qwen.ai, выбери Qwen3.7-Max-Preview в пикере. Бесплатно, без агентного контура, но мозги те же. Официальный блог Alibaba даёт код-примеры под все основные harness'ы — Claude Code, OpenClaw, Qwen Code.