> · 9 мин

Qwen 3.7 Max — модель, которая 35 часов сама оптимизировала GPU-кернел на неизвестном железе. И стоит в 4 раза дешевле Opus

Qwen 3.7 Max — модель, которая 35 часов сама оптимизировала GPU-кернел на неизвестном железе. И стоит в 4 раза дешевле Opus

Qwen 3.7 Max

Alibaba выкатила Qwen 3.7 Max почти молча: блог появился 20 мая, API заработал днём раньше, а официальный пресс-релиз с Alibaba Cloud Summit прилетел только 25-го. Никакого хайпа уровня Anthropic-кейноута. Только сухой заголовок «The Agent Frontier» и одна цифра, после которой всё остальное становится неинтересным: 35 часов автономной работы, 1158 tool calls, 10× ускорение GPU-кернела на железе, которое модель никогда раньше не видела.

TL;DR: Qwen 3.7 Max — флагман Alibaba, заточенный под агентов. 1M контекст, $2.50/$7.50 за миллион токенов (в 4 раза дешевле Opus 4.7), нативная поддержка Anthropic Messages API. Drop-in замена в Claude Code меняется одной env-переменной. Цена: впервые в истории Qwen Max-вариант не вышел в open-source, плюс модель в 4× многословнее средней — реальный счёт раздувается.

35 часов, которые сломали обычное представление об агентах

Кейс из официального блога: Qwen 3.7 Max посадили на ECS-машину с T-Head ZW-M890 PPU — это китайский AI-чип, которого нет ни в одном датасете обучения. Никакой документации. Никаких примеров кода. Только описание задачи, референсная имплементация SGLang Extend Attention на Triton и evaluation-скрипт.

Что произошло за 35 часов:

  • Часы 0-2: Split-KV parallelism. С 0.33× до 2.58×
  • Часы 2-3: Снятие overhead. 5.37×
  • Часы 3-15: Workload-adaptive tuning. 6.85×
  • Часы 15-25: Register и batching. 8.50×
  • Часы 25-35: Полный редизайн кернела. 10.0×

432 запуска бенчмарка. 1158 вызовов инструментов. Модель сама диагностировала ошибки компиляции, чинила корректность, профилировала ботлнеки и переписывала архитектуру.

Что сделали остальные топ-модели на том же железе и в тех же условиях:

  • GLM 5.1 — 7.3×
  • Kimi K2.6 — 5.0×
  • DeepSeek V4 Pro — 3.3×

Все три на каком-то этапе сами решали закончить — упирались в потолок и сдавались. Qwen всё ещё находил улучшения после 30-го часа. Это и есть «agent era thing» — не слайд из презентации, а реальный заход в задачу, которую человек-инженер сделал бы за неделю.

Бенчмарки — где Qwen берёт верх, где проигрывает

Цифры из официального блога, сравнение с топ-моделями:

Coding Agent (где Qwen лидирует):

  • Terminal Bench 2.0-Terminus — Qwen 69.7, DeepSeek V4-Pro Max 67.9, Opus-4.6 Max 65.4
  • SWE-Pro — Qwen 60.6, K2.6 Thinking 59.5, DS-V4-Pro Max 59.0
  • SWE-Multilingual — Qwen 78.3, Opus-4.6 Max 77.5
  • SciCode — Qwen 53.5, K2.6 Thinking 52.2

General Agent (где разрыв ещё больше):

  • MCP-Mark — Qwen 60.8, GLM-5.1 57.5, Opus-4.6 Max 56.7
  • MCP-Atlas — Qwen 76.4, Opus-4.6 Max 75.8
  • Skillsbench — Qwen 59.2, K2.6 Thinking 56.2

Где Qwen проигрывает:

  • SWE-Verified — Qwen 80.4, Opus-4.6 Max 80.8 (на копейку, но всё же)
  • Apex Math Reasoning — тут Qwen 44.5 против Opus-4.6 Max 34.5, разрыв в 10 пунктов
  • Kernel Bench L3 — Qwen 1.98× median, Opus-4.6 Max 2.63×

На Artificial Analysis Intelligence Index Qwen набирает 56.6. Это #5 глобально и #1 среди китайских. Впереди GPT-5.5 (60.2), Opus 4.7 (57.3) и Gemini 3.1 Pro Preview (57.2). Зазор маленький, цена в разы меньше.

Drop-in замена Claude Code — одной env-переменной

Самая жирная фича для разработчика: Qwen 3.7 Max нативно говорит по Anthropic Messages протоколу. Не через прослойку с edge-кейсами на tool-use и streaming, а на уровне endpoint'а.

Что это значит на практике — берёшь свой Claude Code и переключаешь на Qwen за 4 строки:

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.7-max"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.7-max"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>

claude

Всё. UI, плагины, скиллы, кастомные команды — работает как с Opus. Это первый китайский флагман, который реально drop-in. Все остальные «Anthropic-compatible» модели на рынке — шим с подводными камнями на tool-use схемах.

Поддержка preserve_thinking — мысли из предыдущих ходов сохраняются в messages. Алибаба явно пишет: для агентных задач включать обязательно.

Цены: дёшево на бумаге, дорого в реальности

Прайс через Alibaba Cloud Model Studio:

  • Input — $2.50 за 1M токенов
  • Output — $7.50 за 1M токенов
  • Cached input — $0.25 за 1M (90% скидка)
  • Web search — $10 за 1000 запросов (отдельный счёт)
  • Code interpreter — пока бесплатно

Для сравнения, флагманы:

  • Claude Opus 4.7 — $5/$25 за 1M
  • GPT-5.5 — $1.25/$10 за 1M (входной токен дешевле, выходной сопоставим)
  • DeepSeek V4 Pro — $0.30/$1.20

Кажется, что Qwen бьёт Opus в 3-4 раза. Но есть нюанс.

Подводные камни

Каждая фича Qwen 3.7 Max имеет тёмную сторону, про которую почти никто не пишет.

1. Налог на многословие — 4× инфляция счёта. Artificial Analysis замерили: на одном и том же оценочном прогоне Qwen 3.7 Max генерирует 97 миллионов output-токенов против медианных 24 миллионов у моделей того же тира. Extended thinking включён по умолчанию, флага «выключить» нет. На длинной агентной сессии заявленные $7.50 за миллион превращаются в реальные $30 — и ты уже в зоне Opus 4.7. Лечится: жёстко капать max_tokens (2048-4096 на ход вместо 65K по умолчанию) и активно использовать prompt caching.

2. Поле reasoning_content оплачивается как output, даже если ты его выбрасываешь. Если в твоём пайплайне ты дропаешь thinking из финального ответа клиенту — деньги за него ты всё равно заплатил. Артефакт API-дизайна: токены не трекаются отдельно. Лечится: тримминг до отправки в biller, мониторинг billing-логов Alibaba Cloud.

3. Tool use менее надёжен, чем у Opus 4.7 на длинных цепочках. На задачах с 15+ tool-вызовами и хрупкими JSON-схемами Qwen чаще ломает loop одним невалидным вызовом. На SWE-Verified он отстаёт от Opus на 0.4 пункта — но это среднее, а на хвосте распределения разрыв заметнее. Лечится: hybrid routing — длинные планировочные ходы Qwen'у, критичные тулы Opus'у.

4. Закрытые веса — впервые в истории Qwen Max. Раньше Алибаба выкладывала всё, включая Max-варианты. Qwen 3.7 Max — только API. Хостинг в Китае. Для EU/US-enterprise с compliance-требованиями это блокер. Для опен-сорс-комьюнити — большой шаг назад. Из VentureBeat: «historically, Alibaba's Qwen has been a hero to the open-source community». Не теперь.

5. Никакого multimodal. Только текст. Не парсит скриншоты, не читает диаграммы, не понимает PDF с картинками. Для современных enterprise-воркфлоу — серьёзный пробел. На Q4 2026 обещают Vision-версию, но это roadmap, а не релиз.

6. Цензура на чувствительных темах. Hacker News-комьюнити уже отметило: Qwen-модели пост-обучены отказываться обсуждать Тяньаньмэнь и подобное. На код это не влияет, но в RAG-системах с произвольным пользовательским вводом — внезапный отказ возможен.

7. Латентность extended thinking. Каждый ответ идёт через deliberation. Time-to-first-answer-token измеряется в десятках секунд на сложных задачах. Для интерактивного UI — раздражает. Скорость генерации после thinking — 195 t/s, это нормально, но первая задержка съедает UX.

Альтернативы

Claude Opus 4.7 — главный конкурент. $5/$25 за 1M, frontier-лидер, на 0.7 пункта выше в Intelligence Index. Кодит надёжнее на хрупких tool-схемах. Дороже в 3-4 раза. Брать когда long-horizon agent с критичными вызовами и компания платит без вопросов.

GLM 5.1 — open-source из Китая, MIT-лицензия. 7.3× на том же кернел-бенчмарке (против 10× у Qwen), но веса можно качнуть. $5.80 у вендоров. Брать когда нужно self-hosted или есть compliance-блокер на проприетарные API.

DeepSeek V4 Pro — открытые веса под MIT, $0.30/$1.20 (после permanent price cut 24 мая). 3.3× на кернел-бенче — заметно слабее, но дёшево как грязь. Брать на простые длинные сессии, где экономика важнее предельной интеллектуальности.

Kimi K2.6 Thinking — Moonshot, тоже open-source. 5× на кернеле, дёшево. SWE-Pro 59.5 (близко к Qwen 60.6). Брать когда нужны открытые веса и приличный coding-агент.

Вердикт

Если ты гоняешь Claude Code на Opus и платишь $200-500 в месяц за токены — попробуй переключить на Qwen 3.7 Max на одной не-критической репе на неделю. С max_tokens=4096 и cached input ты увидишь -60-70% по счёту при сравнимом качестве. Это реальные деньги. Если у тебя enterprise с compliance-блокером на Китай или нужны открытые веса — даже не смотри в эту сторону, бери GLM 5.1 или DeepSeek V4 Pro. Если строишь агент с 20+ tool-вызовами и одна ошибка ломает loop — остаёшься на Opus 4.7, Qwen ещё не дотянул до его надёжности на хвосте.

Главное, что Qwen 3.7 Max доказал: drop-in замена в Claude Code больше не миф. Один env-var — и Anthropic-протокол говорит с китайским флагманом без шимов. Это новая реальность для рынка кодинг-агентов, и Anthropic с OpenAI это услышат не в финансовом отчёте, а в дашбордах оттока в ближайший квартал.

Как попробовать

  1. Получи API-ключ на Alibaba Cloud Model Studio. Регистрация через международный домен dashscope-intl.aliyuncs.com (для не-китайских аккаунтов).
  2. Установи Claude Code: npm install -g @anthropic-ai/claude-code.
  3. Прописай env-переменные:
    export ANTHROPIC_MODEL="qwen3.7-max"
    export ANTHROPIC_BASE_URL="https://dashscope-intl.aliyuncs.com/apps/anthropic"
    export ANTHROPIC_AUTH_TOKEN="<your_key>"
    
  4. Жёстко закапай max_tokens через настройки или per-call. Без этого extended thinking сожрёт бюджет.
  5. Запусти claude и кинь модели задачу средней сложности — рефакторинг модуля, миграцию схемы, написание тестов. Сравни счёт с тем, что отдал бы Opus за то же.

Для быстрого теста без своего ключа — chat.qwen.ai, выбери Qwen3.7-Max-Preview в пикере. Бесплатно, без агентного контура, но мозги те же. Официальный блог Alibaba даёт код-примеры под все основные harness'ы — Claude Code, OpenClaw, Qwen Code.

$ ls ./related/

Похожие статьи

addy-osmani-agent-skills-skill-md.md
Addy Osmani запустил agent-skills — 23 production-grade SKILL.md, которые делают то, что твои собственные скиллы делать стесняются
> · 8 мин

Addy Osmani запустил agent-skills — 23 production-grade SKILL.md, которые делают то, что твои собственные скиллы делать стесняются

Addy Osmani, автор Learning JavaScript Design Patterns, выложил на GitHub agent-skills — 23 production-grade SKILL.md для Claude Code, Cursor и Gemini CLI. 43.5K звёзд за 5 дней. Anti-rationalization таблицы, verification gates, 7 слэш-команд. Разбираемся, что внутри и как поставить за 2 минуты.

ai cursor claude-code developer-tools
google-io-2026-gemini-4-developer-impact.md
> · 6 мин

Через 30 минут Google показывает Gemini 4 на I/O 2026 — почему этот keynote бьёт не по Anthropic, а по твоему API-бюджету

Google I/O 2026 начинается через 30 минут. Все ждут Gemini 4, но реальная история не про SWE-bench. Когда модель уйдёт в default на 2 миллиарда пользователей AI Overviews при цене в 5× меньше Claude Mythos — это финансовая бомба, а не модельная.

ai llm gemini google
google-io-2026-leaks-spark-omni-gemini-35.md
Google слил три модели за 4 дня до I/O — Spark Agent с твоими паролями, Omni вместо Veo, Gemini 3.5 не дотянет до Mythos
> · 10 мин

Google слил три модели за 4 дня до I/O — Spark Agent с твоими паролями, Omni вместо Veo, Gemini 3.5 не дотянет до Mythos

До Google I/O 2026 двое суток. За 4 дня в код Gemini утекли видеомодель Omni, всегда-онлайн агент Spark, который сохраняет логины и пароли, и флагман Gemini 3.5 Pro под кодовым именем Cappuccino. Инсайдер Alex Heath из Sources говорит: до Anthropic Mythos флагман не дотянет.

ai agents gemini google
subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe