> · 5 мин

Qwen 3.5 — 397 миллиардов параметров, 17 активных, и визуальный агент, который сам кликает кнопки

Qwen 3.5 — 397 миллиардов параметров, 17 активных, и визуальный агент, который сам кликает кнопки

Пока все обсуждали Opus 4.6 и GPT-5.3-Codex, Alibaba тихо выкатила модель, которая может оказаться самым практичным релизом февраля. Qwen 3.5 — это не просто очередной апгрейд китайского LLM. Это первая open-source модель с нативным визуальным агентом, который реально управляет десктопом и телефоном.

TL;DR: Qwen 3.5 — MoE-модель: 397B параметров, но активны только 17B на каждый токен. Результат — скорость и цена на уровне маленькой модели, а качество на уровне frontier. Визуальные агенты умеют кликать кнопки в приложениях. Apache 2.0, можно запустить локально. API — в 12 раз дешевле Claude Opus 4.6.

Архитектура: зачем 397 миллиардов, если работают 17

Qwen 3.5 использует Mixture-of-Experts — 512 экспертов, из которых на каждый токен активируются 10 маршрутизируемых + 1 общий. Это даёт 17B активных параметров при 397B общих. Но тут есть кое-что новое: Gated Delta Networks заменяют стандартный attention в 75% слоёв. Это линейный механизм внимания, который масштабируется почти линейно с длиной последовательности.

На практике: контекст 262K токенов нативно, а с YaRN RoPE scaling — до 1M. При этом декодинг в 8.6 раз быстрее на 32K контексте и в 19 раз быстрее на 256K по сравнению с Qwen3-Max. Словарь расширили до 250K токенов (было 150K), что даёт экономию 10-60% токенов на мультиязычных задачах.

Бенчмарки: где Qwen 3.5 реально силён

Давайте честно посмотрим на цифры, без маркетинговых «outperforms everyone»:

Математика и рассуждения:

  • AIME 2026 — 91.3 (GPT-5.2 тут недосягаем с 96.7, но разрыв небольшой)
  • GPQA Diamond — 88.4
  • MMLU-Pro — 87.8

Кодинг:

  • SWE-bench Verified — 76.4% (Claude Opus 4.6: 80.9%, GPT-5.2: 80.0% — тут Qwen отстаёт)
  • LiveCodeBench v6 — 83.6

Мультимодальность:

  • MMMU — 85.0
  • MathVista — 90.3 (математика по картинкам — тут Qwen сильнее всех)
  • OmniDocBench — 90.8

Агентные задачи:

  • BrowseComp — 78.6 (браузерная автоматизация)
  • OSWorld-Verified — 62.2 (управление десктопом)

Вывод: Qwen 3.5 не лидер по кодингу (там рулит Opus 4.6) и не лучший в математических олимпиадах (GPT-5.2). Но по соотношению цена/качество на мультимодальных и агентных задачах — это сейчас лучшее, что есть в open source.

Визуальные агенты — киллер-фича

Тут Qwen 3.5 делает то, чего другие open-source модели просто не умеют. Визуальный агент нативно встроен в модель — не через адаптер, не через плагин, а как базовая способность. Модель анализирует скриншоты UI, находит элементы интерфейса и выполняет действия: кликает кнопки, заполняет формы, навигирует по меню.

Поддерживаются: Android, iOS, Windows, macOS, браузеры. Модель принимает изображения до 1344×1344 и видео до 60 секунд при 8 FPS.

Для работы с агентами есть Qwen-Agent framework:

from qwen_agent.agents import Assistant

agent = Assistant(
    llm={"model": "qwen3.5-plus"},
    function_list=["code_interpreter", "web_search"]
)

Что это значит на практике? Можно дать агенту задачу «открой настройки, включи тёмную тему, сделай скриншот» — и он пройдёт по UI сам. Для тестирования UI и автоматизации рутинных задач на десктопе — это находка.

Цена: в 12 раз дешевле Opus

Qwen 3.5-Plus через API на Alibaba Cloud:

  • Input — $0.40/M токенов (до 256K контекста)
  • Output — $2.40/M токенов
  • Batch-режим — скидка 50%

Для сравнения: Claude Opus 4.6 — $15/M input, $75/M output. Qwen в 12 раз дешевле на вход и в 31 раз дешевле на выход. Даже с учётом того, что Opus сильнее в кодинге, для задач обработки документов, мультимодального анализа и агентной автоматизации — разница в цене огромна.

Есть бесплатная квота для новых пользователей: 1M input + 1M output токенов на 90 дней. Но только в сингапурском регионе — учитывайте это для compliance.

Как попробовать

Вариант 1: API через DashScope (OpenAI-совместимый)

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DASHSCOPE_API_KEY",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)

response = client.chat.completions.create(
    model="qwen3.5-plus",
    messages=[{"role": "user", "content": "Твой промпт"}],
    extra_body={"enable_thinking": True}  # режим рассуждений
)

Три специальных параметра: enable_thinking для chain-of-thought, enable_search для веб-поиска, enable_fast для минимальной задержки.

Вариант 2: Локально через Ollama

ollama run qwen3.5:cloud

Для мультимодальной версии:

ollama run qwen3.5:397b-cloud

Вариант 3: Self-hosted через vLLM

vllm serve Qwen/Qwen3.5-397B-A17B \
  --tensor-parallel-size 8 \
  --reasoning-parser qwen3 \
  --enable-prefix-caching

Для полной BF16-версии нужно 8× H100 (~794GB). Квантизированная AWQ-версия работает на 2-3× H100 (~200GB). На Mac с 256GB RAM можно запустить GGUF-квантизацию через llama.cpp:

./llama-cli -hf unsloth/Qwen3.5-397B-A17B-GGUF:MXFP4_MOE \
  --ctx-size 16384 --temp 0.6 --top-p 0.95 --top-k 20

Вариант 4: OpenRouter — модель доступна как qwen/qwen3.5-397b-a17b через привычный API.

Кому это важно

  • Разработчику — попробуй Qwen 3.5-Plus через DashScope API для задач, где не нужен топовый кодинг (обработка документов, мультимодальный анализ, агенты). Экономия бюджета — на порядок. А визуальные агенты через Qwen-Agent — это реальная альтернатива платным решениям для UI-автоматизации.

  • Тимлиду — если команда тратит на API Claude/GPT $5K+ в месяц, часть задач можно перевести на Qwen 3.5 и сократить расходы в 10-12 раз. Особенно мультиязычные пайплайны — 201 язык из коробки.

  • Следишь за рынком — Alibaba показала, что MoE + линейный attention = новый стандарт эффективности. Активируется 4.3% параметров, а качество на уровне frontier. Разрыв между open source и проприетарными моделями сокращается каждый месяц.

$ ls ./related/

Похожие статьи

subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe