Qwen 3.5 — 397 миллиардов параметров, 17 активных, и визуальный агент, который сам кликает кнопки
Пока все обсуждали Opus 4.6 и GPT-5.3-Codex, Alibaba тихо выкатила модель, которая может оказаться самым практичным релизом февраля. Qwen 3.5 — это не просто очередной апгрейд китайского LLM. Это первая open-source модель с нативным визуальным агентом, который реально управляет десктопом и телефоном.
TL;DR: Qwen 3.5 — MoE-модель: 397B параметров, но активны только 17B на каждый токен. Результат — скорость и цена на уровне маленькой модели, а качество на уровне frontier. Визуальные агенты умеют кликать кнопки в приложениях. Apache 2.0, можно запустить локально. API — в 12 раз дешевле Claude Opus 4.6.
Архитектура: зачем 397 миллиардов, если работают 17
Qwen 3.5 использует Mixture-of-Experts — 512 экспертов, из которых на каждый токен активируются 10 маршрутизируемых + 1 общий. Это даёт 17B активных параметров при 397B общих. Но тут есть кое-что новое: Gated Delta Networks заменяют стандартный attention в 75% слоёв. Это линейный механизм внимания, который масштабируется почти линейно с длиной последовательности.
На практике: контекст 262K токенов нативно, а с YaRN RoPE scaling — до 1M. При этом декодинг в 8.6 раз быстрее на 32K контексте и в 19 раз быстрее на 256K по сравнению с Qwen3-Max. Словарь расширили до 250K токенов (было 150K), что даёт экономию 10-60% токенов на мультиязычных задачах.
Бенчмарки: где Qwen 3.5 реально силён
Давайте честно посмотрим на цифры, без маркетинговых «outperforms everyone»:
Математика и рассуждения:
- AIME 2026 — 91.3 (GPT-5.2 тут недосягаем с 96.7, но разрыв небольшой)
- GPQA Diamond — 88.4
- MMLU-Pro — 87.8
Кодинг:
- SWE-bench Verified — 76.4% (Claude Opus 4.6: 80.9%, GPT-5.2: 80.0% — тут Qwen отстаёт)
- LiveCodeBench v6 — 83.6
Мультимодальность:
- MMMU — 85.0
- MathVista — 90.3 (математика по картинкам — тут Qwen сильнее всех)
- OmniDocBench — 90.8
Агентные задачи:
- BrowseComp — 78.6 (браузерная автоматизация)
- OSWorld-Verified — 62.2 (управление десктопом)
Вывод: Qwen 3.5 не лидер по кодингу (там рулит Opus 4.6) и не лучший в математических олимпиадах (GPT-5.2). Но по соотношению цена/качество на мультимодальных и агентных задачах — это сейчас лучшее, что есть в open source.
Визуальные агенты — киллер-фича
Тут Qwen 3.5 делает то, чего другие open-source модели просто не умеют. Визуальный агент нативно встроен в модель — не через адаптер, не через плагин, а как базовая способность. Модель анализирует скриншоты UI, находит элементы интерфейса и выполняет действия: кликает кнопки, заполняет формы, навигирует по меню.
Поддерживаются: Android, iOS, Windows, macOS, браузеры. Модель принимает изображения до 1344×1344 и видео до 60 секунд при 8 FPS.
Для работы с агентами есть Qwen-Agent framework:
from qwen_agent.agents import Assistant agent = Assistant( llm={"model": "qwen3.5-plus"}, function_list=["code_interpreter", "web_search"] )
Что это значит на практике? Можно дать агенту задачу «открой настройки, включи тёмную тему, сделай скриншот» — и он пройдёт по UI сам. Для тестирования UI и автоматизации рутинных задач на десктопе — это находка.
Цена: в 12 раз дешевле Opus
Qwen 3.5-Plus через API на Alibaba Cloud:
- Input — $0.40/M токенов (до 256K контекста)
- Output — $2.40/M токенов
- Batch-режим — скидка 50%
Для сравнения: Claude Opus 4.6 — $15/M input, $75/M output. Qwen в 12 раз дешевле на вход и в 31 раз дешевле на выход. Даже с учётом того, что Opus сильнее в кодинге, для задач обработки документов, мультимодального анализа и агентной автоматизации — разница в цене огромна.
Есть бесплатная квота для новых пользователей: 1M input + 1M output токенов на 90 дней. Но только в сингапурском регионе — учитывайте это для compliance.
Как попробовать
Вариант 1: API через DashScope (OpenAI-совместимый)
from openai import OpenAI client = OpenAI( api_key="YOUR_DASHSCOPE_API_KEY", base_url="https://dashscope.aliyuncs.com/compatible-mode/v1" ) response = client.chat.completions.create( model="qwen3.5-plus", messages=[{"role": "user", "content": "Твой промпт"}], extra_body={"enable_thinking": True} # режим рассуждений )
Три специальных параметра: enable_thinking для chain-of-thought, enable_search для веб-поиска, enable_fast для минимальной задержки.
Вариант 2: Локально через Ollama
ollama run qwen3.5:cloud
Для мультимодальной версии:
ollama run qwen3.5:397b-cloud
Вариант 3: Self-hosted через vLLM
vllm serve Qwen/Qwen3.5-397B-A17B \ --tensor-parallel-size 8 \ --reasoning-parser qwen3 \ --enable-prefix-caching
Для полной BF16-версии нужно 8× H100 (~794GB). Квантизированная AWQ-версия работает на 2-3× H100 (~200GB). На Mac с 256GB RAM можно запустить GGUF-квантизацию через llama.cpp:
./llama-cli -hf unsloth/Qwen3.5-397B-A17B-GGUF:MXFP4_MOE \ --ctx-size 16384 --temp 0.6 --top-p 0.95 --top-k 20
Вариант 4: OpenRouter — модель доступна как qwen/qwen3.5-397b-a17b через привычный API.
Кому это важно
-
Разработчику — попробуй Qwen 3.5-Plus через DashScope API для задач, где не нужен топовый кодинг (обработка документов, мультимодальный анализ, агенты). Экономия бюджета — на порядок. А визуальные агенты через Qwen-Agent — это реальная альтернатива платным решениям для UI-автоматизации.
-
Тимлиду — если команда тратит на API Claude/GPT $5K+ в месяц, часть задач можно перевести на Qwen 3.5 и сократить расходы в 10-12 раз. Особенно мультиязычные пайплайны — 201 язык из коробки.
-
Следишь за рынком — Alibaba показала, что MoE + линейный attention = новый стандарт эффективности. Активируется 4.3% параметров, а качество на уровне frontier. Разрыв между open source и проприетарными моделями сокращается каждый месяц.