Qwen3.5-Omni — 113 языков, голосовые клоны и аудио-видео в одном контуре. Alibaba наступает на пятки Gemini
Qwen3.5-Omni — 113 языков, голосовые клоны и аудио-видео в одном контуре. Alibaba наступает на пятки Gemini
Alibaba только что выкатила Qwen3.5-Omni — и это не очередной инкрементальный апдейт. Предыдущая версия Qwen3-Omni понимала речь на 19 языках и генерировала на 10. Новая — распознаёт 113 языков и диалектов, генерирует на 36. Это шестикратный скачок в мультиязычности за один релиз.
TL;DR: Qwen3.5-Omni — omni-модальная модель от Alibaba с текстом, изображениями, аудио и видео на входе и выходе. Три версии (Plus, Flash, Light), до 256K контекста, 10+ часов аудио, voice cloning и semantic interruption. По audio-бенчмаркам обходит Gemini 3.1 Pro, а API стоит от $0.43/1M текстовых токенов.
Что нового по сравнению с Qwen3-Omni
Qwen3-Omni вышла с архитектурой Thinker-Talker на MoE (Mixture of Experts) — «Мыслитель» обрабатывает все модальности, «Говорильщик» генерирует речь. Qwen3.5-Omni сохраняет эту архитектуру, но прокачивает её по всем фронтам:

- Контекст — до 256K токенов (против 65K у Qwen3-Omni в real-time режиме)
- Распознавание речи — 113 языков и диалектов (было 19). Русский есть
- Генерация речи — 36 языков и диалектов (было 10). Русский есть
- Аудио на входе — более 10 часов непрерывного аудио
- Видео на входе — 400+ секунд 720P (1 FPS) аудио-видео
- Обучающие данные — 100+ миллионов часов нативного мультимодального аудио-видео контента
Три версии по размеру: Plus (максимум качества), Flash (баланс скорости и качества) и Light (минимальные ресурсы).
Что это даёт разработчику
Голосовой ассистент, который видит и слышит
Обычные voice-модели работают в режиме «аудио вход → текст → аудио выход». Qwen3.5-Omni понимает аудио, изображения и видео одновременно. Практически: можно направить камеру на чертёж, спросить голосом «что тут не так?» — и получить ответ голосом.
from transformers import Qwen3OmniMoeForConditionalGeneration, Qwen3OmniMoeProcessor from qwen_omni_utils import process_mm_info model = Qwen3OmniMoeForConditionalGeneration.from_pretrained( "Qwen/Qwen3-Omni-30B-A3B-Instruct", dtype="auto", device_map="auto", attn_implementation="flash_attention_2" ) processor = Qwen3OmniMoeProcessor.from_pretrained( "Qwen/Qwen3-Omni-30B-A3B-Instruct" ) conversation = [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": [ {"type": "video", "video": "https://example.com/demo.mp4"}, {"type": "text", "text": "Опиши, что происходит на видео"} ]} ] text = processor.apply_chat_template( conversation, add_generation_prompt=True, tokenize=False ) audios, images, videos = process_mm_info(conversation) inputs = processor( text=text, audio=audios, images=images, videos=videos, return_tensors="pt" ) inputs = inputs.to(model.device).to(model.dtype) # Генерация текста + аудио text_ids, audio = model.generate(**inputs, speaker="Ethan")
Параметр speaker — это не просто TTS. Модель генерирует речь end-to-end, с учётом контекста разговора, эмоций и интонации.
Semantic interruption — перебивай, когда хочешь
Одна из самых раздражающих проблем голосовых ассистентов — ты начинаешь говорить, а он продолжает бубнить свой ответ. Qwen3.5-Omni реализует semantic interruption: модель анализирует, действительно ли человек хочет вступить в диалог, или это фоновый шум. Если ты начал говорить осмысленно — она замолкает и слушает.
Для real-time взаимодействия Alibaba предоставляет WebSocket API:
import websockets import json uri = "wss://dashscope-intl.aliyuncs.com/api-ws/v1/realtime" headers = {"Authorization": f"Bearer {api_key}"} async with websockets.connect(uri, extra_headers=headers) as ws: # Настройка сессии с VAD (Voice Activity Detection) await ws.send(json.dumps({ "type": "session.update", "session": { "model": "qwen3-omni-flash-realtime", "modalities": ["text", "audio"], "turn_detection": { "type": "server_vad", "threshold": 0.5 } } }))
Режим server_vad включает автоматическое определение речи с настраиваемым порогом чувствительности. Максимальная длительность WebSocket-сессии — 120 минут.
Voice cloning для кастомных ассистентов
В экосистеме Qwen есть Qwen3-TTS — open-source TTS с поддержкой клонирования голоса по референсному аудио. В связке с Qwen3.5-Omni это даёт возможность строить голосовых ассистентов с кастомным голосом — для брендинга, персонализации или accessibility.
Web Search и Function Calling нативно
Qwen3.5-Omni поддерживает web search и function calling «из коробки». Это значит, что голосовой ассистент может не только отвечать на вопросы из своего контекста, но и искать в интернете, вызывать внешние API и инструменты — без костыльных обёрток.
Бенчмарки: цифры и контекст
Qwen3.5-Omni-Plus заявляет 215 SOTA-результатов в задачах аудио и аудио-видео понимания. По заявлению Alibaba, модель «всесторонне превосходит Gemini 3.1 Pro» в general audio understanding, reasoning, recognition, translation и dialogue.
Но давайте разберём это аккуратно:
- Audio-видео понимание — на уровне Gemini 3.1 Pro (не выше)
- ASR (речь → текст) — SOTA на Librispeech, Fleurs, CommonVoice по WER и BLEU, обходит Gemini-2.5-Pro, GPT-4o-Transcribe и Seed-ASR
- Предыдущая Qwen3-Omni уже набирала open-source SOTA на 32 из 36 audio/audio-visual бенчмарков
Важный нюанс: независимых замеров Qwen3.5-Omni пока нет — модель вышла сегодня. Все числа — от самой Alibaba. По опыту Qwen3-Omni, заявления обычно подтверждались сообществом, но перепроверить стоит.
Для контекста — бенчмарки текстовой серии Qwen3.5:
- IFBench (следование инструкциям) — 76.5 (GPT-5.2: 75.4, Claude: 58.0)
- MMMU (мультимодальное понимание) — 85.0
- Tau2-Bench (агентные задачи) — 86.7 (уступает только Claude Opus 4.6: 91.6)
Подводные камни
Видео-ограничение жёстче, чем кажется. 400 секунд 720P — это всего 6 минут 40 секунд. При 1 FPS модель получает ~400 кадров. Для анализа длинных видео (лекции, совещания) этого категорически мало. Gemini 3.1 Pro обрабатывает до часа видео.
Real-time API — урезанный контекст. Заявлены 256K токенов, но real-time WebSocket API (qwen3-omni-flash-realtime) работает с контекстом 65K (49K input + 16K output). Для голосового ассистента с длинной историей диалога это может стать бутылочным горлышком.
Аудио-выход стоит дорого. Текстовый input — $0.43/1M токенов, а output с аудио — $15.11/1M токенов. Это в 35 раз дороже текстового входа. Для активного голосового ассистента с десятками тысяч пользователей счёт растёт быстро.
Speech output — только 10 языков в API. Хотя модель заявляет генерацию на 36 языках, API real-time версии (qwen3-omni-flash-realtime) поддерживает только 10: китайский, английский, французский, немецкий, русский, итальянский, испанский, португальский, японский, корейский. Остальные 26 — пока только в локальном инференсе.
Sycophancy. Пользователи на HN и Reddit жалуются, что модели Qwen склонны к «подлизыванию» — каждый ответ начинается с «You are absolutely right». Для голосового ассистента это раздражает втройне.
Альтернативы
-
Gemini 3.1 Pro — главный конкурент в мультимодальности. Обрабатывает до часа видео (vs 6.5 минут у Qwen), сильнее в video-MME (88.4 vs 87.5 у Qwen3.5). Но уступает в audio understanding и ASR. Плюс — нативная интеграция с Google-экосистемой.
-
GPT-4o (OpenAI) — мультимодальная модель с audio in/out, но без видео-input в real-time режиме. Модель
gpt-4o-mini-realtime-previewдешевле, но ограничена текстом и аудио — никаких изображений. Существенно дороже при масштабировании. -
Qwen3-Omni (30B-A3B) — предшественник, open-source на GitHub. 19 языков ASR, 10 языков генерации, 30B параметров (3B активных). Для тех, кому нужен self-hosted вариант с полным контролем — по-прежнему отличный выбор, особенно на Thinking-варианте с chain-of-thought.
Вердикт
Если строишь голосового ассистента, которому нужно понимать не только речь, но и картинки/видео — Qwen3.5-Omni сейчас лучший вариант по соотношению возможностей и цены. 113 языков ASR при $0.43/1M текстовых токенов — у конкурентов такого нет. Но для продакшн голосового бота считай аудио-выход отдельно: $15/1M токенов сожрёт бюджет быстрее, чем кажется. А если нужен длинный видео-анализ — пока Gemini 3.1 Pro вне конкуренции с часом видео против 6.5 минут.
Как попробовать
- Зарегистрируйся на Alibaba Cloud Model Studio — новые аккаунты получают 1M бесплатных токенов на 90 дней
- Получи API-ключ в консоли DashScope
- Установи SDK:
pip install dashscope>=1.23.9 pyaudio
- Подключись к real-time API:
import dashscope dashscope.api_key = "your-key" # Endpoint: wss://dashscope-intl.aliyuncs.com/api-ws/v1/realtime # Model: qwen3-omni-flash-realtime
- Для локального инференса:
pip install transformers==4.57.3 accelerate qwen-omni-utils flash-attn huggingface-cli download Qwen/Qwen3-Omni-30B-A3B-Instruct --local-dir ./model
Официальный блог: qwen.ai/blog?id=qwen3.5-omni, GitHub с кодом и cookbooks: github.com/QwenLM/Qwen3-Omni.