> · 7 мин

Qwen3.5-Omni — 113 языков, голосовые клоны и аудио-видео в одном контуре. Alibaba наступает на пятки Gemini

Qwen3.5-Omni — 113 языков, голосовые клоны и аудио-видео в одном контуре. Alibaba наступает на пятки Gemini

Qwen3.5-Omni — 113 языков, голосовые клоны и аудио-видео в одном контуре. Alibaba наступает на пятки Gemini

Alibaba только что выкатила Qwen3.5-Omni — и это не очередной инкрементальный апдейт. Предыдущая версия Qwen3-Omni понимала речь на 19 языках и генерировала на 10. Новая — распознаёт 113 языков и диалектов, генерирует на 36. Это шестикратный скачок в мультиязычности за один релиз.

TL;DR: Qwen3.5-Omni — omni-модальная модель от Alibaba с текстом, изображениями, аудио и видео на входе и выходе. Три версии (Plus, Flash, Light), до 256K контекста, 10+ часов аудио, voice cloning и semantic interruption. По audio-бенчмаркам обходит Gemini 3.1 Pro, а API стоит от $0.43/1M текстовых токенов.

Что нового по сравнению с Qwen3-Omni

Qwen3-Omni вышла с архитектурой Thinker-Talker на MoE (Mixture of Experts) — «Мыслитель» обрабатывает все модальности, «Говорильщик» генерирует речь. Qwen3.5-Omni сохраняет эту архитектуру, но прокачивает её по всем фронтам:

Архитектура Thinker-Talker

  • Контекст — до 256K токенов (против 65K у Qwen3-Omni в real-time режиме)
  • Распознавание речи — 113 языков и диалектов (было 19). Русский есть
  • Генерация речи — 36 языков и диалектов (было 10). Русский есть
  • Аудио на входе — более 10 часов непрерывного аудио
  • Видео на входе — 400+ секунд 720P (1 FPS) аудио-видео
  • Обучающие данные — 100+ миллионов часов нативного мультимодального аудио-видео контента

Три версии по размеру: Plus (максимум качества), Flash (баланс скорости и качества) и Light (минимальные ресурсы).

Что это даёт разработчику

Голосовой ассистент, который видит и слышит

Обычные voice-модели работают в режиме «аудио вход → текст → аудио выход». Qwen3.5-Omni понимает аудио, изображения и видео одновременно. Практически: можно направить камеру на чертёж, спросить голосом «что тут не так?» — и получить ответ голосом.

from transformers import Qwen3OmniMoeForConditionalGeneration, Qwen3OmniMoeProcessor
from qwen_omni_utils import process_mm_info

model = Qwen3OmniMoeForConditionalGeneration.from_pretrained(
    "Qwen/Qwen3-Omni-30B-A3B-Instruct",
    dtype="auto",
    device_map="auto",
    attn_implementation="flash_attention_2"
)
processor = Qwen3OmniMoeProcessor.from_pretrained(
    "Qwen/Qwen3-Omni-30B-A3B-Instruct"
)

conversation = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": [
        {"type": "video", "video": "https://example.com/demo.mp4"},
        {"type": "text", "text": "Опиши, что происходит на видео"}
    ]}
]

text = processor.apply_chat_template(
    conversation, add_generation_prompt=True, tokenize=False
)
audios, images, videos = process_mm_info(conversation)
inputs = processor(
    text=text, audio=audios, images=images, 
    videos=videos, return_tensors="pt"
)
inputs = inputs.to(model.device).to(model.dtype)

# Генерация текста + аудио
text_ids, audio = model.generate(**inputs, speaker="Ethan")

Параметр speaker — это не просто TTS. Модель генерирует речь end-to-end, с учётом контекста разговора, эмоций и интонации.

Semantic interruption — перебивай, когда хочешь

Одна из самых раздражающих проблем голосовых ассистентов — ты начинаешь говорить, а он продолжает бубнить свой ответ. Qwen3.5-Omni реализует semantic interruption: модель анализирует, действительно ли человек хочет вступить в диалог, или это фоновый шум. Если ты начал говорить осмысленно — она замолкает и слушает.

Для real-time взаимодействия Alibaba предоставляет WebSocket API:

import websockets
import json

uri = "wss://dashscope-intl.aliyuncs.com/api-ws/v1/realtime"
headers = {"Authorization": f"Bearer {api_key}"}

async with websockets.connect(uri, extra_headers=headers) as ws:
    # Настройка сессии с VAD (Voice Activity Detection)
    await ws.send(json.dumps({
        "type": "session.update",
        "session": {
            "model": "qwen3-omni-flash-realtime",
            "modalities": ["text", "audio"],
            "turn_detection": {
                "type": "server_vad",
                "threshold": 0.5
            }
        }
    }))

Режим server_vad включает автоматическое определение речи с настраиваемым порогом чувствительности. Максимальная длительность WebSocket-сессии — 120 минут.

Voice cloning для кастомных ассистентов

В экосистеме Qwen есть Qwen3-TTS — open-source TTS с поддержкой клонирования голоса по референсному аудио. В связке с Qwen3.5-Omni это даёт возможность строить голосовых ассистентов с кастомным голосом — для брендинга, персонализации или accessibility.

Web Search и Function Calling нативно

Qwen3.5-Omni поддерживает web search и function calling «из коробки». Это значит, что голосовой ассистент может не только отвечать на вопросы из своего контекста, но и искать в интернете, вызывать внешние API и инструменты — без костыльных обёрток.

Бенчмарки: цифры и контекст

Qwen3.5-Omni-Plus заявляет 215 SOTA-результатов в задачах аудио и аудио-видео понимания. По заявлению Alibaba, модель «всесторонне превосходит Gemini 3.1 Pro» в general audio understanding, reasoning, recognition, translation и dialogue.

Но давайте разберём это аккуратно:

  • Audio-видео понимание — на уровне Gemini 3.1 Pro (не выше)
  • ASR (речь → текст) — SOTA на Librispeech, Fleurs, CommonVoice по WER и BLEU, обходит Gemini-2.5-Pro, GPT-4o-Transcribe и Seed-ASR
  • Предыдущая Qwen3-Omni уже набирала open-source SOTA на 32 из 36 audio/audio-visual бенчмарков

Важный нюанс: независимых замеров Qwen3.5-Omni пока нет — модель вышла сегодня. Все числа — от самой Alibaba. По опыту Qwen3-Omni, заявления обычно подтверждались сообществом, но перепроверить стоит.

Для контекста — бенчмарки текстовой серии Qwen3.5:

  • IFBench (следование инструкциям) — 76.5 (GPT-5.2: 75.4, Claude: 58.0)
  • MMMU (мультимодальное понимание) — 85.0
  • Tau2-Bench (агентные задачи) — 86.7 (уступает только Claude Opus 4.6: 91.6)

Подводные камни

Видео-ограничение жёстче, чем кажется. 400 секунд 720P — это всего 6 минут 40 секунд. При 1 FPS модель получает ~400 кадров. Для анализа длинных видео (лекции, совещания) этого категорически мало. Gemini 3.1 Pro обрабатывает до часа видео.

Real-time API — урезанный контекст. Заявлены 256K токенов, но real-time WebSocket API (qwen3-omni-flash-realtime) работает с контекстом 65K (49K input + 16K output). Для голосового ассистента с длинной историей диалога это может стать бутылочным горлышком.

Аудио-выход стоит дорого. Текстовый input — $0.43/1M токенов, а output с аудио — $15.11/1M токенов. Это в 35 раз дороже текстового входа. Для активного голосового ассистента с десятками тысяч пользователей счёт растёт быстро.

Speech output — только 10 языков в API. Хотя модель заявляет генерацию на 36 языках, API real-time версии (qwen3-omni-flash-realtime) поддерживает только 10: китайский, английский, французский, немецкий, русский, итальянский, испанский, португальский, японский, корейский. Остальные 26 — пока только в локальном инференсе.

Sycophancy. Пользователи на HN и Reddit жалуются, что модели Qwen склонны к «подлизыванию» — каждый ответ начинается с «You are absolutely right». Для голосового ассистента это раздражает втройне.

Альтернативы

  • Gemini 3.1 Pro — главный конкурент в мультимодальности. Обрабатывает до часа видео (vs 6.5 минут у Qwen), сильнее в video-MME (88.4 vs 87.5 у Qwen3.5). Но уступает в audio understanding и ASR. Плюс — нативная интеграция с Google-экосистемой.

  • GPT-4o (OpenAI) — мультимодальная модель с audio in/out, но без видео-input в real-time режиме. Модель gpt-4o-mini-realtime-preview дешевле, но ограничена текстом и аудио — никаких изображений. Существенно дороже при масштабировании.

  • Qwen3-Omni (30B-A3B) — предшественник, open-source на GitHub. 19 языков ASR, 10 языков генерации, 30B параметров (3B активных). Для тех, кому нужен self-hosted вариант с полным контролем — по-прежнему отличный выбор, особенно на Thinking-варианте с chain-of-thought.

Вердикт

Если строишь голосового ассистента, которому нужно понимать не только речь, но и картинки/видео — Qwen3.5-Omni сейчас лучший вариант по соотношению возможностей и цены. 113 языков ASR при $0.43/1M текстовых токенов — у конкурентов такого нет. Но для продакшн голосового бота считай аудио-выход отдельно: $15/1M токенов сожрёт бюджет быстрее, чем кажется. А если нужен длинный видео-анализ — пока Gemini 3.1 Pro вне конкуренции с часом видео против 6.5 минут.

Как попробовать

  1. Зарегистрируйся на Alibaba Cloud Model Studio — новые аккаунты получают 1M бесплатных токенов на 90 дней
  2. Получи API-ключ в консоли DashScope
  3. Установи SDK:
pip install dashscope>=1.23.9 pyaudio
  1. Подключись к real-time API:
import dashscope
dashscope.api_key = "your-key"
# Endpoint: wss://dashscope-intl.aliyuncs.com/api-ws/v1/realtime
# Model: qwen3-omni-flash-realtime
  1. Для локального инференса:
pip install transformers==4.57.3 accelerate qwen-omni-utils flash-attn
huggingface-cli download Qwen/Qwen3-Omni-30B-A3B-Instruct --local-dir ./model

Официальный блог: qwen.ai/blog?id=qwen3.5-omni, GitHub с кодом и cookbooks: github.com/QwenLM/Qwen3-Omni.

$ ls ./related/

Похожие статьи

subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe