> 03 May 2026 · 8 мин

NVIDIA Nemotron 3 Nano Omni: 30B-модель, которая видит, слышит и читает за один проход. И обходит Qwen3-Omni на каждом бенчмарке

ai agents llm open-source multimodal nvidia nemotron

NVIDIA на этой неделе тихо выкатила интересную штуку: Nemotron 3 Nano Omni. Открытые веса, 30 миллиардов параметров, 3 миллиарда активных. Понимает текст, картинки, видео и аудио одной моделью, без склейки из трёх стеков.

TL;DR: Nemotron 3 Nano Omni — это 30B-A3B Mamba2-Transformer гибридная MoE-модель, которая обрабатывает video/audio/image/text в одном loop'е. Заменяет связку «vision-encoder + speech-to-text + LLM», даёт 9x throughput vs другие open omni-модели, влезает в 25 ГБ RAM в 4-бит. Бьёт Qwen3-Omni-30B-A3B на каждом мультимодальном бенчмарке. Лицензия — NVIDIA Nemotron Open Model License с коммерческим использованием.

Большинство релизов в 2026 инкрементальные. Этот выбивается. Не размером (30B по меркам Kimi K2.6 на триллион это «нано»), а тем, что выкидывает целый класс инфраструктуры.

Что такое omni-модель и зачем она вам

Сейчас типичный AI-агент для customer support или анализа документов выглядит как конвейер из трёх моделей. Vision-модель смотрит на скриншот. Speech-to-text транскрибирует звонок. LLM собирает результаты обеих и думает над ответом.

Каждая передача между моделями — это сериализация в текст и потеря контекста. Vision-модель описала картинку словами «график растёт». LLM получает строку, но уже не видит, на сколько именно растёт. Audio-модель транскрибировала «эээ, в общем... ну, как бы». А это была пауза, в которой клиент думал, не врать ли. LLM видит мусор, контекста нет.

Omni-модель ломает эту схему. Vision и audio энкодеры зашиты прямо в LLM. Картинка, видеокадр и звуковая дорожка проходят как обычные токены через тот же декодер, что и текст. Никакого моста, никаких перекодировок, никаких потерь.

В Nemotron 3 Nano Omni именно такая архитектура. C-RADIOv4-H для зрения, Parakeet для аудио, Nemotron 3 Nano 30B-A3B в качестве LLM-ядра.

Архитектура: что внутри

Hybrid Mamba2-Transformer MoE
├── 23 Mamba-2 + MoE слоя
├── 6 Attention-слоёв
├── 128 экспертов + 1 shared в каждом MoE-слое (активируется 6 на токен)
├── 30B параметров суммарно, ~3B активных
├── 256K контекст (увеличен с 128K)
└── Энкодеры:
    ├── C-RADIOv4-H — visual (image, video frames)
    └── Parakeet-TDT-0.6B-v2 — audio

Зачем Mamba2 рядом с трансформером? Mamba линейно масштабируется по длине последовательности, тогда как трансформер делает квадратично. На длинных видео или часовых аудиозаписях это разница между «работает за секунды» и «не работает». Attention-слои оставлены для точного reasoning, потому что Mamba проигрывает им в задачах, где нужно что-то найти в дальнем прошлом.

Для видео используется Efficient Video Sampling (EVS) layer. На инференсе он сжимает плотные визуальные токены из нескольких кадров в компактный набор, который LLM переварит без переполнения контекста. 3D-свёртки внутри ловят движение между кадрами.

Картинки энкодятся в высоком разрешении (1920×1080 native в кейсе H Company), и C-RADIOv4-H умеет фокусироваться на конкретных патчах, чтобы не терять OCR-точность на мелком тексте.

Бенчмарки: куда они стреляют и куда нет

NVIDIA сравнивает Nemotron 3 Nano Omni не с GPT-5.5 и Claude Opus 4.7. У тех модели в другой весовой категории. Сравнение идёт со старой Nemotron Nano VL V2 и с конкурентом по классу, Qwen3-Omni-30B-A3B.

Прирост vs Nemotron Nano VL V2:

OSWorld (computer use): 47.4 vs 11.1, прирост +76%
OCRBenchV2 (EN): 67.04 vs 54.8, прирост +18%
Charxiv Reasoning: 63.6 vs 41.3, прирост +35%
MMlongBench-Doc: 57.5 vs 38, прирост +34%
MathVista-Mini: 82.8 vs 75.5, прирост +8%

Метрики только для Omni:

Video MME: 72.2
WorldSense (video+audio Q/A): 55.4
DailyOmni (video+audio Q/A): 74.52
Voice Interaction (speech instruction): 89.39

По заявлению NVIDIA, модель обходит Qwen3-Omni-30B-A3B на каждом бенчмарке. Цифр для прямого сравнения они не приводят. Придётся ждать Artificial Analysis или независимые замеры. Пока есть только MediaPerf, где Nemotron 3 Nano Omni показал лучший throughput на video-tagging задачах и самую низкую цену инференса.

Цифра, которая впечатляет больше всех бенчмарков, это OSWorld 47.4. Бенчмарк computer-use агентов: модель должна реально кликать в виртуальной машине и решать задачи. Прыжок с 11.1 на 47.4 на одной архитектуре за одну итерацию редкость. Хотя 47.4 всё ещё далеко от человеческого ~70%, для open-weight модели на 30B это новое state-of-the-art.

Как запустить локально

Веса и квантизации лежат на HuggingFace:

# Если есть свободные 60 ГБ VRAM
huggingface-cli download nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

# Если у вас RTX 4090 / Mac с 32 ГБ — берите FP8
huggingface-cli download nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8

# Если совсем впритык — NVFP4 (только Blackwell даёт максимум)
huggingface-cli download nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4

Размеры квантизаций:

BF16: 61.5 GB, eff. 16 bpw
FP8: 32.8 GB, eff. 8.5 bpw
NVFP4: 20.9 GB, eff. 4.98 bpw

NVIDIA замерила квантизацию на 25 бенчмарках по всем модальностям и говорит про медианную потерю точности меньше 1% для FP8 и NVFP4 vs BF16. Если это правда, NVFP4 становится выбором по умолчанию: 20.9 ГБ влезает в RTX 4090 с запасом.

Для запуска через Unsloth с 4-битной квантизацией нужно всего 25 ГБ RAM. То есть это идёт на M2 Pro / Max и на одну 24 ГБ GPU.

Самый быстрый способ потрогать без скачивания — через OpenRouter бесплатно (с логированием промптов):

curl https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_KEY" \
  -d '{
    "model": "nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:free",
    "messages": [
      {"role": "user", "content": [
        {"type": "image_url", "image_url": {"url": "https://example.com/screenshot.png"}},
        {"type": "text", "text": "Что на этом скриншоте? Куда нажать, чтобы оплатить?"}
      ]}
    ]
  }'

Для production можно крутить на vLLM или TensorRT-LLM. NVIDIA выкатила готовые cookbook'и для обоих движков.

Подводные камни

Лицензия не MIT. NVIDIA Nemotron Open Model License разрешает коммерческое использование, но это собственный текст NVIDIA. Юрист должен прочитать его до того, как модель пойдёт в продакшен. Там есть условия про data control, локализацию и атрибуцию. Если вам нужна чистая Apache 2.0, смотрите Qwen3-Omni-30B-A3B.

NVFP4 это привязка к Blackwell. Квантизация работает на Ampere и Hopper, но оптимальная пропускная способность только на B100/B200. На RTX 4090 NVFP4 даст экономию памяти, но не даст обещанных 9x throughput. Цифра «9x» в маркетинге для production-парков с Blackwell, не для разработчика на одной 4090.

Нет независимых бенчмарков. Все цифры в этом посте от NVIDIA или от партнёров (H Company, MediaPerf через Coactive AI). Когда Artificial Analysis и Vellum сделают замеры, могут вылезти неприятности. Особенно интересно увидеть OSWorld 47.4 в чужих руках, потому что бенчмарк допускает разные контексты исполнения.

Это не drop-in замена для GPT-5.5. Модель спроектирована как sub-agent. Она умеет восприятие и поддержание контекста, а планирование и исполнение это работа Nemotron 3 Super или Ultra. Если кинуть её в качестве единственной модели в агента, упрётесь в reasoning потолок. Архитектура NVIDIA подразумевает три модели в команде, не одну.

256K контекст звучит круто, но это для текста. Видео жрёт токены прожорливее. Документация говорит про «efficient video sampling», который сжимает кадры. Но как только идёт длинная сессия с computer-use, контекст наполняется быстро. Реальный полезный объём для multimodal задач меньше 256K, конкретных цифр NVIDIA не публикует.

OSWorld 47.4 это не «работает». Полтора года назад человек на этом бенчмарке делал ~72%. Между «модель решает половину задач» и «модели можно отдать ноутбук» большой разрыв. Computer-use агента на Nemotron 3 Nano Omni можно строить уже сейчас, но human-in-the-loop отключать рано.

Альтернативы

Qwen3-Omni-30B-A3B (Alibaba) — прямой конкурент в том же 30B-A3B классе. Apache 2.0, понимает text/image/video/audio. По заявлению NVIDIA проигрывает Nemotron'у на каждом бенчмарке, но независимых замеров нет. Если нужна чистая Apache, берите Qwen.
Qwen3.5-Omni (Alibaba) — тяжелее, поддерживает 113 языков, делает голосовое клонирование. Скорее замена ElevenLabs + Whisper, чем визуальный агент.
Kimi K2.6 (Moonshot) — open-weight 1T параметров, 32B active. Тоже multimodal с native видео, бьёт Claude Opus 4.6 на агентных бенчмарках. Но в 33 раза толще по железу.
Gemini 3.1 Pro/Ultra (Google) — нативная multimodal, проприетарная, ходит только через API. Лучше на сложных задачах, но self-host исключён.

Вердикт

Если строите computer-use агента или document-intelligence пайплайн, пробуйте сегодня. OSWorld +76% vs предыдущей VL модели и OCRBenchV2 +18% это не косметика, это новая точка на open-weight кривой. Пайплайн «vision → text → LLM» можно сжимать в один inference call.

Если нужна обычная чат-модель без видео и аудио, берите Nemotron 3 Nano без Omni. Энкодеры в Omni-версии съедают память и не дают преимущества на текстовых задачах.

Если планируете end-to-end self-driving agent, Nemotron Nano Omni обеспечивает только восприятие. Планировщик и исполнитель идут отдельными моделями, и NVIDIA это явно прописывает в документации. Ждать единорога, который заменит весь стек, не стоит.

Если в продакшене важна Apache 2.0, присматривайтесь к Qwen3-Omni и ждите независимых сравнений на Artificial Analysis. Лицензия NVIDIA Nemotron Open Model License разрешает коммерческое использование, но юрист её должен прочитать до релиза.

Как попробовать

Зайти на OpenRouter, модель раздаётся бесплатно (с логированием).
Скачать NVFP4 квантизацию с HuggingFace, 20.9 ГБ, влезает в RTX 4090.
Запустить в Ollama: ollama run nemotron3 для локальных экспериментов с GGUF.
Прочитать технический отчёт NVIDIA. Там подробно расписана трёхэтапная схема обучения и расчёт квантизаций.
Попробуйте промпт: «Покажи модель скриншот сложного дашборда + аудиозапись описания проблемы → попроси её предложить три гипотезы». Задача, которую раньше пришлось бы решать тремя моделями.