> diffnotes · 01 Jun 2026 · 7 мин

NVIDIA Cosmos 3 — первая полностью открытая omni-модель, которая рассуждает о физике и сама генерирует мир для роботов

ai open-source multimodal nvidia robotics world-models physical-ai

NVIDIA на GTC Taipei тихо сделала то, чего от неё ждали с января: выложила Cosmos 3, открытую omni-модель для физического AI. Не картиночный генератор, не очередной чат-бот. Модель, которая смотрит на сцену, рассуждает о её физике и сама дорисовывает, что произойдёт дальше: в видео, в звуке, в траекториях движения робота.

TL;DR: Cosmos 3 — первая полностью открытая omni-модель, которая в одном стеке и рассуждает, и генерирует: текст, картинку, видео, звук, действие. Две версии: Nano на 8B (рабочая станция) и Super на 32B (дата-центр). Веса открыты под NVIDIA Open Model License, в придачу 6 датасетов и скрипты для дообучения. Нужна, если строишь роботов, беспилотники или видео-аналитику. Всем остальным: посмотреть и закрыть вкладку.

Зачем вообще нужна ещё одна модель

У физического AI одна большая боль: данные. Чтобы робот не врезался в угол и не ронял коробки, его политике нужны примеры контакта, окклюзий, бликов, редких near-miss ситуаций. Собирать это вживую дорого, а иногда и опасно. Раньше команды решали задачу зоопарком моделей: одна понимает видео, вторая генерит синтетику, третья прогнозирует исход. Каждую надо отдельно обучать, версионировать и склеивать пайплайнами.

Cosmos 3 схлопывает этот зоопарк в одну модель. Она и аннотирует данные, и генерит недостающие сцены, и предсказывает, чем кончится взаимодействие. По заявлению NVIDIA, это режет циклы обучения и оценки «с месяцев до дней». Независимых замеров на этот счёт пока нет, так что цифру держим в голове со звёздочкой.

Как это устроено: две башни в одной модели

Главная техническая новость: архитектура Mixture-of-Transformers (MoT) из двух «башен».

Первая башня, авторегрессионный reasoner, принимает на вход текст, картинку, видео, звук и действие. Она понимает, как объекты взаимодействуют, как идёт движение, какие пространственно-временные связи в сцене. Вторая башня, диффузионный generator, выдаёт на выходе ровно тот же набор модальностей. Информация течёт из reasoner в generator односторонне, и за счёт этого генерация получается осмысленной, а не «красиво, но физика поехала».

Что это даёт на практике: одна модель делает и reasoning, и генерацию. Не надо оркестрировать три инференс-пайплайна и синхронизировать их форматы. Для команды, которая раньше тащила отдельный VLM для понимания и отдельный видео-диффузор для синтетики, это заметное упрощение стека.

Nano или Super: какую версию брать

Сейчас доступны две модели, и выбор простой.

Cosmos 3 Nano — 8B параметров, заточена под быстрый инференс. NVIDIA позиционирует её под рабочую станцию (уровня RTX PRO 6000) для real-time робототехники. Видео и action-reasoning за доли секунды.
Cosmos 3 Super — 32B параметров, максимальное качество и самые высокие баллы на бенчмарках. Цель: дата-центр на Hopper или Blackwell, большие прогоны синтетики и тяжёлое физическое рассуждение.

Обещана ещё Cosmos 3 Edge для инференса на краю в реальном времени, но её пока нет.

Бенчмарки: читаем мелкий шрифт

NVIDIA называет Cosmos 3 «open-source SOTA» и показывает первое место на куче лидербордов: Artificial Analysis, Physics-IQ, PAI-Bench, R-Bench для точности генерации мира, RoboLab и RoboArena для action-политики, VANTAGE-Bench и TAR для понимания видео.

Ключевое слово тут: «среди открытых». Это не абсолютный фронтир, а лидерство в категории open-weight. Цифры опубликованы самой NVIDIA, и независимых перепроверок на R-Bench или PAI-Bench пока кот наплакал. Лидерборды публичные, так что проверить можно, но делайте это сами, а не верьте пресс-релизу на слово.

Что отдают вместе с весами

Тут NVIDIA сыграла честно по open-source меркам. Кроме чекпойнтов на Hugging Face и кода на GitHub выложили:

6 синтетических датасетов для post-training: сцены манипуляций роботов (PhysicalAI-SDG-RobotSim), физические взаимодействия с ground-truth аннотациями скоростей и сегментации (PhysicalAI-SDG-PhysxSim), пространственное рассуждение, цифровые люди, сценарии вождения и складские операции.
Скрипты для дообучения под свой домен.
NIM-микросервисы для оптимизированного деплоя (Cosmos 3 Reasoner NIM уже доступен, Generator NIM обещают позже).

Попробовать самый лёгкий путь — без своего железа, прямо в браузере на build.nvidia.com. Через API это OpenAI-совместимый вызов:

from openai import OpenAI

client = OpenAI(
    base_url="https://integrate.api.nvidia.com/v1",
    api_key="YOUR_NVIDIA_API_KEY",
)

resp = client.chat.completions.create(
    model="nvidia/cosmos3-nano-reasoner",  # точную строку сверь в каталоге build.nvidia.com
    messages=[{
        "role": "user",
        "content": "Опиши физику сцены и предскажи, упадёт ли коробка с полки",
    }],
)
print(resp.choices[0].message.content)

А локальный путь начинается с одной команды (если у вас есть подходящая видеокарта, о чём ниже):

huggingface-cli download nvidia/Cosmos3-Nano

Подводные камни

Открытые веса, закрытое железо. Это главный нюанс. Веса лежат открыто, но весь оптимизированный стек (CUDA, TensorRT, cuDNN, NIM) официально работает только на платформах NVIDIA. Nano на 8B хочет RTX PRO 6000 (для сравнения: Cosmos Reason2-8B требует минимум 32 ГБ VRAM), а Super на 32B — Hopper или Blackwell в дата-центре. На условной RTX 4090 с 24 ГБ вы Super не поднимете. Это не баг, это бизнес-модель: раздать модель бесплатно, чтобы вы купили видеокарты под неё.

«Open» с поводком. NVIDIA Open Model License — это не MIT и не Apache. Да, коммерческое использование разрешено и выходы модели вам не принадлежат NVIDIA. Но есть условия: при любом продукте на базе Cosmos вы обязаны разместить видимый кредит «Built on NVIDIA Cosmos» на сайте, в UI или документации. Плюс в лицензию инкорпорированы условия Trustworthy AI, соблюдение которых вы обязаны тащить и на своих клиентов с конечными пользователями. Для корпоративного юзкейса это лишняя комплаенс-нагрузка, о которой уже написали юристы по open-source.

Это не «роботы учатся из снов». Соблазн прочитать пресс-релиз как «синтетика заменяет реальные данные» большой. Не заменяет, а амплифицирует. Реальные тесты, embodiment-специфичные данные, валидация безопасности и инженерия систем управления никуда не делись. Cosmos закрывает дыру в данных, но не отменяет полевые испытания.

World models пока почти целиком про робототехнику. Если честно посмотреть на применения, всё крутится вокруг физического AI: манипуляции, беспилотники, складская видео-аналитика. Один из горячих тейков с самого GTC звучал так: технология огненная, но за пределами роботов применять её сегодня практически негде. Если вы пишете веб, бэкенд или гоняете LLM для кода, Cosmos 3 вам сегодня прикладывать не к чему.

Альтернативы

Meta V-JEPA 2 — 1.2B параметров под честной MIT-лицензией. Это self-supervised JEPA: она не рисует пиксели, а предсказывает скрытые представления того, как мир изменится. Учится из миллиона с лишним часов видео плюс жалкие 62 часа робо-данных и делает zero-shot планирование. Легче, честнее по открытости и не привязана к железу, но это про понимание и планирование, а не про генерацию синтетики со звуком.

Google DeepMind Genie 3 генерит интерактивные миры в реальном времени из текста и универсальнее по доменам. Минус принципиальный: модель закрытая, доступ только через Google AI Ultra и для горстки академиков. Самому захостить или дообучить нельзя.

World Labs Marble от Фей-Фей Ли строит персистентные 3D-сцены через Gaussian Splatting, доступна от бесплатного тарифа до $95 в месяц. Но она заточена под 3D-контент, гейминг и VFX, веса закрыты, и для обучения роботов это не тот инструмент.

Вердикт

Если вы строите перцепцию или политику для роботов, беспилотников или складского видео-анализа и вам нужна синтетика плюс post-training на своих логах, Cosmos 3 Nano стоит попробовать на этой неделе. Один MoT-стек вместо трёх моделей и 6 готовых датасетов реально экономят месяцы сбора данных. Это конкретная выгода, а не маркетинг.

Если вы не в физическом AI, это «посмотреть и закрыть вкладку»: приложить негде, а железо кусается. И держите в уме главное: «открытость» здесь работает как троян для продажи Blackwell. Берёте модель, а с ней и всю экосистему NVIDIA со всеми её CUDA-зависимостями. Кому это ок, велкам. Кто хочет vendor-neutral, смотрите в сторону V-JEPA 2.

Как попробовать

Без железа. Зайдите на build.nvidia.com, найдите cosmos3-nano-reasoner и потыкайте прямо в браузере.
Через API. OpenAI-совместимый клиент на https://integrate.api.nvidia.com/v1, модель cosmos3-nano-reasoner (точную строку сверьте в каталоге). Скормите кадр или видео и спросите про физику сцены.
Локально. Если есть Hopper, Blackwell или RTX PRO 6000: huggingface-cli download nvidia/Cosmos3-Nano, код и примеры в репозитории на GitHub.
Под свой домен. Возьмите один из 6 датасетов (например PhysicalAI-SDG-RobotSim) и скрипты post-training, дообучите под свою задачу.
В прод. Разверните как NVIDIA NIM (Cosmos 3 Reasoner NIM уже доступен) или через партнёров вроде Baseten, CoreWeave и Azure.