# multimodal
NVIDIA Cosmos 3 — первая полностью открытая omni-модель, которая рассуждает о физике и сама генерирует мир для роботов
NVIDIA выложила Cosmos 3 — первую полностью открытую omni-модель, которая в одном стеке рассуждает о физике и сама генерирует видео, звук и действия для роботов, беспилотников и складского видео-анализа. Разбираем архитектуру из двух башен, версии Nano 8B и Super 32B, 6 открытых датасетов, лицензию с поводком и зачем NVIDIA раздаёт фронтир бесплатно.
Gemini Omni Flash — модель, которая месяц пряталась в UI Gemini, на I/O заменила Veo и сжигает Pro-квоту за 4 ролика
Google запустил Gemini Omni Flash на I/O 19 мая. Модель заменила Veo в Gemini-приложении, добавила multi-turn редактуру через чат и зашила несъёмный SynthID. API пока нет, и двух роликов хватает, чтобы выжрать 86% дневной Pro-квоты.
MiniCPM-V 4.6 — мультимодальная модель на 1.3B, которая видит видео на айфоне без интернета и весит 1.6 ГБ
OpenBMB из Tsinghua тихо выложили MiniCPM-V 4.6 — мультимодальную модель на 1.3B под Apache 2.0. 1.6 ГБ через Ollama, работает на iPhone, Android и HarmonyOS без интернета. 38% на MMMU-Pro — рекорд для open-weight моделей до 2B параметров.
NVIDIA Nemotron 3 Nano Omni: 30B-модель, которая видит, слышит и читает за один проход. И обходит Qwen3-Omni на каждом бенчмарке
NVIDIA выкатила открытую multimodal модель Nemotron 3 Nano Omni: 30B параметров, 3B активных, понимает video/audio/image/text одной моделью. 9x throughput vs другие omni-модели, 25 ГБ RAM в 4-бит. Бьёт Qwen3-Omni на каждом бенчмарке.
Qwen3.5-Omni — 113 языков, голосовые клоны и аудио-видео в одном контуре. Alibaba наступает на пятки Gemini
Alibaba выкатила Qwen3.5-Omni — мультимодальную модель с текстом, картинками, аудио и видео в одном контуре. Три версии (Plus/Flash/Light), 256K контекста, 113 языков распознавания речи и voice cloning. Разбираем, что это даёт разработчику.