> 12 May 2026 · 7 мин

MiniCPM-V 4.6 — мультимодальная модель на 1.3B, которая видит видео на айфоне без интернета и весит 1.6 ГБ

ai llm open-source multimodal edge-ai vision ollama

Вчера, 11 мая, OpenBMB тихо выложили на HuggingFace MiniCPM-V 4.6, мультимодальную модель на 1.3 миллиарда параметров под Apache 2.0. Никаких твитов от больших голов индустрии, никаких пресс-релизов на TechCrunch. Просто страница на HuggingFace, репо на GitHub и квантованная сборка для Ollama, которая весит 1.6 гигабайта.

И это, кажется, самое практичное из всего, что вышло за неделю.

TL;DR: Модель из лаборатории Tsinghua NLP + ModelBest. 1.3B параметров, 262K контекст, понимает текст, картинки и видео, отдаёт только текст. Сборка на 1.6 ГБ через ollama run minicpm-v-4.6 крутится на ноутбуке, в репозитории лежат готовые сборки для iOS, Android и HarmonyOS. На бенчмарке Artificial Analysis Intelligence Index набирает 13 баллов, на 3 выше Qwen3.5 0.8B, и для этого тратит в 19 раз меньше output-токенов.

Что они на самом деле сделали

Главный трюк — техника из LLaVA-UHD v4, которую OpenBMB зашили в визуальный энкодер. Она урезает вычисления на этапе обработки изображения больше чем вдвое и поддерживает смешанное сжатие визуальных токенов 4x/16x. Прикладной смысл такой: в режиме 4x модель внимательно смотрит на детали (читай мелкий шрифт на чеке), в 16x прогоняет кадр через себя быстро, когда нужно описать сцену в реальном времени.

Архитектурно это SigLIP2-400M для зрения и Qwen3.5-0.8B как LLM-бэкбон. Dense-модель, без MoE, поэтому 1.3B активных параметров здесь это честные 1.3B, а не 12B/2B-трюк как у Mixtral-подобных.

Что это даёт разработчику

Ставим через Ollama одной командой:

ollama run openbmb/minicpm-v4.6

В интерактивной сессии можно вставить путь к картинке или URL, модель ответит. Дальше уже работаешь через локальный OpenAI-совместимый эндпойнт.

Если нужен сервер на проде, в репо есть готовая команда для vLLM:

vllm serve openbmb/MiniCPM-V-4.6 \
  --port 8000 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --default-chat-template-kwargs '{"enable_thinking": false}'

Запрос в OpenAI-формате:

curl -s http://localhost:8000/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "openbmb/MiniCPM-V-4.6",
    "messages": [{"role": "user", "content": [
      {"type": "image_url", "image_url": {"url": "https://example.com/receipt.png"}},
      {"type": "text", "text": "Выпиши все позиции и цены из чека"}
    ]}]
  }'

И это всё работает локально. Никаких ключей, никаких писем про закончившийся free tier.

Цифры, которые имеют значение

Artificial Analysis измерили Intelligence Index на 13. Это новый Pareto-оптимум среди открытых моделей до 2B параметров. Для контекста: Qwen3.5 0.8B без reasoning набирает 10 и тратит 101 миллион output-токенов на бенчмарк, MiniCPM-V 4.6 набирает 13 при 5.4 миллиона токенов. То есть в 19 раз меньше пишет, чтобы решить ту же задачу. Если гоняешь батчи на своём железе, это прямая экономия времени, потому что не платишь за токены, а ждёшь их.

На MMMU-Pro модель выбила 38%. Рекорд для open-weight моделей до 2B параметров. Ближайший конкурент LFM2.5-VL-1.6B от Liquid AI выдаёт 27%. Qwen3.5 0.8B non-reasoning набирает 26%.

А вот где модель проседает: AA-Omniscience -85. Это бенчмарк на знание фактов о мире. Для сравнения, Qwen3.5 2B non-reasoning набирает -83. То есть модель не знает много фактов и охотно галлюцинирует на вопросах из общей эрудиции. Это типичная картина для всего класса sub-2B, не баг конкретно этой сборки.

Pocket-sized без кавычек

OpenBMB выложили полный набор edge-кода для iOS, Android и HarmonyOS. Клонируешь репо, открываешь в Xcode, собираешь, и у тебя на айфоне крутится мультимодальная модель без интернета. В README есть видео работы на iPhone 17 Pro Max, Redmi K70 и HUAWEI nova 14 без редактирования, прямая запись экрана.

Квантованная Q4-сборка весит 1.6 гигабайта, BF16 версия весит 2.6. На любом современном устройстве помещается без вопросов.

Подводные камни

1. Нет ни одного провайдера на инференс. Together, Fireworks, DeepInfra, OpenRouter. Ни одного. На странице Artificial Analysis в графе «Providers» прямо написано: No confirmed providers on release. Если нужен managed-эндпойнт, придётся либо ждать, либо поднимать у себя. На vLLM на одном L4 это работает, но кто-то должен следить за ним.

2. Знаний у модели мало. AA-Omniscience -85 значит, что на вопросы вне визуального контекста модель будет уверенно врать. Не используй её как Q&A-движок для общих вопросов. Используй для «опиши сцену», «прочти текст с фото», «найди все номера на странице», «о чём это видео».

3. torchcodec ломается на CUDA 12.x. В официальной документации мелким шрифтом написано: torch>=2.11 тащит CUDA 13.1 по умолчанию, а torchcodec для декодинга видео может упасть на старых драйверах с ошибкой RuntimeError: Could not load libtorchcodec. Лекарства два: пиновать CUDA 12.8 или заменить torchcodec на PyAV. Если поднимаешь на сервере с готовым стэком, закладывай час на разруливание зависимостей.

4. Только текст на выходе. Если хочешь голос или аудио-понимание, это другая модель: MiniCPM-o 4.5 на 9B параметров. Их часто путают, потому что префикс «MiniCPM» один. V значит vision-language с текстовым выводом, o значит omni-modal с речью и full-duplex стримингом.

5. Бэкбон Qwen3.5-0.8B. Все слабости Qwen-семейства модель наследует. Китайский в обучающем корпусе доминирует над английским, на тонком английском контексте бывают ошибки. Для русского придётся тестировать самому, в карточке модели русский не упоминается.

Альтернативы

Qwen3.5 2B — на 2 балла выше по Intelligence Index (15 против 13), но в 1.7 раза больше параметров. Если влезает в твоё железо, практичнее.

Gemma 3n от Google — заточена под edge, но без мультимодального входа из коробки. Для чисто текстовых задач быстрее, но не видит картинок.

LFM2.5-VL-1.6B от Liquid AI — единственный реальный конкурент по визуальным задачам в этом размере. Но 27% против 38% на MMMU-Pro у MiniCPM. Разрыв заметный.

Phi-3.5-vision от Microsoft — постарше, 4.2B параметров, не апдейтился полгода. Скорее память о том, как было до взрыва edge-моделей.

Вердикт

Бери, если строишь офлайн-приложение, которое должно видеть камеру или картинки: сканер чеков и документов, описание сцены для незрячих, фильтр контента в мессенджере, моментальный OCR на телефоне. Apache 2.0, 1.6 ГБ Q4, готовые iOS/Android-сборки в одном репо. Лучший набор условий в этом сегменте сейчас.

Не бери, если нужна интеллектуальная Q&A-машина или серверный inference без своего DevOps. Для первого модель слишком маленькая (знания слабые), для второго пока нет никого, кто бы продавал её через API.

И не путай с MiniCPM-o 4.5. Это другая модель в 7 раз больше, с речью и аудио.

Как попробовать

Локально через Ollama — ollama run openbmb/minicpm-v4.6, затем кидай URL картинки прямо в чат.
Веб-демо без установки — HuggingFace Space, кидай файл и спрашивай.
На сервере через Transformers — pip install "transformers[torch]>=5.7.0" torchvision и подгружай через AutoModelForImageTextToText.from_pretrained("openbmb/MiniCPM-V-4.6"). В model card есть готовый сниппет.
На айфоне — клонируй edge-demo репо, открой в Xcode, собирай. Готовые .ipa лежат на странице загрузок в репо.
Файнтюнинг под свою задачу — гайд через LLaMA-Factory. Запускается на потребительских GPU, любой A100 или 4090 справится с LoRA-настройкой за вечер.