$ grep -r "vision" ./posts/
# vision
>
·
7 мин
Unlimited-OCR — Baidu взяла идею DeepSeek OCR, починила её главный потолок и обогнала оригинал
Baidu выложила Unlimited-OCR — open-source модель на 3B параметров, которая читает 40+ страниц за один проход и держит KV-кэш постоянным благодаря R-SWA. По замерам Baidu обходит DeepSeek OCR на OmniDocBench. Разбираем, как это работает, как запустить и кому она реально нужна.
llm
open-source
vision
ocr
>
·
7 мин
MiniCPM-V 4.6 — мультимодальная модель на 1.3B, которая видит видео на айфоне без интернета и весит 1.6 ГБ
OpenBMB из Tsinghua тихо выложили MiniCPM-V 4.6 — мультимодальную модель на 1.3B под Apache 2.0. 1.6 ГБ через Ollama, работает на iPhone, Android и HarmonyOS без интернета. 38% на MMMU-Pro — рекорд для open-weight моделей до 2B параметров.
ai
llm
open-source
multimodal