> 27 Apr 2026 · 9 мин

DeepSeek V4 — миллион токенов за $3.48, open-weights под MIT и работа без Nvidia

ai agents llm open-source models deepseek

DeepSeek V4 — миллион токенов за $3.48, open-weights под MIT и работа без Nvidia

В пятницу 24 апреля DeepSeek выкатил V4. Релиз идёт как preview, но сразу с весами на Hugging Face под MIT-лицензией, двумя моделями и ценой, которая ломает всю ставку OpenAI и Anthropic на премиум.

TL;DR: DeepSeek V4 Pro — 1.6 триллиона параметров, 49 миллиардов активных, миллион токенов контекста, $1.74 за миллион входных токенов против $15 у Claude Opus 4.7. Вариант Flash стоит $0.14. KV-cache ужат в 9.5 раз, новая гибридная attention-архитектура и нативная работа на Huawei Ascend. Один из тех релизов, что меняют ценовой расклад на всём рынке.

Saoud Rizwan, автор кодинг-агента Cline, описал ситуацию двумя предложениями: «DeepSeek V4 — самая дешёвая SOTA-модель сегодня, 1/20 от стоимости Opus 4.7. Если бы Uber использовал DeepSeek вместо Claude, их AI-бюджет на 2026 хватило бы на 7 лет вместо 4 месяцев». Это не маркетинговый твит. Цифры считаются за минуту.

Две модели вместо одной

DeepSeek уловил то, что остальные разводят по разным API: одной модели мало.

V4-Pro — 1.6T параметров, 49B активных. Веса 865 GB. Для production-инференса нужно минимум 8 H100 80GB. Это конкурент Opus 4.7 и GPT-5.4 на сложных задачах.
V4-Flash — 284B параметров, 13B активных. Веса 160 GB. Запускается на одной ноде. Для high-throughput сценариев и edge inference.

Обе модели поддерживают 1M-токен контекст из коробки. Никакого beta-доступа, никаких extra-тарифов за расширение окна. Раньше эта же возможность стоила отдельных денег у всех конкурентов.

Архитектура — где DeepSeek реально новый

Бенчмарки у V4 «competitive, but not SOTA», как пишут на Hugging Face. И сами разработчики DeepSeek с этим не спорят. Главное в V4 совсем другое: то, как модель работает с большим контекстом.

В классической attention KV-cache растёт линейно с длиной последовательности. На миллионе токенов это превращается в десятки гигабайт памяти на одного пользователя. DeepSeek придумал гибрид:

Compressed Sparse Attention (CSA) — сжатие KV-блоков в 4× и sparse-выбор через Lightning Indexer
Heavily Compressed Attention (HCA) — сжатие в 128× с полным dense-вниманием на компрессированный поток

Слои чередуются. В 61-слойном Pro: слои 0-1 — HCA, 2-60 — поочерёдно CSA и HCA, последний MTP-блок — sliding window. Хранение KV в FP8, RoPE в BF16, lightning indexer в FP4. На выходе 2% от размера KV-cache по сравнению с обычной grouped query attention в bf16. На 1M токенов V4-Pro требует 27% FLOPs от V3.2 и 10% KV-cache.

Перевод на человеческий: серверу нужно в 10 раз меньше памяти на одного пользователя с миллионным контекстом. Поэтому DeepSeek может выставить цену в 1/20 от Opus и не уйти в минус.

Ещё две новинки:

Manifold-Constrained Hyper-Connections (mHC) заменяют классические residual-связи. По заявлению команды, повышают стабильность сигнала между слоями без потери выразительности. Независимых проверок пока нет.
Muon optimizer — собственная разработка DeepSeek вместо AdamW для большинства параметров. Якобы быстрее сходимость и стабильнее тренировка на триллион параметров.

Тренировка шла на 32+ триллиона токенов в смешанной FP4/FP8 точности. MoE-эксперты в FP4, остальное в FP8. Это, к слову, делает V4 первой trillion-scale моделью, которая натренирована и сервится в основном на 4-битах.

DeepSeek V4 architecture

Бенчмарки — где V4 хорош, а где недотягивает

DeepSeek опубликовал большие таблицы. Цифры от вендора, поэтому к ним надо относиться скептически. Но за выходные подтянулись и независимые замеры.

Знание и рассуждение (V4-Pro Base vs V3.2 Base):

MMLU: 90.1 vs 87.8
MMLU-Pro: 73.5 vs 65.5
HumanEval: 76.8 vs 62.8
GSM8K: 92.6 vs 91.1
LongBench-V2: 51.5 vs 40.2

Прирост заметный, особенно на длинном контексте. Но V4 «trails the frontier closed systems by 3-6 months», как сама DeepSeek признаёт.

Агентские бенчмарки (V4-Pro-Max в режиме Think Max):

SWE Verified: 80.6 — паритет с Opus 4.6 (80.8) и Gemini 3.1 Pro (80.6)
MCPAtlas Public: 73.6 — #2 после Opus 4.6
Toolathlon: 51.8 — впереди Kimi K2.6, GLM-5.1, Gemini 3.1 Pro
Terminal Bench 2.0: 67.9 — позади GPT-5.4-xHigh (75.1), но обходит K2.6 и GLM-5.1
Внутренний R&D-кодинг DeepSeek: 67% pass rate vs Sonnet 4.5 (47%), Opus 4.5 (70%)

Третьи стороны успели прогнать модель за выходные. Платформа Arena.ai поставила V4-Pro в Thinking Mode на 3-е место среди open-source моделей и 14-е среди всех моделей в их code arena, охарактеризовав это как «significant leap compared to V3.2». Vals AI в своём Vibe Code Benchmark поставил V4 на 1-е место среди open-weight моделей, обойдя Gemini 3.1 Pro: «V3.2 набрал 5 баллов на этом бенчмарке, и это не опечатка». В сводном Vals-индексе V4 стал 2-м, всего 0.07% позади Kimi K2.6.

В опросе 85 разработчиков самой DeepSeek 52% сказали, что V4-Pro готова заменить их основную кодинг-модель, ещё 39% «склонились к да». Опрос внутренний, но цифра для preview-релиза показательная.

Длинноконтекстный retrieval (MRCR 8-needle): 0.82 на 256K, падает до 0.59 на миллионе. То есть «миллион контекста» совсем не означает, что модель помнит всё. На 1M качество поиска нужного факта падает почти вдвое по сравнению с 256K.

Цены — самая жирная часть

Сравним output-цены за миллион токенов:

V4-Flash: $0.28
V4-Pro: $3.48
GPT-5.4: $15
Sonnet 4.6: $15
GPT-5.5 (Spud): $30
Opus 4.7: $75

V4-Pro стоит в 21 раз дешевле Opus 4.7 на output. На сложных задачах с большим контекстом разница ещё больше: cache discount 80% для Flash и 92% для Pro. Если у тебя AI-агент гоняет одни и те же системные промпты по 100K токенов на каждый запрос, DeepSeek превращает API-расходы в копейки.

Поэтому Saoud Rizwan и сравнил с Uber. Если у тебя AI-фича обходится в $400K в месяц на Claude, на DeepSeek то же самое стоит $20K. На стартапе это разница между «нашим юзерам теперь нельзя без подписки» и «мы можем дать бесплатный tier».

Без Nvidia — впервые

V4 — первая китайская frontier-модель, которая натренирована и оптимизирована под Huawei Ascend и Cambricon без раннего доступа Nvidia или AMD. Год назад DeepSeek-R1 выкосил $600 млрд капитализации Nvidia за неделю. Сейчас DeepSeek показывает, что весь стек, от тренировки до inference, может работать без американских чипов.

Для разработчиков это пока не имеет прямого смысла. Мы по-прежнему запускаем V4 на H100 или через API. Но геополитически это серьёзный сдвиг: китайский AI-стек стал самодостаточным.

Подводные камни

Не всё так радужно. На второй день после релиза вылезли проблемы.

Multi-turn conversations ломаются. Open issue #26395 в LiteLLM: в многоходовых диалогах reasoning_content вырезается из assistant messages, и модель теряет цепочку рассуждений между ходами. Если используешь V4-Pro как агента с инструментами, это критично.
«Think Max» режим требует 384K+ контекста. Если твой провайдер ограничивает контекст ниже, максимальный режим рассуждений просто не запустится. Документация об этом упоминает в третьем абзаце.
Independent benchmarks от ML-сообщества пока не опубликованы. Все цифры — от DeepSeek или Vals AI/Arena.ai. Несколько «утёкших» бенчмарков на X оказались фейками: один из них показывал AIME 2026 99.4%, что физически невозможно при максимуме 99.2% (119/120). Community Notes уже снесли этот пост.
NIST в США опубликовал предупреждение 21 апреля: модели DeepSeek содержат CCP-выровненную цензуру, легче поддаются jailbreak и хуже на вопросах, связанных с безопасностью. Если строишь продукт для enterprise или госсектора в США, будут вопросы compliance.
Старые endpoints отключают. deepseek-chat и deepseek-reasoner будут disabled 24 июля 2026 в 15:59 UTC. Все интеграции придётся переписать на deepseek-v4-pro или deepseek-v4-flash. Если у тебя старая интеграция, это hard deadline.
V4-Flash хуже V3.2 в реальных задачах. Пользователь Michael Anti на X написал: «На моих тестах Flash не превзошёл V3.2, апгрейд разочарование». Если у тебя готовая интеграция на V3.2, не торопись мигрировать ради одних только цифр.
Hallucinations особенно убедительные. Модель так хорошо рассуждает, что её галлюцинации звучат логично и уверенно. На фактических вопросах требует cross-reference.
Retrieval на 1M токенов падает. MRCR 0.59 при миллионе токенов означает, что модель находит нужный факт в большом контексте только в 59% случаев. На 256K показатель 82%. Не клади весь репозиторий разом, если можешь разбить.

Альтернативы

Claude Opus 4.7 — frontier-качество, лучший в агентских задачах, но $75/M output. Для исследовательских задач без бюджетных ограничений пока без альтернативы. Никаких open weights.
GPT-5.5 (Spud) — релиз вышел за день до DeepSeek V4, persistent memory и unified super app. $30/M output. Если делаешь продукт под ChatGPT-экосистему, выбора особо нет.
Qwen 3.6-27B Dense — Apache 2.0, запускается на одной 4090, лидер агентского кодинга среди dense-моделей. Если нужен open-weight без MoE-инфраструктуры на 8 H100, это твой выбор.
GLM-5.1 — MIT, тоже из Китая, обходит Claude Opus и GPT-5.4 на SWE-Bench Pro. Меньше масштаб, чем V4, но проще запустить локально.

Вердикт

Если строишь AI-продукт с миллионами вызовов в месяц, переходи на V4-Flash сегодня и сэкономь 90% бюджета. Цифры на агентских бенчмарках уже паритет с Sonnet, для большинства задач этого хватит.

Если делаешь sensitive enterprise-продукт или работаешь с US compliance, пока не трогай. NIST-предупреждение и цензурные особенности всплывут в первый же security audit.

Если у тебя готовая интеграция на V3.2, подожди две недели и читай GitHub Issues. Multi-turn баг в LiteLLM это только первая ласточка. Preview всегда означает «найдёшь грабли первым».

Если не можешь позволить Opus 4.7 в продакшене, но Sonnet 4.6 не вытягивает, бери V4-Pro. Самая интересная middle-ground модель за весь 2026.

Как попробовать

Бесплатно в браузере: chat.deepseek.com, регистрация по email или Google. Внутри два режима: Expert Mode (V4-Pro Thinking с visible reasoning) и Instant Mode (V4-Flash для быстрых ответов).
Через OpenRouter: залогинься на openrouter.ai, сгенерируй API key, используй deepseek/deepseek-v4-flash:free или deepseek/deepseek-v4-pro:free. OpenAI-совместимый endpoint, можно подключить как drop-in замену.
Через официальный API: api-docs.deepseek.com, 5 миллионов токенов в виде стартового кредита, дальше платно. Совместим с OpenAI и Anthropic клиентами.
Скачай веса: huggingface.co/deepseek-ai/DeepSeek-V4-Pro или V4-Flash. Для Pro нужно 8× H100 80GB. Для Flash достаточно одной H200 или двух H100. Существуют community-квантизации в 4 и 3 бита, которые срезают размер на 60-75% за пару пунктов на бенчмарках.
Хочешь почитать paper: DeepSeek_V4.pdf, техрепорт с подробностями про CSA, HCA и DSec sandbox для RL-роллаутов.

DeepSeek V4 — миллион токенов за $3.48, open-weights под MIT и работа без Nvidia

DeepSeek V4 — миллион токенов за $3.48, open-weights под MIT и работа без Nvidia

Две модели вместо одной

Архитектура — где DeepSeek реально новый

Бенчмарки — где V4 хорош, а где недотягивает

Цены — самая жирная часть

Без Nvidia — впервые

Подводные камни

Альтернативы

Вердикт

Как попробовать

Похожие статьи

Апрель превратил AI-рынок в барахолку: GLM-5.1 под MIT бьёт GPT-5.4, Claude Mythos под 50-компанейским замком, GPT-6 так и не вышел

Claude Opus 4.7 — 1:1 пиксельные координаты, task budgets и тихо убитые thinking budgets

Claude Code Routines + редизайн десктопа — AI-агент работает в облаке по расписанию, пока ты спишь, а новый интерфейс превращает терминал в Mission Control