> 24 May 2026 · 10 мин

DeepSeek сделал скидку 75% постоянной: V4-Pro теперь $0.87 за миллион output, и Opus стал дороже в 28 раз

ai llm open-source coding-agents deepseek api-pricing

23 мая, пока западные провайдеры выкатывали обновления к Google I/O, DeepSeek тихо опубликовал твит и обновил страницу прайса. Промо-скидка 75% на V4-Pro, которая должна была истечь 31 мая, теперь постоянная. Hacker News тут же выкатил это в топ: 437 голосов, 250 комментов, рыночные обсуждения сразу про то, как Microsoft вообще теперь будет конкурировать.

TL;DR: DeepSeek закрепил промо-цены навсегда. V4-Pro теперь стоит $0.435/$0.87 за 1M input/output токенов и $0.003625 за кеш-хит. Это в 28 раз дешевле Claude Opus 4.7 на output и в 35 раз дешевле GPT-5.5. Контекст — 1 миллион токенов, max output 384K. Модель идёт через Huawei Ascend, и западные провайдеры с теми же открытыми весами не могут так же. Baidu и Novita просят за идентичный V4-Pro в 3-4 раза больше.

Что именно поменялось

До 23 мая список цен выглядел так. Базовая цена $1.74 за миллион input-токенов, $3.48 за output, $0.0145 за кеш-хит. Промо-скидка 75% временно сжимала это до $0.435/$0.87 с дедлайном 31 мая. Все ждали, что после дедлайна вернутся базовые цены.

DeepSeek решил иначе. На странице прайса теперь явно написано: после окончания промо 31 мая базовые цены официально меняются на 1/4 от исходных. То есть промо стало новой нормой:

V4-Pro input (cache miss): $0.435 / 1M
V4-Pro input (cache hit): $0.003625 / 1M
V4-Pro output: $0.87 / 1M
V4-Flash input: $0.14 / 1M
V4-Flash output: $0.28 / 1M
V4-Flash cache hit: $0.0028 / 1M

Контекст одинаковый, 1M токенов. Max output 384K. Concurrency limit 500 на Pro и 2500 на Flash. Архитектура у Pro — MoE с 1.6T параметров, 49B активных. Под капотом Hybrid Attention (Compressed Sparse Attention плюс Heavily Compressed Attention), и она же даёт сверхэффективный KV-кеш.

Почему западные не могут так же

Тот же V4-Pro в открытых весах хостится не только у DeepSeek. Есть 12 провайдеров на OpenRouter. Вот что они просят за идентичные веса:

Baidu FP8: $1.521 / $3.042. В 3.5× дороже DeepSeek
Novita FP8: $1.64 / $3.38. В 3.8× дороже DeepSeek
DeepSeek сам: $0.435 / $0.87

Никто из них не квантизирует. Там FP8, а не FP4. То есть это не вопрос «дешёвое железо плюс срезанная точность». Либо DeepSeek продаёт в минус как маркетинговую ставку, либо у них на собственной инфраструктуре действительно есть оптимизации, которых ни у кого больше нет.

Минимум одно работает точно. Это KV-кеш. Comment на HN от Palmik (явно из инфраструктурного цеха) поясняет: «На том же воркфлоу у DeepSeek API я вижу ~80% cache hit rate, а у западных провайдеров для тех же весов ~50%». Разница в полтора раза по хитрейту умножается на разницу в стоимости хита (которая у DeepSeek беспрецедентно низкая). Получается ситуация, где cache hit стоит 0.8% от input price. У GPT-5.4 кешированный input стоит $0.25/M, у Gemini 3 Flash $0.05/M, у DeepSeek V4-Pro $0.003625/M. На порядок дешевле любого западного аналога.

Второй фактор — железо. V4-серия первая у DeepSeek оптимизирована под Huawei Ascend 950/950PR, а не Nvidia. Из-за US-санкций китайские игроки в Nvidia не имеют доступа к топовому железу, и Huawei неожиданно стал их инфраструктурным backbone'ом. Сообщается, что Huawei планирует отгрузить 750 000 единиц Ascend 950PR в 2026. На порядок больше, чем у них было год назад. Tencent, Alibaba и ByteDance тоже стоят в очереди за этими чипами.

Сравнение с конкурентами по output-токенам

На бенчмарках V4-Pro где-то «между Sonnet и Opus». Так выразился один из комментаторов HN, которого многие поддержали. На output-цене разница такая (цены за 1M output-токенов):

DeepSeek V4-Pro: $0.87
Grok 4.3: $2.50
GLM 5.1 / Qwen 3.6 Max: ~$3
Qwen 3.7 Max: $7.50
Gemini 3.1 Pro: $12.00
Claude Opus 4.7: $25.00
GPT-5.5: $30.00

Разница с Opus в 28 раз. С GPT-5.5 в 35 раз. На input cache-miss разница ещё больше: $0.435 у DeepSeek против $5 у Opus, в 11 раз. На cache hit против $0.50 у Opus это 138× дешевле.

И это не сравнение маленькой модели с флагманом. V4-Pro и есть флагман DeepSeek, с тонкой настройкой под long-horizon агентов и кодинг.

Что говорят те, кто уже мигрировал

Цифры из реальных юзкейсов, собранных из HN-треда:

65M токенов за 3 недели сложного кодинга = $1.50. Сообщение от Sphax: «Использую GLM Coding Plan Max с GLM 5.1, недавно протестировал V4-Pro, для сложных задач он лучше. Потратил 65M токенов, обошлось в $1.50».
100M токенов в день в opencode = ~$2. Сообщение от pzo: «Юзаю V4-Pro через opencode, в день расходую 100M токенов, выходит около $2. Большая часть кеш-токены, а они почти бесплатные».
Час кодинга в Pi = $1. Сообщение от zmmmmm: «V4-Pro как coding agent, час итераций со сборкой и тестами, через OpenRouter обошлось менее чем в $1. У Anthropic один промпт мог столько стоить».

Самое интересное в этих числах не сама дешевизна. Важнее тот факт, что 70-80% input-токенов в реальном агентном воркфлоу попадают в кеш. Если ты строишь агента с системным промптом 50K токенов, который повторяется на каждом шаге, у тебя 50K × 80% = 40K токенов за один шаг стоят не $0.435/M, а $0.003625/M. Это меняет экономику в десятки и сотни раз, не на проценты.

Как воткнуть V4-Pro в Claude Code

DeepSeek сделал официальный гайд по интеграции с Claude Code. Базовая команда. Указываешь base URL и меняешь модель:

export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_AUTH_TOKEN=sk-your-deepseek-key
export ANTHROPIC_MODEL=deepseek-v4-pro
claude

После этого Claude Code думает, что общается с Anthropic API, а под капотом запросы идут в DeepSeek. Anthropic-формат конвертируется на их стороне. Тулы и MCP-серверы продолжают работать.

Альтернативно через OpenRouter, если нужны разные провайдеры в одной системе:

export ANTHROPIC_BASE_URL=https://openrouter.ai/api/v1
export ANTHROPIC_AUTH_TOKEN=sk-or-your-openrouter-key
export ANTHROPIC_MODEL=deepseek/deepseek-v4-pro

В opencode и Aider тот же сценарий. В конфиге меняется endpoint и модель.

Подводные камни

Скорость. V4-Pro медленный. Один из комментаторов HN сравнивает: «Смотрю, как он думает на ~2400 бод. В 4-5 раз медленнее Gemini 3.5 Flash». Это thinking-токены, которые модель действительно выдаёт перед ответом. У DeepSeek они подробнее, чем у Gemini, но скорость генерации ниже. Для batch-задач это норм. Для real-time чата больно.

Concurrency limit 500. V4-Pro ограничен 500 одновременными запросами на аккаунт (у Flash 2500). Если строишь массивную параллельную обработку, упрёшься в потолок раньше, чем в цену. У OpenAI и Anthropic лимиты гибче, но и цены другие.

Privacy. Privacy policy DeepSeek явно говорит: «We directly collect, process and store your Personal Data in the People's Republic of China». То есть промпты и completions хранятся в КНР и используются для тренировки. Для большинства проектов это не критично, для энтерпрайза с регуляторкой это стоп-фактор. Ascotan на HN отдельно подсветил эту строчку.

Расход токенов. V4-Pro генерирует больше output-токенов на ту же задачу, чем модели OpenAI или Anthropic. Цепочки thinking длиннее. Один из юзеров спорил: «За час кодинга через V4-Pro я потратил $5, через Claude Code Pro plan тот же кейс бесплатно за рабочую сессию». Контр-аргумент от beacon294: «Если у тебя $5 за час, у тебя проблемы с кешированием в клиенте». То есть без правильно настроенного cache flag в клиенте часть экономики ломается.

Subscription-планы конкурентов могут быть выгоднее. Claude Code Pro plan за $20/мес даёт безлимит в рамках 5-часовых сессий с reset. Если ты кодишь 5 часов в день, твои $20 покупают грубо ~$200-400 API-эквивалента в Sonnet. DeepSeek подписки не предлагает, только pay-per-token. На малых объёмах подписка может оказаться дешевле.

Скорость может ухудшиться. DeepSeek уже наполнен трафиком, после анонса прирост запросов гарантирован. Concurrency limit 500 не случаен. Если ты строишь production-сервис на их API напрямую, готовь fallback на Azure-хостинг или OpenRouter.

Альтернативы

Azure DeepSeek V4-Pro и V4-Flash. Microsoft хостит те же модели на своей инфраструктуре. Цена выше, чем у DeepSeek directly (но всё ещё дешевле Sonnet), зато никакого data retention в Китае. Для энтерпрайза рабочий вариант, подключение идёт через стандартный Azure AI Foundry.
OpenRouter с фильтром по non-China провайдерам. Together AI и Fireworks хостят DeepSeek-семейство без data retention. Цены $1.5-1.7/M input, в 3-4 раза дороже DeepSeek directly, но ты платишь за гарантию приватности.
Crof.ai и Cortecs.ai. Европейские провайдеры. Cortecs позиционируется как «Europe's LLM Router», хостит DeepSeek с пометкой no-training-data-policy. Для GDPR-чувствительных проектов это компромисс. Цена выше китайской, ниже американской.
Qwen 3.7 Max. Китайский конкурент уровня Opus, $2.50/$7.50. Дороже DeepSeek в 5-9 раз, но на бенчмарках выше (особенно SWE-Pro). Если V4-Pro «между Sonnet и Opus», Qwen 3.7 Max «на уровне Opus».
GLM 5.1 от Z.ai. Open-source, $3.08 output, 64.3% SWE-Bench Pro. Не так дёшево, но если нужны открытые веса для самохостинга, это вариант. GLM Coding Plan Max за фикс $30/мес даёт безлимит для кодинга.

Вердикт

Стоит мигрировать на V4-Pro, если у тебя batch-задачи или кодинг-агенты с длинными циклами, плюс high-volume пайплайны типа classification и RAG, и при этом privacy не критична. На таком воркфлоу разница в стоимости с Opus или GPT-5.5 окупится в первую неделю, и экономия выходит в десятки раз.

Не стоит, если делаешь real-time чат-интерфейс (медленнее Gemini в 4-5 раз) или если у тебя жёсткая регуляторка с data retention в КНР. Подписка на Claude Code Pro за $20 на низких объёмах тоже остаётся выгоднее любого pay-per-token, если не пробиваешь её лимиты.

Подождать не стоит. Это уже постоянная цена. Дешевле она вряд ли станет, а спрос точно вырастет и concurrency limits начнут резать сильнее. Если ты планировал тестировать V4-Pro до 31 мая «пока промо», теперь промо нет, есть просто цена. Можно не торопиться, но не откладывать на год.

Как попробовать

Зарегистрируйся на platform.deepseek.com. Новые аккаунты получают 5M токенов бесплатно на 30 дней (хватит на ~$8 эквивалента API-расходов).
Получи API-ключ в разделе API Keys, скопируй.
Если используешь Claude Code, поставь env-переменные ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic, ANTHROPIC_AUTH_TOKEN=твой_ключ, ANTHROPIC_MODEL=deepseek-v4-pro и запусти claude. Тестовый промпт: проанализируй этот репо и предложи 3 рефакторинга.
Если используешь opencode или Aider, поменяй endpoint в конфиге на DeepSeek base URL, модель на deepseek-v4-pro. Запусти любую тестовую задачу.
Проверь cache hit rate через /cost (Claude Code) или эквивалент в твоём клиенте. Если меньше 50%, значит system prompt не пинится, и ты теряешь основной выигрыш.