DeepSeek сделал скидку 75% постоянной: V4-Pro теперь $0.87 за миллион output, и Opus стал дороже в 28 раз
23 мая, пока западные провайдеры выкатывали обновления к Google I/O, DeepSeek тихо опубликовал твит и обновил страницу прайса. Промо-скидка 75% на V4-Pro, которая должна была истечь 31 мая, теперь постоянная. Hacker News тут же выкатил это в топ: 437 голосов, 250 комментов, рыночные обсуждения сразу про то, как Microsoft вообще теперь будет конкурировать.
TL;DR: DeepSeek закрепил промо-цены навсегда. V4-Pro теперь стоит $0.435/$0.87 за 1M input/output токенов и $0.003625 за кеш-хит. Это в 28 раз дешевле Claude Opus 4.7 на output и в 35 раз дешевле GPT-5.5. Контекст — 1 миллион токенов, max output 384K. Модель идёт через Huawei Ascend, и западные провайдеры с теми же открытыми весами не могут так же. Baidu и Novita просят за идентичный V4-Pro в 3-4 раза больше.
Что именно поменялось
До 23 мая список цен выглядел так. Базовая цена $1.74 за миллион input-токенов, $3.48 за output, $0.0145 за кеш-хит. Промо-скидка 75% временно сжимала это до $0.435/$0.87 с дедлайном 31 мая. Все ждали, что после дедлайна вернутся базовые цены.
DeepSeek решил иначе. На странице прайса теперь явно написано: после окончания промо 31 мая базовые цены официально меняются на 1/4 от исходных. То есть промо стало новой нормой:
- V4-Pro input (cache miss): $0.435 / 1M
- V4-Pro input (cache hit): $0.003625 / 1M
- V4-Pro output: $0.87 / 1M
- V4-Flash input: $0.14 / 1M
- V4-Flash output: $0.28 / 1M
- V4-Flash cache hit: $0.0028 / 1M
Контекст одинаковый, 1M токенов. Max output 384K. Concurrency limit 500 на Pro и 2500 на Flash. Архитектура у Pro — MoE с 1.6T параметров, 49B активных. Под капотом Hybrid Attention (Compressed Sparse Attention плюс Heavily Compressed Attention), и она же даёт сверхэффективный KV-кеш.
Почему западные не могут так же
Тот же V4-Pro в открытых весах хостится не только у DeepSeek. Есть 12 провайдеров на OpenRouter. Вот что они просят за идентичные веса:
- Baidu FP8: $1.521 / $3.042. В 3.5× дороже DeepSeek
- Novita FP8: $1.64 / $3.38. В 3.8× дороже DeepSeek
- DeepSeek сам: $0.435 / $0.87
Никто из них не квантизирует. Там FP8, а не FP4. То есть это не вопрос «дешёвое железо плюс срезанная точность». Либо DeepSeek продаёт в минус как маркетинговую ставку, либо у них на собственной инфраструктуре действительно есть оптимизации, которых ни у кого больше нет.
Минимум одно работает точно. Это KV-кеш. Comment на HN от Palmik (явно из инфраструктурного цеха) поясняет: «На том же воркфлоу у DeepSeek API я вижу ~80% cache hit rate, а у западных провайдеров для тех же весов ~50%». Разница в полтора раза по хитрейту умножается на разницу в стоимости хита (которая у DeepSeek беспрецедентно низкая). Получается ситуация, где cache hit стоит 0.8% от input price. У GPT-5.4 кешированный input стоит $0.25/M, у Gemini 3 Flash $0.05/M, у DeepSeek V4-Pro $0.003625/M. На порядок дешевле любого западного аналога.
Второй фактор — железо. V4-серия первая у DeepSeek оптимизирована под Huawei Ascend 950/950PR, а не Nvidia. Из-за US-санкций китайские игроки в Nvidia не имеют доступа к топовому железу, и Huawei неожиданно стал их инфраструктурным backbone'ом. Сообщается, что Huawei планирует отгрузить 750 000 единиц Ascend 950PR в 2026. На порядок больше, чем у них было год назад. Tencent, Alibaba и ByteDance тоже стоят в очереди за этими чипами.
Сравнение с конкурентами по output-токенам
На бенчмарках V4-Pro где-то «между Sonnet и Opus». Так выразился один из комментаторов HN, которого многие поддержали. На output-цене разница такая (цены за 1M output-токенов):
- DeepSeek V4-Pro: $0.87
- Grok 4.3: $2.50
- GLM 5.1 / Qwen 3.6 Max: ~$3
- Qwen 3.7 Max: $7.50
- Gemini 3.1 Pro: $12.00
- Claude Opus 4.7: $25.00
- GPT-5.5: $30.00
Разница с Opus в 28 раз. С GPT-5.5 в 35 раз. На input cache-miss разница ещё больше: $0.435 у DeepSeek против $5 у Opus, в 11 раз. На cache hit против $0.50 у Opus это 138× дешевле.
И это не сравнение маленькой модели с флагманом. V4-Pro и есть флагман DeepSeek, с тонкой настройкой под long-horizon агентов и кодинг.
Что говорят те, кто уже мигрировал
Цифры из реальных юзкейсов, собранных из HN-треда:
- 65M токенов за 3 недели сложного кодинга = $1.50. Сообщение от Sphax: «Использую GLM Coding Plan Max с GLM 5.1, недавно протестировал V4-Pro, для сложных задач он лучше. Потратил 65M токенов, обошлось в $1.50».
- 100M токенов в день в opencode = ~$2. Сообщение от pzo: «Юзаю V4-Pro через opencode, в день расходую 100M токенов, выходит около $2. Большая часть кеш-токены, а они почти бесплатные».
- Час кодинга в Pi = $1. Сообщение от zmmmmm: «V4-Pro как coding agent, час итераций со сборкой и тестами, через OpenRouter обошлось менее чем в $1. У Anthropic один промпт мог столько стоить».
Самое интересное в этих числах не сама дешевизна. Важнее тот факт, что 70-80% input-токенов в реальном агентном воркфлоу попадают в кеш. Если ты строишь агента с системным промптом 50K токенов, который повторяется на каждом шаге, у тебя 50K × 80% = 40K токенов за один шаг стоят не $0.435/M, а $0.003625/M. Это меняет экономику в десятки и сотни раз, не на проценты.
Как воткнуть V4-Pro в Claude Code
DeepSeek сделал официальный гайд по интеграции с Claude Code. Базовая команда. Указываешь base URL и меняешь модель:
export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic export ANTHROPIC_AUTH_TOKEN=sk-your-deepseek-key export ANTHROPIC_MODEL=deepseek-v4-pro claude
После этого Claude Code думает, что общается с Anthropic API, а под капотом запросы идут в DeepSeek. Anthropic-формат конвертируется на их стороне. Тулы и MCP-серверы продолжают работать.
Альтернативно через OpenRouter, если нужны разные провайдеры в одной системе:
export ANTHROPIC_BASE_URL=https://openrouter.ai/api/v1 export ANTHROPIC_AUTH_TOKEN=sk-or-your-openrouter-key export ANTHROPIC_MODEL=deepseek/deepseek-v4-pro
В opencode и Aider тот же сценарий. В конфиге меняется endpoint и модель.
Подводные камни
Скорость. V4-Pro медленный. Один из комментаторов HN сравнивает: «Смотрю, как он думает на ~2400 бод. В 4-5 раз медленнее Gemini 3.5 Flash». Это thinking-токены, которые модель действительно выдаёт перед ответом. У DeepSeek они подробнее, чем у Gemini, но скорость генерации ниже. Для batch-задач это норм. Для real-time чата больно.
Concurrency limit 500. V4-Pro ограничен 500 одновременными запросами на аккаунт (у Flash 2500). Если строишь массивную параллельную обработку, упрёшься в потолок раньше, чем в цену. У OpenAI и Anthropic лимиты гибче, но и цены другие.
Privacy. Privacy policy DeepSeek явно говорит: «We directly collect, process and store your Personal Data in the People's Republic of China». То есть промпты и completions хранятся в КНР и используются для тренировки. Для большинства проектов это не критично, для энтерпрайза с регуляторкой это стоп-фактор. Ascotan на HN отдельно подсветил эту строчку.
Расход токенов. V4-Pro генерирует больше output-токенов на ту же задачу, чем модели OpenAI или Anthropic. Цепочки thinking длиннее. Один из юзеров спорил: «За час кодинга через V4-Pro я потратил $5, через Claude Code Pro plan тот же кейс бесплатно за рабочую сессию». Контр-аргумент от beacon294: «Если у тебя $5 за час, у тебя проблемы с кешированием в клиенте». То есть без правильно настроенного cache flag в клиенте часть экономики ломается.
Subscription-планы конкурентов могут быть выгоднее. Claude Code Pro plan за $20/мес даёт безлимит в рамках 5-часовых сессий с reset. Если ты кодишь 5 часов в день, твои $20 покупают грубо ~$200-400 API-эквивалента в Sonnet. DeepSeek подписки не предлагает, только pay-per-token. На малых объёмах подписка может оказаться дешевле.
Скорость может ухудшиться. DeepSeek уже наполнен трафиком, после анонса прирост запросов гарантирован. Concurrency limit 500 не случаен. Если ты строишь production-сервис на их API напрямую, готовь fallback на Azure-хостинг или OpenRouter.
Альтернативы
-
Azure DeepSeek V4-Pro и V4-Flash. Microsoft хостит те же модели на своей инфраструктуре. Цена выше, чем у DeepSeek directly (но всё ещё дешевле Sonnet), зато никакого data retention в Китае. Для энтерпрайза рабочий вариант, подключение идёт через стандартный Azure AI Foundry.
-
OpenRouter с фильтром по non-China провайдерам. Together AI и Fireworks хостят DeepSeek-семейство без data retention. Цены $1.5-1.7/M input, в 3-4 раза дороже DeepSeek directly, но ты платишь за гарантию приватности.
-
Crof.ai и Cortecs.ai. Европейские провайдеры. Cortecs позиционируется как «Europe's LLM Router», хостит DeepSeek с пометкой no-training-data-policy. Для GDPR-чувствительных проектов это компромисс. Цена выше китайской, ниже американской.
-
Qwen 3.7 Max. Китайский конкурент уровня Opus, $2.50/$7.50. Дороже DeepSeek в 5-9 раз, но на бенчмарках выше (особенно SWE-Pro). Если V4-Pro «между Sonnet и Opus», Qwen 3.7 Max «на уровне Opus».
-
GLM 5.1 от Z.ai. Open-source, $3.08 output, 64.3% SWE-Bench Pro. Не так дёшево, но если нужны открытые веса для самохостинга, это вариант. GLM Coding Plan Max за фикс $30/мес даёт безлимит для кодинга.
Вердикт
Стоит мигрировать на V4-Pro, если у тебя batch-задачи или кодинг-агенты с длинными циклами, плюс high-volume пайплайны типа classification и RAG, и при этом privacy не критична. На таком воркфлоу разница в стоимости с Opus или GPT-5.5 окупится в первую неделю, и экономия выходит в десятки раз.
Не стоит, если делаешь real-time чат-интерфейс (медленнее Gemini в 4-5 раз) или если у тебя жёсткая регуляторка с data retention в КНР. Подписка на Claude Code Pro за $20 на низких объёмах тоже остаётся выгоднее любого pay-per-token, если не пробиваешь её лимиты.
Подождать не стоит. Это уже постоянная цена. Дешевле она вряд ли станет, а спрос точно вырастет и concurrency limits начнут резать сильнее. Если ты планировал тестировать V4-Pro до 31 мая «пока промо», теперь промо нет, есть просто цена. Можно не торопиться, но не откладывать на год.
Как попробовать
- Зарегистрируйся на platform.deepseek.com. Новые аккаунты получают 5M токенов бесплатно на 30 дней (хватит на ~$8 эквивалента API-расходов).
- Получи API-ключ в разделе API Keys, скопируй.
- Если используешь Claude Code, поставь env-переменные
ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic,ANTHROPIC_AUTH_TOKEN=твой_ключ,ANTHROPIC_MODEL=deepseek-v4-proи запустиclaude. Тестовый промпт:проанализируй этот репо и предложи 3 рефакторинга. - Если используешь opencode или Aider, поменяй endpoint в конфиге на DeepSeek base URL, модель на
deepseek-v4-pro. Запусти любую тестовую задачу. - Проверь cache hit rate через
/cost(Claude Code) или эквивалент в твоём клиенте. Если меньше 50%, значит system prompt не пинится, и ты теряешь основной выигрыш.