diffnotes.tech — тех-блог о программировании, AI и DevOps
DeepSeek сделал скидку 75% постоянной: V4-Pro теперь $0.87 за миллион output, и Opus стал дороже в 28 раз
23 мая DeepSeek закрепил промо-цены на V4-Pro как постоянные. Флагман с 1.6T параметров и 1M контекстом теперь стоит $0.435/$0.87 за 1M токенов. Это от 12 до 28 раз дешевле Sonnet, Opus и GPT-5.5. Разбираем подводные камни и миграцию на Claude Code.
claude-context — Claude Code наконец видит весь твой монорепо. 25× меньше токенов и 10K звёзд за два месяца
Open-source MCP-сервер, который индексирует репозиторий в векторную БД и даёт Claude Code гибридный поиск BM25 + dense vector. 25× меньше токенов, чем дефолтный grep, на больших монорепо. Работает с Cursor, Codex CLI, Gemini CLI и любым MCP-клиентом.
MiniCPM-V 4.6 — мультимодальная модель на 1.3B, которая видит видео на айфоне без интернета и весит 1.6 ГБ
OpenBMB из Tsinghua тихо выложили MiniCPM-V 4.6 — мультимодальную модель на 1.3B под Apache 2.0. 1.6 ГБ через Ollama, работает на iPhone, Android и HarmonyOS без интернета. 38% на MMMU-Pro — рекорд для open-weight моделей до 2B параметров.
Anthropic дропнул 10 готовых Claude-агентов под инвестбанки в open-source. FactSet упал на 8%, а в hooks.json половины плагинов лежит баг
Anthropic выложил на GitHub репо с десятью готовыми агент-шаблонами для финансов: pitch builder, KYC screener, GL reconciler. Apache 2.0, ставится в Claude Code одной командой. FactSet потерял 8% капитализации за день. Но 4 плагина из 5 не грузятся из-за сломанного hooks.json, в issues уже толпа PR-ов с фиксами.
Qwen3.6-27B — 27 миллиардов параметров обыграли 397 миллиардов на кодинге. И всё это влезает в одну GPU
27B dense-модель Alibaba под Apache 2.0 берёт 77.2% на SWE-bench Verified (уровень Claude Opus 4.5) и обходит собственного 397B MoE-предшественника. Влезает в RTX 4090 в Q4, мультимодальная, 262K контекста нативно (до 1M через YaRN). На OpenRouter $0.32 / $3.20 за миллион токенов.
NVIDIA Nemotron 3 Nano Omni: 30B-модель, которая видит, слышит и читает за один проход. И обходит Qwen3-Omni на каждом бенчмарке
NVIDIA выкатила открытую multimodal модель Nemotron 3 Nano Omni: 30B параметров, 3B активных, понимает video/audio/image/text одной моделью. 9x throughput vs другие omni-модели, 25 ГБ RAM в 4-бит. Бьёт Qwen3-Omni на каждом бенчмарке.
GNAP: оркестрируй рой AI-агентов через git-репо. 4 JSON-файла, ноль серверов
Farol Labs предлагает координировать AI-агентов через 4 JSON-файла в git-репо. Без серверов, без баз. Любой агент с git push автоматически в команде. Разбираем GNAP — RFC-черновик git-native оркестрации.
Tencent Hy3 preview: 295B open-source, бывший OpenAI у руля, и вчера #1 на OpenRouter
Tencent открыла Hy3 preview — 295B MoE с 256K контекста и тремя режимами reasoning. Вчера модель вырвалась на #1 OpenRouter, опередив GPT-5.5 и Claude Opus 4.7. Бесплатна на OpenRouter две недели. Разбираем что внутри, как пробовать через OpenAI SDK и где подводные камни с лицензией.
Plasmate — браузерный движок на Rust, который режет токены AI-агентов на 94%
Plasmate компилирует HTML в Semantic Object Model — структурированный JSON для LLM. 4-5 мс на страницу, 94% экономии токенов, подключение к Claude Code за одну строку. Apache-2.0, проект одного человека.
$ cat /dev/blog/updates
> Свежие заметки о программировании,
> DevOps и AI — прямо в мессенджер