diffnotes.tech — Тех-блог

Все ai claude-code llm agents open-source anthropic productivity tips developer-tools claude mcp coding openai tools cursor gemini google api codex automation ai-agents workflow cli security testing models ide qwen comparison pricing voice ai-tools skills tokens multimodal openrouter ai-models plugins coding-tools ai-coding cybersecurity leak alibaba tdd gpt coding-agent playwright orchestration codex-cli multi-agent context-window xai grok coding-agents memory python chatgpt stealth-models google-io-2026 gpt-5-6 moe research git openclaw ralph-loop autonomous-coding github ios swift xcode computer-use gpt-5.4 code-review browser-automation unity game-development context-engineering vibe-coding web-scraping browser gemma china glm hunter-alpha deepseek video-generation owl-alpha protocol nvidia vision ollama gpt-5.6 fable prompt-engineering coding-assistant benchmarks benchmark devtools deep-research terminal qa php laravel assistant worktrees docker parallel-development oauth websocket context-management mobile copilot perplexity multi-model image-generation remotion video shorts instagram tiktok permissions future code-intelligence knowledge-graph future-of-programming opinion hooks xctest commands local-ai liquid-ai privacy fast-mode copilot-cli macos linux windows machine-learning cron scheduled-tasks effort settings godot unreal-engine search-api tavily exa agent-teams opus-4.6 expo cowork remote-control plugin google-colab responsive-design frontend telegram discord channels astral superapp kimi licensing documentation prompts figma design web-development demo gamedev gemini-cli speech scraping self-improvement ultraplan debugging function-calling free-tools tts elevenlabs infrastructure configuration skill microsoft dotnet cost-optimization nous-research gpt-6 llama healer-alpha elephant-alpha gpt-5-5 tmux stealth-launch fal elixir linear rust tencent voice-cloning reasoning nemotron mythos policy dense-model game-dev open-beta sonnet gpt-55 spacex managed-agents realtime subq subquadratic long-context transformers finance edge-ai rag vector-search notion typescript workers malware chrome leaks veo lmarena fingerprinting api-pricing onboarding opus-4-8 robotics world-models physical-ai minimax free-models ocr baidu document-ai release-tracker gemini-35-pro local ml amazon data-labeling amd hardware local-llm llama-cpp code-quality interpretability ai-safety meta apple lawsuit curl writing

$ ls -lt posts/ --filter=llm --page=4

subq-subquadratic-attention.md

> 10 May 2026 · 6 мин

SubQ — 4 человека из Майами, $29M и заявка на смерть квадратичного attention

Subquadratic из Майами 5 мая выпустила SubQ — первую полностью sub-quadratic LLM с 12M токенов контекста, заявленной 52× скоростью FlashAttention и стоимостью <5% от Opus. Разбираем SSA-архитектуру, бенчмарки, подводные камни и можно ли это запускать в проде.

ai llm subq subquadratic

gpt-realtime-2-voice-trio.md

> 08 May 2026 · 8 мин

OpenAI вкатил GPT-5 в голос — три Realtime-модели одним релизом, и Translate за 3 цента в минуту

7 мая OpenAI без шумной презентации выкатил в Realtime API сразу три модели: GPT-Realtime-2 с GPT-5-уровнем reasoning, GPT-Realtime-Translate за $0.034/мин и стримящий GPT-Realtime-Whisper за $0.017/мин. Разбираем что это значит для voice-агентов, синхронного перевода и почему кэш ввода за $0.40 переворачивает экономику длинных сессий.

ai llm api openai

gpt-55-instant-default.md

> 06 May 2026 · 6 мин

GPT-5.5 Instant — OpenAI тихо подменил мозг ChatGPT для сотен миллионов и пустил его в твой Gmail

OpenAI вчера тихо заменил default-модель ChatGPT на GPT-5.5 Instant. По внутренним бенчмаркам -52.5% галлюцинаций в медицине, праве и финансах, доступ к Gmail для персонализации и API-алиас chat-latest. Разбираем грабли: внутренние бенчмарки без сравнений, регрессии Instant и retire 5.3 через три месяца.

ai llm api openai

claude-sonnet-48-leak-before-conference.md

> 06 May 2026 · 8 мин

Через несколько часов Anthropic покажет Sonnet 4.8 на Code with Claude. Из утечки в их же npm-пакете уже известны все цифры

Сегодня вечером Anthropic покажет Sonnet 4.8 на Code with Claude в Сан-Франциско. Спецификации новой модели, кодовое имя Cardinal и загадочный Jupiter уже известны, потому что 31 марта инженер Anthropic забыл добавить одну строку в .npmignore и слил 512 000 строк своего кода. Разбираем, что услышим через 9 часов.

ai llm claude anthropic

qwen-36-27b-dense-coding.md

> 05 May 2026 · 8 мин

Qwen3.6-27B — 27 миллиардов параметров обыграли 397 миллиардов на кодинге. И всё это влезает в одну GPU

27B dense-модель Alibaba под Apache 2.0 берёт 77.2% на SWE-bench Verified (уровень Claude Opus 4.5) и обходит собственного 397B MoE-предшественника. Влезает в RTX 4090 в Q4, мультимодальная, 262K контекста нативно (до 1M через YaRN). На OpenRouter $0.32 / $3.20 за миллион токенов.

ai llm coding open-source

mythos-week-political-explosion.md

> 04 May 2026 · 10 мин

Anthropic Mythos за 7 дней: NSA сканит Microsoft, Белый дом блокирует 70 компаний, Anthropic ловит утечку

За неделю Mythos из инженерной curiosity превратился в политическую гранату. NSA втихую сканит Microsoft на уязвимости, Белый дом блокирует расширение доступа, Anthropic расследует «несанкционированный доступ», а AISLE показала, что bug-finding воспроизводится на открытых моделях за $0.11 за M токенов.

ai llm claude anthropic

nemotron-3-nano-omni.md

> 03 May 2026 · 8 мин

NVIDIA Nemotron 3 Nano Omni: 30B-модель, которая видит, слышит и читает за один проход. И обходит Qwen3-Omni на каждом бенчмарке

NVIDIA выкатила открытую multimodal модель Nemotron 3 Nano Omni: 30B параметров, 3B активных, понимает video/audio/image/text одной моделью. 9x throughput vs другие omni-модели, 25 ГБ RAM в 4-бит. Бьёт Qwen3-Omni на каждом бенчмарке.

ai agents llm open-source

grok-43-release-pricing.md

> 02 May 2026 · 9 мин

Grok 4.3 — 53 балла на Intelligence Index, $1.25 за миллион токенов и регрессия в агентах. xAI выкатил модель, пока Маск судится с Altman'ом

xAI выкатил Grok 4.3 — reasoning-модель за $1.25/$2.50 за миллион токенов, на 40-60% дешевле Grok 4.20. Always-on reasoning, миллион токенов контекста и клонирование голоса за минуту. Но в агентских задачах модель «впадает в спячку», в ProofBench выбивает 11%, а отключить размышления нельзя — платишь за reasoning даже на «привет».

llm xai grok ai-models

owl-alpha-stealth-openrouter.md

> 01 May 2026 · 8 мин

Owl Alpha — новая stealth-модель на OpenRouter. 1M контекста, $0 за токены, и никто не знает, кто её сделал

Вчера, 30 апреля, на OpenRouter появилась новая stealth-модель Owl Alpha. 1M контекст, бесплатно, заточена под агентные задачи. Никто не знает, кто её сделал. Разбираем спецификации, спекуляции о происхождении (OpenAI? Alibaba? Xiaomi?), как её запустить из Claude Code и подводные камни.

ai agents llm openrouter

subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe

diffnotes.tech — тех-блог о программировании, AI и DevOps