diffnotes.tech — тех-блог о программировании, AI и DevOps

Все ai claude-code llm agents open-source productivity tips anthropic developer-tools mcp coding claude tools cursor openai gemini google api codex automation workflow ai-agents cli testing qwen ai-tools ide skills security comparison tokens voice models plugins coding-tools ai-coding cybersecurity multimodal openrouter tdd gpt coding-agent playwright pricing orchestration codex-cli multi-agent context-window coding-agents memory python stealth-models alibaba google-io-2026 moe git openclaw ralph-loop autonomous-coding ios swift xcode computer-use gpt-5.4 code-review browser-automation unity game-development xai grok context-engineering vibe-coding web-scraping chatgpt browser leak gemma hunter-alpha ai-models deepseek video-generation owl-alpha coding-assistant benchmarks benchmark research devtools deep-research terminal qa php laravel assistant worktrees docker parallel-development oauth websocket context-management mobile github copilot perplexity multi-model image-generation remotion video shorts instagram tiktok permissions future code-intelligence knowledge-graph future-of-programming opinion hooks xctest commands local-ai liquid-ai privacy fast-mode copilot-cli macos linux windows machine-learning cron scheduled-tasks effort settings godot unreal-engine search-api tavily exa agent-teams opus-4.6 expo cowork remote-control plugin google-colab responsive-design frontend telegram discord channels astral superapp kimi licensing documentation prompts figma design web-development demo gamedev gemini-cli speech scraping self-improvement ultraplan debugging function-calling free-tools china tts elevenlabs infrastructure configuration skill microsoft dotnet cost-optimization nous-research glm gpt-6 llama healer-alpha elephant-alpha gpt-5-5 tmux stealth-launch fal elixir linear rust tencent voice-cloning reasoning protocol nvidia nemotron mythos policy dense-model game-dev open-beta sonnet gpt-55 spacex managed-agents realtime subq subquadratic long-context transformers finance edge-ai vision ollama rag vector-search notion typescript workers malware chrome leaks veo lmarena fingerprinting api-pricing onboarding opus-4-8
$ ls -lt posts/ --filter=voice
gpt-realtime-2-voice-trio.md
OpenAI вкатил GPT-5 в голос — три Realtime-модели одним релизом, и Translate за 3 цента в минуту
> · 8 мин

OpenAI вкатил GPT-5 в голос — три Realtime-модели одним релизом, и Translate за 3 цента в минуту

7 мая OpenAI без шумной презентации выкатил в Realtime API сразу три модели: GPT-Realtime-2 с GPT-5-уровнем reasoning, GPT-Realtime-Translate за $0.034/мин и стримящий GPT-Realtime-Whisper за $0.017/мин. Разбираем что это значит для voice-агентов, синхронного перевода и почему кэш ввода за $0.40 переворачивает экономику длинных сессий.

ai llm api openai
free-tts-models-replace-elevenlabs.md
7 бесплатных голосовых моделей, после которых ElevenLabs можно отменить
> · 8 мин

7 бесплатных голосовых моделей, после которых ElevenLabs можно отменить

Voxtral побеждает ElevenLabs в 68% слепых тестов, Kokoro генерирует речь на CPU, Silero решает омографы в русском. Разбираем лучшие open-source TTS-модели с установкой, примерами и подводными камнями.

ai open-source voice tools
qwen35-omni-multimodal-voice.md
Qwen3.5-Omni — 113 языков, голосовые клоны и аудио-видео в одном контуре. Alibaba наступает на пятки Gemini
> · 7 мин

Qwen3.5-Omni — 113 языков, голосовые клоны и аудио-видео в одном контуре. Alibaba наступает на пятки Gemini

Alibaba выкатила Qwen3.5-Omni — мультимодальную модель с текстом, картинками, аудио и видео в одном контуре. Три версии (Plus/Flash/Light), 256K контекста, 113 языков распознавания речи и voice cloning. Разбираем, что это даёт разработчику.

ai llm open-source qwen
voice-first-claude-code-workflow.md
Не трогай клавиатуру — голосовой workflow с Claude Code, который заменил мне IDE
> · 9 мин

Не трогай клавиатуру — голосовой workflow с Claude Code, который заменил мне IDE

Matt Van Horn ответил Kevin Rose: «No IDE. Just plan.md files and voice» — и это стало самым залайканным ответом из 128. Разбираем workflow: голос, Compound Engineering, параллельные сессии.

ai workflow claude-code productivity
claude-code-voice-mode.md
Claude Code теперь слушает — нативный голосовой режим, /voice и push-to-talk прямо в терминале
> · 5 мин

Claude Code теперь слушает — нативный голосовой режим, /voice и push-to-talk прямо в терминале

В Claude Code появился нативный голосовой режим. Жмёшь пробел, говоришь — текст вставляется в промпт. Пока доступен 5% пользователей, но роллаут идёт. Разбираем, как это работает, какие есть альтернативы и стоит ли ждать.

ai coding anthropic claude-code
subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe