diffnotes.tech — тех-блог о программировании, AI и DevOps
7 бесплатных голосовых моделей, после которых ElevenLabs можно отменить
Voxtral побеждает ElevenLabs в 68% слепых тестов, Kokoro генерирует речь на CPU, Silero решает омографы в русском. Разбираем лучшие open-source TTS-модели с установкой, примерами и подводными камнями.
Qwen3.5-Omni — 113 языков, голосовые клоны и аудио-видео в одном контуре. Alibaba наступает на пятки Gemini
Alibaba выкатила Qwen3.5-Omni — мультимодальную модель с текстом, картинками, аудио и видео в одном контуре. Три версии (Plus/Flash/Light), 256K контекста, 113 языков распознавания речи и voice cloning. Разбираем, что это даёт разработчику.
Не трогай клавиатуру — голосовой workflow с Claude Code, который заменил мне IDE
Matt Van Horn ответил Kevin Rose: «No IDE. Just plan.md files and voice» — и это стало самым залайканным ответом из 128. Разбираем workflow: голос, Compound Engineering, параллельные сессии.
Claude Code теперь слушает — нативный голосовой режим, /voice и push-to-talk прямо в терминале
В Claude Code появился нативный голосовой режим. Жмёшь пробел, говоришь — текст вставляется в промпт. Пока доступен 5% пользователей, но роллаут идёт. Разбираем, как это работает, какие есть альтернативы и стоит ли ждать.
$ cat /dev/blog/updates
> Свежие заметки о программировании,
> DevOps и AI — прямо в мессенджер