$ grep -r "voice" ./posts/

# voice

Голосовые технологии — TTS-модели, синтез речи, клонирование голоса и open-source альтернативы ElevenLabs.

Все ai claude-code llm agents open-source anthropic productivity tips developer-tools claude mcp coding openai api tools cursor gemini google

security codex cli automation ai-agents workflow testing pricing voice models ide qwen comparison coding-tools ai-tools skills devtools tokens multimodal openrouter ai-models plugins gpt ai-coding xai grok cybersecurity leak alibaba benchmarks tdd research coding-agent playwright orchestration codex-cli multi-agent context-window coding-agents memory python chatgpt stealth-models deepseek google-io-2026 gpt-5-6 moe git openclaw ralph-loop autonomous-coding github ios swift xcode computer-use gpt-5.4 code-review browser-automation unity game-development context-engineering vibe-coding web-scraping browser gemma china tts glm hunter-alpha video-generation owl-alpha protocol nvidia vision ollama gpt-5.6 local fable prompt-engineering safety coding-assistant benchmark deep-research terminal qa php laravel assistant worktrees docker parallel-development oauth websocket context-management mobile copilot perplexity multi-model image-generation remotion video shorts instagram tiktok permissions future code-intelligence knowledge-graph future-of-programming opinion hooks xctest commands local-ai liquid-ai privacy fast-mode copilot-cli macos linux windows machine-learning cron scheduled-tasks effort settings godot unreal-engine search-api tavily exa agent-teams opus-4.6 expo cowork remote-control plugin google-colab responsive-design frontend telegram discord channels astral superapp kimi licensing documentation prompts figma design web-development demo gamedev gemini-cli speech scraping self-improvement ultraplan debugging function-calling free-tools elevenlabs infrastructure configuration skill microsoft dotnet cost-optimization nous-research gpt-6 llama healer-alpha elephant-alpha gpt-5-5 tmux stealth-launch fal elixir linear rust tencent voice-cloning reasoning nemotron mythos policy dense-model game-dev open-beta sonnet gpt-55 spacex managed-agents realtime subq subquadratic long-context transformers finance edge-ai rag vector-search notion typescript workers malware chrome leaks veo lmarena fingerprinting api-pricing onboarding opus-4-8 robotics world-models physical-ai minimax free-models ocr baidu document-ai release-tracker gemini-35-pro ml amazon data-labeling amd hardware local-llm llama-cpp code-quality interpretability ai-safety meta apple lawsuit curl writing pentesting career wordpress vulnerability evaluation context7 redis devops rce prompt-injection migration

voicebox-local-voice-studio.md

> 15 Jul 2026 · 6 мин

Voicebox — локальная замена ElevenLabs и WisprFlow в одном приложении: клон голоса, 7 TTS-движков и диктовка, всё на твоей машине

Voicebox — локальная open-source голосовая студия: клонирует голос из пары секунд аудио, синтезирует речь на 23 языках через 7 TTS-движков, диктует в любое поле по хоткею и даёт голос MCP-агенту. Всё на твоей машине, ничего не улетает. Бесплатная замена ElevenLabs и WisprFlow сразу.

ai open-source voice tts

gpt-live-full-duplex-voice.md

> 14 Jul 2026 · 5 мин

GPT-Live — OpenAI выкинула пошаговый войс и научила ChatGPT перебивать. Full-duplex, живой перевод и GPT-5.5 на подхвате

OpenAI раскатывает GPT-Live — full-duplex голосовые модели, которые слушают и говорят одновременно: живой перевод, wake word, фоновое делегирование задач GPT-5.5. Advanced Voice Mode уходит на пенсию, а API разработчикам пока только обещают.

ai openai voice chatgpt

gpt-realtime-2-voice-trio.md

> 08 May 2026 · 8 мин

OpenAI вкатил GPT-5 в голос — три Realtime-модели одним релизом, и Translate за 3 цента в минуту

7 мая OpenAI без шумной презентации выкатил в Realtime API сразу три модели: GPT-Realtime-2 с GPT-5-уровнем reasoning, GPT-Realtime-Translate за $0.034/мин и стримящий GPT-Realtime-Whisper за $0.017/мин. Разбираем что это значит для voice-агентов, синхронного перевода и почему кэш ввода за $0.40 переворачивает экономику длинных сессий.

ai llm api openai

free-tts-models-replace-elevenlabs.md

> 08 Apr 2026 · 8 мин

7 бесплатных голосовых моделей, после которых ElevenLabs можно отменить

Voxtral побеждает ElevenLabs в 68% слепых тестов, Kokoro генерирует речь на CPU, Silero решает омографы в русском. Разбираем лучшие open-source TTS-модели с установкой, примерами и подводными камнями.

ai open-source voice tools

qwen35-omni-multimodal-voice.md

> 30 Mar 2026 · 7 мин

Qwen3.5-Omni — 113 языков, голосовые клоны и аудио-видео в одном контуре. Alibaba наступает на пятки Gemini

Alibaba выкатила Qwen3.5-Omni — мультимодальную модель с текстом, картинками, аудио и видео в одном контуре. Три версии (Plus/Flash/Light), 256K контекста, 113 языков распознавания речи и voice cloning. Разбираем, что это даёт разработчику.

ai llm open-source qwen

voice-first-claude-code-workflow.md

> 30 Mar 2026 · 9 мин

Не трогай клавиатуру — голосовой workflow с Claude Code, который заменил мне IDE

Matt Van Horn ответил Kevin Rose: «No IDE. Just plan.md files and voice» — и это стало самым залайканным ответом из 128. Разбираем workflow: голос, Compound Engineering, параллельные сессии.

ai workflow claude-code productivity

claude-code-voice-mode.md

> 03 Mar 2026 · 5 мин

Claude Code теперь слушает — нативный голосовой режим, /voice и push-to-talk прямо в терминале

В Claude Code появился нативный голосовой режим. Жмёшь пробел, говоришь — текст вставляется в промпт. Пока доступен 5% пользователей, но роллаут идёт. Разбираем, как это работает, какие есть альтернативы и стоит ли ждать.

ai coding anthropic claude-code