7 бесплатных голосовых моделей, после которых ElevenLabs можно отменить
7 бесплатных голосовых моделей, после которых ElevenLabs можно отменить
ElevenLabs берёт от $5 до $330 в месяц за голосовую генерацию. При этом open-source модели уже побеждают его в слепых тестах. 26 марта 2026 года за один день вышли Voxtral TTS от Mistral и CoVo-Audio от Tencent. Open-source голоса дозрели, и платить за синтез речи становится всё сложнее обосновать.
TL;DR: Voxtral TTS (Mistral) побеждает ElevenLabs в 68% слепых тестов и стоит $0. Kokoro генерирует речь на CPU за 82 миллиона параметров. Silero TTS v5 решает омографы в русском. Chatterbox клонирует голос за 5 секунд аудио. Всё можно запустить локально, без подписок и API-ключей.
Voxtral TTS: главный убийца ElevenLabs
Voxtral TTS от Mistral AI. 4 миллиарда параметров: transformer decoder на 3.4B, acoustic transformer на 390M, neural audio codec на 300M. Архитектура гибридная: авторегрессия плюс flow-matching. В слепом A/B-тестировании 68.4% слушателей предпочли Voxtral варианту ElevenLabs Flash v2.5.
Разбивка по языкам:
- Испанский — 87.8% win rate
- Хинди — 79.8%
- Португальский — 74.4%
- Немецкий — 72.0%
- Английский — 60.8%
- Французский — 54.4%
Time-to-first-audio 70ms. Генерирует 10 секунд речи за 1.6 секунды. На одном H200 обслуживает 30+ параллельных запросов. Для voice cloning достаточно 3 секунд аудио (у ElevenLabs минимум 30).
9 языков: English, French, German, Spanish, Dutch, Portuguese, Italian, Hindi, Arabic. Русского нет. Меньше, чем 32 у ElevenLabs, но качество на каждом из поддерживаемых языков ощутимо выше.
pip install mistral_inference huggingface-cli download mistralai/Voxtral-4B-TTS-2603
Модель весит ~3 ГБ. Нужен GPU с CUDA. На 16 ГБ VRAM может зависать при нескольких параллельных сессиях (открытый баг в vllm). Лицензия Apache 2.0, коммерческое использование разрешено.

Kokoro: 82 миллиона параметров, которых хватает
У Kokoro всего 82 миллиона параметров. Это меньше некоторых embedding-моделей, но речь получается уровня ElevenLabs. Архитектура StyleTTS 2 + ISTFTNet decoder. Обучена менее чем на 100 часах аудио. Стоимость обучения, по заявлению авторов, около $1000.
Скорость:
- CPU (обычный ноутбук) — 3-5x реального времени
- GTX 1660 Super — 50x реального времени
- RTX 4090 — 210x реального времени
- M4 Mac — latency ~100ms
54 голоса, 8 языков (английский, французский, японский, корейский, китайский). Русского нет. Apache 2.0.
git clone https://github.com/hexgrad/kokoro cd kokoro docker build -t kokoro-tts . docker run -p 8000:8000 kokoro-tts
Минимальные требования: Intel i5 / Ryzen 5. GPU необязателен. Реальная история: команда dTelecom заменила ElevenLabs на Kokoro на M4 Mac, latency упала до 100 ms, расходы на TTS практически исчезли.
Ограничение: voice cloning нет. Эмоциональный диапазон скромный (6.5/10 по оценке reviewnexa). Хорош для информационного контента и подкастов, но для аудиокниг с персонажами слишком плоско.
Chatterbox: клонируй голос за 5 секунд
Chatterbox от Resemble AI. 24K звёзд на GitHub, MIT-лицензия. Клонирует голос с 5 секунд аудио. В слепом тесте 63.75% оценщиков предпочли Chatterbox над ElevenLabs.
Главная фишка: ручка экспрессивности. Параметр exaggeration от 0.0 до 1.0 контролирует эмоциональность.
pip install chatterbox-tts
from chatterbox import ChatterboxTTS model = ChatterboxTTS.from_pretrained() audio = model.generate( "Hello, this is a voice test", reference_audio="voice_sample.wav", exaggeration=0.7 # 0.0 = монотон, 1.0 = драма )
Три варианта модели: Chatterbox (base), Chatterbox Multilingual (23 языка) и Chatterbox Turbo. Встроенный watermark через Resemble PerTh (можно отключить). Latency ~200ms. Работает на потребительских GPU. Русский есть в Multilingual-версии.
Что с русским языком?
У большинства топовых моделей русского нет. Voxtral, Kokoro, Dia, TADA поддерживают только западные языки. Но три модели решают эту задачу.
Silero TTS v5: лучший бесплатный русский голос
Silero TTS от российской команды snakers4. 5.9K звёзд. Пятая версия вышла в конце 2025, и это по-прежнему лучший open-source вариант для русского языка. Потому что решает проблему, которую остальные модели игнорируют: омографы.
«Замок» и «замок», «мука» и «мука». В русском языке ударение меняет смысл слова, и v5 автоматически расставляет ударения через put_stress_homo и put_yo_homo. Это мелочь, которая отделяет робота от человека.
5 голосов: aidar, baya, kseniya, xenia, eugene. Модель весит ~140 МБ.
Скорость на Intel i9 + RTX 3090:
- GPU — 300-350 секунд аудио в секунду
- CPU (4 потока) — 100-110 секунд аудио в секунду
pip install silero
import torch model, _ = torch.hub.load( repo_or_dir='snakers4/silero-models', model='silero_tts', language='ru', speaker='v5_ru' ) audio = model.apply_tts( text="Привет, это тест синтеза речи", speaker='xenia', put_accent=True, put_yo=True )
Три строчки кода, и русская речь звучит чисто. В 3-4 раза быстрее предыдущей версии v3. Поддержка SSML-разметки для тонкой настройки.
Лицензия CC BY-NC 4.0 для русских моделей (некоммерческое использование). Для коммерции нужно связаться с авторами. CIS-модели (украинский, казахский, татарский) идут под MIT.
CosyVoice 3: русский от Alibaba с клонированием голоса
CosyVoice 3 от исследователей Alibaba. 0.5B параметров, 9 языков, русский из коробки. В отличие от Silero, умеет клонировать голос и управлять эмоциями через инструкции.
Bi-Streaming: можно подавать текст чанками и получать аудио в реальном времени, не дожидаясь конца генерации. Latency ~150ms.
git clone https://github.com/FunAudioLLM/CosyVoice cd CosyVoice pip install -r requirements.txt
Управление голосом через промпт: скорость, громкость, эмоции, диалект. Нужен GPU для нормальной работы. Качество русского заметно ниже, чем английского (как у большинства мультиязычных моделей), но для прототипов и MVP хватает.
Piper: русский голос на Raspberry Pi
Piper генерирует речь в реальном времени на CPU. Работает на Raspberry Pi. 30+ языков. Русский голос Irina обучен на 1 часе данных.
echo "Привет мир" | piper --model ru_RU-irina-medium --output_file test.wav
Качество ниже Silero и CosyVoice. Зато Piper весит считанные мегабайты и работает вообще без интернета на любом устройстве.
Ещё 3 модели, которые стоит знать
Dia (диалоги двух спикеров)
Dia от Nari Labs. 19.2K звёзд, 1.6B параметров. Генерирует диалог двух говорящих за один проход.
from dia import Dia model = Dia.from_pretrained("nari-labs/Dia-1.6B-0626") audio = model.generate("[S1] How are you? [S2] Great! (laughs) And you?")
Теги [S1] и [S2] переключают спикера. Невербальные вставки: (laughs), (coughs), (sighs). ~4.4 ГБ VRAM в bfloat16. Только английский. Apache 2.0. Для подкастов с диалогами это единственная модель, где два голоса генерируются одним вызовом.
TADA (ноль галлюцинаций)
TADA от Hume AI. Text-Acoustic Dual Alignment. Ноль пропущенных слов на 1000+ тестовых сэмплов из LibriTTS-R. Для сравнения: FireRedTTS-2 выдал 41 галлюцинацию на том же наборе, Higgs Audio V2 — 24.
RTF 0.09 (генерация в 11x быстрее воспроизведения). Два варианта: TADA-1B (английский) и TADA-3B-ML (8 языков). Натуральность уступает Voxtral (3.78/5.0 vs ~4.2+), но для продакшена, где нельзя терять слова, TADA надёжнее всех.
OmniVoice (600+ языков)
OmniVoice от k2-fsa (research-команда, связанная с Xiaomi). 2.3K звёзд за неделю, создан 31 марта 2026. 600+ языков, включая русский. RTF 0.025 (генерация в 40x быстрее реального времени). Apache 2.0.
pip install omnivoice omnivoice-demo # веб-интерфейс
Три режима: voice cloning (аудио-референс), voice design (текстовое описание: "female, low pitch"), auto. Поддержка NVIDIA CUDA и Apple Silicon. Научная база серьёзная, но проекту неделя.
Подводные камни
Voxtral зависает на 16 ГБ GPU. При нескольких параллельных сессиях encoder_cache забивается, модель перестаёт отвечать. Issue #38233 открыт с 26 марта. Обходной путь: GPU с 24+ ГБ VRAM.
Silero под CC BY-NC для русского. Коммерческое использование русских моделей без отдельного соглашения запрещено. CIS-модели под MIT, но русские — нет.
CosyVoice 3 на русском звучит хуже, чем на английском. Мультиязычные модели тренируются в основном на английских данных, и русская просодия страдает. Для критичных задач проверяйте результат на слух.
Fish Speech S2-Pro жрёт 17 ГБ VRAM и генерирует по 3-4 минуты. Для real-time приложений не годится. Эмоциональные теги на языках кроме английского работают через раз. И лицензия не Apache/MIT.
Dia генерирует разные голоса каждый раз без audio prompt. Короткие фразы (<5 секунд) звучат роботно, длинные (>20 секунд) ускоряются неестественно.
OmniVoice создан 8 дней назад. Два контрибьютора, 29 открытых issues. В продакшен пока рано.
TADA уступает по натуральности. 3.78/5.0 за naturalness заметно хуже Voxtral. Голос чистый, но суховатый.
Альтернативы (если всё-таки хочется заплатить)
- ElevenLabs — 32 языка, голосовой дизайнер, API с latency <75ms. От $5/мес. Проигрывает Voxtral в слепых тестах, но документация и инфраструктура на голову выше
- OpenAI TTS — встроен в API. Шесть голосов, 57 языков. $15 за 1M символов. Минимальная кастомизация, но интеграция за 5 минут
- Play.ht — 600+ голосов, 142 языка. Free tier на 12 500 символов/мес. Хорош для прототипов
Вердикт
Для английского ставь Voxtral TTS. 68% win rate против ElevenLabs, 3 ГБ весит, Apache 2.0. Лучший бесплатный TTS на апрель 2026.
Для русского — Silero TTS v5. 140 МБ, омографы из коробки, 5 голосов, работает на CPU за 3 строки кода. Для некоммерческих проектов бесплатно.
Для русского с voice cloning — CosyVoice 3. Русский из коробки, стриминг, эмоции. Качество ниже Silero, но функциональность шире.
Для слабого железа без GPU — Kokoro. 82M параметров, CPU в реальном времени, но только западные языки.
Для voice cloning на английском — Chatterbox. MIT, 5 секунд аудио, ползунок экспрессивности.
А ElevenLabs? За $330/мес он даёт лучшую документацию и 32 языка. Но разрыв в качестве голоса закрылся. Open-source побеждает по звучанию.
Как попробовать
-
Быстрый старт (браузер). Открой демо Voxtral TTS на Hugging Face, вбей текст, выбери один из 20 голосов, скачай аудио
-
Русский (3 строки кода). Поставь Silero:
pip install silero
python -c "
import torch
model, _ = torch.hub.load('snakers4/silero-models', 'silero_tts', language='ru', speaker='v5_ru')
model.save_wav(text='Привет, это тест', speaker='xenia', audio_path='test.wav')
"
- Без GPU (локально). Поставь Kokoro через Docker:
git clone https://github.com/hexgrad/kokoro && cd kokoro docker build -t kokoro-tts . && docker run -p 8000:8000 kokoro-tts
- Voice cloning. Установи Chatterbox, подготовь 5-секундный WAV-файл:
pip install chatterbox-tts
python -c "from chatterbox import ChatterboxTTS; m = ChatterboxTTS.from_pretrained(); m.generate('Hello world', reference_audio='my_voice.wav')"
- Диалоги. Попробуй Dia:
pip install git+https://github.com/nari-labs/dia.git