> · 8 мин

7 бесплатных голосовых моделей, после которых ElevenLabs можно отменить

7 бесплатных голосовых моделей, после которых ElevenLabs можно отменить

7 бесплатных голосовых моделей, после которых ElevenLabs можно отменить

ElevenLabs берёт от $5 до $330 в месяц за голосовую генерацию. При этом open-source модели уже побеждают его в слепых тестах. 26 марта 2026 года за один день вышли Voxtral TTS от Mistral и CoVo-Audio от Tencent. Open-source голоса дозрели, и платить за синтез речи становится всё сложнее обосновать.

TL;DR: Voxtral TTS (Mistral) побеждает ElevenLabs в 68% слепых тестов и стоит $0. Kokoro генерирует речь на CPU за 82 миллиона параметров. Silero TTS v5 решает омографы в русском. Chatterbox клонирует голос за 5 секунд аудио. Всё можно запустить локально, без подписок и API-ключей.

Voxtral TTS: главный убийца ElevenLabs

Voxtral TTS от Mistral AI. 4 миллиарда параметров: transformer decoder на 3.4B, acoustic transformer на 390M, neural audio codec на 300M. Архитектура гибридная: авторегрессия плюс flow-matching. В слепом A/B-тестировании 68.4% слушателей предпочли Voxtral варианту ElevenLabs Flash v2.5.

Разбивка по языкам:

  • Испанский — 87.8% win rate
  • Хинди — 79.8%
  • Португальский — 74.4%
  • Немецкий — 72.0%
  • Английский — 60.8%
  • Французский — 54.4%

Time-to-first-audio 70ms. Генерирует 10 секунд речи за 1.6 секунды. На одном H200 обслуживает 30+ параллельных запросов. Для voice cloning достаточно 3 секунд аудио (у ElevenLabs минимум 30).

9 языков: English, French, German, Spanish, Dutch, Portuguese, Italian, Hindi, Arabic. Русского нет. Меньше, чем 32 у ElevenLabs, но качество на каждом из поддерживаемых языков ощутимо выше.

pip install mistral_inference
huggingface-cli download mistralai/Voxtral-4B-TTS-2603

Модель весит ~3 ГБ. Нужен GPU с CUDA. На 16 ГБ VRAM может зависать при нескольких параллельных сессиях (открытый баг в vllm). Лицензия Apache 2.0, коммерческое использование разрешено.

Voxtral multilingual performance

Kokoro: 82 миллиона параметров, которых хватает

У Kokoro всего 82 миллиона параметров. Это меньше некоторых embedding-моделей, но речь получается уровня ElevenLabs. Архитектура StyleTTS 2 + ISTFTNet decoder. Обучена менее чем на 100 часах аудио. Стоимость обучения, по заявлению авторов, около $1000.

Скорость:

  • CPU (обычный ноутбук) — 3-5x реального времени
  • GTX 1660 Super — 50x реального времени
  • RTX 4090 — 210x реального времени
  • M4 Mac — latency ~100ms

54 голоса, 8 языков (английский, французский, японский, корейский, китайский). Русского нет. Apache 2.0.

git clone https://github.com/hexgrad/kokoro
cd kokoro
docker build -t kokoro-tts .
docker run -p 8000:8000 kokoro-tts

Минимальные требования: Intel i5 / Ryzen 5. GPU необязателен. Реальная история: команда dTelecom заменила ElevenLabs на Kokoro на M4 Mac, latency упала до 100 ms, расходы на TTS практически исчезли.

Ограничение: voice cloning нет. Эмоциональный диапазон скромный (6.5/10 по оценке reviewnexa). Хорош для информационного контента и подкастов, но для аудиокниг с персонажами слишком плоско.

Chatterbox: клонируй голос за 5 секунд

Chatterbox от Resemble AI. 24K звёзд на GitHub, MIT-лицензия. Клонирует голос с 5 секунд аудио. В слепом тесте 63.75% оценщиков предпочли Chatterbox над ElevenLabs.

Главная фишка: ручка экспрессивности. Параметр exaggeration от 0.0 до 1.0 контролирует эмоциональность.

pip install chatterbox-tts
from chatterbox import ChatterboxTTS

model = ChatterboxTTS.from_pretrained()
audio = model.generate(
    "Hello, this is a voice test",
    reference_audio="voice_sample.wav",
    exaggeration=0.7  # 0.0 = монотон, 1.0 = драма
)

Три варианта модели: Chatterbox (base), Chatterbox Multilingual (23 языка) и Chatterbox Turbo. Встроенный watermark через Resemble PerTh (можно отключить). Latency ~200ms. Работает на потребительских GPU. Русский есть в Multilingual-версии.

Что с русским языком?

У большинства топовых моделей русского нет. Voxtral, Kokoro, Dia, TADA поддерживают только западные языки. Но три модели решают эту задачу.

Silero TTS v5: лучший бесплатный русский голос

Silero TTS от российской команды snakers4. 5.9K звёзд. Пятая версия вышла в конце 2025, и это по-прежнему лучший open-source вариант для русского языка. Потому что решает проблему, которую остальные модели игнорируют: омографы.

«Замок» и «замок», «мука» и «мука». В русском языке ударение меняет смысл слова, и v5 автоматически расставляет ударения через put_stress_homo и put_yo_homo. Это мелочь, которая отделяет робота от человека.

5 голосов: aidar, baya, kseniya, xenia, eugene. Модель весит ~140 МБ.

Скорость на Intel i9 + RTX 3090:

  • GPU — 300-350 секунд аудио в секунду
  • CPU (4 потока) — 100-110 секунд аудио в секунду
pip install silero
import torch

model, _ = torch.hub.load(
    repo_or_dir='snakers4/silero-models',
    model='silero_tts',
    language='ru',
    speaker='v5_ru'
)

audio = model.apply_tts(
    text="Привет, это тест синтеза речи",
    speaker='xenia',
    put_accent=True,
    put_yo=True
)

Три строчки кода, и русская речь звучит чисто. В 3-4 раза быстрее предыдущей версии v3. Поддержка SSML-разметки для тонкой настройки.

Лицензия CC BY-NC 4.0 для русских моделей (некоммерческое использование). Для коммерции нужно связаться с авторами. CIS-модели (украинский, казахский, татарский) идут под MIT.

CosyVoice 3: русский от Alibaba с клонированием голоса

CosyVoice 3 от исследователей Alibaba. 0.5B параметров, 9 языков, русский из коробки. В отличие от Silero, умеет клонировать голос и управлять эмоциями через инструкции.

Bi-Streaming: можно подавать текст чанками и получать аудио в реальном времени, не дожидаясь конца генерации. Latency ~150ms.

git clone https://github.com/FunAudioLLM/CosyVoice
cd CosyVoice
pip install -r requirements.txt

Управление голосом через промпт: скорость, громкость, эмоции, диалект. Нужен GPU для нормальной работы. Качество русского заметно ниже, чем английского (как у большинства мультиязычных моделей), но для прототипов и MVP хватает.

Piper: русский голос на Raspberry Pi

Piper генерирует речь в реальном времени на CPU. Работает на Raspberry Pi. 30+ языков. Русский голос Irina обучен на 1 часе данных.

echo "Привет мир" | piper --model ru_RU-irina-medium --output_file test.wav

Качество ниже Silero и CosyVoice. Зато Piper весит считанные мегабайты и работает вообще без интернета на любом устройстве.

Ещё 3 модели, которые стоит знать

Dia (диалоги двух спикеров)

Dia от Nari Labs. 19.2K звёзд, 1.6B параметров. Генерирует диалог двух говорящих за один проход.

from dia import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B-0626")
audio = model.generate("[S1] How are you? [S2] Great! (laughs) And you?")

Теги [S1] и [S2] переключают спикера. Невербальные вставки: (laughs), (coughs), (sighs). ~4.4 ГБ VRAM в bfloat16. Только английский. Apache 2.0. Для подкастов с диалогами это единственная модель, где два голоса генерируются одним вызовом.

TADA (ноль галлюцинаций)

TADA от Hume AI. Text-Acoustic Dual Alignment. Ноль пропущенных слов на 1000+ тестовых сэмплов из LibriTTS-R. Для сравнения: FireRedTTS-2 выдал 41 галлюцинацию на том же наборе, Higgs Audio V2 — 24.

RTF 0.09 (генерация в 11x быстрее воспроизведения). Два варианта: TADA-1B (английский) и TADA-3B-ML (8 языков). Натуральность уступает Voxtral (3.78/5.0 vs ~4.2+), но для продакшена, где нельзя терять слова, TADA надёжнее всех.

OmniVoice (600+ языков)

OmniVoice от k2-fsa (research-команда, связанная с Xiaomi). 2.3K звёзд за неделю, создан 31 марта 2026. 600+ языков, включая русский. RTF 0.025 (генерация в 40x быстрее реального времени). Apache 2.0.

pip install omnivoice
omnivoice-demo  # веб-интерфейс

Три режима: voice cloning (аудио-референс), voice design (текстовое описание: "female, low pitch"), auto. Поддержка NVIDIA CUDA и Apple Silicon. Научная база серьёзная, но проекту неделя.

Подводные камни

Voxtral зависает на 16 ГБ GPU. При нескольких параллельных сессиях encoder_cache забивается, модель перестаёт отвечать. Issue #38233 открыт с 26 марта. Обходной путь: GPU с 24+ ГБ VRAM.

Silero под CC BY-NC для русского. Коммерческое использование русских моделей без отдельного соглашения запрещено. CIS-модели под MIT, но русские — нет.

CosyVoice 3 на русском звучит хуже, чем на английском. Мультиязычные модели тренируются в основном на английских данных, и русская просодия страдает. Для критичных задач проверяйте результат на слух.

Fish Speech S2-Pro жрёт 17 ГБ VRAM и генерирует по 3-4 минуты. Для real-time приложений не годится. Эмоциональные теги на языках кроме английского работают через раз. И лицензия не Apache/MIT.

Dia генерирует разные голоса каждый раз без audio prompt. Короткие фразы (<5 секунд) звучат роботно, длинные (>20 секунд) ускоряются неестественно.

OmniVoice создан 8 дней назад. Два контрибьютора, 29 открытых issues. В продакшен пока рано.

TADA уступает по натуральности. 3.78/5.0 за naturalness заметно хуже Voxtral. Голос чистый, но суховатый.

Альтернативы (если всё-таки хочется заплатить)

  • ElevenLabs — 32 языка, голосовой дизайнер, API с latency <75ms. От $5/мес. Проигрывает Voxtral в слепых тестах, но документация и инфраструктура на голову выше
  • OpenAI TTS — встроен в API. Шесть голосов, 57 языков. $15 за 1M символов. Минимальная кастомизация, но интеграция за 5 минут
  • Play.ht — 600+ голосов, 142 языка. Free tier на 12 500 символов/мес. Хорош для прототипов

Вердикт

Для английского ставь Voxtral TTS. 68% win rate против ElevenLabs, 3 ГБ весит, Apache 2.0. Лучший бесплатный TTS на апрель 2026.

Для русского — Silero TTS v5. 140 МБ, омографы из коробки, 5 голосов, работает на CPU за 3 строки кода. Для некоммерческих проектов бесплатно.

Для русского с voice cloning — CosyVoice 3. Русский из коробки, стриминг, эмоции. Качество ниже Silero, но функциональность шире.

Для слабого железа без GPU — Kokoro. 82M параметров, CPU в реальном времени, но только западные языки.

Для voice cloning на английском — Chatterbox. MIT, 5 секунд аудио, ползунок экспрессивности.

А ElevenLabs? За $330/мес он даёт лучшую документацию и 32 языка. Но разрыв в качестве голоса закрылся. Open-source побеждает по звучанию.

Как попробовать

  1. Быстрый старт (браузер). Открой демо Voxtral TTS на Hugging Face, вбей текст, выбери один из 20 голосов, скачай аудио

  2. Русский (3 строки кода). Поставь Silero:

pip install silero
python -c "
import torch
model, _ = torch.hub.load('snakers4/silero-models', 'silero_tts', language='ru', speaker='v5_ru')
model.save_wav(text='Привет, это тест', speaker='xenia', audio_path='test.wav')
"
  1. Без GPU (локально). Поставь Kokoro через Docker:
git clone https://github.com/hexgrad/kokoro && cd kokoro
docker build -t kokoro-tts . && docker run -p 8000:8000 kokoro-tts
  1. Voice cloning. Установи Chatterbox, подготовь 5-секундный WAV-файл:
pip install chatterbox-tts
python -c "from chatterbox import ChatterboxTTS; m = ChatterboxTTS.from_pretrained(); m.generate('Hello world', reference_audio='my_voice.wav')"
  1. Диалоги. Попробуй Dia:
pip install git+https://github.com/nari-labs/dia.git
$ ls ./related/

Похожие статьи

subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe