> 28 Apr 2026 · 8 мин

Happy Horse 1.0 — Алибаба переманила архитектора Kling AI и сделала #1 видео-модель. Вчера запустили на fal, обещанный open source отменили

ai video-generation alibaba stealth-launch fal

7 апреля на Artificial Analysis Video Arena появилась модель под именем HappyHorse-1.0. Без блог-поста и без логотипа на профиле, чисто голые результаты в blind-тесте. Через сутки она была #1 в Text-to-Video и Image-to-Video, обогнав ByteDance Seedance 2.0 на 60-100 пунктов Elo. Через двое суток Alibaba призналась: модель её, делала команда Future Life Lab под руководством Чжан Ди, бывшего вице-президента Kuaishou и технического архитектора Kling AI. Вчера, 27 апреля, fal запустил Happy Horse как официальное API-партнёрство. И в FAQ тихо объявил: open-source, который команда обещала весь апрель, отменяется.

TL;DR: Анонимная видео-модель от Alibaba прошла стелс-тестирование, заняла #1 на blind-leaderboard и вчера стала доступна через fal по цене $0.14/сек за 720p и $0.28/сек за 1080p. Обещанный open source отменили: модель остаётся closed. Архитектор тот же человек, что строил Kling, но теперь работает на Alibaba.

Кто такой Чжан Ди и при чём здесь Kling

Чжан Ди — китайский AI-инженер с 15+ годами в индустрии. До 2022 года был директором в Alibaba, потом ушёл в Kuaishou и стал техническим архитектором Kling AI. Это флагманская видео-модель Kuaishou, которая до недавних пор сидела на верхушке всех рейтингов. В конце 2025 года Чжан Ди вернулся в Alibaba возглавлять Future Life Lab (未来生活实验室) внутри подразделения ATH (Alibaba Token Hub). Через пять месяцев его команда выкатила Happy Horse 1.0, который обогнал в том числе Kling 3.0, модель, которую он сам и проектировал.

Это редкий случай в AI-индустрии, когда инженер уходит из одной компании в другую и через полгода выпускает прямого убийцу того, что строил. Сделка Алибабы с Чжан Ди по факту переманивание не одного человека, а доступа ко всем архитектурным идеям Kling.

Что показали бенчмарки

Artificial Analysis Video Arena — это blind-test leaderboard. Пользователи видят два видео по одному промпту, не знают, какая модель какое сделала, голосуют за лучшее. Никаких cherry-picked демок и self-reported чисел.

Текущие Elo Happy Horse 1.0 на момент написания:

Text-to-Video (no audio) — 1333 (#1, опережает Seedance 2.0 на ~100)
Image-to-Video (no audio) — 1392 (#1)
Text-to-Video (with audio) — 1205
Image-to-Video (with audio) — 1161

Лидерство построено на 7 932 blind-сравнениях с доверительным интервалом ±9. Это статистически значимо. Что важно: разрыв с конкурентами в no-audio категории огромный (~100 пунктов Elo), а в with-audio Happy Horse уже не #1, звук получается заметно слабее визуала. Об этом чуть ниже.

Что под капотом

По заявлению команды (независимо никто пока не верифицировал):

15 миллиардов параметров. Мало по меркам современных видео-моделей.
Унифицированный Transformer на 40 слоёв self-attention без cross-attention модулей между видео и аудио. Звук генерируется в том же forward pass, что и картинка.
38 секунд на 1080p клип на одной NVIDIA H100.
2 секунды на 5-секундный 256p для черновых итераций.
7 языков с native lip-sync: китайский (мандарин и кантонский), английский, японский, корейский, немецкий, французский.
Aspect ratios: 16:9, 9:16, 1:1, 4:3, 3:4.
Длительность клипа: 3-15 секунд.

Joint audio-video в один forward pass — это архитектурная фишка. У большинства конкурентов аудио добавляется отдельным проходом или вообще отдельной моделью. У Happy Horse предположительно общий backbone, что и объясняет высокий ранкинг с-аудио в Image-to-Video категории.

Как пробовать

На fal с 27 апреля доступны 4 эндпоинта:

alibaba/happy-horse/text-to-video. Текст превращается в 1080p видео с синхронным аудио.
alibaba/happy-horse/image-to-video. Картинка плюс промпт превращаются в анимированный клип.
alibaba/happy-horse/video-edit. Natural-language редактирование готового видео, локальное или глобальное, до 5 reference-картинок.
alibaba/happy-horse/reference-to-video. Текст плюс референсы превращаются в видео в нужном стиле.

Минимальный пример на JavaScript:

import { fal } from "@fal-ai/client";

const result = await fal.subscribe("alibaba/happy-horse/text-to-video", {
  input: {
    prompt: "A young woman in a red coat walks down a wet city street at night, neon reflections.",
    aspect_ratio: "16:9",
    resolution: "1080p",
    duration: 5,
  },
  logs: true,
  onQueueUpdate: (update) => {
    if (update.status === "IN_PROGRESS") {
      update.logs.map((log) => log.message).forEach(console.log);
    }
  },
});

console.log(result.data);

В Python то же самое через fal-client. API ключ берётся из дашборда fal, кладётся в FAL_KEY env. Стандартный async-queue паттерн: подписался, ждёшь callback с URL готового видео.

Цена

720p — $0.14 за секунду генерации.
1080p — $0.28 за секунду.

Считаем реальные сценарии:

5-секундный 1080p ролик для Reels = $1.40
15-секундный 1080p (максимум) = $4.20
Сериал из 100 клипов по 5 секунд = $140
Для сравнения: Seedance 2.0 на fal около $0.10/сек, Veo 3.1 в районе $0.15-$0.75/сек

Pay-per-second без минимумов и подписок. Стандартная схема fal.

Подводные камни

Open source отменили на ходу. Команда весь апрель писала на собственных лендингах: «GitHub and weights coming soon», «Coming Open Source», «The model will be fully released as open source». Вчера fal в FAQ написал прямым текстом: «While other industry players say HappyHorse-1.0 will be open source, we can confirm that HappyHorse-1.0 will be closed source. It will not be licensable or open source». То есть нет, не будет. Точка. Если планировали self-host через неопубликованные веса, забудьте.

Звук слабее картинки. Elo с-аудио (1205 в T2V, 1161 в I2V) сильно ниже Elo без аудио (1333 и 1392). Разрыв ~150-200 пунктов означает: люди в blind-тесте ощутимо чаще выбирают конкурентов, когда в сравнении есть звуковая дорожка. Если ваш кейс это короткие social-видео без звука или с подложкой, норм. Если нужен синхронный диалог с lip-sync на английском, проверяйте на своих кейсах, а не на маркетинговых демо.

Spec'и не верифицированы. Цифры 15B параметров, 38 секунд на H100, унифицированный 40-слойный backbone, всё это с собственного сайта команды. Внешних замеров пока нет. Реальное время генерации в очереди fal будет другим, там GPU расшаривается между запросами, плюс сеть.

3-15 секунд это короткий потолок. Для cinematic-сценок этого мало. Sora 2 умеет до 25 секунд. Если задача длинный нарратив, придётся склеивать клипы во внешнем редакторе, и склейки будут видны.

Только 7 языков для lip-sync. Русского нет. Испанского нет. Хинди нет. Если ваша аудитория не Китай, не Запад, не Япония и не Корея, lip-sync вам не поможет — герой будет открывать рот, не попадая в фонемы.

Pricing накапливается. $0.28/сек звучит безобидно, пока не прикинешь, что для A/B-теста маркетинговой кампании на 50 вариантов 10-секундного клипа уйдёт $140 только на одну итерацию. Если не нравится результат и нужны новые промпты, умножайте.

Beta phase. На стороне Alibaba модель официально в бета-тестировании. Это значит: цены могут поменяться, эндпоинты переименоваться, лимиты ужесточиться без предупреждения.

Альтернативы

Seedance 2.0 (ByteDance Seed). Был #1 до Happy Horse. Сильнее в нарративе и multi-shot композиции (можно залить до 9 картинок, 3 видео-клипа, 3 аудио-клипа как референсы). Дешевле, около $0.10/сек на fal. Не уступает в audio-задачах.
Kling 3.0 (Kuaishou). Та же команда, что строил Чжан Ди. До сих пор силён в социальных шортсах, $6.99/мес стартовая подписка плюс $0.084/сек по API. Стандарт de-facto в Китае для рекламы.
Veo 3.1 (Google DeepMind). Лучший по премиальному cinematic look, integrated с Gemini API. Дороже: $0.15-$0.75/сек. Если нужно качество для бренд-видео, это.
WAN 2.2 (Alibaba). Другая видео-модель Алибабы, Apache 2.0, бесплатно self-hostable. Слабее по визуалу, но реально open source. Компромисс ровно противоположный Happy Horse.
Sora 2 (OpenAI). Был сильным игроком. OpenAI тихо сворачивает Sora API из-за нерентабельности генерации. Если строили на Sora, есть смысл мигрировать.

Вердикт

Если делаете рекламу, social-контент, image-to-video продуктовые ролики на 5-10 секунд без сложного диалога, переключайтесь на Happy Horse сегодня. Выигрыш в визуале реальный и подтверждён 8000+ голосов. $1.40 за 5-секундный 1080p приемлемо для production. Если нужен длинный сюжет с lip-sync на русском или испанском, или критичен open source с self-host, Happy Horse не для вас. Смотрите WAN 2.2 для self-host или Veo 3.1 для премиум-качества. И отдельно: история с обещанным и отменённым open source повод не верить маркетингу китайских AI-команд, пока веса физически не лежат на HuggingFace. Бренд «open» в 2026 уже несколько раз использовали как трамплин для платного релиза.

Как попробовать

Залогиньтесь на fal.ai, создайте API key в дашборде, положите в FAL_KEY
Откройте плейграунд text-to-video без кода и без ключа, проверить качество
Установите клиент: pip install fal-client или npm i @fal-ai/client
Стартовый промпт для теста: "A close-up of a hummingbird drinking nectar from a tropical flower at golden hour, slow motion, 4K cinematic" с aspect_ratio: "16:9", duration: 5
Сравните результат с тем же промптом на Seedance 2.0 (bytedance/seedance-pro/text-to-video на fal). Увидите, за что Happy Horse получил +100 Elo