Happy Horse 1.0 — Алибаба переманила архитектора Kling AI и сделала #1 видео-модель. Вчера запустили на fal, обещанный open source отменили
7 апреля на Artificial Analysis Video Arena появилась модель под именем HappyHorse-1.0. Без блог-поста и без логотипа на профиле, чисто голые результаты в blind-тесте. Через сутки она была #1 в Text-to-Video и Image-to-Video, обогнав ByteDance Seedance 2.0 на 60-100 пунктов Elo. Через двое суток Alibaba призналась: модель её, делала команда Future Life Lab под руководством Чжан Ди, бывшего вице-президента Kuaishou и технического архитектора Kling AI. Вчера, 27 апреля, fal запустил Happy Horse как официальное API-партнёрство. И в FAQ тихо объявил: open-source, который команда обещала весь апрель, отменяется.
TL;DR: Анонимная видео-модель от Alibaba прошла стелс-тестирование, заняла #1 на blind-leaderboard и вчера стала доступна через fal по цене $0.14/сек за 720p и $0.28/сек за 1080p. Обещанный open source отменили: модель остаётся closed. Архитектор тот же человек, что строил Kling, но теперь работает на Alibaba.
Кто такой Чжан Ди и при чём здесь Kling
Чжан Ди — китайский AI-инженер с 15+ годами в индустрии. До 2022 года был директором в Alibaba, потом ушёл в Kuaishou и стал техническим архитектором Kling AI. Это флагманская видео-модель Kuaishou, которая до недавних пор сидела на верхушке всех рейтингов. В конце 2025 года Чжан Ди вернулся в Alibaba возглавлять Future Life Lab (未来生活实验室) внутри подразделения ATH (Alibaba Token Hub). Через пять месяцев его команда выкатила Happy Horse 1.0, который обогнал в том числе Kling 3.0, модель, которую он сам и проектировал.
Это редкий случай в AI-индустрии, когда инженер уходит из одной компании в другую и через полгода выпускает прямого убийцу того, что строил. Сделка Алибабы с Чжан Ди по факту переманивание не одного человека, а доступа ко всем архитектурным идеям Kling.
Что показали бенчмарки
Artificial Analysis Video Arena — это blind-test leaderboard. Пользователи видят два видео по одному промпту, не знают, какая модель какое сделала, голосуют за лучшее. Никаких cherry-picked демок и self-reported чисел.
Текущие Elo Happy Horse 1.0 на момент написания:
- Text-to-Video (no audio) — 1333 (#1, опережает Seedance 2.0 на ~100)
- Image-to-Video (no audio) — 1392 (#1)
- Text-to-Video (with audio) — 1205
- Image-to-Video (with audio) — 1161
Лидерство построено на 7 932 blind-сравнениях с доверительным интервалом ±9. Это статистически значимо. Что важно: разрыв с конкурентами в no-audio категории огромный (~100 пунктов Elo), а в with-audio Happy Horse уже не #1, звук получается заметно слабее визуала. Об этом чуть ниже.
Что под капотом
По заявлению команды (независимо никто пока не верифицировал):
- 15 миллиардов параметров. Мало по меркам современных видео-моделей.
- Унифицированный Transformer на 40 слоёв self-attention без cross-attention модулей между видео и аудио. Звук генерируется в том же forward pass, что и картинка.
- 38 секунд на 1080p клип на одной NVIDIA H100.
- 2 секунды на 5-секундный 256p для черновых итераций.
- 7 языков с native lip-sync: китайский (мандарин и кантонский), английский, японский, корейский, немецкий, французский.
- Aspect ratios: 16:9, 9:16, 1:1, 4:3, 3:4.
- Длительность клипа: 3-15 секунд.
Joint audio-video в один forward pass — это архитектурная фишка. У большинства конкурентов аудио добавляется отдельным проходом или вообще отдельной моделью. У Happy Horse предположительно общий backbone, что и объясняет высокий ранкинг с-аудио в Image-to-Video категории.
Как пробовать
На fal с 27 апреля доступны 4 эндпоинта:
alibaba/happy-horse/text-to-video. Текст превращается в 1080p видео с синхронным аудио.alibaba/happy-horse/image-to-video. Картинка плюс промпт превращаются в анимированный клип.alibaba/happy-horse/video-edit. Natural-language редактирование готового видео, локальное или глобальное, до 5 reference-картинок.alibaba/happy-horse/reference-to-video. Текст плюс референсы превращаются в видео в нужном стиле.
Минимальный пример на JavaScript:
import { fal } from "@fal-ai/client"; const result = await fal.subscribe("alibaba/happy-horse/text-to-video", { input: { prompt: "A young woman in a red coat walks down a wet city street at night, neon reflections.", aspect_ratio: "16:9", resolution: "1080p", duration: 5, }, logs: true, onQueueUpdate: (update) => { if (update.status === "IN_PROGRESS") { update.logs.map((log) => log.message).forEach(console.log); } }, }); console.log(result.data);
В Python то же самое через fal-client. API ключ берётся из дашборда fal, кладётся в FAL_KEY env. Стандартный async-queue паттерн: подписался, ждёшь callback с URL готового видео.
Цена
- 720p — $0.14 за секунду генерации.
- 1080p — $0.28 за секунду.
Считаем реальные сценарии:
- 5-секундный 1080p ролик для Reels = $1.40
- 15-секундный 1080p (максимум) = $4.20
- Сериал из 100 клипов по 5 секунд = $140
- Для сравнения: Seedance 2.0 на fal около $0.10/сек, Veo 3.1 в районе $0.15-$0.75/сек
Pay-per-second без минимумов и подписок. Стандартная схема fal.
Подводные камни
Open source отменили на ходу. Команда весь апрель писала на собственных лендингах: «GitHub and weights coming soon», «Coming Open Source», «The model will be fully released as open source». Вчера fal в FAQ написал прямым текстом: «While other industry players say HappyHorse-1.0 will be open source, we can confirm that HappyHorse-1.0 will be closed source. It will not be licensable or open source». То есть нет, не будет. Точка. Если планировали self-host через неопубликованные веса, забудьте.
Звук слабее картинки. Elo с-аудио (1205 в T2V, 1161 в I2V) сильно ниже Elo без аудио (1333 и 1392). Разрыв ~150-200 пунктов означает: люди в blind-тесте ощутимо чаще выбирают конкурентов, когда в сравнении есть звуковая дорожка. Если ваш кейс это короткие social-видео без звука или с подложкой, норм. Если нужен синхронный диалог с lip-sync на английском, проверяйте на своих кейсах, а не на маркетинговых демо.
Spec'и не верифицированы. Цифры 15B параметров, 38 секунд на H100, унифицированный 40-слойный backbone, всё это с собственного сайта команды. Внешних замеров пока нет. Реальное время генерации в очереди fal будет другим, там GPU расшаривается между запросами, плюс сеть.
3-15 секунд это короткий потолок. Для cinematic-сценок этого мало. Sora 2 умеет до 25 секунд. Если задача длинный нарратив, придётся склеивать клипы во внешнем редакторе, и склейки будут видны.
Только 7 языков для lip-sync. Русского нет. Испанского нет. Хинди нет. Если ваша аудитория не Китай, не Запад, не Япония и не Корея, lip-sync вам не поможет — герой будет открывать рот, не попадая в фонемы.
Pricing накапливается. $0.28/сек звучит безобидно, пока не прикинешь, что для A/B-теста маркетинговой кампании на 50 вариантов 10-секундного клипа уйдёт $140 только на одну итерацию. Если не нравится результат и нужны новые промпты, умножайте.
Beta phase. На стороне Alibaba модель официально в бета-тестировании. Это значит: цены могут поменяться, эндпоинты переименоваться, лимиты ужесточиться без предупреждения.
Альтернативы
- Seedance 2.0 (ByteDance Seed). Был #1 до Happy Horse. Сильнее в нарративе и multi-shot композиции (можно залить до 9 картинок, 3 видео-клипа, 3 аудио-клипа как референсы). Дешевле, около $0.10/сек на fal. Не уступает в audio-задачах.
- Kling 3.0 (Kuaishou). Та же команда, что строил Чжан Ди. До сих пор силён в социальных шортсах, $6.99/мес стартовая подписка плюс $0.084/сек по API. Стандарт de-facto в Китае для рекламы.
- Veo 3.1 (Google DeepMind). Лучший по премиальному cinematic look, integrated с Gemini API. Дороже: $0.15-$0.75/сек. Если нужно качество для бренд-видео, это.
- WAN 2.2 (Alibaba). Другая видео-модель Алибабы, Apache 2.0, бесплатно self-hostable. Слабее по визуалу, но реально open source. Компромисс ровно противоположный Happy Horse.
- Sora 2 (OpenAI). Был сильным игроком. OpenAI тихо сворачивает Sora API из-за нерентабельности генерации. Если строили на Sora, есть смысл мигрировать.
Вердикт
Если делаете рекламу, social-контент, image-to-video продуктовые ролики на 5-10 секунд без сложного диалога, переключайтесь на Happy Horse сегодня. Выигрыш в визуале реальный и подтверждён 8000+ голосов. $1.40 за 5-секундный 1080p приемлемо для production. Если нужен длинный сюжет с lip-sync на русском или испанском, или критичен open source с self-host, Happy Horse не для вас. Смотрите WAN 2.2 для self-host или Veo 3.1 для премиум-качества. И отдельно: история с обещанным и отменённым open source повод не верить маркетингу китайских AI-команд, пока веса физически не лежат на HuggingFace. Бренд «open» в 2026 уже несколько раз использовали как трамплин для платного релиза.
Как попробовать
- Залогиньтесь на fal.ai, создайте API key в дашборде, положите в
FAL_KEY - Откройте плейграунд text-to-video без кода и без ключа, проверить качество
- Установите клиент:
pip install fal-clientилиnpm i @fal-ai/client - Стартовый промпт для теста:
"A close-up of a hummingbird drinking nectar from a tropical flower at golden hour, slow motion, 4K cinematic"сaspect_ratio: "16:9",duration: 5 - Сравните результат с тем же промптом на Seedance 2.0 (
bytedance/seedance-pro/text-to-videoна fal). Увидите, за что Happy Horse получил +100 Elo