Tencent Hy3 preview: 295B open-source, бывший OpenAI у руля, и вчера #1 на OpenRouter
Tencent Hy3 preview: 295B open-source, бывший OpenAI у руля, и вчера #1 на OpenRouter
Tencent неделю назад выложила в open-source свою новую флагманскую модель Hy3 preview. Вчера, 29 апреля, она вырвалась на первое место в рейтинге дневного использования OpenRouter и обогнала GPT-5.5 вместе с Claude Opus 4.7. Для модели возрастом семь дней это уже перелом.
TL;DR: Hy3 preview — это 295B MoE с 21B активных параметров и контекстом 256K. Поддерживает три режима reasoning, лежит на HuggingFace и OpenRouter, на OR пока бесплатна (две недели до ~6 мая). Возглавляет проект Yao Shunyu, бывший исследователь OpenAI. Лицензия не Apache 2.0, а собственная Tencent Hy Community License, читать перед коммерческим деплоем.
Откуда столько шума
Tencent в гонке LLM долго была вторым эшелоном. Hy 2.0 в декабре 2025 шёл на 400B+ параметров и звёзд с неба не хватал. В начале 2026 Tencent перетряхнула AI-команду: Yao Shunyu, один из авторов ReAct и бывший OpenAI, стал Chief AI Scientist. Команда снесла старую инфраструктуру для pre-training и RL и собрала новую с нуля. Hy3 preview стал первой моделью на новом стеке, и Tencent открыто говорит, что это «proof-of-life», а не финальная версия.
Тренировка началась в конце января 2026. От нулевого commit до публичного релиза прошло меньше трёх месяцев. Это очень быстро. GPT-5.5 (Spud), для сравнения, обучали почти полгода.
Что внутри
- Архитектура: Mixture-of-Experts, 192 эксперта, top-8 активируется на токен
- Параметры: 295B общих, 21B активных + 3.8B MTP-слой (multi-token prediction)
- Контекст: 256K токенов
- Reasoning: три режима через
reasoning_effort(no_thinkдля быстрых ответов,low,highдля deep chain-of-thought) - Точность: BF16
- Слои: 80 (без MTP), GQA с 64 attention heads и 8 KV heads
Главный фокус: Tencent сознательно не пошла за триллион параметров. Yao Shunyu прямо объяснил, что за пределами ~1T мульти-нодовый деплой убивает latency и throughput быстрее, чем модель прибавляет в качестве. 295B это коробка, в которую помещается осмысленный компромисс между скоростью и ценой при сохранении уровня интеллекта.
Бенчмарки: где Hy3 preview бьёт конкурентов своего класса

На агентских бенчмарках Hy3 preview не выигрывает в абсолюте. Claude Opus 4.6 всё ещё впереди (80.8% на SWE-bench Verified против 74.4% у Hy3, 84% на BrowseComp против 67.1%). Зато прыжок от Hy2 к Hy3 preview за полгода гигантский: на SWE-bench Verified +21 пункт, на BrowseComp почти +40. Это и есть метрика реального инвестирования в инфраструктуру.
Сравнение base-моделей (без reasoning). Hy3 preview-Base против Kimi-K2 (1043B), DeepSeek-V3 (671B), GLM-4.5 (355B):
- MATH: Hy3 76.28, Kimi 71.20, DeepSeek 59.37, GLM-4.5 61.00. Hy3 лучший с большим отрывом
- GSM8K: Hy3 95.37, Kimi 93.46, DeepSeek 88.15, GLM-4.5 90.06. Снова Hy3
- LiveCodeBench-v6: Hy3 34.86, Kimi 30.86, DeepSeek 29.31, GLM-4.5 27.43. Лучший на свежей версии бенчмарка
- CRUXEval-I: Hy3 71.19 vs остальные 67–68
- MMLU-Pro: Hy3 65.76, Kimi 65.98. Почти ноздря в ноздрю с моделью, которая в 3.5 раза больше
Tencent двигает нарратив «меньше параметров, то же качество». На Math и Code это работает. На классических MMLU и SimpleQA Kimi-K2 всё ещё впереди.
Сразу честная оговорка от Cybernews и SCMP: модель «на уровне топ-китайских конкурентов, но всё ещё отстаёт от GPT-5.5 и Gemini 3.1 Pro» в общих сценариях. Tencent с этим не спорит и называет релиз «первым шагом», следующий апдейт обещают по итогам фидбэка от open-source сообщества.
Как запустить через OpenRouter (free, без кредитки)
Дешевле всего пробовать через tencent/hy3-preview:free на OpenRouter. Контекст 262 144 токенов, цена $0/M на вход и выход. По состоянию на 30 апреля модель уже прокачала через себя 2.04B prompt-токенов и сидит на верхушке dashboard:
from openai import OpenAI client = OpenAI( base_url="https://openrouter.ai/api/v1", api_key="<твой OR-ключ>", ) resp = client.chat.completions.create( model="tencent/hy3-preview:free", messages=[ {"role": "user", "content": "Напиши Python-функцию, которая ищет дубликаты в массиве за O(n)."}, ], extra_body={ "reasoning": {"effort": "high"} }, ) print(resp.choices[0].message.content)
reasoning.effort принимает "high" для математики и кода, "low" для средних задач, либо можно вообще не указывать. Тогда модель отвечает напрямую, без chain-of-thought. На простой Hello world дёргать high бессмысленно: потратишь 5–10 тысяч thinking-токенов на ровном месте.
Если хочется self-host
Веса лежат на Hugging Face, GitHub и ModelScope. Поддерживаются vLLM и SGLang с включённым MTP (Multi-Token Prediction, спекулятивный декодинг прямо из модели).
vLLM-команда:
vllm serve tencent/Hy3-preview \ --tensor-parallel-size 8 \ --speculative-config.method mtp \ --speculative-config.num_speculative_tokens 1 \ --tool-call-parser hy_v3 \ --reasoning-parser hy_v3 \ --enable-auto-tool-choice \ --served-model-name hy3-preview
Tencent рекомендует 8 GPU H20-3e. Это не одиночная RTX и даже не H100, а data-center сборка. На Mac Studio с 128GB модель не запустить даже с агрессивным квантованием. DeepSeek V4-Flash на 284B/13B активных туда же еле помещается, для сравнения. Если нет H100/H200 кластера, едь на OpenRouter или Tencent Cloud TokenHub (персональный тариф 28 CNY/месяц, ~$4).
Подводные камни
Лицензия не Apache 2.0, а Tencent Hy Community License Agreement. Это важно для коммерческого использования. В отличие от GLM-5.1 (MIT), DeepSeek V4 (Apache 2.0) или Llama 4 (Llama Community License), здесь собственный текст Tencent с ограничениями для крупных коммерческих юзеров. Перед production-деплоем читать LICENSE целиком, а не только заголовок «open-source значит можно». Open weights не равно MIT.
Tencent сама признаёт две слабости. В официальном анонсе на hy.tencent.com прямо написано: «weak error recovery during tool calls and sensitivity to inference hyperparameters». На человеческом: если агент уронил вызов инструмента, Hy3 preview хуже восстанавливается, чем GPT-5.5 или Claude Opus 4.7. И temperature с top_p здесь критичны. Рекомендованные temperature=0.9, top_p=1.0 важно ставить именно так, без них качество просаживается заметно. Не «крути ручки на интуиции».
Бесплатно на OpenRouter только две недели. Tencent листанула модель с пометкой «free for a limited period of two weeks». Старт 22 апреля, значит до ~6 мая. Если строишь продукт поверх free tier, закладывай миграцию на TokenHub или self-host заранее. Плюс free-tier rate-limit 20 req/min и 200 req/day. Для прода мало.
Multilingual fluency может подвести. В бенчмарках INCLUDE и MMMLU модель показывает себя хорошо, но Tencent оптимизировала её под китайские business-сценарии — Yuanbao и QQ Browser. На редких языках качество может проседать. Для русскоязычных задач проверяй на своих кейсах перед миграцией.
Reasoning-токены платные на OpenRouter в paid-варианте. Free версия выживает за счёт субсидий, но если перейдёшь на платный tencent/hy3-preview без :free, то reasoning.effort=high запросто съест 10–30 тысяч скрытых токенов на сложный ответ. Это и так маленькое окно, и счёт.
Альтернативы
- DeepSeek V4-Flash: 284B (13B активных), MIT-лицензия, 1M контекст. Меньше суеты с лицензией и больше окно, но V4-Flash вышел почти одновременно (24 апреля), независимых сравнений с Hy3 пока единицы.
- GLM-5.1: 744B (40B активных), MIT, бьёт Claude Opus 4.6 на SWE-bench Pro по заявлению Zhipu. Мощнее по сырым числам, но в 2.5 раза толще по active-параметрам, на одной карте не запустишь.
- Kimi-K2: 1043B base от Moonshot, лидер по MMLU и SimpleQA. Но 32B активных против 21B у Hy3 заметно дороже инферить.
- Qwen3.6-35B-A3B: 35B (3B активных), Apache 2.0. Идёт в другую категорию, это реально ноутбучная модель, на 32GB Mac Studio запускается. Уступает Hy3 в reasoning, но выигрывает по доступности.
Вердикт
Если сегодня нужно собрать MVP агента и пощупать живую frontier-модель без подписок и кредиток, пробуй tencent/hy3-preview:free на OpenRouter сейчас же. До 6 мая ровно для этого окно и существует. Для прода без китайских юристов рядом не трогай Hy3 preview, бери DeepSeek V4 (MIT) или GLM-5.1 (MIT). А для self-host без H100-кластера это не та лига, иди в Qwen3.6-35B-A3B. Главная новость не в самой модели, а в том, что Yao Shunyu за три месяца после рестарта инфраструктуры вытащил Tencent в первый эшелон open-source. Это была заявка, а не финал.
Как попробовать
- Зарегистрироваться на openrouter.ai, получить API-ключ (кредитка не нужна для free-моделей).
- В коде поставить
model="tencent/hy3-preview:free"через OpenAI SDK сbase_url="https://openrouter.ai/api/v1". - Для агентских задач добавить
extra_body={"reasoning": {"effort": "high"}}иtemperature=0.9. Для коротких ответовeffortне указывать. - Помнить про rate limits free tier: 20 req/min и 200 req/day. Для нагрузочных тестов сразу подключать кредиты или Tencent Cloud TokenHub.
- Если нужны веса,
huggingface-cli download tencent/Hy3-preview, разворачивать черезvllm serveс--tensor-parallel-size 8на H20-3e/H100/H200.