> · 8 мин

Tencent Hy3 preview: 295B open-source, бывший OpenAI у руля, и вчера #1 на OpenRouter

Tencent Hy3 preview: 295B open-source, бывший OpenAI у руля, и вчера #1 на OpenRouter

Tencent Hy3 preview: 295B open-source, бывший OpenAI у руля, и вчера #1 на OpenRouter

Tencent неделю назад выложила в open-source свою новую флагманскую модель Hy3 preview. Вчера, 29 апреля, она вырвалась на первое место в рейтинге дневного использования OpenRouter и обогнала GPT-5.5 вместе с Claude Opus 4.7. Для модели возрастом семь дней это уже перелом.

TL;DR: Hy3 preview — это 295B MoE с 21B активных параметров и контекстом 256K. Поддерживает три режима reasoning, лежит на HuggingFace и OpenRouter, на OR пока бесплатна (две недели до ~6 мая). Возглавляет проект Yao Shunyu, бывший исследователь OpenAI. Лицензия не Apache 2.0, а собственная Tencent Hy Community License, читать перед коммерческим деплоем.

Откуда столько шума

Tencent в гонке LLM долго была вторым эшелоном. Hy 2.0 в декабре 2025 шёл на 400B+ параметров и звёзд с неба не хватал. В начале 2026 Tencent перетряхнула AI-команду: Yao Shunyu, один из авторов ReAct и бывший OpenAI, стал Chief AI Scientist. Команда снесла старую инфраструктуру для pre-training и RL и собрала новую с нуля. Hy3 preview стал первой моделью на новом стеке, и Tencent открыто говорит, что это «proof-of-life», а не финальная версия.

Тренировка началась в конце января 2026. От нулевого commit до публичного релиза прошло меньше трёх месяцев. Это очень быстро. GPT-5.5 (Spud), для сравнения, обучали почти полгода.

Что внутри

  • Архитектура: Mixture-of-Experts, 192 эксперта, top-8 активируется на токен
  • Параметры: 295B общих, 21B активных + 3.8B MTP-слой (multi-token prediction)
  • Контекст: 256K токенов
  • Reasoning: три режима через reasoning_effort (no_think для быстрых ответов, low, high для deep chain-of-thought)
  • Точность: BF16
  • Слои: 80 (без MTP), GQA с 64 attention heads и 8 KV heads

Главный фокус: Tencent сознательно не пошла за триллион параметров. Yao Shunyu прямо объяснил, что за пределами ~1T мульти-нодовый деплой убивает latency и throughput быстрее, чем модель прибавляет в качестве. 295B это коробка, в которую помещается осмысленный компромисс между скоростью и ценой при сохранении уровня интеллекта.

Бенчмарки: где Hy3 preview бьёт конкурентов своего класса

Прогресс Hy2 → Hy3 preview на агентских бенчмарках SWE-bench Verified, Terminal-Bench 2.0, BrowseComp, WideSearch против Claude Opus 4.5/4.6, Kimi K2.5, GLM-5

На агентских бенчмарках Hy3 preview не выигрывает в абсолюте. Claude Opus 4.6 всё ещё впереди (80.8% на SWE-bench Verified против 74.4% у Hy3, 84% на BrowseComp против 67.1%). Зато прыжок от Hy2 к Hy3 preview за полгода гигантский: на SWE-bench Verified +21 пункт, на BrowseComp почти +40. Это и есть метрика реального инвестирования в инфраструктуру.

Сравнение base-моделей (без reasoning). Hy3 preview-Base против Kimi-K2 (1043B), DeepSeek-V3 (671B), GLM-4.5 (355B):

  • MATH: Hy3 76.28, Kimi 71.20, DeepSeek 59.37, GLM-4.5 61.00. Hy3 лучший с большим отрывом
  • GSM8K: Hy3 95.37, Kimi 93.46, DeepSeek 88.15, GLM-4.5 90.06. Снова Hy3
  • LiveCodeBench-v6: Hy3 34.86, Kimi 30.86, DeepSeek 29.31, GLM-4.5 27.43. Лучший на свежей версии бенчмарка
  • CRUXEval-I: Hy3 71.19 vs остальные 67–68
  • MMLU-Pro: Hy3 65.76, Kimi 65.98. Почти ноздря в ноздрю с моделью, которая в 3.5 раза больше

Tencent двигает нарратив «меньше параметров, то же качество». На Math и Code это работает. На классических MMLU и SimpleQA Kimi-K2 всё ещё впереди.

Сразу честная оговорка от Cybernews и SCMP: модель «на уровне топ-китайских конкурентов, но всё ещё отстаёт от GPT-5.5 и Gemini 3.1 Pro» в общих сценариях. Tencent с этим не спорит и называет релиз «первым шагом», следующий апдейт обещают по итогам фидбэка от open-source сообщества.

Как запустить через OpenRouter (free, без кредитки)

Дешевле всего пробовать через tencent/hy3-preview:free на OpenRouter. Контекст 262 144 токенов, цена $0/M на вход и выход. По состоянию на 30 апреля модель уже прокачала через себя 2.04B prompt-токенов и сидит на верхушке dashboard:

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="<твой OR-ключ>",
)

resp = client.chat.completions.create(
    model="tencent/hy3-preview:free",
    messages=[
        {"role": "user", "content": "Напиши Python-функцию, которая ищет дубликаты в массиве за O(n)."},
    ],
    extra_body={
        "reasoning": {"effort": "high"}
    },
)
print(resp.choices[0].message.content)

reasoning.effort принимает "high" для математики и кода, "low" для средних задач, либо можно вообще не указывать. Тогда модель отвечает напрямую, без chain-of-thought. На простой Hello world дёргать high бессмысленно: потратишь 5–10 тысяч thinking-токенов на ровном месте.

Если хочется self-host

Веса лежат на Hugging Face, GitHub и ModelScope. Поддерживаются vLLM и SGLang с включённым MTP (Multi-Token Prediction, спекулятивный декодинг прямо из модели).

vLLM-команда:

vllm serve tencent/Hy3-preview \
  --tensor-parallel-size 8 \
  --speculative-config.method mtp \
  --speculative-config.num_speculative_tokens 1 \
  --tool-call-parser hy_v3 \
  --reasoning-parser hy_v3 \
  --enable-auto-tool-choice \
  --served-model-name hy3-preview

Tencent рекомендует 8 GPU H20-3e. Это не одиночная RTX и даже не H100, а data-center сборка. На Mac Studio с 128GB модель не запустить даже с агрессивным квантованием. DeepSeek V4-Flash на 284B/13B активных туда же еле помещается, для сравнения. Если нет H100/H200 кластера, едь на OpenRouter или Tencent Cloud TokenHub (персональный тариф 28 CNY/месяц, ~$4).

Подводные камни

Лицензия не Apache 2.0, а Tencent Hy Community License Agreement. Это важно для коммерческого использования. В отличие от GLM-5.1 (MIT), DeepSeek V4 (Apache 2.0) или Llama 4 (Llama Community License), здесь собственный текст Tencent с ограничениями для крупных коммерческих юзеров. Перед production-деплоем читать LICENSE целиком, а не только заголовок «open-source значит можно». Open weights не равно MIT.

Tencent сама признаёт две слабости. В официальном анонсе на hy.tencent.com прямо написано: «weak error recovery during tool calls and sensitivity to inference hyperparameters». На человеческом: если агент уронил вызов инструмента, Hy3 preview хуже восстанавливается, чем GPT-5.5 или Claude Opus 4.7. И temperature с top_p здесь критичны. Рекомендованные temperature=0.9, top_p=1.0 важно ставить именно так, без них качество просаживается заметно. Не «крути ручки на интуиции».

Бесплатно на OpenRouter только две недели. Tencent листанула модель с пометкой «free for a limited period of two weeks». Старт 22 апреля, значит до ~6 мая. Если строишь продукт поверх free tier, закладывай миграцию на TokenHub или self-host заранее. Плюс free-tier rate-limit 20 req/min и 200 req/day. Для прода мало.

Multilingual fluency может подвести. В бенчмарках INCLUDE и MMMLU модель показывает себя хорошо, но Tencent оптимизировала её под китайские business-сценарии — Yuanbao и QQ Browser. На редких языках качество может проседать. Для русскоязычных задач проверяй на своих кейсах перед миграцией.

Reasoning-токены платные на OpenRouter в paid-варианте. Free версия выживает за счёт субсидий, но если перейдёшь на платный tencent/hy3-preview без :free, то reasoning.effort=high запросто съест 10–30 тысяч скрытых токенов на сложный ответ. Это и так маленькое окно, и счёт.

Альтернативы

  • DeepSeek V4-Flash: 284B (13B активных), MIT-лицензия, 1M контекст. Меньше суеты с лицензией и больше окно, но V4-Flash вышел почти одновременно (24 апреля), независимых сравнений с Hy3 пока единицы.
  • GLM-5.1: 744B (40B активных), MIT, бьёт Claude Opus 4.6 на SWE-bench Pro по заявлению Zhipu. Мощнее по сырым числам, но в 2.5 раза толще по active-параметрам, на одной карте не запустишь.
  • Kimi-K2: 1043B base от Moonshot, лидер по MMLU и SimpleQA. Но 32B активных против 21B у Hy3 заметно дороже инферить.
  • Qwen3.6-35B-A3B: 35B (3B активных), Apache 2.0. Идёт в другую категорию, это реально ноутбучная модель, на 32GB Mac Studio запускается. Уступает Hy3 в reasoning, но выигрывает по доступности.

Вердикт

Если сегодня нужно собрать MVP агента и пощупать живую frontier-модель без подписок и кредиток, пробуй tencent/hy3-preview:free на OpenRouter сейчас же. До 6 мая ровно для этого окно и существует. Для прода без китайских юристов рядом не трогай Hy3 preview, бери DeepSeek V4 (MIT) или GLM-5.1 (MIT). А для self-host без H100-кластера это не та лига, иди в Qwen3.6-35B-A3B. Главная новость не в самой модели, а в том, что Yao Shunyu за три месяца после рестарта инфраструктуры вытащил Tencent в первый эшелон open-source. Это была заявка, а не финал.

Как попробовать

  1. Зарегистрироваться на openrouter.ai, получить API-ключ (кредитка не нужна для free-моделей).
  2. В коде поставить model="tencent/hy3-preview:free" через OpenAI SDK с base_url="https://openrouter.ai/api/v1".
  3. Для агентских задач добавить extra_body={"reasoning": {"effort": "high"}} и temperature=0.9. Для коротких ответов effort не указывать.
  4. Помнить про rate limits free tier: 20 req/min и 200 req/day. Для нагрузочных тестов сразу подключать кредиты или Tencent Cloud TokenHub.
  5. Если нужны веса, huggingface-cli download tencent/Hy3-preview, разворачивать через vllm serve с --tensor-parallel-size 8 на H20-3e/H100/H200.
$ ls ./related/

Похожие статьи

oh-my-codex-codex-teams.md
Oh My codeX — параллельные агенты для Codex CLI, tmux worktrees и HUD, который показывает, что делает каждый бот
> · 8 мин

Oh My codeX — параллельные агенты для Codex CLI, tmux worktrees и HUD, который показывает, что делает каждый бот

OMX — это oh-my-zsh для OpenAI Codex CLI. За 2 минуты npm-установки получаешь 33 агента, 36 скиллов, команды, которые гоняют по три Codex-сессии в параллельных git worktrees, и HUD, который показывает, чем они заняты прямо сейчас.

ai agents codex open-source
gpt-55-spud-codex-leak.md
Spud утёк за сутки до релиза: GPT-5.5 засветили в пикере Codex, а Simon Willison собрал «backdoor-API»
> · 7 мин

Spud утёк за сутки до релиза: GPT-5.5 засветили в пикере Codex, а Simon Willison собрал «backdoor-API»

22 апреля в Codex у Pro-юзеров внезапно появился пикер с gpt-5.5, oai-2.1, arcanine и glacier-alpha. Через сутки OpenAI выкатила GPT-5.5 официально. Simon Willison параллельно собрал инструмент, который крадёт авторизацию Codex CLI и стучится в API, которого пока нет. Разбираем, что утекло, что умеет Spud, и почему API «задерживается ради безопасности».

llm openai codex ai-agents
openrouter-stealth-models-guide.md
Hunter, Healer, Elephant: 3 секретные AI-модели на OpenRouter, бесплатные прямо сейчас
> · 8 мин

Hunter, Healer, Elephant: 3 секретные AI-модели на OpenRouter, бесплатные прямо сейчас

Hunter Alpha оказался Xiaomi MiMo-V2-Pro, Healer Alpha до сих пор анонимный, Elephant Alpha появился 13 апреля. Все три frontier-модели бесплатные на OpenRouter. Как подключить через OpenAI SDK за 2 минуты, где каждая сливает, и почему логи промптов это не мелочь.

ai tips openrouter stealth-models
subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe