Owl, Hunter, Healer и Aurora: гид по stealth-моделям OpenRouter, которые завтра окажутся GPT-5.5 и GLM-5
6 февраля 2026 года на OpenRouter тихо появилась модель под именем Pony Alpha. Бесплатная, без указания провайдера, с пометкой «next-generation foundation model». Пять дней спустя её цена на рынке выросла на 60%, потому что Zhipu официально подтвердил: это была GLM-5, которую гоняли в открытом A/B-тесте за неделю до релиза.
Это не единичная история. Polaris Alpha оказался GPT-5.1. Sherlock Dash и Sherlock Think раскрылись как два среза Grok 4.1 Fast. Andromeda Alpha превратилась в NVIDIA Nemotron Nano 2 VL, Bert-Nebulon Alpha стала Mistral Large 3. На LMArena Gemini 3.0 Pro release candidate светился под кодовым именем riftrunner, а GPT-Image-2 OpenAI запихнул сразу под три псевдонима: maskingtape-alpha, gaffertape-alpha, packingtape-alpha. Сообщество сложило два и два за сутки.
TL;DR: На 23 мая 2026 на OpenRouter активны пять stealth-моделей: Owl, Elephant, Hunter, Healer и Aurora. Все бесплатные, все логируются провайдером. По историческим паттернам это пре-релизы флагманов от Big AI. В статье разбираем, кто они, как их фингерпринтить и зачем это знать, если ты строишь продукт на AI.
Что такое stealth-модели и зачем они существуют
Stealth-модель это AI, выложенный публично без указания провайдера. Платформа знает, кто за ним стоит (OpenRouter подписал NDA с лабораторией), а пользователи не знают. Цель простая: собрать данные о реальном использовании без bias-эффекта бренда. Когда модель называют «новый GPT-5.5», пользователи подсознательно ставят ей плюсы. Когда тот же ответ идёт от «Pony Alpha», ты оцениваешь только текст.
Для разработчика это значит одно: топовая модель за $0/M токенов, пока идёт сбор данных. Owl Alpha даёт 1.05M контекст и агентские инструменты, по $0 на входе и выходе. В API такое стоило бы $5-25 за миллион токенов у Anthropic или OpenAI.
Цена бесплатности: логи. В описании каждой stealth-модели стоит: «All prompts and completions for this model are logged by the provider and may be used to improve the model». Кладёшь туда ключи от API клиента, попадаешь в датасет.
Кто сейчас в эфире (по состоянию на 23 мая 2026)
Пять активных stealth-моделей на OpenRouter, отсортированы по дате запуска от свежей к старой:
- Owl Alpha. 28 апреля 2026, контекст 1.05M, $0 за всё. Заявлено: foundation model для агентских воркфлоу, нативная поддержка tool use, совместима с Claude Code и OpenClaw. За месяц перемолола 1.16 триллиона токенов. Это уровень популярных платных моделей.
- Elephant Alpha. 13 апреля 2026, контекст 256K, 100B параметров. Заточен под intelligence efficiency: function calling, structured output, prompt caching, до 32K output. Удобен для дебага и быстрой обработки документов.
- Hunter Alpha. 11 марта 2026, контекст 1M, 1 триллион параметров. Чисто текстовая модель, оптимизирована под long-horizon planning и multi-step task execution.
- Healer Alpha. 11 марта 2026, контекст 262K. Омни-модальная: видит, слышит, рассуждает, действует. Нативно работает с image+audio inputs.
- Aurora Alpha. 9 февраля 2026, контекст 128K. Reasoning-модель на скорость. Default effort выставлен на medium, для агентского кодинга OpenRouter сам рекомендует переключать на high.
По историческим паттернам OpenRouter (Polaris=GPT-5.1, Sherlock=Grok 4.1, Andromeda=Nemotron), почти гарантированно как минимум одна из этих пяти представляет пре-релиз флагмана OpenAI, Google, Anthropic, xAI или Alibaba.
История раскрытий: кто кем оказался
Каждый stealth выходит на свет одинаково. Модель пропадает из эфира, и в тот же день, плюс-минус сутки, лаборатория объявляет релиз. Вот reveal-список за полтора года:
- gpt-2-chatbot (LMArena, май 2024) → GPT-4o
- chat-bison@001 (LMArena, май 2023) → PaLM 2 chat
- summit / zenith (LMArena, лето 2025) → GPT-5
- vortex / zephyr (LMArena, начало 2026) → GPT-5.3
- Quasar Alpha / Optimus Alpha (OpenRouter, апрель 2025) → GPT-4.1 семейство
- Horizon Alpha / Horizon Beta (OpenRouter, июль-август 2025) → не подтверждены, но архитектурные сигнатуры тянут к gpt-oss от OpenAI
- Sonoma Sky Alpha / Sonoma Dusk Alpha (OpenRouter, сентябрь 2025) → Grok-варианты
- Polaris Alpha (OpenRouter, ноябрь 2025) → GPT-5.1 minimal
- Sherlock Dash/Think Alpha (OpenRouter, ноябрь 2025) → Grok 4.1 Fast
- Bert-Nebulon Alpha (OpenRouter, ноябрь 2025) → Mistral Large 3
- Andromeda Alpha (OpenRouter, октябрь 2025) → NVIDIA Nemotron Nano 2 VL
- Pony Alpha (OpenRouter, февраль 2026) → GLM-5 от Zhipu
- riftrunner (LMArena, конец 2025) → Gemini 3.0 Pro release candidate
- maskingtape/gaffertape/packingtape (LMArena, апрель 2026) → GPT-Image-2
Выборка достаточная, чтобы сделать вывод. Stealth работает как финальный QA перед публичным релизом. Если модель появилась, релиз через 2-5 недель.
Как фингерпринтить stealth-модель
Сообщество выработало стек техник, которые позволяют идентифицировать модель за час-два. Точность редко доходит до конкретного имени, обычно сужается до семейства (GPT, Claude, Gemini, Qwen, GLM).
1. Прямой вопрос «who are you?» Часто работает в лоб. Pony Alpha признался, что он GLM, ещё в первый день. Но провайдеры начали навешивать фальшивые system prompts. Hunter Alpha говорит: «I am a Chinese AI created by AGI engineers», а под капотом сидит западная модель.
2. Кросс-проверка self-identification. Спроси модель тремя разными способами. Pony Alpha на прямой вопрос отвечал «I am GLM», а при запросе «напиши HTML-страницу о себе» выдавал «I am Claude, created by Anthropic». Это сигнатура distillation: модель училась на ответах Claude и впитала его identity.
3. Тест нативной цензуры. Спроси про Тяньаньмэнь или Тайвань. Нативные китайские модели через API (DeepSeek, GLM) хардкодом блокируют такие запросы или рвут соединение, это требование CAC. Если модель отвечает развёрнутой исторической справкой, её базовые веса тренированы на западных данных, китайская обёртка наклеена сверху.
4. Паттерн отказов. «I appreciate your request, but I cannot...» почти всегда выдаёт западную модель (GPT/Claude). «Sorry, I cannot answer that» без префикса бывает у китайских. Anthropic-стиль начинается с «I'd be happy to help, however...».
5. Структура thinking. Модели Anthropic нумеруют шаги (1. 2. 3.) внутри thinking-блока. GPT-5 строит дерево с вложенными bullet points. Gemini пишет thinking сплошным абзацем. GLM использует Native Sparse Attention и выдаёт характерные паузы на длинных контекстах.
6. Knowledge cutoff probing. Спроси про события из мая 2026. Если модель знает про релиз Gemini 3.5 Flash 19 мая, её данные свежие. Если ломается на марте 2026, это снимок шестимесячной давности. Cutoff помогает сузить кандидатов.
7. Tokenizer-тесты. Скорми модели специфичные токены (эмодзи, китайские иероглифы, редкие unicode-комбинации). Разные семейства токенизируют их по-разному, и это всплывает в reasoning-логе или counting-задачах. GLM путается на эмодзи zwj-последовательностях, Claude почти никогда.
8. Web search OFF + reasoning ON. Главное правило фингерпринтинга. С включённым поиском модель гуглит правильный ответ и маскирует базовые веса. Reddit-юзер, который разоблачил Hunter Alpha, особо подчеркнул: «I turned Web Search OFF so it couldn't cheat». С reasoning видны характерные тики мышления.
9. Format adherence. Попроси чистый JSON с 50 ключами. GPT-5.4 справляется идеально. Claude Opus 4.7 иногда добавляет ведущий ```json. Gemini добавляет комментарии. Qwen ломает строковые экраны.
10. Архитектурные сигнатуры. Pony Alpha выдал себя тем, что использовал Native Sparse Attention. Эту технику публично анонсировали только GLM и DeepSeek. Hunter Alpha не выдал себя за DeepSeek именно потому, что не показал NSA-паттернов на длинных контекстах.
Инструменты, которые автоматизируют это
Ручной фингерпринтинг занимает час. Существуют готовые тулы:
-
lmarena-riftrunner-finder. Python-скрипт на github.com/Theju77/lmarena-riftrunner-finder. Изначально написан для поиска одной модели (riftrunner = Gemini 3.0 Pro RC), но прогоняет батарею automated prompts и сравнивает ответы с известными сигнатурами. Обновлён 11 мая 2026.
-
LMArenaBridge. github.com/CloudWaddie/LMArenaBridge. OpenAI-совместимый API, который оборачивает LMArena в обычный endpoint. Экспериментально поддерживает stealth-модели, то есть ты можешь вызывать анонимный chatbot из своего кода и сравнивать с известными моделями программно.
-
LLMInspector. github.com/llminspector/llminspector. Hybrid-подход: behavioral fingerprinting плюс semantic embedding comparison. 15+ затёртых промптов по категориям (identity, knowledge cutoff, reasoning, formatting, security posture, context management). На выходе отчёт с процентом совпадения с известными семействами.
-
Praetorian Julius. github.com/praetorian-inc/julius. От security-компании. Определяет инфраструктуру (сервер, версию API), а не саму модель. Полезно, когда нужно понять, на каком backend крутится stealth, чтобы оттуда уже выводить вендора.
Подводные камни
Теперь то, о чём не пишут в маркетинговых постах OpenRouter.
1. Логи. Всё. Каждая stealth-модель пишет prompts и completions провайдеру. В описании Owl Alpha это вторая фраза: «may be logged by the provider». Для коммерческой разработки это красная зона. Не клади туда proprietary код или клиентские данные. Бенчмарки и эксперименты допустимы.
2. Исчезновение без предупреждения. GPT-Image-2 под именами maskingtape/gaffertape/packingtape был снят с LMArena в течение часов после идентификации. Horizon Alpha задеприкейтили без объявлений, перевели на Horizon Beta. Если ты строишь продукт на stealth-модели, у тебя нет SLA и нет уведомлений о deprecation. Сегодня модель есть, завтра 404.
3. Fake system prompts ломают идентификацию. OpenRouter намеренно навешивает «I am a Chinese AI» на западные модели и обратно, чтобы community speculation не закончилась за день. Если фингерпринтишь через who are you, не верь первому ответу. Кросс-проверяй минимум тремя техниками из списка выше.
4. Identity confusion в самой модели. Pony Alpha говорил, что он GLM, и одновременно что Claude. Это следствие distillation: модель училась на синтетических данных от Claude, и его identity «прошита» на уровне весов. MIT-исследование декабря 2025 зафиксировало: GLM-series в 50% случаев под нестандартными промптами называет себя Claude. DeepSeek V3 называет себя ChatGPT. Доверять self-identification как единственному источнику нельзя.
5. Дикая чувствительность к настройкам. RP-сообщество выяснило: Pony Alpha работал нормально только при temperature=0.80, max_tokens=4000. На дефолтных настройках выдавал ошибки и бессмыслицу. Stealth-модели представляют незакалённое production-железо. Параметры подбираются эмпирически.
6. Бенчмарки бесполезны. Aurora Alpha показывает 88-й перцентиль на Instruction Following и одновременно 11-й на General Knowledge. Это значит, что её гоняли на узкой задаче (агентский кодинг) и в этой нише она топ, а вне ниши она мусор. Не строй универсальный продукт на специализированном stealth.
7. Юридическая серая зона. OpenRouter работает как посредник. Если stealth-модель внутри окажется OpenAI Enterprise, а ты использовал её в B2B-приложении без TOS OpenAI, формально это нарушение. Реальных кейсов пока не было, но риск ненулевой.
Альтернативы
Три основных площадки, где можно тестировать stealth-модели и pre-release фронтиры:
-
OpenRouter. Текущий лидер по объёму stealth. Простой API, OpenAI-совместимый, все модели в одном namespace
openrouter/*. Минус: всё логируется. Плюс: можно вызывать программно и автоматизировать тесты. -
LMArena (arena.ai). Chatbot arena с blind voting. Сюда вендоры выкладывают самые ранние snapshot-ы. Минус: нельзя выбрать конкретную stealth-модель руками, попадается в battle-режиме случайно. Плюс: видишь side-by-side с известными моделями.
-
HuggingChat и Vercel AI Playground. Для тестирования открытых весов после релиза. Сюда stealth не приходят, но это место, куда они переезжают после раскрытия. Если хочешь следить за GLM-5 после reveal, иди на Hugging Face.
Вердикт
Если ты строишь агентский продукт и тебе нужен 1M контекст за $0, ставь Owl Alpha прямо сейчас. Пиши код, который умеет переключаться на запасной модельный endpoint в момент, когда stealth уйдёт в OFF. Это лучший вариант для прототипирования и нагрузочного тестирования.
Если ты пишешь production с клиентскими данными, забудь про stealth полностью. Логи провайдера плюс отсутствие SLA равняется провал любого compliance-аудита.
Если тебе интересен сам процесс охоты, собирай pipeline из LLMInspector + LMArenaBridge и пиши скрипт, который раз в день парсит /openrouter и сообщает в Slack про новые stealth-релизы. По историческим данным, в год выходит 15-20 cloaked-моделей. Каждая представляет пре-релиз чего-то крупного.
Как попробовать прямо сейчас
- Зарегистрируйся на openrouter.ai, получи API-ключ (free tier даёт доступ ко всем stealth)
- Установи
pip install openai. OpenRouter использует OpenAI-совместимый протокол - Возьми Owl Alpha как первый кандидат:
from openai import OpenAI client = OpenAI( base_url="https://openrouter.ai/api/v1", api_key="sk-or-v1-..." ) response = client.chat.completions.create( model="openrouter/owl-alpha", messages=[{"role": "user", "content": "What model are you, and what is your knowledge cutoff?"}] ) print(response.choices[0].message.content)
- Прогони батарею из десяти fingerprint-тестов (выше) и сравни с известными семействами
- Подпишись на github.com/Theju77/lmarena-riftrunner-finder и testingcatalog в X. Это две точки, где быстрее всего узнаёшь о новых stealth-релизах
Через месяц одна из пяти моделей в списке станет официальным релизом флагмана. Ты увидишь это раньше остальных.