SubQ — 4 человека из Майами, $29M и заявка на смерть квадратичного attention
SubQ — 4 человека из Майами, $29M и заявка на смерть квадратичного attention
5 мая 2026 крошечный стартап из Майами, о котором никто не слышал, вышел из stealth и сказал: мы переписали то, что лежит в основе каждого Transformer с 2017 года.
Зовут их Subquadratic. Четыре человека. $29 миллионов seed по post-money оценке $500 миллионов. Никаких больших логотипов за спиной. Никакой опубликованной paper. Модель называется SubQ. Они утверждают: это первая полностью sub-quadratic LLM с 12-миллионным контекстом, в 52 раза быстрее FlashAttention на 1M токенов и стоящая меньше 5% от Claude Opus.
Hacker News-тред разделился ровно пополам: одна половина кричит "прорыв уровня оригинальной Attention Is All You Need", вторая называет это "AI Theranos". И обе стороны частично правы.
TL;DR: Subquadratic заявила первую sparse-attention LLM с линейной сложностью и 12M контекстом. Independent third-party дал 95% на RULER 128K (паритет с Opus 4.6) и 81.8% на SWE-Bench Verified. Но paper нет, веса закрыты, доступ только private beta, а заявленные 12M контекста проверены только в research-конфиге, не в production. Цифры заманчивые, верификация хромает.
Что не так с квадратичной сложностью
В обычном Transformer каждый токен сравнивается с каждым другим токеном. Удвоил длину контекста — компьют учетверился. Это не баг, это архитектура: вся идея self-attention построена на матрице попарных взаимодействий размера N×N.
Поэтому в реальности даже у моделей с заявленным 1M контекстом всё разваливается задолго до этого предела. Latency на 200K удваивается. На 800K утраивается счёт за GPU. К миллиону вы уже сидите и решаете: запустить один forward pass или порезать на чанки и собрать обратно через RAG.
Это объясняет, почему вокруг моделей вырос целый слой костылей: оркестрация, retrieval pipelines, чанкинг, vector databases. Алекс Уэдон, CTO Subquadratic, в интервью SiliconANGLE сформулировал это так: "Раньше я вручную городил prompt-курирование, retrieval-системы, evals и условную логику чтобы склеить workflow. Это растрата человеческого интеллекта и потолок качества продукта."
Если SubQ работает как обещано, всю эту инфраструктуру можно выкинуть.
Что такое SSA и почему это не Mamba и не RWKV
Их подход называется Subquadratic Sparse Attention (SSA). Идея простая: большая часть token-to-token сравнений в стандартном attention это выкинутый компьют. SSA учится определять, какие сравнения реально важны, и считает attention только по ним.
Ключевое отличие от старых попыток: выбор content-dependent. Модель решает куда смотреть на основе смысла, а не фиксированных позиционных паттернов (как в sliding window или sparse-attention с фиксированной маской). За счёт этого можно вытаскивать конкретную информацию из произвольной точки длинного контекста, не платя квадратичный налог.
Цифры из их технического блога:
- 128K токенов — 7.2× speedup префилла против dense attention
- 1M токенов — 52.2× speedup, 63% меньше компьюта
- 12M токенов — research-результат, ~1000× меньше attention-компьюта
Тренировка в три стадии: pretraining, supervised fine-tuning, и отдельная RL-стадия специально против failure mode "модель ленится и берёт ближайшие токены вместо распределённых". Этот тихий косяк убивает long-context performance в существующих системах. Модель формально принимает 1M токенов, а реально читает первые и последние 50K.
Бенчмарки и где они скользят
На двух бенчмарках цифры действительно горячие, на третьем есть подвох.
RULER 128K (multi-hop retrieval, aggregation, variable tracking):
- SubQ — 95.0%
- Claude Opus 4.6 — 94.8%
Паритет с фронтиром, при этом стоимость прогона по их же данным $8 vs ~$2 600 у Opus. Цифру стоимости верифицировать невозможно. Публичный pricing не раскрыт.
SWE-Bench Verified (реальные GitHub-issue):
- SubQ — 81.8%
- Gemini 3.1 Pro — 80.6%
- Opus 4.6 — 80.8%
- Opus 4.7 — 87.6%
В одной лиге с Opus 4.6, отстаёт от 4.7. По признанию самой Subquadratic в их же paper: "harness as much as model". То есть результат на SWE-Bench зависит от шлейфа оркестрации почти так же, как от модели. Каждый бенчмарк прогнан один раз без confidence intervals из-за дороговизны inference.
MRCR v2 (multi-hop retrieval по 1M контексту):
- SubQ research — 83
- SubQ production (third-party verified) — 65.9
- GPT-5.5 — 74.0
- Opus 4.6 — 78.3
- Opus 4.7 — 32.2 (странно низко, но это их цифра)
- Gemini 3.1 Pro — 26.3
Вот тут начинается интересное. Между research-конфигом (83) и production-моделью, которая попадёт в API (65.9), разница в 17 пунктов. Это огромная дельта, и VentureBeat и The New Stack специально на ней останавливаются. Объяснения разрыва нет.
И ещё деталь: все три бенчмарка из категории long-context и coding. Никаких MMLU, GPQA, MATH, GSM8K, AIME. На общую интеллигентность модель не тестировали публично. Это типичный паттерн "выберем те бенчмарки, где у нас сильно, и не покажем остальные".
Как попробовать сегодня
Ничего из этого пока не доступно публично. Subquadratic запускает три продукта в private beta:
- API — full-context endpoint, OpenAI-совместимый стриминг с tools. По TAMRadar, production-скорость 150 tokens/sec
- SubQ Code — CLI-агент, грузит весь репозиторий в один контекст и ходит по нему без multi-agent оркестрации
- SubQ Search — Perplexity-style исследование с миллион-токенной памятью, бесплатный
Заявку оставить можно на subq.ai/request-early-access. По состоянию на 10 мая в публичном Discord ответы CTO в стиле "масштабируемся, немного подождите". Никакого public chat interface для теста нет.
В HN-треде один из разработчиков задал жёсткий вопрос: если у вас правда 1000× меньше компьюта и 5% от цены Opus, почему вы не открываете доступ всем сразу? Ответа CTO на него я не нашёл.
Подводные камни
1. Paper нет, peer review нет. На сайте и в блоге написано "comprehensive model card coming soon". Для архитектурной заявки масштаба "первая sub-quadratic LLM" это серьёзный red flag. Все архитектурные прорывы за последние 8 лет приходили с paper в первый день: Transformer, FlashAttention, Mamba, RWKV. Subquadratic выпустила blog-пост.
2. Веса закрыты, независимая воспроизводимость нулевая. Open-weights ребята проверили бы за неделю. Без весов и paper всё, что есть, это third-party прогон трёх бенчмарков на их API.
3. Research vs Production gap 17 пунктов на MRCR v2. В проде это другая модель по сути, не "немного хуже". До тех пор пока Subquadratic не объяснит, что именно изменилось между research-конфигом и production, заявления про 12M контекст в проде остаются гипотезой.
4. Magic.dev parallel. Magic.dev в 2024 году заявили 200M токенов контекста, привлекли $500M+, и тихо умолкли. Последняя публичная активность в 2024 году, careers-страница висит. На HN это сравнение всплыло первым же комментом, и Алекс Уэдон в треде на него прямо не ответил. История не повторяется буквально, но рифмуется хорошо.
5. Chart crime на их же сайте. Один из HN-комментаторов заметил, что на странице сравнения SWE-Bench Y-ось обрезана так, что разница между SubQ (81.8%) и Opus 4.7 (87.6%) выглядит почти нулевой. После публичных насмешек график пропал с сайта. Это мелочь, но показатель отношения к данным.
6. Pricing не раскрыт. Заявление "<5% от стоимости Opus" остаётся маркетингом, пока нет публичного API price-листа. Сравнение $8 vs $2 600 на RULER верифицировать никак.
7. Финансовая странность. SoTA-training run на модели подобного класса стоит больше $10M. На сайте никаких упоминаний предыдущего funding до seed-раунда 5 мая. Один из HN-комментаторов задал прямой вопрос: на какие деньги тренировали модель до раунда? Ответа в публичной плоскости нет.
Альтернативы и что уже работает
Sub-quadratic attention. Это поле с историей. SubQ выходит не на пустое место, и это полезно держать в голове.
Mamba: state-space model с линейным временем, content-dependent (как раз чтобы не страдать болезнью SSM "не умеет reasoning над дискретными токенами"). Стабильно работает на small-scale, ни разу не догнал dense attention на frontier. NVIDIA в январском блоге прямо пишет: "эти аппроксимации становятся существенно менее эффективными на длинном контексте по сравнению с full attention".
RWKV: RNN-style архитектура, линейный compute, constant memory streaming. Хороша как замена attention на edge, но на frontier-задачах стабильно отстаёт.
Hyena: convolutional с long filter, при 100K seq в 100× быстрее FlashAttention. Crossover-точка около 6K токенов. На language modeling упирается в quality gap, который не закрылся за два года.
Ring Attention: distributed full attention через несколько устройств. Работает, но это не другая сложность, это другой scheduling. Миллионные контексты ценой кластера, а не одной H100.
Infini-attention (Google): компрессивная память поверх обычного transformer, fixed memory footprint. В Gemini 3 Pro его варианты лежат в основе 2M-окна. Реальный, рабочий, в проде.
Magic.dev: обещали то же самое два года назад, исчезли.
SubQ позиционирует себя как "all of the above, but content-dependent and at frontier quality". Если правда, это первый раз когда sub-quadratic подход реально догоняет dense на frontier, а не на B-tier модели.
Вердикт
Подождать с production-инфраструктурой. Цифры впечатляющие, но на "впечатляющих непроверенных цифрах от пятнадцатимесячного стартапа без paper и весов" инфраструктуру не строят. Slot для пилота, не для продакшна.
Подать на early access имеет смысл. Если попадёте в beta, реальный 12M контекст для агентов это качественно другой класс задач. Загрузить весь монорепо в одно окно. Гонять planning без чанкинга. Держать многодневную сессию агента без потери состояния. Другой шейп решений, не инкремент.
Скептицизм оправдан, но не финален. Subquadratic выпустила технический blog в течение часов после волны критики на HN. Это команда, которая понимает что нужно показывать математику, а не просто описывать. Если paper выйдет в течение месяца и MRCR v2 на 1M на production-модели подтвердится в чужих руках, это реальный прорыв. Если paper опять "coming soon" через два месяца, закройте вкладку и забудьте.
Как попробовать
- Подать заявку на subq.ai/request-early-access. Форма, придёт письмо, попадание в beta не гарантировано
- Подписаться на технический блог и Discord. Там обещают апдейты по model card и paper
- Параллельно потрогать что уже работает: Gemini 3 Pro с 2M контекстом для тех же задач long-context-агентов, или Claude Opus 4.7 с 1M если важна стабильность
- Если попадёте в beta, первый тест очевиден. Загрузите монорепо на 8M токенов. Попросите выявить все места использования конкретного private API. Замерьте recall vs ваша текущая RAG-система. Это покажет реальный gap между nominal и functional context лучше любого RULER
И главное правило: пока нет paper, не строить ничего критичного. Subquadratic заработала право на внимание, не на доверие.