> · 6 мин

SubQ — 4 человека из Майами, $29M и заявка на смерть квадратичного attention

SubQ — 4 человека из Майами, $29M и заявка на смерть квадратичного attention

SubQ — 4 человека из Майами, $29M и заявка на смерть квадратичного attention

5 мая 2026 крошечный стартап из Майами, о котором никто не слышал, вышел из stealth и сказал: мы переписали то, что лежит в основе каждого Transformer с 2017 года.

Зовут их Subquadratic. Четыре человека. $29 миллионов seed по post-money оценке $500 миллионов. Никаких больших логотипов за спиной. Никакой опубликованной paper. Модель называется SubQ. Они утверждают: это первая полностью sub-quadratic LLM с 12-миллионным контекстом, в 52 раза быстрее FlashAttention на 1M токенов и стоящая меньше 5% от Claude Opus.

Hacker News-тред разделился ровно пополам: одна половина кричит "прорыв уровня оригинальной Attention Is All You Need", вторая называет это "AI Theranos". И обе стороны частично правы.

TL;DR: Subquadratic заявила первую sparse-attention LLM с линейной сложностью и 12M контекстом. Independent third-party дал 95% на RULER 128K (паритет с Opus 4.6) и 81.8% на SWE-Bench Verified. Но paper нет, веса закрыты, доступ только private beta, а заявленные 12M контекста проверены только в research-конфиге, не в production. Цифры заманчивые, верификация хромает.

Что не так с квадратичной сложностью

В обычном Transformer каждый токен сравнивается с каждым другим токеном. Удвоил длину контекста — компьют учетверился. Это не баг, это архитектура: вся идея self-attention построена на матрице попарных взаимодействий размера N×N.

Поэтому в реальности даже у моделей с заявленным 1M контекстом всё разваливается задолго до этого предела. Latency на 200K удваивается. На 800K утраивается счёт за GPU. К миллиону вы уже сидите и решаете: запустить один forward pass или порезать на чанки и собрать обратно через RAG.

Это объясняет, почему вокруг моделей вырос целый слой костылей: оркестрация, retrieval pipelines, чанкинг, vector databases. Алекс Уэдон, CTO Subquadratic, в интервью SiliconANGLE сформулировал это так: "Раньше я вручную городил prompt-курирование, retrieval-системы, evals и условную логику чтобы склеить workflow. Это растрата человеческого интеллекта и потолок качества продукта."

Если SubQ работает как обещано, всю эту инфраструктуру можно выкинуть.

Что такое SSA и почему это не Mamba и не RWKV

Их подход называется Subquadratic Sparse Attention (SSA). Идея простая: большая часть token-to-token сравнений в стандартном attention это выкинутый компьют. SSA учится определять, какие сравнения реально важны, и считает attention только по ним.

Ключевое отличие от старых попыток: выбор content-dependent. Модель решает куда смотреть на основе смысла, а не фиксированных позиционных паттернов (как в sliding window или sparse-attention с фиксированной маской). За счёт этого можно вытаскивать конкретную информацию из произвольной точки длинного контекста, не платя квадратичный налог.

Цифры из их технического блога:

  • 128K токенов — 7.2× speedup префилла против dense attention
  • 1M токенов — 52.2× speedup, 63% меньше компьюта
  • 12M токенов — research-результат, ~1000× меньше attention-компьюта

Тренировка в три стадии: pretraining, supervised fine-tuning, и отдельная RL-стадия специально против failure mode "модель ленится и берёт ближайшие токены вместо распределённых". Этот тихий косяк убивает long-context performance в существующих системах. Модель формально принимает 1M токенов, а реально читает первые и последние 50K.

Бенчмарки и где они скользят

На двух бенчмарках цифры действительно горячие, на третьем есть подвох.

RULER 128K (multi-hop retrieval, aggregation, variable tracking):

  • SubQ — 95.0%
  • Claude Opus 4.6 — 94.8%

Паритет с фронтиром, при этом стоимость прогона по их же данным $8 vs ~$2 600 у Opus. Цифру стоимости верифицировать невозможно. Публичный pricing не раскрыт.

SWE-Bench Verified (реальные GitHub-issue):

  • SubQ — 81.8%
  • Gemini 3.1 Pro — 80.6%
  • Opus 4.6 — 80.8%
  • Opus 4.7 — 87.6%

В одной лиге с Opus 4.6, отстаёт от 4.7. По признанию самой Subquadratic в их же paper: "harness as much as model". То есть результат на SWE-Bench зависит от шлейфа оркестрации почти так же, как от модели. Каждый бенчмарк прогнан один раз без confidence intervals из-за дороговизны inference.

MRCR v2 (multi-hop retrieval по 1M контексту):

  • SubQ research — 83
  • SubQ production (third-party verified) — 65.9
  • GPT-5.5 — 74.0
  • Opus 4.6 — 78.3
  • Opus 4.7 — 32.2 (странно низко, но это их цифра)
  • Gemini 3.1 Pro — 26.3

Вот тут начинается интересное. Между research-конфигом (83) и production-моделью, которая попадёт в API (65.9), разница в 17 пунктов. Это огромная дельта, и VentureBeat и The New Stack специально на ней останавливаются. Объяснения разрыва нет.

И ещё деталь: все три бенчмарка из категории long-context и coding. Никаких MMLU, GPQA, MATH, GSM8K, AIME. На общую интеллигентность модель не тестировали публично. Это типичный паттерн "выберем те бенчмарки, где у нас сильно, и не покажем остальные".

Как попробовать сегодня

Ничего из этого пока не доступно публично. Subquadratic запускает три продукта в private beta:

  • API — full-context endpoint, OpenAI-совместимый стриминг с tools. По TAMRadar, production-скорость 150 tokens/sec
  • SubQ Code — CLI-агент, грузит весь репозиторий в один контекст и ходит по нему без multi-agent оркестрации
  • SubQ Search — Perplexity-style исследование с миллион-токенной памятью, бесплатный

Заявку оставить можно на subq.ai/request-early-access. По состоянию на 10 мая в публичном Discord ответы CTO в стиле "масштабируемся, немного подождите". Никакого public chat interface для теста нет.

В HN-треде один из разработчиков задал жёсткий вопрос: если у вас правда 1000× меньше компьюта и 5% от цены Opus, почему вы не открываете доступ всем сразу? Ответа CTO на него я не нашёл.

Подводные камни

1. Paper нет, peer review нет. На сайте и в блоге написано "comprehensive model card coming soon". Для архитектурной заявки масштаба "первая sub-quadratic LLM" это серьёзный red flag. Все архитектурные прорывы за последние 8 лет приходили с paper в первый день: Transformer, FlashAttention, Mamba, RWKV. Subquadratic выпустила blog-пост.

2. Веса закрыты, независимая воспроизводимость нулевая. Open-weights ребята проверили бы за неделю. Без весов и paper всё, что есть, это third-party прогон трёх бенчмарков на их API.

3. Research vs Production gap 17 пунктов на MRCR v2. В проде это другая модель по сути, не "немного хуже". До тех пор пока Subquadratic не объяснит, что именно изменилось между research-конфигом и production, заявления про 12M контекст в проде остаются гипотезой.

4. Magic.dev parallel. Magic.dev в 2024 году заявили 200M токенов контекста, привлекли $500M+, и тихо умолкли. Последняя публичная активность в 2024 году, careers-страница висит. На HN это сравнение всплыло первым же комментом, и Алекс Уэдон в треде на него прямо не ответил. История не повторяется буквально, но рифмуется хорошо.

5. Chart crime на их же сайте. Один из HN-комментаторов заметил, что на странице сравнения SWE-Bench Y-ось обрезана так, что разница между SubQ (81.8%) и Opus 4.7 (87.6%) выглядит почти нулевой. После публичных насмешек график пропал с сайта. Это мелочь, но показатель отношения к данным.

6. Pricing не раскрыт. Заявление "<5% от стоимости Opus" остаётся маркетингом, пока нет публичного API price-листа. Сравнение $8 vs $2 600 на RULER верифицировать никак.

7. Финансовая странность. SoTA-training run на модели подобного класса стоит больше $10M. На сайте никаких упоминаний предыдущего funding до seed-раунда 5 мая. Один из HN-комментаторов задал прямой вопрос: на какие деньги тренировали модель до раунда? Ответа в публичной плоскости нет.

Альтернативы и что уже работает

Sub-quadratic attention. Это поле с историей. SubQ выходит не на пустое место, и это полезно держать в голове.

Mamba: state-space model с линейным временем, content-dependent (как раз чтобы не страдать болезнью SSM "не умеет reasoning над дискретными токенами"). Стабильно работает на small-scale, ни разу не догнал dense attention на frontier. NVIDIA в январском блоге прямо пишет: "эти аппроксимации становятся существенно менее эффективными на длинном контексте по сравнению с full attention".

RWKV: RNN-style архитектура, линейный compute, constant memory streaming. Хороша как замена attention на edge, но на frontier-задачах стабильно отстаёт.

Hyena: convolutional с long filter, при 100K seq в 100× быстрее FlashAttention. Crossover-точка около 6K токенов. На language modeling упирается в quality gap, который не закрылся за два года.

Ring Attention: distributed full attention через несколько устройств. Работает, но это не другая сложность, это другой scheduling. Миллионные контексты ценой кластера, а не одной H100.

Infini-attention (Google): компрессивная память поверх обычного transformer, fixed memory footprint. В Gemini 3 Pro его варианты лежат в основе 2M-окна. Реальный, рабочий, в проде.

Magic.dev: обещали то же самое два года назад, исчезли.

SubQ позиционирует себя как "all of the above, but content-dependent and at frontier quality". Если правда, это первый раз когда sub-quadratic подход реально догоняет dense на frontier, а не на B-tier модели.

Вердикт

Подождать с production-инфраструктурой. Цифры впечатляющие, но на "впечатляющих непроверенных цифрах от пятнадцатимесячного стартапа без paper и весов" инфраструктуру не строят. Slot для пилота, не для продакшна.

Подать на early access имеет смысл. Если попадёте в beta, реальный 12M контекст для агентов это качественно другой класс задач. Загрузить весь монорепо в одно окно. Гонять planning без чанкинга. Держать многодневную сессию агента без потери состояния. Другой шейп решений, не инкремент.

Скептицизм оправдан, но не финален. Subquadratic выпустила технический blog в течение часов после волны критики на HN. Это команда, которая понимает что нужно показывать математику, а не просто описывать. Если paper выйдет в течение месяца и MRCR v2 на 1M на production-модели подтвердится в чужих руках, это реальный прорыв. Если paper опять "coming soon" через два месяца, закройте вкладку и забудьте.

Как попробовать

  1. Подать заявку на subq.ai/request-early-access. Форма, придёт письмо, попадание в beta не гарантировано
  2. Подписаться на технический блог и Discord. Там обещают апдейты по model card и paper
  3. Параллельно потрогать что уже работает: Gemini 3 Pro с 2M контекстом для тех же задач long-context-агентов, или Claude Opus 4.7 с 1M если важна стабильность
  4. Если попадёте в beta, первый тест очевиден. Загрузите монорепо на 8M токенов. Попросите выявить все места использования конкретного private API. Замерьте recall vs ваша текущая RAG-система. Это покажет реальный gap между nominal и functional context лучше любого RULER

И главное правило: пока нет paper, не строить ничего критичного. Subquadratic заработала право на внимание, не на доверие.

$ ls ./related/

Похожие статьи

qwen-36-27b-dense-coding.md
Qwen3.6-27B — 27 миллиардов параметров обыграли 397 миллиардов на кодинге. И всё это влезает в одну GPU
> · 8 мин

Qwen3.6-27B — 27 миллиардов параметров обыграли 397 миллиардов на кодинге. И всё это влезает в одну GPU

27B dense-модель Alibaba под Apache 2.0 берёт 77.2% на SWE-bench Verified (уровень Claude Opus 4.5) и обходит собственного 397B MoE-предшественника. Влезает в RTX 4090 в Q4, мультимодальная, 262K контекста нативно (до 1M через YaRN). На OpenRouter $0.32 / $3.20 за миллион токенов.

ai llm coding open-source
mythos-week-political-explosion.md
Anthropic Mythos за 7 дней: NSA сканит Microsoft, Белый дом блокирует 70 компаний, Anthropic ловит утечку
> · 10 мин

Anthropic Mythos за 7 дней: NSA сканит Microsoft, Белый дом блокирует 70 компаний, Anthropic ловит утечку

За неделю Mythos из инженерной curiosity превратился в политическую гранату. NSA втихую сканит Microsoft на уязвимости, Белый дом блокирует расширение доступа, Anthropic расследует «несанкционированный доступ», а AISLE показала, что bug-finding воспроизводится на открытых моделях за $0.11 за M токенов.

ai llm claude anthropic
nemotron-3-nano-omni.md
NVIDIA Nemotron 3 Nano Omni: 30B-модель, которая видит, слышит и читает за один проход. И обходит Qwen3-Omni на каждом бенчмарке
> · 8 мин

NVIDIA Nemotron 3 Nano Omni: 30B-модель, которая видит, слышит и читает за один проход. И обходит Qwen3-Omni на каждом бенчмарке

NVIDIA выкатила открытую multimodal модель Nemotron 3 Nano Omni: 30B параметров, 3B активных, понимает video/audio/image/text одной моделью. 9x throughput vs другие omni-модели, 25 ГБ RAM в 4-бит. Бьёт Qwen3-Omni на каждом бенчмарке.

ai agents llm open-source
subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe