> diffnotes · 07 Jun 2026 · обновлено 15 Jul 2026 · 8 мин

MiniMax M3 — первая открытая модель с фронтир-кодингом, 1M контекста и зрением. А бенчмарки ей гоняли через Claude Code

ai agents llm open-source models minimax

Шанхайская MiniMax выпустила M3, и заявка нескромная: первая open-weight модель, где одновременно есть фронтир-кодинг, миллион токенов контекста и нативная мультимодальность. Раньше такой набор водился только в закрытых моделях. Спрос видно сразу: на OpenRouter M3 уже прожигает 2.19 триллиона токенов в неделю. Правда, самих весов на Hugging Face пока нет. «Open-weight» в данный момент существует в формате обещания «выложим в течение 10 дней».

TL;DR: MiniMax M3 набирает 59.0% на SWE-Bench Pro (выше GPT-5.5, по замерам самой MiniMax), держит 1M контекста благодаря новой sparse-attention архитектуре MSA и принимает картинки с видео на вход. Цена $0.60/$2.40 за миллион токенов, до ~8 июня действует промо вдвое дешевле. Веса обещают к 10–11 июня, лицензия не объявлена.

MSA: публичная работа над ошибками

Год назад MiniMax сама писала в инженерном блоге, что инфраструктура для sparse attention «сильно менее зрелая», чем для полного внимания, и выкинула её из серии M2. M3 разворачивает это решение на 180 градусов: новая архитектура MSA (MiniMax Sparse Attention) выбирает релевантные KV-блоки вместо обработки всего контекста разом.

Числа, которые за этим стоят (по данным MiniMax): на контексте в 1M токенов модель тратит 1/20 компьюта предыдущего поколения, prefill быстрее в 9.7 раза, декодинг в 15.6 раза. На выходе примерно 100 токенов в секунду. Именно MSA делает миллионный контекст экономически возможным: полное внимание на таких длинах квадратично сжирает GPU.

Технически это block-level sparse selection поверх GQA-бэкбона с реальными, несжатыми K/V. Без MLA-компрессии, как у DeepSeek. Для самостоятельного хостинга это важно, и об этом ниже.

Архитектура MSA

Бенчмарки: хорошие цифры с двумя звёздочками

По замерам самой MiniMax:

SWE-Bench Pro — 59.0%: выше GPT-5.5 (58.6%) и Gemini 3.1 Pro, ниже Opus 4.7
Terminal-Bench 2.1 — 66.0%
MCP Atlas — 74.2%
BrowseComp — 83.5 против 79.3 у Opus 4.7
OSWorld-Verified (computer use) — 70.06%
PostTrainBench — 0.37: ниже Opus 4.7 (0.42) и GPT-5.5 (0.39), выше остальных открытых

Звёздочка первая: все цифры vendor-run. Замеры делались на инфраструктуре MiniMax, с выбранными ими baseline'ами. Независимых скоров от Artificial Analysis и LMArena на момент запуска не было. Ревьюер Thomas Wiegold сформулировал аккуратно: «это не обвинение в читерстве, просто так работают launch-day бенчмарки».

Звёздочка вторая, и она прекрасна: если читать методологию мелким шрифтом, выясняется, что значительную часть тестов MiniMax гоняла... через Claude Code в качестве scaffolding'а. PostTrainBench и PaperBench вообще запускались «on Claude Code using Ralph-Loop mechanism for 12 hours», а оценивал результаты Opus 4.6. Китайский фронтир тестируется американским агентом в режиме, который придумало комьюнити. 2026 год, никто никому ничего не должен.

Тот же Wiegold, прогнав M3 через собственный набор задач, пишет, что впервые модель MiniMax «реально сидит в одном разговоре с GPT и Opus, а не уровнем ниже», и оставляет её себе для рабочего кодинга в гибридной схеме.

24 часа наедине с CUDA-кернелом

Самый убедительный кейс из анонса не про проценты. MiniMax дала M3 задачу оптимизировать CUDA-кернел и ушла. За ~24 часа непрерывной работы модель сделала 147 сабмитов бенчмарка и 1959 tool-вызовов: baseline-имплементация, autotune, диагностика узких мест, CUDA Graph, persistent kernel, host-side оптимизации. Итог: утилизация пика Hopper FP8 выросла с 7.6% до 71.3%, ускорение 9.4×, ни одного вмешательства человека.

Второй кейс из той же серии: воспроизведение статьи с ICLR 2025 за 12 часов, 18 коммитов, 23 графика, подтверждённые ключевые выводы. Похожий длинный забег мы видели у Qwen 3.7 Max с её 35-часовой оптимизацией GPU-кернела: китайские лабы целенаправленно тренируют долгие автономные сессии, а не красивые ответы в чате.

Цены: вот тут конкурентам больно

API standard — $0.60 input / $2.40 output за миллион токенов (до 512K input)
Длинный контекст >512K — двойной тариф: $1.20/$4.80
Кеш — $0.12/M на чтение
Промо — первая неделя вдвое дешевле: на OpenRouter прямо сейчас $0.30/$1.20

Для сравнения: Opus 4.8 стоит около $25 за миллион output-токенов, Gemini 3.5 Flash $9. Даже по стандартному тарифу M3 дешевле Flash в 3.75 раза на выходе.

Отдельно есть подписка Token Plan: Plus за $20/мес даёт ~1.7B токенов M3, Max за $50 ~5.1B, Ultra за $120 ~9.8B. Пул общий на текст, картинки, речь и музыку. Thinking-режим включается и выключается на уровне запроса без изменения цены: для агентных задач включил, для автокомплита выключил.

Тарифы Token Plan

Вместе с моделью обновился MiniMax Code, их агентский продукт, обученный вместе с M3. Внутри Agent Team с adversarial-петлёй Producer + Verifier, способный, по описанию, работать автономно днями. Построен он, кстати, на open-source проектах OpenCode и Pi, и MiniMax обещает открыть его код. В блоге они прямо сравнивают себя с Dynamic Workflows из Claude Code: у Anthropic жёсткая оркестрация JS-кодом, у MiniMax ставка на рефлексию и перепланирование на ходу.

Подводные камни

Весов нет, и это главное. Прошло шесть дней из обещанных десяти. GitHub-репозиторий MiniMax-M3 на сегодня placeholder со сбором фидбека и надписью «MiniMax-M3 is Coming». Пока веса не лежат на Hugging Face, «первая open-weight модель с тремя фронтир-способностями» остаётся пресс-релизом.
Размер модели не раскрыт. Ни общего числа параметров, ни активных. M2 была 200B total / 10B active, M3 явно крупнее. Планировать железо под self-host невозможно: вы не знаете, влезет ли она вообще в ваш кластер.
vLLM и SGLang не умеют MSA. Серия M2 получила day-0 поддержку, потому что это был обычный full-attention GQA поверх готовых FlashAttention-кернелов. MSA требует отдельного бэкенда: block selection плюс специфичный «KV outer gather Q» паттерн. На форуме vLLM подтверждают: tracking issue нет, PR нет, понадобится выделенный backend. Даже когда веса выйдут, локальный запуск будет ждать ещё недели.
Лицензия не объявлена. Прецедент неприятный: у M2.7 веса были скачиваемые, но коммерческое использование требовало письменного разрешения MiniMax. Если M3 повторит схему, «open-weight» окажется «open, но позвоните в отдел продаж».
Промо-математика. $0.30/$1.20 закончатся примерно 8 июня. Бюджетируйте по $0.60/$2.40, а если промпты толще 512K, по $1.20/$4.80. Иначе юнит-экономика поедет ровно через неделю после деплоя.
BrowseComp с хитростью. В методологии написано: при превышении 64K токенов вся история отбрасывается. Красивые 83.5 балла получены с агрессивным context-менеджментом, а не сырой мощью модели на длинном контексте.

Альтернативы

GLM-5.1 — уже сегодня то, чем M3 только обещает стать: MIT-лицензия, веса на HF, сильный SWE-Bench Pro. Но без нативной мультимодальности и миллионного контекста. Мы разбирали её в апреле.
DeepSeek V4 — 1M контекста и MIT, $0.87/M output, веса доступны. Чисто текстовая, computer use нет. Наш разбор.
Kimi K2.6 — 1.1T параметров под Modified MIT, топ открытых моделей для кодинга и фронтенда, но контекст скромнее и тоже без зрения.
Gemini 3.5 Flash — если открытость не нужна: 1M контекста, $1.50/$9.00, стабильная инфраструктура Google и никаких вопросов с лицензией.

Вердикт

Через API пробовать стоит прямо сейчас, тем более по промо-ценам: для длинноконтекстных агентных задач, вроде полного репозитория в контексте или многочасовых автономных сессий, соотношение цена/качество у M3 сегодня лучшее на рынке, если цифры MiniMax подтвердятся. Строить self-host продакшен рано: весов и лицензии пока нет, а inference-движки MSA не поддерживают. И не принимайте решений по vendor-run бенчмаркам: дождитесь скоров Artificial Analysis или прогоните модель на собственных задачах. Реальная дата рождения M3 как открытой модели не 1 июня, а день, когда веса лягут на Hugging Face.

Как попробовать

Через OpenRouter: модель minimax/minimax-m3, пока действует промо $0.30/$1.20. Контекст 1,048,576 токенов, выход до 512K.
Напрямую через API: ключ на platform.minimax.io, есть Anthropic-совместимый endpoint, так что M3 подключается к Claude Code через ANTHROPIC_BASE_URL без переписывания кода.
MiniMax Code: code.minimax.io или десктопное приложение. Работает с подпиской Token Plan от $20/мес.
Тест на свои деньги: закиньте $5, скормите модели целый репозиторий и попросите карту зависимостей с планом рефакторинга. Именно на таких задачах виден миллионный контекст.
Следить за весами: huggingface.co/MiniMaxAI, карточка MiniMax-M3 должна появиться к 10–11 июня вместе с tech report.