GLM-5.1 — open-source модель из Китая обошла Claude Opus и GPT-5.4 на SWE-Bench Pro, кодит 8 часов без остановки и стоит в 5 раз дешевле
GLM-5.1 — open-source модель из Китая обошла Claude Opus и GPT-5.4 на SWE-Bench Pro, кодит 8 часов без остановки и стоит в 5 раз дешевле
7 апреля Z.ai (бывшая Zhipu AI, спинофф университета Цинхуа) выложила в открытый доступ GLM-5.1 под MIT-лицензией. Модель набрала 58.4% на SWE-Bench Pro, обогнав GPT-5.4 (57.7%) и Claude Opus 4.6 (57.3%). Но главная фишка не в бенчмарках, а в том, как модель ведёт себя на длинных задачах: она оптимизировала код 600+ раундов подряд, сделала 6 000 вызовов инструментов и не остановилась.
TL;DR: GLM-5.1, open-source (MIT) модель на 744B параметров, заняла первое место на SWE-Bench Pro среди всех моделей. Стоит $1/$3.2 за 1M токенов (в 5-8 раз дешевле Opus). Подключается к Claude Code, OpenCode, Cursor. Главная фича: модель не выгорает на длинных задачах, а реально продолжает находить улучшения через сотни итераций.
Что внутри
GLM-5.1 построена на архитектуре Mixture-of-Experts: 744 миллиарда параметров, из них 40 миллиардов активны на каждый токен. Контекстное окно 203K, максимальный выход 131K токенов.
Важная деталь: вся линейка GLM-5 тренировалась на ~100 000 чипах Huawei Ascend 910B. Ни одного чипа NVIDIA. Z.ai находится в US Entity List с января 2025, у них физически нет доступа к H100/H200/B200. И несмотря на это, модель конкурирует с Opus и GPT на кодинг-бенчмарках.
Переход от GLM-5 к GLM-5.1 произошёл без нового пре-трейнинга: та же база, та же архитектура, улучшения пришли из reinforcement learning и progressive alignment. Z.ai называет это «multi-stage RL с cross-stage distillation». Результат: +28% на кодинг-бенчмарках при нулевых затратах на пре-трейнинг.
Откуда взялась Z.ai
Z.ai — спинофф Университета Цинхуа, первая в мире компания-разработчик foundation-моделей, вышедшая на IPO. Листинг на Гонконгской бирже 8 января 2026 года, оценка ~$31.3 млрд. Это больше, чем у Mistral и AI21 вместе взятых.
Релизы идут быстро: GLM-5 (11 февраля), GLM-5-Turbo (15 марта), GLM-5.1 API (27 марта), open-source веса (7 апреля). Четыре крупных релиза за два месяца.
Бенчмарки: где GLM-5.1 лидирует, а где нет
Начну с честной картины, без cherry-picking одного бенчмарка.
Где GLM-5.1 впереди (по заявлению Z.ai):
- SWE-Bench Pro — 58.4% (GPT-5.4: 57.7%, Opus 4.6: 57.3%). Первое место среди всех моделей, включая закрытые
- CyberGym — 68.7% (Opus: 66.6%). Задачи кибербезопасности
- BrowseComp — 68.0% (с управлением контекстом: 79.3%)
Где GLM-5.1 уступает:
- NL2Repo (генерация репозиториев) — 42.7% против 49.8% у Claude Opus 4.6. Существенный разрыв
- AIME 2026 (математика) — 95.3% против 98.7% у GPT-5.4
- GPQA-Diamond (наука) — 86.2% против 94.3% у Gemini 3.1 Pro
- KernelBench L3 (оптимизация GPU-ядер) — 3.6x speedup против 4.2x у Claude Opus 4.6
- Coding Composite (агрегат по трём бенчмаркам) — 54.9, третье место. Впереди GPT-5.4 (58.0) и Opus (57.5)
На BenchLM.ai модель занимает 11 место из 106 с общим скором 79/100. Крепкий mid-tier среди всех моделей, на кодинге #12.
Все бенчмарк-числа, кроме Vending Bench 2 (проведён независимо Andon Labs), заявлены самой Z.ai. Независимая верификация обновлённых цифр от 7 апреля пока не завершена. Впрочем, предыдущие результаты GLM-5 подтвердились при внешнем тестировании, так что Z.ai имеет трек-рекорд честных заявлений.
600 итераций без плато — главная фича
Это то, что отличает GLM-5.1 от большинства конкурентов. Предыдущие модели (включая GLM-5) быстро исчерпывают набор техник: находят очевидные оптимизации, получают quick wins, после чего выходят на плато. Дополнительное время не помогает.
GLM-5.1 демонстрирует другое поведение. Z.ai показала это на трёх задачах с разной степенью субъективности.
VectorDBBench (600+ итераций). Модель получила скелет Rust-проекта для approximate nearest neighbor search. Лучший результат Claude Opus 4.6 за стандартные 50 раундов — 3 547 QPS. GLM-5.1 в расширенном цикле дошла до 21 500 QPS, то есть 6x лучше.
Траектория показывает шесть структурных переходов: от полного сканирования к IVF-кластерам (6.4K QPS), удаление вложенного параллелизма (10.4K), двухфазный u8/f16 pipeline (13.4K), бюджетная обрезка (15.5K), иерархическая маршрутизация (18.4K), квантованная маршрутизация с ранним отсечением (21.5K). Каждый переход инициирован самой моделью после анализа собственных логов бенчмарка.
KernelBench Level 3 (1000+ раундов). 50 задач по оптимизации GPU-ядер. GLM-5.1 выдала 3.6x geometric mean speedup. Для контекста: torch.compile с дефолтными настройками даёт 1.15x, с max-autotune — 1.49x. Claude Opus 4.6 всё ещё лидирует на этой задаче с 4.2x, но GLM-5.1 продолжает оптимизировать существенно дольше, чем GLM-5.
Linux Desktop за 8 часов. Самая субъективная задача: построить Linux-like десктоп в браузере без стартового кода. Ранние модели выдают скелет с таскбаром и парой окон, после чего объявляют задачу завершённой. GLM-5.1 в цикле самоотревью работала 8 часов: файловый менеджер, терминал, текстовый редактор, системный монитор, калькулятор, игры, всё с единым UI.
Как подключить к Claude Code
GLM-5.1 совместима с Claude Code, OpenCode, Kilo Code, Roo Code, Cline и Droid через API-слой Z.ai. Переключение занимает одну строчку:
// ~/.claude/settings.json { "model": "GLM-5.1" }
API-доступ через api.z.ai.
Тарифы GLM Coding Plan:
- Lite — $10/мес, 120 запросов на 5-часовое окно
- Pro — $20/мес, 600 запросов на 5-часовое окно
- Max — $30/мес, без лимитов
Для сравнения: Claude Code Max стоит $100-200/мес.
Прямой API-доступ: $1.00 за 1M входных токенов, $3.20 за 1M выходных. Claude Opus 4.6 стоит $5/$25. Разница в 5-8 раз. Для агентов, которые перемалывают контекст сотнями тысяч токенов, это ощутимо.
Нюанс: в пиковые часы (14:00-18:00 UTC+8) GLM Coding Plan считает квоту с коэффициентом 3x. В офф-пик — 2x (до конца апреля промо: 1x).
Подводные камни
Бенчмарки заявлены самой Z.ai. Все ключевые числа (SWE-Bench Pro, NL2Repo, Terminal-Bench) из внутренних замеров. Исключение — Vending Bench 2, который проводил независимый Andon Labs. Предыдущие результаты GLM-5 подтвердились при внешнем тестировании, но для GLM-5.1 верификация ещё идёт. По заявлению Z.ai всё честно, но «по заявлению» это ключевые слова.
Скорость генерации — самая низкая среди фронтирных моделей. Около 40 токенов/сек по данным HuggingFace inference. Для интерактивной работы в IDE это заметно. Z.ai позиционирует медлительность как фичу: модель «думает тщательнее». Для 8-часовых автономных сессий это нормально, для быстрых правок — раздражает.
Локально не запустишь. BF16-версия весит 1.49 ТБ, для инференса нужен 8-way tensor parallelism на H200 или аналогичном железе. FP8-квантизация сокращает требования, но всё равно это уровень датацентра. Если хочется open-source на своём железе — Gemma 4 от Google работает даже на смартфонах.
US Entity List. Z.ai находится в санкционном списке США с января 2025. Для личного и коммерческого использования API в большинстве юрисдикций это не создаёт проблем. Но корпоративные compliance-отделы могут заблокировать использование. Если работаете в компании с US government контрактами, проверьте с юристами.
Coding Composite — третье место, не первое. Z.ai подчёркивает лидерство на SWE-Bench Pro, но по агрегированному coding composite (SWE-Bench Pro + Terminal-Bench 2.0 + NL2Repo) модель на третьем месте с 54.9, уступая GPT-5.4 (58.0) и Opus (57.5). SWE-Bench Pro — один бенчмарк из нескольких.
Альтернативы
- Claude Opus 4.6 — $5/$25 за 1M токенов, контекст 1M (в 5 раз больше). Лидирует на coding composite (57.5), NL2Repo (49.8), KernelBench (4.2x). Сильнее на рассуждениях и мультишаговых агентных задачах. Но в 5-8 раз дороже GLM-5.1 по API
- GPT-5.4 — закрытая модель, 57.7% на SWE-Bench Pro (чуть ниже GLM-5.1). Сильнее на математике (98.7% AIME) и Tool-Decathlon. Нет open-source весов. Экосистема OpenAI/Codex CLI
- DeepSeek-V3.2 — другой китайский open-weight вариант, но отстаёт: Terminal-Bench 39.3%, CyberGym 17.3%. Значительно слабее GLM-5.1 на кодинг-задачах
- Qwen 3.6-Plus — coding composite 52.0, SWE-Bench Pro 56.6%. Конкурентоспособен, но уступает GLM-5.1 по ключевым кодинг-бенчмаркам
Вердикт
GLM-5.1 — первая open-source модель, которая заняла первое место на SWE-Bench Pro, обогнав все закрытые модели. Если тебе нужен дешёвый кодинг-агент для длинных автономных задач (рефакторинг кодовой базы, ночная batch-оптимизация), GLM-5.1 за $10-30/мес отдаёт 80% качества Opus за 15% цены. Для интерактивной работы, где важна скорость отклика и мультишаговые рассуждения, Opus 4.6 с контекстом в 1M токенов пока сильнее. Ждать нечего: модель уже на HuggingFace под MIT, API работает, Claude Code поддерживает.
Как попробовать
- Зарегистрируйтесь на z.ai/subscribe и выберите GLM Coding Plan (от $10/мес)
- В
~/.claude/settings.jsonдобавьте"model": "GLM-5.1" - Попробуйте:
"Отрефактори модуль auth, разбей на 5 файлов по ответственности" - Для длинных задач: оберните в цикл с самоотревью, дайте модели работать несколько часов
- Веса на HuggingFace: zai-org/GLM-5.1 (MIT). Инструкции по self-hosting через vLLM в SGLang Cookbook