> · 8 мин

GLM-5.1 — open-source модель из Китая обошла Claude Opus и GPT-5.4 на SWE-Bench Pro, кодит 8 часов без остановки и стоит в 5 раз дешевле

GLM-5.1 — open-source модель из Китая обошла Claude Opus и GPT-5.4 на SWE-Bench Pro, кодит 8 часов без остановки и стоит в 5 раз дешевле

GLM-5.1 — open-source модель из Китая обошла Claude Opus и GPT-5.4 на SWE-Bench Pro, кодит 8 часов без остановки и стоит в 5 раз дешевле

7 апреля Z.ai (бывшая Zhipu AI, спинофф университета Цинхуа) выложила в открытый доступ GLM-5.1 под MIT-лицензией. Модель набрала 58.4% на SWE-Bench Pro, обогнав GPT-5.4 (57.7%) и Claude Opus 4.6 (57.3%). Но главная фишка не в бенчмарках, а в том, как модель ведёт себя на длинных задачах: она оптимизировала код 600+ раундов подряд, сделала 6 000 вызовов инструментов и не остановилась.

TL;DR: GLM-5.1, open-source (MIT) модель на 744B параметров, заняла первое место на SWE-Bench Pro среди всех моделей. Стоит $1/$3.2 за 1M токенов (в 5-8 раз дешевле Opus). Подключается к Claude Code, OpenCode, Cursor. Главная фича: модель не выгорает на длинных задачах, а реально продолжает находить улучшения через сотни итераций.

Что внутри

GLM-5.1 построена на архитектуре Mixture-of-Experts: 744 миллиарда параметров, из них 40 миллиардов активны на каждый токен. Контекстное окно 203K, максимальный выход 131K токенов.

Важная деталь: вся линейка GLM-5 тренировалась на ~100 000 чипах Huawei Ascend 910B. Ни одного чипа NVIDIA. Z.ai находится в US Entity List с января 2025, у них физически нет доступа к H100/H200/B200. И несмотря на это, модель конкурирует с Opus и GPT на кодинг-бенчмарках.

Переход от GLM-5 к GLM-5.1 произошёл без нового пре-трейнинга: та же база, та же архитектура, улучшения пришли из reinforcement learning и progressive alignment. Z.ai называет это «multi-stage RL с cross-stage distillation». Результат: +28% на кодинг-бенчмарках при нулевых затратах на пре-трейнинг.

Откуда взялась Z.ai

Z.ai — спинофф Университета Цинхуа, первая в мире компания-разработчик foundation-моделей, вышедшая на IPO. Листинг на Гонконгской бирже 8 января 2026 года, оценка ~$31.3 млрд. Это больше, чем у Mistral и AI21 вместе взятых.

Релизы идут быстро: GLM-5 (11 февраля), GLM-5-Turbo (15 марта), GLM-5.1 API (27 марта), open-source веса (7 апреля). Четыре крупных релиза за два месяца.

Бенчмарки: где GLM-5.1 лидирует, а где нет

Начну с честной картины, без cherry-picking одного бенчмарка.

Где GLM-5.1 впереди (по заявлению Z.ai):

  • SWE-Bench Pro — 58.4% (GPT-5.4: 57.7%, Opus 4.6: 57.3%). Первое место среди всех моделей, включая закрытые
  • CyberGym — 68.7% (Opus: 66.6%). Задачи кибербезопасности
  • BrowseComp — 68.0% (с управлением контекстом: 79.3%)

Где GLM-5.1 уступает:

  • NL2Repo (генерация репозиториев) — 42.7% против 49.8% у Claude Opus 4.6. Существенный разрыв
  • AIME 2026 (математика) — 95.3% против 98.7% у GPT-5.4
  • GPQA-Diamond (наука) — 86.2% против 94.3% у Gemini 3.1 Pro
  • KernelBench L3 (оптимизация GPU-ядер) — 3.6x speedup против 4.2x у Claude Opus 4.6
  • Coding Composite (агрегат по трём бенчмаркам) — 54.9, третье место. Впереди GPT-5.4 (58.0) и Opus (57.5)

На BenchLM.ai модель занимает 11 место из 106 с общим скором 79/100. Крепкий mid-tier среди всех моделей, на кодинге #12.

Все бенчмарк-числа, кроме Vending Bench 2 (проведён независимо Andon Labs), заявлены самой Z.ai. Независимая верификация обновлённых цифр от 7 апреля пока не завершена. Впрочем, предыдущие результаты GLM-5 подтвердились при внешнем тестировании, так что Z.ai имеет трек-рекорд честных заявлений.

600 итераций без плато — главная фича

Это то, что отличает GLM-5.1 от большинства конкурентов. Предыдущие модели (включая GLM-5) быстро исчерпывают набор техник: находят очевидные оптимизации, получают quick wins, после чего выходят на плато. Дополнительное время не помогает.

GLM-5.1 демонстрирует другое поведение. Z.ai показала это на трёх задачах с разной степенью субъективности.

VectorDBBench (600+ итераций). Модель получила скелет Rust-проекта для approximate nearest neighbor search. Лучший результат Claude Opus 4.6 за стандартные 50 раундов — 3 547 QPS. GLM-5.1 в расширенном цикле дошла до 21 500 QPS, то есть 6x лучше.

Траектория показывает шесть структурных переходов: от полного сканирования к IVF-кластерам (6.4K QPS), удаление вложенного параллелизма (10.4K), двухфазный u8/f16 pipeline (13.4K), бюджетная обрезка (15.5K), иерархическая маршрутизация (18.4K), квантованная маршрутизация с ранним отсечением (21.5K). Каждый переход инициирован самой моделью после анализа собственных логов бенчмарка.

KernelBench Level 3 (1000+ раундов). 50 задач по оптимизации GPU-ядер. GLM-5.1 выдала 3.6x geometric mean speedup. Для контекста: torch.compile с дефолтными настройками даёт 1.15x, с max-autotune — 1.49x. Claude Opus 4.6 всё ещё лидирует на этой задаче с 4.2x, но GLM-5.1 продолжает оптимизировать существенно дольше, чем GLM-5.

Linux Desktop за 8 часов. Самая субъективная задача: построить Linux-like десктоп в браузере без стартового кода. Ранние модели выдают скелет с таскбаром и парой окон, после чего объявляют задачу завершённой. GLM-5.1 в цикле самоотревью работала 8 часов: файловый менеджер, терминал, текстовый редактор, системный монитор, калькулятор, игры, всё с единым UI.

Как подключить к Claude Code

GLM-5.1 совместима с Claude Code, OpenCode, Kilo Code, Roo Code, Cline и Droid через API-слой Z.ai. Переключение занимает одну строчку:

// ~/.claude/settings.json
{
  "model": "GLM-5.1"
}

API-доступ через api.z.ai.

Тарифы GLM Coding Plan:

  • Lite — $10/мес, 120 запросов на 5-часовое окно
  • Pro — $20/мес, 600 запросов на 5-часовое окно
  • Max — $30/мес, без лимитов

Для сравнения: Claude Code Max стоит $100-200/мес.

Прямой API-доступ: $1.00 за 1M входных токенов, $3.20 за 1M выходных. Claude Opus 4.6 стоит $5/$25. Разница в 5-8 раз. Для агентов, которые перемалывают контекст сотнями тысяч токенов, это ощутимо.

Нюанс: в пиковые часы (14:00-18:00 UTC+8) GLM Coding Plan считает квоту с коэффициентом 3x. В офф-пик — 2x (до конца апреля промо: 1x).

Подводные камни

Бенчмарки заявлены самой Z.ai. Все ключевые числа (SWE-Bench Pro, NL2Repo, Terminal-Bench) из внутренних замеров. Исключение — Vending Bench 2, который проводил независимый Andon Labs. Предыдущие результаты GLM-5 подтвердились при внешнем тестировании, но для GLM-5.1 верификация ещё идёт. По заявлению Z.ai всё честно, но «по заявлению» это ключевые слова.

Скорость генерации — самая низкая среди фронтирных моделей. Около 40 токенов/сек по данным HuggingFace inference. Для интерактивной работы в IDE это заметно. Z.ai позиционирует медлительность как фичу: модель «думает тщательнее». Для 8-часовых автономных сессий это нормально, для быстрых правок — раздражает.

Локально не запустишь. BF16-версия весит 1.49 ТБ, для инференса нужен 8-way tensor parallelism на H200 или аналогичном железе. FP8-квантизация сокращает требования, но всё равно это уровень датацентра. Если хочется open-source на своём железе — Gemma 4 от Google работает даже на смартфонах.

US Entity List. Z.ai находится в санкционном списке США с января 2025. Для личного и коммерческого использования API в большинстве юрисдикций это не создаёт проблем. Но корпоративные compliance-отделы могут заблокировать использование. Если работаете в компании с US government контрактами, проверьте с юристами.

Coding Composite — третье место, не первое. Z.ai подчёркивает лидерство на SWE-Bench Pro, но по агрегированному coding composite (SWE-Bench Pro + Terminal-Bench 2.0 + NL2Repo) модель на третьем месте с 54.9, уступая GPT-5.4 (58.0) и Opus (57.5). SWE-Bench Pro — один бенчмарк из нескольких.

Альтернативы

  • Claude Opus 4.6 — $5/$25 за 1M токенов, контекст 1M (в 5 раз больше). Лидирует на coding composite (57.5), NL2Repo (49.8), KernelBench (4.2x). Сильнее на рассуждениях и мультишаговых агентных задачах. Но в 5-8 раз дороже GLM-5.1 по API
  • GPT-5.4 — закрытая модель, 57.7% на SWE-Bench Pro (чуть ниже GLM-5.1). Сильнее на математике (98.7% AIME) и Tool-Decathlon. Нет open-source весов. Экосистема OpenAI/Codex CLI
  • DeepSeek-V3.2 — другой китайский open-weight вариант, но отстаёт: Terminal-Bench 39.3%, CyberGym 17.3%. Значительно слабее GLM-5.1 на кодинг-задачах
  • Qwen 3.6-Plus — coding composite 52.0, SWE-Bench Pro 56.6%. Конкурентоспособен, но уступает GLM-5.1 по ключевым кодинг-бенчмаркам

Вердикт

GLM-5.1 — первая open-source модель, которая заняла первое место на SWE-Bench Pro, обогнав все закрытые модели. Если тебе нужен дешёвый кодинг-агент для длинных автономных задач (рефакторинг кодовой базы, ночная batch-оптимизация), GLM-5.1 за $10-30/мес отдаёт 80% качества Opus за 15% цены. Для интерактивной работы, где важна скорость отклика и мультишаговые рассуждения, Opus 4.6 с контекстом в 1M токенов пока сильнее. Ждать нечего: модель уже на HuggingFace под MIT, API работает, Claude Code поддерживает.

Как попробовать

  1. Зарегистрируйтесь на z.ai/subscribe и выберите GLM Coding Plan (от $10/мес)
  2. В ~/.claude/settings.json добавьте "model": "GLM-5.1"
  3. Попробуйте: "Отрефактори модуль auth, разбей на 5 файлов по ответственности"
  4. Для длинных задач: оберните в цикл с самоотревью, дайте модели работать несколько часов
  5. Веса на HuggingFace: zai-org/GLM-5.1 (MIT). Инструкции по self-hosting через vLLM в SGLang Cookbook
$ ls ./related/

Похожие статьи

subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe