> · 8 мин

GLM-5.2 — Китай выложил open-weight модель, которая бьёт GPT-5.5 и дышит в спину Claude Opus 4.8

GLM-5.2 — Китай выложил open-weight модель, которая бьёт GPT-5.5 и дышит в спину Claude Opus 4.8

В феврале на OpenRouter тихо появилась модель Pony Alpha. Без анонса, без статьи, без имени автора. За первый день она съела 40 миллиардов токенов и 206 тысяч запросов, влезла в топ и заставила всех гадать: DeepSeek это или GLM-5? Когда у неё стирали системный промпт, она называла себя GLM. Кодовое имя «Pony» отсылало к Году Лошади по китайскому календарю. Тайминг совпал с окном релиза GLM-5 от Zhipu.

Аналитики тогда сошлись на версии: Pony Alpha и есть превью GLM-5 в режиме стелс. Прошло четыре месяца. 16 июня Zhipu (теперь Z.ai) выложила GLM-5.2 с открытыми весами под MIT. И на этот раз гадать не пришлось: модель сразу взорвала OpenRouter.

TL;DR: GLM-5.2 — open-weight модель на 753B параметров (40B активных), 1M контекста, лицензия MIT. Бьёт GPT-5.5 на большинстве кодинг-бенчмарков и отстаёт от Claude Opus 4.8 буквально на 1% на длинных задачах. Через API стоит $1.40/$4.40 за миллион токенов, в 6 раз дешевле GPT-5.5. Главный подвох: жрёт по 43k токенов на задачу, а локальный запуск требует 256 ГБ памяти.

Что за взрыв на OpenRouter

С 16 июня доля Z.ai в трафике OpenRouter резко пошла вверх, и GLM-5.2 одна забрала примерно 75% всего API-использования компании. Это нетипично быстрый старт даже по меркам громких open-weight релизов: обычно открытые модели разгоняются неделями.

Важнее другое — на чём её гоняют. Не в чатиках, а в агентах: Hermes Agent (самый частый сценарий), Claude Code, Kilo Code, Cursor, Cline. Команда Cline отдельно отчиталась: на багфиксах GLM-5.2 обошла Claude Opus 4.8 по качеству кода, при этом сжирая вдвое больше токенов за половину цены. По деньгам выходит примерно в ноль, а по результату лучше.

Натан Ламберт из Interconnects назвал GLM-5.2 первой open-weight моделью, которая «правильно ощущается в кодинг-харнессах как агент общего назначения». Он сравнил её появление с моментом DeepSeek R1: дверь, которая открывается только в одну сторону.

Цифры, и почему заголовки врут наполовину

VentureBeat вынес в заголовок «бьёт GPT-5.5». Это правда, но половинчатая. Разберём официальные цифры Z.ai по восьми бенчмаркам (они же на обложке).

SWE-bench Pro: GLM-5.2 берёт 62.1 против 58.6 у GPT-5.5 и 58.4 у прошлой GLM-5.1. Opus 4.8 впереди с 69.2. Terminal-Bench 2.1: 81.0, гигантский прыжок с 63.5 у GLM-5.1. GPT-5.5 тут 84.0, Opus 4.8 — 85.0. MCP-Atlas (работа с инструментами): 77.0, почти вровень с Opus 4.8 (77.8) и выше GPT-5.5 (75.3). ProgramBench: 63.7, обходит GLM-5.1 (50.9), но Opus 4.8 (71.9) и GPT-5.5 (70.8) сильнее.

Картина честная: GLM-5.2 стабильно бьёт GPT-5.5 на части тестов и почти везде догоняет Opus 4.8. Теперь самое интересное, длинные задачи, где модель работает часами.

Long-Horizon Task Evaluation — GLM-5.2 на задачах до 20 часов

FrontierSWE (до 20 часов работы): Opus 4.8 берёт 75.1%, GLM-5.2 идёт сразу за ним с 74.4%, GPT-5.5 отстаёт на 72.6%. Отставание от топовой проприетарной модели составляет 0.7 процентного пункта. Для открытых весов это раньше было фантастикой.

А вот SWE-Marathon (до 10 часов) ломает сказку: Opus 4.8 даёт 26.0%, а GLM-5.2 всего 13.0%. Вдвое хуже. На самых длинных и запутанных марафонских задачах китайская модель пока сыпется. Так что если вам нужен агент, который тащит многочасовой рефакторинг без присмотра, Opus 4.8 всё ещё вне конкуренции.

На независимом Artificial Analysis Intelligence Index GLM-5.2 набрала 51 балл и заняла первое место среди открытых моделей, впереди MiniMax-M3 (44), DeepSeek V4 Pro (44) и Kimi K2.6 (43). По метрике GDPval-AA результат 1524, на уровне GPT-5.5 с xhigh-ризонингом (1514).

Сколько стоит и как подключить

Через официальный API Z.ai (api.z.ai) или через OpenRouter цена примерно $1.40 за миллион входных токенов и $4.40 за миллион выходных. Сравните:

  • GLM-5.2 — $1.40 / $4.40
  • GPT-5.5 — $5 / $30
  • Claude Opus 4.8 — $5 / $25

На выходных токенах GLM-5.2 почти в 7 раз дешевле GPT-5.5. Самый простой способ попробовать, прямой вызов:

curl https://api.z.ai/api/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [{"role": "user", "content": "Refactor this function and add tests"}]
  }'

В Cline или Kilo Code модель подключается через OpenRouter: выбираете z-ai/glm-5.2 в списке провайдеров, и агент начинает гонять её вместо Opus. В Claude Code GLM-5.2 заводится через совместимый endpoint и переменные ANTHROPIC_BASE_URL/ANTHROPIC_AUTH_TOKEN, указывающие на шлюз Z.ai. Компания специально держит anthropic-совместимый формат, чтобы перетягивать пользователей Claude Code.

Подводные камни

Токенный аппетит съедает часть скидки. GLM-5.2 генерирует около 43k выходных токенов на задачу Intelligence Index, против 26k у GLM-5.1 и 24k у MiniMax-M3. Дешёвая цена за токен обманчива: по стоимости одной задачи (GDPval-AA) GLM-5.2 выходит на $0.46, тогда как MiniMax-M3 берёт $0.18, а DeepSeek V4 Pro вообще $0.05. В абсолюте она дороже других открытых моделей, хоть и дешевле GPT-5.5. Та самая история Cline: «вдвое больше токенов за половину цены». Это не фигура речи, а реальная математика вашего счёта.

Локальный запуск почти невозможен. Полные веса в BF16 весят 1.51 ТБ. Даже в 4-битном Q4_K_M это 476 ГБ: нужны 2× A100 80GB или 4× RTX 6000 Ada. Двухбитный динамический квант от Unsloth ужимается до 241 ГБ, но требует Mac Studio с 256 ГБ unified memory (M3/M4 Ultra). 128-гигабайтный Strix Halo или 24-гигабайтная видеокарта не тянут вообще. А на том самом Mac Studio за ~$9500 модель выдаёт 3–9 токенов в секунду. Терпимо для асинхронных агентских прогонов, но для живого чата это мучение: один билд занимает минут пятнадцать.

API-данные уходят в Китай. Официальный endpoint Z.ai маршрутизирует запросы через китайскую инфраструктуру, и для энтерпрайза это красный флаг с точки зрения комплаенса. Безопасный путь: либо self-host (см. пункт выше про железо), либо западные inference-провайдеры вроде Fireworks, Together или Novita, которые хостят открытые веса у себя.

Непредсказуемое креативное качество. Саймон Уиллисон гонял свой классический тест: SVG-пеликан на велосипеде вышел отлично, с анимацией и рабочей механикой. А опоссум на электросамокате внезапно провалился: ни анимации, ни нормальной графики, хуже чем у прошлой GLM-5.1. На кодинге модель ровная, на творческих задачах как повезёт.

Альтернативы

MiniMax M3 — тоже открытая, 1M контекста и нативная мультимодальность (картинки, видео, computer use), которой у GLM-5.2 нет. Слабее по Intelligence Index (44 против 51), зато втрое экономнее по токенам и дешевле на задачу.

DeepSeek V4 Pro — самый дешёвый open-weight под MIT, $0.05 за задачу. Отстаёт по кодингу (Index 44), зато если важна цена за результат, а не максимум качества, берёт деньгами.

Nex-N2-Pro — свежая открытая модель под Apache 2.0 на архитектуре Qwen3.5, 80.8% на SWE-Bench Verified. Бесплатна на OpenRouter, прямой конкурент в той же нише «открытое железо для агентов».

Claude Opus 4.8 / GPT-5.5 — проприетарный фронтир. Платите в 6 раз больше, но получаете лучшие результаты на марафонских задачах (SWE-Marathon 26% против 13%) и отсутствие вопросов с маршрутизацией данных.

Вердикт

Если вы гоняете агентов на кодинге и платите за токены из своего кармана, переходите на GLM-5.2 сегодня. На багфиксах, рефакторинге и работе с инструментами она реально на уровне Opus 4.8, а счёт меньше в разы. Это первая открытая модель, которой не стыдно доверить продакшен-харнесс.

Не трогайте её, если задача — многочасовой автономный марафон (тут Opus 4.8 вдвое сильнее), если вам критичен комплаенс по данным (китайский API не пройдёт ревью), или если вы мечтали запустить её локально на игровой видеокарте (забудьте, нужен датацентр или Mac Studio за десять тысяч долларов). И держите в голове токенный аппетит: дешёвая цена за токен не равна дешёвой цене за результат.

Как попробовать за 10 минут

  1. Заведите ключ на z.ai или возьмите доступ через OpenRouter, там же увидите актуальную цену провайдеров.
  2. Для быстрого теста сделайте curl к https://api.z.ai/api/paas/v4/chat/completions с моделью glm-5.2 (пример выше).
  3. Для реальной работы подключите её в Cline или Kilo Code: выберите провайдера OpenRouter и модель z-ai/glm-5.2, дайте задачу «найди и почини баг в этом модуле, добавь тесты».
  4. Сравните счёт и качество с вашим текущим агентом на той же задаче. Cline уже сделал это и пересел на GLM, проверьте на своём коде.
  5. Если упрётесь в комплаенс, поднимите веса с Hugging Face у западного провайдера вместо официального китайского endpoint.
$ ls ./related/

Похожие статьи

minimax-m3-review.md
MiniMax M3 — первая открытая модель с фронтир-кодингом, 1M контекста и зрением. А бенчмарки ей гоняли через Claude Code
> · 8 мин

MiniMax M3 — первая открытая модель с фронтир-кодингом, 1M контекста и зрением. А бенчмарки ей гоняли через Claude Code

MiniMax M3: первая open-weight модель с фронтир-кодингом, 1M контекста и мультимодальностью. 59% SWE-Bench Pro, цены втрое ниже Gemini Flash и веса, которых до сих пор нет. Разбор с подводными камнями.

ai agents llm open-source
gpt-56-leak-goblins.md
GPT-5.6 нашли в логах Codex — утечка, ставки на Polymarket и гоблины, из-за которых OpenAI торопится
> · 9 мин

GPT-5.6 нашли в логах Codex — утечка, ставки на Polymarket и гоблины, из-за которых OpenAI торопится

Security-исследователь нашёл gpt-5.6 в rollout-логах Codex, Polymarket даёт 82% на релиз до 30 июня. Разбираем, что реально известно о новой модели OpenAI, при чём тут гоблины с приростом +3881% и почему июнь столкнёт лбами сразу три лаборатории.

llm openai leak ai-models
nvidia-cosmos-3-open-omni-model.md
NVIDIA Cosmos 3 — первая полностью открытая omni-модель, которая рассуждает о физике и сама генерирует мир для роботов
> · 7 мин

NVIDIA Cosmos 3 — первая полностью открытая omni-модель, которая рассуждает о физике и сама генерирует мир для роботов

NVIDIA выложила Cosmos 3 — первую полностью открытую omni-модель, которая в одном стеке рассуждает о физике и сама генерирует видео, звук и действия для роботов, беспилотников и складского видео-анализа. Разбираем архитектуру из двух башен, версии Nano 8B и Super 32B, 6 открытых датасетов, лицензию с поводком и зачем NVIDIA раздаёт фронтир бесплатно.

ai open-source multimodal nvidia
subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe