> · 7 мин

Gemma 4 — Apache 2.0, function calling из коробки и 89% AIME. Google выложил open-weight модель, которая делает cloud API необязательным

Gemma 4 — Apache 2.0, function calling из коробки и 89% AIME. Google выложил open-weight модель, которая делает cloud API необязательным

Gemma 4 — Apache 2.0, function calling из коробки и 89% AIME. Google выложил open-weight модель, которая делает cloud API необязательным

Google DeepMind 2 апреля тихо выложил Gemma 4, пока все обсуждали утечку Claude Mythos и закат GPT-4o (OpenAI официально выключил его 3 апреля). Четыре модели, Apache 2.0, native function calling через специальные токены, мультимодальность с аудио. И главное: flagship 31B модель поднялась на третье место в глобальном рейтинге Arena AI, обойдя Qwen 3.5 по математике и кодингу.

TL;DR: Gemma 4 — семейство из четырёх open-weight моделей (E2B, E4B, 26B MoE, 31B Dense) под Apache 2.0. Flagship 31B набирает 89.2% на AIME 2026, 2150 ELO на Codeforces и занимает #3 на Arena AI. Native function calling через 6 специальных токенов, мультимодальный вход (текст, картинки, видео, аудио на E2B/E4B), 256K контекст. Работает локально на RTX 4090 через Ollama.

Четыре модели на все случаи

Gemma 4 покрывает весь спектр, от телефона до рабочей станции:

  • E2B (2.3B effective) — edge-модель для мобильных и IoT. Текст, картинки, аудио. 128K контекст. ~500 МБ на диске
  • E4B (4.5B effective) — усиленная edge-версия с аудио. ~1.5 ГБ
  • 26B MoE (3.8B active / 25.2B total) — Mixture of Experts: активирует 3.8B параметров за проход, а результаты как у 30B+ dense моделей. #6 на Arena AI (1441 балл)
  • 31B Dense — флагман. #3 на Arena AI (1452 балла), обходит Qwen 3.5 32B по AIME и Codeforces

E2B и E4B — единственные sub-5B мультимодальные модели с 128K контекстом. Ни Llama 4, ни Qwen 3.5 не предлагают ничего подобного для edge.

Бенчмарки: математика и код — сильная сторона

31B Dense:

  • AIME 2026 — 89.2% (Qwen 3.5 27B: ~85%)
  • LiveCodeBench v6 — 80.0% (Qwen 3.5 27B: 83.6%)
  • MMLU Pro — 85.2% (Qwen 3.5 27B: 86.1%)
  • GPQA Diamond — 84.3% (Qwen 3.5 27B: 85.5%)
  • Codeforces ELO — 2150 (Qwen 3.5 27B: ~1900)
  • MMMU Pro (vision) — 76.9%
  • Arena AI — #3 глобально

Qwen 3.5 чуть впереди по общим knowledge-бенчмаркам (MMLU Pro, GPQA). Gemma 4 доминирует по математике и соревновательному программированию. Llama 4 Scout с его 109B параметров (17B активных) отстаёт от обоих на reasoning-тестах.

Числа выше — из официальных model cards Google и независимых лидербордов Arena AI. Независимые замеры на Codeforces ELO подтверждены сообществом на Hugging Face.

Apache 2.0 — почему это важнее бенчмарков

Предыдущие версии Gemma шли с ограничительной лицензией: Google мог отозвать права, запретить определённые use-case. Корпоративные юристы нервничали. С Gemma 4 это кончилось:

  • Полная коммерческая свобода
  • Никаких ограничений на MAU (у Llama 4 — потолок 700M MAU)
  • Можно модифицировать, распространять, встраивать куда угодно
  • Нет требований attribution (у Llama 4 — обязательный "Built with Llama")

Qwen 3.5 тоже под Apache 2.0, так что тут паритет. Llama 4 остаётся с кастомной лицензией, которая начинает жать при масштабировании.

Function calling: 6 специальных токенов

Большинство open-weight моделей реализуют function calling через prompt engineering — засовывают JSON-схему в системный промпт и надеются, что модель не сгаллюцинирует. Gemma 4 обучена с шестью специальными токенами, которые создают структурированный lifecycle для вызова инструментов:

  • <|tool> ... <tool|> — определение инструмента (имя, описание, параметры)
  • <|tool_call> ... <tool_call|> — модель запрашивает вызов
  • <|tool_result> ... <tool_result|> — результат возвращается модели

На практике это выглядит так:

<start_of_turn>system
You are a helpful assistant with access to tools.

<|tool>
{
  "name": "get_weather",
  "description": "Get current weather for a location",
  "parameters": {
    "type": "object",
    "properties": {
      "location": {"type": "string"},
      "units": {"type": "string", "enum": ["celsius", "fahrenheit"]}
    },
    "required": ["location"]
  }
}
<tool|>
<end_of_turn>

Модель генерирует <|tool_call> с JSON аргументами, вы выполняете функцию, отправляете результат в <|tool_result>. Цикл повторяется. Inference-движки (llama.cpp, vLLM, Ollama) парсят эти токены детерминистически, без угадывания.

Для сложных задач есть configurable thinking mode — модель показывает пошаговое рассуждение перед вызовом инструмента. Включается для multi-step планирования, выключается для простых запросов ради скорости.

Мультимодальность: текст, картинки, видео и аудио

Все четыре модели принимают текст и картинки. E2B и E4B добавляют аудио (до 30 секунд на запрос) через USM-style conformer encoder.

  • Gemma 4 — текст, картинки, видео (через frame extraction), аудио (E2B/E4B)
  • Llama 4 — текст, картинки. Видео и аудио — нет
  • Qwen 3.5 — текст, картинки, native видео. Аудио — нет

Для голосовых ассистентов и IoT с микрофоном Gemma 4 E2B/E4B — единственный вариант среди open-weight моделей.

Как запустить локально

Ollama (самый простой путь)

# 31B Dense (нужно ~20 ГБ VRAM для Q4)
ollama run gemma4:31b

# 26B MoE (нужно ~16 ГБ VRAM для Q4)
ollama run gemma4:26b

# E4B — для ноутбуков и слабых GPU
ollama run gemma4:e4b

llama.cpp (с function calling)

# Скачать GGUF
huggingface-cli download google/gemma-4-31b-it-GGUF

# Запустить сервер с поддержкой function calling
llama-server -m gemma-4-31b-it-Q4_K_M.gguf \
  --port 8080 --host 0.0.0.0 --jinja

Флаг --jinja включает правильный рендеринг шаблонов для tool-токенов. MCP-клиенты подключаются к http://localhost:8080/v1/chat/completions через стандартный OpenAI tools API.

vLLM (для продакшена)

vllm serve google/gemma-4-31b-it \
  --enable-auto-tool-choice \
  --max-model-len 131072

Gemma Gem — AI-агент прямо в браузере

Параллельно с Gemma 4 появился Gemma Gem (269 звёзд за сутки) — Chrome-расширение, которое запускает Gemma 4 E2B/E4B целиком в браузере через WebGPU. Ноль API-ключей, ноль облака, данные не покидают машину.

Расширение умеет читать страницы, кликать элементы, заполнять формы, выполнять JavaScript. Архитектура: offscreen document (модель + agent loop) ↔ service worker (роутинг) ↔ content script (DOM-инструменты).

~500 МБ для E2B, ~1.5 ГБ для E4B. Первый запуск кеширует модель, дальше работает офлайн.

Подводные камни

  1. VRAM-прожорливость. При одинаковом Q4-квантовании Gemma 4 31B помещает ~20K контекста на RTX 5090, тогда как Qwen 3.5 27B на той же карте влезает со 190K контекстом. Заявленные 256K токенов требуют значительно больше памяти, чем у конкурентов. Для реального использования длинного контекста понадобится мульти-GPU.

  2. Тулинг ломается. На момент релиза HuggingFace Transformers не распознавал архитектуру Gemma 4. PEFT не справляется с новыми типами слоёв. QLoRA-файнтюнинг требует костылей. Баг в vLLM: MXFP4-квантизация 26B MoE крашится при загрузке весов. В llama.cpp — аномально долгая генерация.

  3. 26B MoE медленнее, чем ожидаешь. Активирует 3.8B параметров, но выдаёт ~11 tok/s на RTX 4090 (Qwen 3.5 27B: ~35 tok/s). Все 25.2B параметров должны сидеть в VRAM, плюс overhead MoE-роутинга. Для latency-sensitive приложений (чатботы, real-time агенты) лучше взять 31B Dense (~25 tok/s) или Qwen 3.5.

  4. 31B на Apple Silicon — "super slow". На Ollama с M1 Max 64 ГБ пользователи жалуются на скорость. Оптимизации MLX ещё сырые.

  5. Multi-GPU: OOM на HuggingFace. При попытке распределить 31B модель между GPU — CUDA out of memory. Workaround: использовать vLLM вместо native Transformers.

Альтернативы

  • Qwen 3.5 27B — Apache 2.0, быстрее по инференсу (~35 tok/s vs ~25), чуть выше по MMLU Pro и GPQA. Но слабее по математике (AIME: ~85% vs 89.2%) и нет аудио на edge. Самый широкий размерный ряд: от 0.8B до 397B
  • Llama 4 Scout (109B total / 17B active) — 10M контекстное окно, что вне конкуренции. Но кастомная лицензия с потолком 700M MAU, нет моделей для edge (~70 ГБ VRAM минимум), слабее по reasoning-бенчмаркам
  • Phi-4 (Microsoft) — компактные модели для edge, но без Apache 2.0 и без мультимодальности уровня Gemma 4. Уже проигрывает Gemma 4 E4B по бенчмаркам

Вердикт

Если строишь агента для edge/mobile с аудио — Gemma 4 E2B/E4B без альтернатив, конкурентов просто нет. Для workstation-задач на одной GPU выбор между Gemma 4 31B и Qwen 3.5 27B: Qwen быстрее, Gemma сильнее в математике и коде. Apache 2.0 у обоих, так что лицензия не решает. Не стоит брать 26B MoE для real-time — overhead роутинга убивает latency. И главное: подожди неделю-две, если планируешь файнтюнинг: тулинг (PEFT, Transformers, vLLM) ещё не догнал релиз.

Как попробовать

  1. Поставь Ollama, если ещё нет: curl -fsSL https://ollama.com/install.sh | sh
  2. Запусти 31B: ollama run gemma4:31b (нужно ~20 ГБ VRAM) или E4B для слабых машин: ollama run gemma4:e4b
  3. Попробуй function calling через llama.cpp сервер с флагом --jinjaдокументация Google
  4. Для агентов — подключи MCP через OpenAI-compatible API на localhost:8080
  5. Хочешь в браузере без облака — поставь Gemma Gem из исходников
$ ls ./related/

Похожие статьи

subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe