> 06 Apr 2026 · 7 мин

Gemma 4 — Apache 2.0, function calling из коробки и 89% AIME. Google выложил open-weight модель, которая делает cloud API необязательным

ai agents llm google open-source gemma function-calling

Gemma 4 — Apache 2.0, function calling из коробки и 89% AIME. Google выложил open-weight модель, которая делает cloud API необязательным

Google DeepMind 2 апреля тихо выложил Gemma 4, пока все обсуждали утечку Claude Mythos и закат GPT-4o (OpenAI официально выключил его 3 апреля). Четыре модели, Apache 2.0, native function calling через специальные токены, мультимодальность с аудио. И главное: flagship 31B модель поднялась на третье место в глобальном рейтинге Arena AI, обойдя Qwen 3.5 по математике и кодингу.

TL;DR: Gemma 4 — семейство из четырёх open-weight моделей (E2B, E4B, 26B MoE, 31B Dense) под Apache 2.0. Flagship 31B набирает 89.2% на AIME 2026, 2150 ELO на Codeforces и занимает #3 на Arena AI. Native function calling через 6 специальных токенов, мультимодальный вход (текст, картинки, видео, аудио на E2B/E4B), 256K контекст. Работает локально на RTX 4090 через Ollama.

Четыре модели на все случаи

Gemma 4 покрывает весь спектр, от телефона до рабочей станции:

E2B (2.3B effective) — edge-модель для мобильных и IoT. Текст, картинки, аудио. 128K контекст. ~500 МБ на диске
E4B (4.5B effective) — усиленная edge-версия с аудио. ~1.5 ГБ
26B MoE (3.8B active / 25.2B total) — Mixture of Experts: активирует 3.8B параметров за проход, а результаты как у 30B+ dense моделей. #6 на Arena AI (1441 балл)
31B Dense — флагман. #3 на Arena AI (1452 балла), обходит Qwen 3.5 32B по AIME и Codeforces

E2B и E4B — единственные sub-5B мультимодальные модели с 128K контекстом. Ни Llama 4, ни Qwen 3.5 не предлагают ничего подобного для edge.

Бенчмарки: математика и код — сильная сторона

31B Dense:

AIME 2026 — 89.2% (Qwen 3.5 27B: ~85%)
LiveCodeBench v6 — 80.0% (Qwen 3.5 27B: 83.6%)
MMLU Pro — 85.2% (Qwen 3.5 27B: 86.1%)
GPQA Diamond — 84.3% (Qwen 3.5 27B: 85.5%)
Codeforces ELO — 2150 (Qwen 3.5 27B: ~1900)
MMMU Pro (vision) — 76.9%
Arena AI — #3 глобально

Qwen 3.5 чуть впереди по общим knowledge-бенчмаркам (MMLU Pro, GPQA). Gemma 4 доминирует по математике и соревновательному программированию. Llama 4 Scout с его 109B параметров (17B активных) отстаёт от обоих на reasoning-тестах.

Числа выше — из официальных model cards Google и независимых лидербордов Arena AI. Независимые замеры на Codeforces ELO подтверждены сообществом на Hugging Face.

Apache 2.0 — почему это важнее бенчмарков

Предыдущие версии Gemma шли с ограничительной лицензией: Google мог отозвать права, запретить определённые use-case. Корпоративные юристы нервничали. С Gemma 4 это кончилось:

Полная коммерческая свобода
Никаких ограничений на MAU (у Llama 4 — потолок 700M MAU)
Можно модифицировать, распространять, встраивать куда угодно
Нет требований attribution (у Llama 4 — обязательный "Built with Llama")

Qwen 3.5 тоже под Apache 2.0, так что тут паритет. Llama 4 остаётся с кастомной лицензией, которая начинает жать при масштабировании.

Function calling: 6 специальных токенов

Большинство open-weight моделей реализуют function calling через prompt engineering — засовывают JSON-схему в системный промпт и надеются, что модель не сгаллюцинирует. Gemma 4 обучена с шестью специальными токенами, которые создают структурированный lifecycle для вызова инструментов:

<|tool> ... <tool|> — определение инструмента (имя, описание, параметры)
<|tool_call> ... <tool_call|> — модель запрашивает вызов
<|tool_result> ... <tool_result|> — результат возвращается модели

На практике это выглядит так:

<start_of_turn>system
You are a helpful assistant with access to tools.

<|tool>
{
  "name": "get_weather",
  "description": "Get current weather for a location",
  "parameters": {
    "type": "object",
    "properties": {
      "location": {"type": "string"},
      "units": {"type": "string", "enum": ["celsius", "fahrenheit"]}
    },
    "required": ["location"]
  }
}
<tool|>
<end_of_turn>

Модель генерирует <|tool_call> с JSON аргументами, вы выполняете функцию, отправляете результат в <|tool_result>. Цикл повторяется. Inference-движки (llama.cpp, vLLM, Ollama) парсят эти токены детерминистически, без угадывания.

Для сложных задач есть configurable thinking mode — модель показывает пошаговое рассуждение перед вызовом инструмента. Включается для multi-step планирования, выключается для простых запросов ради скорости.

Мультимодальность: текст, картинки, видео и аудио

Все четыре модели принимают текст и картинки. E2B и E4B добавляют аудио (до 30 секунд на запрос) через USM-style conformer encoder.

Gemma 4 — текст, картинки, видео (через frame extraction), аудио (E2B/E4B)
Llama 4 — текст, картинки. Видео и аудио — нет
Qwen 3.5 — текст, картинки, native видео. Аудио — нет

Для голосовых ассистентов и IoT с микрофоном Gemma 4 E2B/E4B — единственный вариант среди open-weight моделей.

Как запустить локально

Ollama (самый простой путь)

# 31B Dense (нужно ~20 ГБ VRAM для Q4)
ollama run gemma4:31b

# 26B MoE (нужно ~16 ГБ VRAM для Q4)
ollama run gemma4:26b

# E4B — для ноутбуков и слабых GPU
ollama run gemma4:e4b

llama.cpp (с function calling)

# Скачать GGUF
huggingface-cli download google/gemma-4-31b-it-GGUF

# Запустить сервер с поддержкой function calling
llama-server -m gemma-4-31b-it-Q4_K_M.gguf \
  --port 8080 --host 0.0.0.0 --jinja

Флаг --jinja включает правильный рендеринг шаблонов для tool-токенов. MCP-клиенты подключаются к http://localhost:8080/v1/chat/completions через стандартный OpenAI tools API.

vLLM (для продакшена)

vllm serve google/gemma-4-31b-it \
  --enable-auto-tool-choice \
  --max-model-len 131072

Gemma Gem — AI-агент прямо в браузере

Параллельно с Gemma 4 появился Gemma Gem (269 звёзд за сутки) — Chrome-расширение, которое запускает Gemma 4 E2B/E4B целиком в браузере через WebGPU. Ноль API-ключей, ноль облака, данные не покидают машину.

Расширение умеет читать страницы, кликать элементы, заполнять формы, выполнять JavaScript. Архитектура: offscreen document (модель + agent loop) ↔ service worker (роутинг) ↔ content script (DOM-инструменты).

~500 МБ для E2B, ~1.5 ГБ для E4B. Первый запуск кеширует модель, дальше работает офлайн.

Подводные камни

VRAM-прожорливость. При одинаковом Q4-квантовании Gemma 4 31B помещает ~20K контекста на RTX 5090, тогда как Qwen 3.5 27B на той же карте влезает со 190K контекстом. Заявленные 256K токенов требуют значительно больше памяти, чем у конкурентов. Для реального использования длинного контекста понадобится мульти-GPU.
Тулинг ломается. На момент релиза HuggingFace Transformers не распознавал архитектуру Gemma 4. PEFT не справляется с новыми типами слоёв. QLoRA-файнтюнинг требует костылей. Баг в vLLM: MXFP4-квантизация 26B MoE крашится при загрузке весов. В llama.cpp — аномально долгая генерация.
26B MoE медленнее, чем ожидаешь. Активирует 3.8B параметров, но выдаёт ~11 tok/s на RTX 4090 (Qwen 3.5 27B: ~35 tok/s). Все 25.2B параметров должны сидеть в VRAM, плюс overhead MoE-роутинга. Для latency-sensitive приложений (чатботы, real-time агенты) лучше взять 31B Dense (~25 tok/s) или Qwen 3.5.
31B на Apple Silicon — "super slow". На Ollama с M1 Max 64 ГБ пользователи жалуются на скорость. Оптимизации MLX ещё сырые.
Multi-GPU: OOM на HuggingFace. При попытке распределить 31B модель между GPU — CUDA out of memory. Workaround: использовать vLLM вместо native Transformers.

Альтернативы

Qwen 3.5 27B — Apache 2.0, быстрее по инференсу (~35 tok/s vs ~25), чуть выше по MMLU Pro и GPQA. Но слабее по математике (AIME: ~85% vs 89.2%) и нет аудио на edge. Самый широкий размерный ряд: от 0.8B до 397B
Llama 4 Scout (109B total / 17B active) — 10M контекстное окно, что вне конкуренции. Но кастомная лицензия с потолком 700M MAU, нет моделей для edge (~70 ГБ VRAM минимум), слабее по reasoning-бенчмаркам
Phi-4 (Microsoft) — компактные модели для edge, но без Apache 2.0 и без мультимодальности уровня Gemma 4. Уже проигрывает Gemma 4 E4B по бенчмаркам

Вердикт

Если строишь агента для edge/mobile с аудио — Gemma 4 E2B/E4B без альтернатив, конкурентов просто нет. Для workstation-задач на одной GPU выбор между Gemma 4 31B и Qwen 3.5 27B: Qwen быстрее, Gemma сильнее в математике и коде. Apache 2.0 у обоих, так что лицензия не решает. Не стоит брать 26B MoE для real-time — overhead роутинга убивает latency. И главное: подожди неделю-две, если планируешь файнтюнинг: тулинг (PEFT, Transformers, vLLM) ещё не догнал релиз.

Как попробовать

Поставь Ollama, если ещё нет: curl -fsSL https://ollama.com/install.sh | sh
Запусти 31B: ollama run gemma4:31b (нужно ~20 ГБ VRAM) или E4B для слабых машин: ollama run gemma4:e4b
Попробуй function calling через llama.cpp сервер с флагом --jinja — документация Google
Для агентов — подключи MCP через OpenAI-compatible API на localhost:8080
Хочешь в браузере без облака — поставь Gemma Gem из исходников

Gemma 4 — Apache 2.0, function calling из коробки и 89% AIME. Google выложил open-weight модель, которая делает cloud API необязательным

Gemma 4 — Apache 2.0, function calling из коробки и 89% AIME. Google выложил open-weight модель, которая делает cloud API необязательным

Четыре модели на все случаи

Бенчмарки: математика и код — сильная сторона

Apache 2.0 — почему это важнее бенчмарков

Function calling: 6 специальных токенов

Мультимодальность: текст, картинки, видео и аудио

Как запустить локально

Ollama (самый простой путь)

llama.cpp (с function calling)

vLLM (для продакшена)

Gemma Gem — AI-агент прямо в браузере

Подводные камни

Альтернативы

Вердикт

Как попробовать

Похожие статьи

Google слил три модели за 4 дня до I/O — Spark Agent с твоими паролями, Omni вместо Veo, Gemini 3.5 не дотянет до Mythos

Claude Mythos — модель Anthropic, которую решили не выпускать. 93.9% SWE-bench и побег из sandbox по email

claude-context — Claude Code наконец видит весь твой монорепо. 25× меньше токенов и 10K звёзд за два месяца