Gemma 4 — Apache 2.0, function calling из коробки и 89% AIME. Google выложил open-weight модель, которая делает cloud API необязательным
Gemma 4 — Apache 2.0, function calling из коробки и 89% AIME. Google выложил open-weight модель, которая делает cloud API необязательным
Google DeepMind 2 апреля тихо выложил Gemma 4, пока все обсуждали утечку Claude Mythos и закат GPT-4o (OpenAI официально выключил его 3 апреля). Четыре модели, Apache 2.0, native function calling через специальные токены, мультимодальность с аудио. И главное: flagship 31B модель поднялась на третье место в глобальном рейтинге Arena AI, обойдя Qwen 3.5 по математике и кодингу.
TL;DR: Gemma 4 — семейство из четырёх open-weight моделей (E2B, E4B, 26B MoE, 31B Dense) под Apache 2.0. Flagship 31B набирает 89.2% на AIME 2026, 2150 ELO на Codeforces и занимает #3 на Arena AI. Native function calling через 6 специальных токенов, мультимодальный вход (текст, картинки, видео, аудио на E2B/E4B), 256K контекст. Работает локально на RTX 4090 через Ollama.
Четыре модели на все случаи
Gemma 4 покрывает весь спектр, от телефона до рабочей станции:
- E2B (2.3B effective) — edge-модель для мобильных и IoT. Текст, картинки, аудио. 128K контекст. ~500 МБ на диске
- E4B (4.5B effective) — усиленная edge-версия с аудио. ~1.5 ГБ
- 26B MoE (3.8B active / 25.2B total) — Mixture of Experts: активирует 3.8B параметров за проход, а результаты как у 30B+ dense моделей. #6 на Arena AI (1441 балл)
- 31B Dense — флагман. #3 на Arena AI (1452 балла), обходит Qwen 3.5 32B по AIME и Codeforces
E2B и E4B — единственные sub-5B мультимодальные модели с 128K контекстом. Ни Llama 4, ни Qwen 3.5 не предлагают ничего подобного для edge.
Бенчмарки: математика и код — сильная сторона
31B Dense:
- AIME 2026 — 89.2% (Qwen 3.5 27B: ~85%)
- LiveCodeBench v6 — 80.0% (Qwen 3.5 27B: 83.6%)
- MMLU Pro — 85.2% (Qwen 3.5 27B: 86.1%)
- GPQA Diamond — 84.3% (Qwen 3.5 27B: 85.5%)
- Codeforces ELO — 2150 (Qwen 3.5 27B: ~1900)
- MMMU Pro (vision) — 76.9%
- Arena AI — #3 глобально
Qwen 3.5 чуть впереди по общим knowledge-бенчмаркам (MMLU Pro, GPQA). Gemma 4 доминирует по математике и соревновательному программированию. Llama 4 Scout с его 109B параметров (17B активных) отстаёт от обоих на reasoning-тестах.
Числа выше — из официальных model cards Google и независимых лидербордов Arena AI. Независимые замеры на Codeforces ELO подтверждены сообществом на Hugging Face.
Apache 2.0 — почему это важнее бенчмарков
Предыдущие версии Gemma шли с ограничительной лицензией: Google мог отозвать права, запретить определённые use-case. Корпоративные юристы нервничали. С Gemma 4 это кончилось:
- Полная коммерческая свобода
- Никаких ограничений на MAU (у Llama 4 — потолок 700M MAU)
- Можно модифицировать, распространять, встраивать куда угодно
- Нет требований attribution (у Llama 4 — обязательный "Built with Llama")
Qwen 3.5 тоже под Apache 2.0, так что тут паритет. Llama 4 остаётся с кастомной лицензией, которая начинает жать при масштабировании.
Function calling: 6 специальных токенов
Большинство open-weight моделей реализуют function calling через prompt engineering — засовывают JSON-схему в системный промпт и надеются, что модель не сгаллюцинирует. Gemma 4 обучена с шестью специальными токенами, которые создают структурированный lifecycle для вызова инструментов:
<|tool>...<tool|>— определение инструмента (имя, описание, параметры)<|tool_call>...<tool_call|>— модель запрашивает вызов<|tool_result>...<tool_result|>— результат возвращается модели
На практике это выглядит так:
<start_of_turn>system
You are a helpful assistant with access to tools.
<|tool>
{
"name": "get_weather",
"description": "Get current weather for a location",
"parameters": {
"type": "object",
"properties": {
"location": {"type": "string"},
"units": {"type": "string", "enum": ["celsius", "fahrenheit"]}
},
"required": ["location"]
}
}
<tool|>
<end_of_turn>
Модель генерирует <|tool_call> с JSON аргументами, вы выполняете функцию, отправляете результат в <|tool_result>. Цикл повторяется. Inference-движки (llama.cpp, vLLM, Ollama) парсят эти токены детерминистически, без угадывания.
Для сложных задач есть configurable thinking mode — модель показывает пошаговое рассуждение перед вызовом инструмента. Включается для multi-step планирования, выключается для простых запросов ради скорости.
Мультимодальность: текст, картинки, видео и аудио
Все четыре модели принимают текст и картинки. E2B и E4B добавляют аудио (до 30 секунд на запрос) через USM-style conformer encoder.
- Gemma 4 — текст, картинки, видео (через frame extraction), аудио (E2B/E4B)
- Llama 4 — текст, картинки. Видео и аудио — нет
- Qwen 3.5 — текст, картинки, native видео. Аудио — нет
Для голосовых ассистентов и IoT с микрофоном Gemma 4 E2B/E4B — единственный вариант среди open-weight моделей.
Как запустить локально
Ollama (самый простой путь)
# 31B Dense (нужно ~20 ГБ VRAM для Q4) ollama run gemma4:31b # 26B MoE (нужно ~16 ГБ VRAM для Q4) ollama run gemma4:26b # E4B — для ноутбуков и слабых GPU ollama run gemma4:e4b
llama.cpp (с function calling)
# Скачать GGUF huggingface-cli download google/gemma-4-31b-it-GGUF # Запустить сервер с поддержкой function calling llama-server -m gemma-4-31b-it-Q4_K_M.gguf \ --port 8080 --host 0.0.0.0 --jinja
Флаг --jinja включает правильный рендеринг шаблонов для tool-токенов. MCP-клиенты подключаются к http://localhost:8080/v1/chat/completions через стандартный OpenAI tools API.
vLLM (для продакшена)
vllm serve google/gemma-4-31b-it \ --enable-auto-tool-choice \ --max-model-len 131072
Gemma Gem — AI-агент прямо в браузере
Параллельно с Gemma 4 появился Gemma Gem (269 звёзд за сутки) — Chrome-расширение, которое запускает Gemma 4 E2B/E4B целиком в браузере через WebGPU. Ноль API-ключей, ноль облака, данные не покидают машину.
Расширение умеет читать страницы, кликать элементы, заполнять формы, выполнять JavaScript. Архитектура: offscreen document (модель + agent loop) ↔ service worker (роутинг) ↔ content script (DOM-инструменты).
~500 МБ для E2B, ~1.5 ГБ для E4B. Первый запуск кеширует модель, дальше работает офлайн.
Подводные камни
-
VRAM-прожорливость. При одинаковом Q4-квантовании Gemma 4 31B помещает ~20K контекста на RTX 5090, тогда как Qwen 3.5 27B на той же карте влезает со 190K контекстом. Заявленные 256K токенов требуют значительно больше памяти, чем у конкурентов. Для реального использования длинного контекста понадобится мульти-GPU.
-
Тулинг ломается. На момент релиза HuggingFace Transformers не распознавал архитектуру Gemma 4. PEFT не справляется с новыми типами слоёв. QLoRA-файнтюнинг требует костылей. Баг в vLLM: MXFP4-квантизация 26B MoE крашится при загрузке весов. В llama.cpp — аномально долгая генерация.
-
26B MoE медленнее, чем ожидаешь. Активирует 3.8B параметров, но выдаёт ~11 tok/s на RTX 4090 (Qwen 3.5 27B: ~35 tok/s). Все 25.2B параметров должны сидеть в VRAM, плюс overhead MoE-роутинга. Для latency-sensitive приложений (чатботы, real-time агенты) лучше взять 31B Dense (~25 tok/s) или Qwen 3.5.
-
31B на Apple Silicon — "super slow". На Ollama с M1 Max 64 ГБ пользователи жалуются на скорость. Оптимизации MLX ещё сырые.
-
Multi-GPU: OOM на HuggingFace. При попытке распределить 31B модель между GPU — CUDA out of memory. Workaround: использовать vLLM вместо native Transformers.
Альтернативы
- Qwen 3.5 27B — Apache 2.0, быстрее по инференсу (~35 tok/s vs ~25), чуть выше по MMLU Pro и GPQA. Но слабее по математике (AIME: ~85% vs 89.2%) и нет аудио на edge. Самый широкий размерный ряд: от 0.8B до 397B
- Llama 4 Scout (109B total / 17B active) — 10M контекстное окно, что вне конкуренции. Но кастомная лицензия с потолком 700M MAU, нет моделей для edge (~70 ГБ VRAM минимум), слабее по reasoning-бенчмаркам
- Phi-4 (Microsoft) — компактные модели для edge, но без Apache 2.0 и без мультимодальности уровня Gemma 4. Уже проигрывает Gemma 4 E4B по бенчмаркам
Вердикт
Если строишь агента для edge/mobile с аудио — Gemma 4 E2B/E4B без альтернатив, конкурентов просто нет. Для workstation-задач на одной GPU выбор между Gemma 4 31B и Qwen 3.5 27B: Qwen быстрее, Gemma сильнее в математике и коде. Apache 2.0 у обоих, так что лицензия не решает. Не стоит брать 26B MoE для real-time — overhead роутинга убивает latency. И главное: подожди неделю-две, если планируешь файнтюнинг: тулинг (PEFT, Transformers, vLLM) ещё не догнал релиз.
Как попробовать
- Поставь Ollama, если ещё нет:
curl -fsSL https://ollama.com/install.sh | sh - Запусти 31B:
ollama run gemma4:31b(нужно ~20 ГБ VRAM) или E4B для слабых машин:ollama run gemma4:e4b - Попробуй function calling через llama.cpp сервер с флагом
--jinja— документация Google - Для агентов — подключи MCP через OpenAI-compatible API на
localhost:8080 - Хочешь в браузере без облака — поставь Gemma Gem из исходников