> · 4 мин

Gemini 3.1 Pro — Google выходит в лидеры по 13 из 16 бенчмарков

Gemini 3.1 Pro — Google выходит в лидеры по 13 из 16 бенчмарков

Google только что бросил на стол карту, которую индустрия не ожидала увидеть так рано. Gemini 3.1 Pro — не инкрементальный апдейт, а полноценный прыжок, который переставляет фигуры на доске AI-моделей. 13 из 16 бенчмарков — первое место.

TL;DR: Gemini 3.1 Pro набирает 77.1% на ARC-AGI-2 (вдвое больше предшественника), 80.6% на SWE-Bench Verified и ~2850 Elo на LiveCodeBench Pro. Доступен в preview через Google AI Studio, Gemini API, Gemini CLI и Antigravity. Claude Opus 4.6 и GPT-5.2 обогнаны по большинству метрик, но у каждого остались свои козыри.

Цифры, которые говорят сами за себя

Начну с того, что зацепило больше всего — ARC-AGI-2. Это бенчмарк, который проверяет способность модели решать совершенно новые логические паттерны. Не заученные задачи, не вариации из трейнинга — а чистый reasoning.

Gemini 3 Pro набирал ~35%. Gemini 3.1 Pro — 77.1%. Больше чем удвоение. Для сравнения, Claude Opus 4.6 здесь показывает 68.8%. Это серьёзный отрыв.

Остальные ключевые результаты:

  • GPQA Diamond (экспертные научные знания) — 94.3% (Claude Opus 4.6: 91.3%, GPT-5.2: 92.4%)
  • SWE-Bench Verified (агентный кодинг) — 80.6%, первое место
  • Terminal-Bench 2.0 — 68.5%, первое место
  • LiveCodeBench Pro — ~2850 Elo (предшественник: 2439)
  • AIME 2025 — 100% с code execution
  • MMMLU — 93.6%

LiveCodeBench — это не академический тест. Это свежие задачи с соревновательных платформ по программированию, которые обновляются в реальном времени. ~2850 Elo — это уровень, на котором модель решает задачи, где многие профессиональные разработчики застрянут.

Где конкуренты ещё впереди

Было бы нечестно писать, что Google всех порвал абсолютно везде. Есть ниши, где конкуренты держат позиции:

  • Claude Opus 4.6 выигрывает на Humanity's Last Exam (53.1% vs 51.4%) — тест на самые сложные вопросы, где нужны нетривиальные рассуждения
  • Claude Sonnet 4.6 Thinking Max лидирует в GDPval-AA Elo (экспертные задачи): 1633 vs 1317 у Gemini 3.1 Pro
  • GPT-5.3-Codex впереди на Terminal-Bench 2.0 в категории "best self-reported harness" (77.3%) и SWE-Bench Pro Public (56.8% vs 54.2%)

Картина ясная: Gemini 3.1 Pro — сильнейший универсал, но в узких дисциплинах Anthropic и OpenAI всё ещё конкурентны.

Что под капотом

Gemini 3.1 Pro сохраняет архитектурные основы Gemini 3 Pro:

  • Контекстное окно — 1 миллион токенов на вход, 64K на выход
  • Мультимодальность — текст, изображения, видео, аудио
  • Native tool use — модель нативно вызывает инструменты, включая Bash, поиск, выполнение кода
  • Thinking level parameter — можно контролировать глубину внутренних рассуждений модели

Главное изменение — quality рассуждений. Google говорит, что 3.1 Pro создан для задач, "где простого ответа недостаточно". По сути, это reasoning-апгрейд поверх уже мощного фундамента.

Где попробовать прямо сейчас

Модель вышла в preview и доступна сегодня:

  • Google AI Studio — бесплатно для интерактивного использования
  • Gemini API — через gemini-3.1-pro-preview в Google AI Studio
  • Gemini CLI — для тех, кто работает из терминала
  • Google Antigravity — агентная IDE от Google
  • Vertex AI — для enterprise
  • NotebookLM и Android Studio

Ценообразование пока на уровне Gemini 3 Pro: $2/$12 за миллион токенов (до 200K контекста), $4/$18 свыше 200K. Для preview — это разумно, при GA цены могут стать ещё ниже.

Что это значит для гонки моделей

Три месяца назад казалось, что Claude Opus 4.5 и GPT-5.2 задают темп. Google с Gemini 3 Pro был рядом, но не впереди. Сейчас 3.1 Pro перетасовал колоду — и сделал это быстро, без отдельной презентации-шоу.

Ход умный: вместо того чтобы ждать Gemini 4, Google выпускает промежуточные апдейты, которые двигают модель на первое место. Быстрые итерации вместо долгих циклов. Anthropic и OpenAI будут вынуждены отвечать.

И да, все ждут Gemini 3.1 Flash — если Pro настолько скаканул вперёд, то Flash-версия может стать лучшей моделью по соотношению цена/качество на рынке. Пока дату не объявили, но логично ожидать через несколько недель.

Кому это важно

  • Разработчику — откройте AI Studio, выберите gemini-3.1-pro-preview и попробуйте на своих задачах. Особенно стоит тестировать сложные кодовые и reasoning-задачи — здесь прогресс максимальный
  • Тимлиду — SWE-Bench 80.6% означает, что агентные кодинг-пайплайны с Gemini стали значительно надёжнее. Если ваша команда использует Gemini-агентов для code review или генерации — время пересмотреть метрики качества
  • Следишь за рынком — Google показал, что промежуточные апдейты могут быть мощнее, чем целые поколения моделей. Гонка AI-моделей ускоряется, и разрыв между топ-3 провайдерами сужается до минимума

Как попробовать

  1. Зайдите в Google AI Studio
  2. Выберите модель gemini-3.1-pro-preview в селекторе
  3. Попробуйте задачу, где предыдущие модели буксовали — сложная логика, multi-step reasoning, агентные сценарии
  4. Для API — используйте gemini-3.1-pro-preview как model ID в вызовах Gemini API
  5. В Gemini CLI: gemini --model gemini-3.1-pro-preview "your prompt here"

Конкуренция делает всех лучше. Google сегодня напомнил, что списывать их со счетов было рано.

$ ls ./related/

Похожие статьи

subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe