> · 4 мин

Gemini 3.1 Pro — Google выходит в лидеры по 13 из 16 бенчмарков

Gemini 3.1 Pro — Google выходит в лидеры по 13 из 16 бенчмарков

Google только что бросил на стол карту, которую индустрия не ожидала увидеть так рано. Gemini 3.1 Pro — не инкрементальный апдейт, а полноценный прыжок, который переставляет фигуры на доске AI-моделей. 13 из 16 бенчмарков — первое место.

TL;DR: Gemini 3.1 Pro набирает 77.1% на ARC-AGI-2 (вдвое больше предшественника), 80.6% на SWE-Bench Verified и ~2850 Elo на LiveCodeBench Pro. Доступен в preview через Google AI Studio, Gemini API, Gemini CLI и Antigravity. Claude Opus 4.6 и GPT-5.2 обогнаны по большинству метрик, но у каждого остались свои козыри.

Цифры, которые говорят сами за себя

Начну с того, что зацепило больше всего — ARC-AGI-2. Это бенчмарк, который проверяет способность модели решать совершенно новые логические паттерны. Не заученные задачи, не вариации из трейнинга — а чистый reasoning.

Gemini 3 Pro набирал ~35%. Gemini 3.1 Pro — 77.1%. Больше чем удвоение. Для сравнения, Claude Opus 4.6 здесь показывает 68.8%. Это серьёзный отрыв.

Остальные ключевые результаты:

  • GPQA Diamond (экспертные научные знания) — 94.3% (Claude Opus 4.6: 91.3%, GPT-5.2: 92.4%)
  • SWE-Bench Verified (агентный кодинг) — 80.6%, первое место
  • Terminal-Bench 2.0 — 68.5%, первое место
  • LiveCodeBench Pro — ~2850 Elo (предшественник: 2439)
  • AIME 2025 — 100% с code execution
  • MMMLU — 93.6%

LiveCodeBench — это не академический тест. Это свежие задачи с соревновательных платформ по программированию, которые обновляются в реальном времени. ~2850 Elo — это уровень, на котором модель решает задачи, где многие профессиональные разработчики застрянут.

Где конкуренты ещё впереди

Было бы нечестно писать, что Google всех порвал абсолютно везде. Есть ниши, где конкуренты держат позиции:

  • Claude Opus 4.6 выигрывает на Humanity's Last Exam (53.1% vs 51.4%) — тест на самые сложные вопросы, где нужны нетривиальные рассуждения
  • Claude Sonnet 4.6 Thinking Max лидирует в GDPval-AA Elo (экспертные задачи): 1633 vs 1317 у Gemini 3.1 Pro
  • GPT-5.3-Codex впереди на Terminal-Bench 2.0 в категории "best self-reported harness" (77.3%) и SWE-Bench Pro Public (56.8% vs 54.2%)

Картина ясная: Gemini 3.1 Pro — сильнейший универсал, но в узких дисциплинах Anthropic и OpenAI всё ещё конкурентны.

Что под капотом

Gemini 3.1 Pro сохраняет архитектурные основы Gemini 3 Pro:

  • Контекстное окно — 1 миллион токенов на вход, 64K на выход
  • Мультимодальность — текст, изображения, видео, аудио
  • Native tool use — модель нативно вызывает инструменты, включая Bash, поиск, выполнение кода
  • Thinking level parameter — можно контролировать глубину внутренних рассуждений модели

Главное изменение — quality рассуждений. Google говорит, что 3.1 Pro создан для задач, "где простого ответа недостаточно". По сути, это reasoning-апгрейд поверх уже мощного фундамента.

Где попробовать прямо сейчас

Модель вышла в preview и доступна сегодня:

  • Google AI Studio — бесплатно для интерактивного использования
  • Gemini API — через gemini-3.1-pro-preview в Google AI Studio
  • Gemini CLI — для тех, кто работает из терминала
  • Google Antigravity — агентная IDE от Google
  • Vertex AI — для enterprise
  • NotebookLM и Android Studio

Ценообразование пока на уровне Gemini 3 Pro: $2/$12 за миллион токенов (до 200K контекста), $4/$18 свыше 200K. Для preview — это разумно, при GA цены могут стать ещё ниже.

Что это значит для гонки моделей

Три месяца назад казалось, что Claude Opus 4.5 и GPT-5.2 задают темп. Google с Gemini 3 Pro был рядом, но не впереди. Сейчас 3.1 Pro перетасовал колоду — и сделал это быстро, без отдельной презентации-шоу.

Ход умный: вместо того чтобы ждать Gemini 4, Google выпускает промежуточные апдейты, которые двигают модель на первое место. Быстрые итерации вместо долгих циклов. Anthropic и OpenAI будут вынуждены отвечать.

И да, все ждут Gemini 3.1 Flash — если Pro настолько скаканул вперёд, то Flash-версия может стать лучшей моделью по соотношению цена/качество на рынке. Пока дату не объявили, но логично ожидать через несколько недель.

Кому это важно

  • Разработчику — откройте AI Studio, выберите gemini-3.1-pro-preview и попробуйте на своих задачах. Особенно стоит тестировать сложные кодовые и reasoning-задачи — здесь прогресс максимальный
  • Тимлиду — SWE-Bench 80.6% означает, что агентные кодинг-пайплайны с Gemini стали значительно надёжнее. Если ваша команда использует Gemini-агентов для code review или генерации — время пересмотреть метрики качества
  • Следишь за рынком — Google показал, что промежуточные апдейты могут быть мощнее, чем целые поколения моделей. Гонка AI-моделей ускоряется, и разрыв между топ-3 провайдерами сужается до минимума

Как попробовать

  1. Зайдите в Google AI Studio
  2. Выберите модель gemini-3.1-pro-preview в селекторе
  3. Попробуйте задачу, где предыдущие модели буксовали — сложная логика, multi-step reasoning, агентные сценарии
  4. Для API — используйте gemini-3.1-pro-preview как model ID в вызовах Gemini API
  5. В Gemini CLI: gemini --model gemini-3.1-pro-preview "your prompt here"

Конкуренция делает всех лучше. Google сегодня напомнил, что списывать их со счетов было рано.

$ ls ./related/

Похожие статьи

gpt-56-leak-goblins.md
GPT-5.6 нашли в логах Codex — утечка, ставки на Polymarket и гоблины, из-за которых OpenAI торопится
> · 9 мин

GPT-5.6 нашли в логах Codex — утечка, ставки на Polymarket и гоблины, из-за которых OpenAI торопится

Security-исследователь нашёл gpt-5.6 в rollout-логах Codex, Polymarket даёт 82% на релиз до 30 июня. Разбираем, что реально известно о новой модели OpenAI, при чём тут гоблины с приростом +3881% и почему июнь столкнёт лбами сразу три лаборатории.

llm openai leak ai-models
nvidia-cosmos-3-open-omni-model.md
NVIDIA Cosmos 3 — первая полностью открытая omni-модель, которая рассуждает о физике и сама генерирует мир для роботов
> · 7 мин

NVIDIA Cosmos 3 — первая полностью открытая omni-модель, которая рассуждает о физике и сама генерирует мир для роботов

NVIDIA выложила Cosmos 3 — первую полностью открытую omni-модель, которая в одном стеке рассуждает о физике и сама генерирует видео, звук и действия для роботов, беспилотников и складского видео-анализа. Разбираем архитектуру из двух башен, версии Nano 8B и Super 32B, 6 открытых датасетов, лицензию с поводком и зачем NVIDIA раздаёт фронтир бесплатно.

ai open-source multimodal nvidia
claude-opus-48-dynamic-workflows.md
Claude Opus 4.8 — Anthropic переписал Bun на Rust за 11 дней. И ещё четыре фичи, которые меняют день разработчика
> · 9 мин

Claude Opus 4.8 — Anthropic переписал Bun на Rust за 11 дней. И ещё четыре фичи, которые меняют день разработчика

Anthropic выпустил Claude Opus 4.8 — апгрейд по цене 4.7. Динамические workflow в Claude Code (Bun переписан на Rust за 11 дней), fast mode в три раза дешевле и effort-control в UI claude.ai.

ai agents llm claude
subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe