> 20 May 2026 · 10 мин

Gemini 3.5 Flash — Flash, который впервые бьёт собственный Pro. И стоит в 3 раза дороже прошлой Flash

ai agents llm gemini google coding google-io-2026

Gemini 3.5 Flash — Flash, который впервые бьёт собственный Pro. И стоит в 3 раза дороже прошлой Flash

Google наконец сделал то, что обещал ещё в феврале: на I/O 2026 (19 мая) выкатил Gemini 3.5 Flash. И сразу с пугающим заявлением: Flash-модель бьёт Gemini 3.1 Pro на кодинге и агентских задачах.

TL;DR: Gemini 3.5 Flash доступна сегодня. 76.2% Terminal-Bench 2.1, 83.6% MCP Atlas, 84.2% CharXiv. В 4 раза быстрее других frontier-моделей, 1M контекст, $1.50/$9 за миллион токенов. Бьёт Gemini 3.1 Pro на агентах и кодинге, проигрывает на чистом reasoning и длинном контексте. Цена выросла в 3 раза от 3 Flash, но всё ещё на 40% ниже 3.1 Pro. Pro-версия — через месяц.

Gemini 3.5 Flash performance vs Claude Opus 4.7 and GPT-5.5

Почему это вообще новость

До сегодняшнего дня в любой LLM-таблице был простой шаблон: Pro для сложного, Flash для дешёвого. Pro бьёт всё, Flash экономит токены. Этот шаблон сломался.

Gemini 3.5 Flash обходит Gemini 3.1 Pro почти везде, где речь не про чистую эрудицию:

Terminal-Bench 2.1 — 76.2% vs 70.3% (+5.9)
MCP Atlas — 83.6% vs 78.2% (+5.4)
OSWorld-Verified — 78.4% vs 76.2% (+2.2)
Finance Agent v2 — 57.9% vs 43.0% (+14.9) — самый большой скачок в наборе
GDPval-AA — 1656 Elo vs 1314 (+342 Elo на «экономически ценной работе»)

Где Pro всё ещё впереди: Humanity's Last Exam (44.4% vs 40.2%) и ARC-AGI-2 (77.1% vs 72.1%). То есть если задача звучит как «ответь на сложный вопрос за один раунд», бери Pro. Если задача про «спланируй, вызови 10 инструментов, дойди до конца», теперь твоя ставка на Flash.

И всё это в 4 раза быстрее по выходным токенам, чем у конкурирующих frontier-моделей по замерам Google.

Артификал Аналисис: интеллект против скорости — Gemini 3.5 Flash в правом верхнем квадранте

Цена выросла в 3 раза. И это важно

Прошлая Gemini 3 Flash стоила $0.50 / $3.00 за миллион токенов. Новая 3.5 Flash идёт по $1.50 / $9.00. Рост в 3 раза. На фоне DeepSeek V4 Flash за $0.14 / $0.28 выглядит совсем грустно.

Но если сравнивать с тем, что 3.5 Flash реально заменяет (то есть с 3.1 Pro за $2.50 / $15.00), картина другая: новый Flash на 40% дешевле по входу и на 40% дешевле по выходу, при сопоставимом или лучшем качестве на агентских задачах.

Главный рычаг экономии тут — кеш. Цифры по тарифу:

Cached input — $0.15 / 1M (то есть 90% скидка)
Не-глобальные регионы — $1.65 / $9.90 / $0.165 (на 10% дороже)
Output cap — 64K токенов
Context window — 1,048,576 токенов

Для агентских харнессов, которые гоняют один и тот же system prompt через десятки tool-вызовов, эффективная стоимость падает резко. Если ваш агент делает 30 turn-ов с одинаковым контекстом, большая часть платежей уйдёт по $0.15/M, а не $1.50/M.

Что новое для разработчиков: Managed Agents с AGENTS.md и SKILL.md

Это самая интересная часть запуска, и её многие пропустили за гонкой бенчмарков.

Google вместе с моделью открыл Managed Agents в Gemini API. Одним вызовом API ты поднимаешь агента, который рассуждает и дёргает инструменты прямо внутри изолированного Linux-sandbox с сохранением файлов и стейта между запросами. Все managed-агенты построены на 3.5 Flash и Antigravity harness.

Самое забавное тут в формате конфигурации:

from google import genai

client = genai.Client()

# Создаём агента из markdown-файлов
agent = client.agents.create(
    name="my-coding-agent",
    files=[
        "AGENTS.md",   # системные инструкции, скоуп, политика
        "SKILL.md",    # описание скилла и тулов
        "tools/*.py"   # реальный код тулов
    ],
    model="gemini-3.5-flash"
)

# Один вызов = поднимается изолированный Linux-sandbox
response = client.interactions.run(
    agent=agent.id,
    prompt="Find all TODOs in this repo, group by file, propose fixes"
)

Узнаёшь? Это файл-в-файл повторение AGENTS.md и SKILL.md из Claude Code Skills, которые Anthropic закрепил в апреле. То есть Google тихо принял стандарт конкурента, что хорошо для разработчиков. Один и тот же markdown-агент теперь можно гонять через любого вендора без переписывания.

В Gemini Enterprise Agent Platform тот же интерфейс (managed-агенты, sandbox, AGENTS.md) доступен в private preview.

Antigravity 2.0 и Spark — куда это всё цепляется

Вместе с моделью Google переименовал и расширил агент-стек:

Antigravity 2.0 — отдельное десктопное приложение. Параллельные субагенты, scheduled tasks для фоновой автоматизации, интеграции с AI Studio, Android Studio и Firebase. Запускается как полноценная IDE-альтернатива.
Antigravity CLI — терминальный клиент. Старый gemini CLI мигрируют на него. Пытались сделать ответ Claude Code, и пакет SDK получился сопоставимый по поверхности — antigravity run, antigravity skill, etc.
Antigravity SDK — программный доступ к тому же harness, который Google использует в своих продуктах.
Gemini Spark — личный AI-агент, работает 24/7 на 3.5 Flash. Раскатывается trusted-тестерам сейчас, beta для Google AI Ultra US — через неделю. По функциональности — прямой ответ ChatGPT Pulse и Claude Memory.

В сумме это значит, что Google перестал быть «компанией с моделью» и начал быть «компанией с агентным стеком». Чем поздно, конечно. Claude Code и Codex CLI уже захватили mindshare разработчиков.

Реальные внедрения

Из партнёров, которых Google назвал с конкретными задачами (а не «логотип в плашке»):

Shopify — параллельные субагенты для прогнозов роста мерчантов на глобальных данных
Macquarie Bank — анализ 100+-страничных финансовых документов для онбординга клиентов с низкой задержкой
Salesforce Agentforce — многоагентная автоматизация enterprise-задач с сохранением контекста через multi-turn tool calling
Ramp — мультимодальный OCR на сложных инвойсах + reasoning по историческим паттернам
Xero — автономные workflow на несколько недель (поиск поставщиков, сбор данных для 1099-форм)
Databricks — агентный мониторинг и retrieval по огромным датасетам, диагностика и фиксы для data-команд

Box заявил +19.6% к точности на их enterprise evaluation set vs 3 Flash. Armadin (cyber-security) — +42% на long-horizon multi-turn cyber-бенчмарке при −72% потреблении токенов. Числа от вендоров, конечно, но конкретика лучше, чем «партнёрство объявлено».

Подводные камни

Эйфория Google в день анонса всегда на максимуме, поэтому стоит читать мелкий шрифт.

1. На самом деле GPT-5.5 всё ещё лидирует по Terminal-Bench. Google ставит 3.5 Flash против 3.1 Pro и хвастается +5.9 пунктами. Но рядом в той же таблице сидит GPT-5.5 с 78.2%. То есть на чистом терминальном кодинге 3.5 Flash всё ещё проигрывает 2 пункта OpenAI. И Claude Opus 4.7 бьёт всех на SWE-Bench Pro Public (64.3% vs 55.1% у Flash). Google свою таблицу нарисовал так, чтобы сравнение шло с тем, что выгодно сравнивать.

2. Цена выросла втрое от прошлого Flash. Reddit-тред r/GeminiAI открытым текстом называет это «benchmaxxed fraud»: «стоит в 3 раза дороже предыдущей версии и в 30 раз дороже Gemini 1.5 flash». Один пользователь на своих рабочих задачах поставил 3.5 Flash на 13-е место, ниже 3.1 Pro, 3.1 Flash Lite и даже Gemini 3 Flash. Бенчмарки от вендора и реальная производительность на твоих задачах никогда не совпадают полностью.

3. Галлюцинации остаются фамильной болезнью Gemini. В прошлом замере Artificial Analysis у Gemini 3 Flash был 91% hallucination rate, самая высокая частота фабрикации ответов на грани компетенции среди всех frontier-моделей. У 3.1 Pro это удалось снизить до 50% калибровкой, но всё ещё в 2 раза хуже Claude Opus 4.7 (около 28%). Google в model card утверждает «новый interpretability tooling и усиленные guardrails», но независимых замеров hallucination rate на 3.5 Flash пока нет. До них ставь верификацию выходов.

4. Long-context просел. На MRCR v2 (128k) Flash даёт 77.3% против 84.9% у 3.1 Pro. На полном миллионе токенов выходит 26.6% (это лучшая Google-метрика среди их моделей, но всё равно низкая в абсолюте). Контекст в 1M заявлен, но не верь маркетингу про «качественную работу на всей длине». На пуш-нид-через-стог-сена модель просаживается.

5. Knowledge cutoff: путаница в датах. Официальная страница модели на DeepMind пишет «Knowledge cutoff: January 2025». LLM Stats показывает «January 2026». Google публично не уточнил, и это уже подняло вопросы на форуме AI Studio. Если строишь приложение, где модель должна знать события 2025 года, проверь сам, что она помнит про Q4 2025.

6. Тонкий шрифт про safeguards. Google говорит «новые cyber и CBRN safeguards». На практике это означает, что некоторые запросы по безопасности, которые работали в 3.1 Pro, теперь будут отвергаться. Если у тебя security-аудитный пайплайн, придётся пересмотреть промпты.

Альтернативы

Claude Opus 4.7 — выигрывает на SWE-Bench Pro (64.3%) и Humanity's Last Exam (46.9%). Дороже ($15/$75 за 1M), но если задача — «правильный код, который точно компилируется» — Anthropic пока обходит.
GPT-5.5 (xhigh) — бьёт Gemini на Terminal-Bench 2.1 (78.2%), OSWorld-Verified (78.7%), ARC-AGI-2 (84.6%) и долгом контексте (94.8% MRCR v2 128k). OpenAI на агентных бенчах остаётся золотым стандартом, но цена выше и нет 1M контекста.
Gemini 3.1 Pro — всё ещё лучше на чистом reasoning, дольше отрабатывает контексты больше 500K. Если задача — research или дип-анализ длинного документа в один проход, Pro пока не списан.
DeepSeek V4 Flash — $0.14 / $0.28 за 1M, открытые веса, 90% HumanEval. Дешевле Google на порядок. Для бэк-офисных тасков, где галлюцинации не критичны (батч-обработка, текстовые трансформации, классификация) — нет смысла платить Google в 10 раз больше.

Вердикт

Если ты строишь агента с долгим горизонтом (multi-step coding, OCR-пайплайн на инвойсы, скрипты по data warehouse, MCP-tooling), переходи на Gemini 3.5 Flash сегодня. Точка цены отличная, MCP Atlas 83.6% означает, что цепочки tool-вызовов реально работают, а sandbox в Managed Agents экономит недели на инфраструктуре.

Если у тебя single-turn задачи (классификация, перевод, простой RAG), оставайся на 3 Flash или DeepSeek V4 Flash. Платить 3× за то, что тебе не нужно, нет никакого смысла.

Если у тебя research-задачи на длинном контексте или сложное reasoning, жди 3.5 Pro в июне или оставайся на Claude Opus 4.7. У Flash просто не та формула, чтобы тягаться там.

И не выводи 3.5 Flash в продакшен без независимого замера на твоих собственных промптах. Google-бенчмарки нарисованы выгодно, реальные задачи могут показать неожиданности, особенно на hallucinations.

Как попробовать

В чате — открой gemini.google.com, 3.5 Flash уже стоит default-моделью.
В API — зарегистрируйся в Google AI Studio, создай ключ, гоняй с моделью gemini-3.5-flash.
Managed Agents — иди на ai.dev/managed-agents, там готовые шаблоны и API agent skill, который помогает scaffolding-у твоего собственного агента.
Antigravity CLI — npm install -g @google/antigravity (детали в developer docs).
Бенчмарки на твоих задачах — прежде чем переписывать прод, прогони 50-100 твоих реальных промптов через 3.5 Flash и 3 Flash параллельно, посчитай deltа по точности и по цене. Маркетинг не заменит твои метрики.

Gemini 3.5 Flash — Flash, который впервые бьёт собственный Pro. И стоит в 3 раза дороже прошлой Flash

Gemini 3.5 Flash — Flash, который впервые бьёт собственный Pro. И стоит в 3 раза дороже прошлой Flash

Почему это вообще новость

Цена выросла в 3 раза. И это важно

Что новое для разработчиков: Managed Agents с AGENTS.md и SKILL.md

Antigravity 2.0 и Spark — куда это всё цепляется

Реальные внедрения

Подводные камни

Альтернативы

Вердикт

Как попробовать

Похожие статьи

Unlimited-OCR — Baidu взяла идею DeepSeek OCR, починила её главный потолок и обогнала оригинал

GPT-5.6 на низком старте: нашли финальный чекпоинт kindle-alpha, релиз — вопрос дней. Но половину «утечек» дорисовали

Claude Fable 5 — Anthropic открыл публике модель Mythos-класса. SOTA-кодинг, который сам отказывается ломать чужие системы