Где Gemini 3.5 Pro? Google сорвал июньский дедлайн — а избранные уже кодят на флагмане через LMArena и Antigravity
Где Gemini 3.5 Pro? Google сорвал июньский дедлайн — а избранные уже кодят на флагмане через LMArena и Antigravity
На Google I/O 19 мая Сундар Пичаи показал поколение Gemini 3.5 и про старшую версию сказал почти дословно: «дайте нам ещё месяц». Месяц прошёл. Июнь кончается завтра. Pro так и не вышел.
24 июня Business Insider сообщил со ссылкой на источник: релиз официально сдвинули на июль. Это уже второй сорванный таргет Google по флагману за год. И тут самое интересное место: модель существует и ею пользуются — просто не ты. Её гоняют на LMArena под анонимными именами и раздают избранным в Antigravity и Vertex AI preview.
TL;DR: Gemini 3.5 Pro — флагман Google с заявленными 2M контекста, режимом Deep Think и ценой около $15/$60 за миллион токенов. Обещали в июне, перенесли на июль. Официального model card и независимых замеров нет. Нужен именно 2M контекст — альтернатив нет, подавай заявку на Vertex preview. Если укладываешься в 1M — бери Claude Opus 4.8 или GPT-5.5 сегодня, они втрое дешевле на output.
Что это за модель и зачем её ждут
Pro — верхний тир поколения. По задумке Google он забирает себе всё, что раньше уходило в дорогой Ultra: самый тяжёлый reasoning, длинный контекст, плотную мультимодалку. То есть отдельного «Ultra» больше не будет, его роль исполняет Pro.
Главная заявленная фича — окно в 2 миллиона токенов. Это вдвое больше, чем у Claude Opus 4.8 и GPT-5.5, у которых по 1M. На практике лишний миллион — не цифра в спеке ради цифры: в такое окно влезает весь монорепозиторий разом, и агенту не нужно дробить кодовую базу на куски и склеивать ответы. Для длинных автономных задач это реально меняет workflow.
Вторая фича — режим Deep Think: модель тратит больше «времени на подумать» перед ответом на сложных задачах. По позиционированию это прямой ответ на Extended Thinking у Claude и reasoning-режимы GPT-5.5.
Почему Flash уже работает, а Pro застрял
Тут спрятана деталь, которая и объясняет задержку. На том же I/O Google выпустил Gemini 3.5 Flash — и он сразу стал дефолтом в приложении Gemini и в AI Mode поиска. Flash вышел сильным: 4× по скорости output-токенов против сопоставимых моделей, и он обошёл прошлогодний 3.1 Pro на Terminal-Bench 2.1 (76,2%), MCP Atlas (83,6%) и CharXiv (84,2%). Получилась инверсия привычной иерархии — младшая Flash бьёт старшую Pro прошлого поколения.
Но есть оборотная сторона, и она прямо ведёт к переносу: Flash отлично кодит и рулит агентами, а вот на тяжёлом reasoning он просел относительно старого Pro. Именно этот провал должен закрыть 3.5 Pro. Плюс ранние тестеры жаловались, что Flash жадно жрёт токены, и Google, по данным Business Insider, переносит уроки Flash в Pro и собирает с тестеров ещё фидбэка. Звучит разумно, но за год это второй сдвиг даты — и тут уже вопрос не к качеству модели, а к исполнению.
Фон у переноса невесёлый. По данным Bind AI, пока Pro доводят, несколько старших исследователей Gemini ушли в Anthropic — ту самую контору, чьи Claude обходят Google в кодинге. Когда дедлайн срывается одновременно с оттоком людей, это плохая комбинация для морали команды.
«Для своих» — да, для тебя — пока нет
Самое любопытное в этой истории — модель не «в разработке», она работает прямо сейчас. Просто доступ к ней неравный: enterprise-клиенты Google Cloud тестируют её через Vertex AI preview, разработчиков пускают в Antigravity, а на LMArena она отвечает анонимно в слепых сравнениях. Так что фраза «модель ещё не готова» означает «не готова для тебя» — внутри Google и у партнёров она уже в проде-лайт. Это новая норма 2026 года: фронтир раздают избранным раньше, чем рынку.
Сколько будет стоить
Официальной цены нет, и оценки расходятся серьёзно. Techtimes называет ориентир около $15 за миллион input и $60 за миллион output — это примерно 10× к Flash. Аналитики ofox считают планку завышенной и ставят на $3 input / $18 output как наиболее вероятную, аргументируя тем, что выше начинается территория Anthropic и OpenAI, где Gemini теряет своё ценовое преимущество.
Кому верить — непонятно, пока Google молчит. Но даже по нижней оценке это заметно дороже Flash ($1,50/$9), и любой, кто гоняет агентов в цикле с кучей output-токенов, должен заранее посчитать экономику. При $60/M output воркфлоу на 10M токенов в день — это $600 в сутки только за модель.
Подводные камни
- Дата «июль» — это guidance, а не обязательство. Google уже промахнулся мимо двух таргетов за год. Строить роадмап с жёсткой зависимостью от июльского релиза — значит подставиться. Закладывай GA как бонус, а не как опору.
- Ни model card, ни независимых бенчмарков. Всё, что известно про 2M, Deep Think и цену — это заявления и ожидания, а не проверенные цифры. Реальные замеры появятся, только когда модель пустят к независимым тестерам. До тех пор любые «X% на бенчмарке» — это вера, а не данные.
- Поколение 3.5 уже показало регресс на reasoning. Flash просел на сложных рассуждениях относительно прошлого Pro. Нет гарантии, что 3.5 Pro полностью закроет эту дыру — может, поэтому его и доводят третий месяц.
- Ценовая неопределённость в разы. Расхождение оценок от $18 до $60 за output — это не «±10%», а двукратная разница. Планировать бюджет под несуществующий прайс — гиблое дело.
Альтернативы, которые работают уже сегодня
- Claude Opus 4.8 — 1M контекста, $5/$25, доступен прямо сейчас. Если твой кейс влезает в миллион токенов, ждать Gemini незачем: Opus выходит дешевле на output и уже прошёл независимую обкатку.
- GPT-5.5 — 1M через стандартный API (400K внутри Codex), $5/$30. Сильный универсал для агентов и ресёрча, без статуса «вот-вот выйдет».
- Gemini 3.5 Flash — $1,50/$9, 1M контекста, GA с 19 мая. Идеальный промежуточный вариант: если тебе не нужны именно 2M и Deep Think, Flash тянет большинство кодинг- и агентных задач и стоит копейки.
Вердикт
Нужен именно 2M контекст под длинный автономный pipeline — альтернатив сейчас нет, либо ждёшь июль, либо переписываешь архитектуру под 1M. В этом случае не сиди сложа руки: подай заявку на Vertex AI preview, доступ дают раньше публичного релиза. Всем остальным ждать смысла нет — Claude Opus 4.8 и GPT-5.5 доступны сегодня, втрое дешевле на output и уже проверены в бою. А главное правило: не вешай продакшен на дату «июль». Это намерение Google, а не обещание, и в 2026 году оно уже дважды не сбылось.
Как попробовать (что делать прямо сейчас)
- Хочешь пощупать саму модель до релиза — иди на LMArena, в слепых сравнениях периодически выпадает анонимный фронтир от Google. Угадывать, кто это, — отдельный спорт.
- Нужен ранний официальный доступ под реальный long-context кейс — оформляй заявку на Vertex AI preview через Google Cloud, enterprise-клиентов пускают первыми.
- Нужно решать задачи сегодня, а не в июле — ставь дефолтом Gemini 3.5 Flash для кодинга и агентов, а тяжёлый reasoning отправляй в Claude Opus 4.8 или GPT-5.5.
- Следи за датой через прогнозные рынки и Business Insider — если за июль не выйдет, это будет третий промах, и тогда вопросы к Google станут громче.