Nano Banana 2 — Google выкатил генератор картинок, который делает 4K за 5 секунд и стоит вдвое дешевле Pro
Nano Banana 2 — Google выкатил генератор картинок, который делает 4K за 5 секунд и стоит вдвое дешевле Pro
Google взял свою Pro-модель для генерации картинок, пересадил на архитектуру Flash — и получил Nano Banana 2. Формально это Gemini 3.1 Flash Image (кодовое имя GEMPIX2), но маркетинг у Google сегодня работает лучше инженеров: название «Nano Banana» стало вирусным ещё с первой версии в августе 2025-го, и теперь Google сам показывает «Loading Nano Banana 2…» прямо в интерфейсе Gemini.
TL;DR: Nano Banana 2 генерирует картинки от 512px до 4K за 4-6 секунд вместо 20-60 у Pro, стоит ~$0.067 за изображение (вдвое дешевле), держит до 5 персонажей и 14 объектов в рамках одного воркфлоу. Убийственные фишки — real-time grounding через Google Search (генерит картинку с актуальной погодой), перевод текста прямо на изображении без изменения композиции и thinking mode для сложных промптов. API:
gemini-3.1-flash-image-preview.
Что нового по сравнению с Pro
Вся линейка Nano Banana до сих пор выглядела так: базовый Nano Banana (август 2025) → Nano Banana Pro (ноябрь 2025) → и теперь Nano Banana 2. Pro давал лучшее качество, но генерил картинку 20-60 секунд. Nano Banana 2 — это компромисс: качество близкое к Pro, но на архитектуре Flash, которая отрабатывает за 4-6 секунд.
- Скорость — 4-6 секунд вместо 20-60. Это не «чуть быстрее», это принципиально другой UX — можно итерировать в реальном времени
- Разрешение — от 512px до 4K, 14 aspect ratio включая 21:9 и экзотику вроде 1:8
- Цена — ~$0.067 за картинку против $0.134 у Pro. Для 10 000 изображений в месяц — экономия ~$8 000 в год
- Текст — рендерит текст на изображении на 100+ языках с точностью ~90% (у Pro — 94%)
- Консистентность — до 5 персонажей и 14 объектов в одном воркфлоу сохраняют внешность между кадрами
Фишки, которые реально впечатляют
Real-time grounding через Google Search
Nano Banana 2 — единственная модель генерации изображений, которая лезет в интернет прямо во время генерации. Пишешь: «фотореалистичный вид из окна квартиры на Эйфелеву башню с реальной погодой в Париже прямо сейчас» — модель проверяет через Google Search, что в Париже облачно, и генерирует картинку с правильным небом. Ни Midjourney, ни DALL-E так не умеют — они работают только с тем, что знали на момент обучения.
Для разработчиков это включается одной строкой:
response = client.models.generate_content( model="gemini-3.1-flash-image-preview", contents="Фотореалистичный MacBook Pro M5 на столе в кофейне", config=types.GenerateContentConfig( response_modalities=['TEXT', 'IMAGE'], tools=[{"google_search": {}}] ) )
Модель подтянет реальные фото продукта из поиска и учтёт их при генерации — вместо того, чтобы фантазировать, как выглядит «MacBook Pro M5».
Консистентность персонажей между кадрами
Раньше для серии картинок с одним персонажем приходилось либо мучить ControlNet, либо рисовать руками. Nano Banana 2 делает это нативно: генерируешь кибер-детектива с голубым визором — потом помещаешь его в неоновый ночной рынок, стерильный корпоративный лобби, пыльную пустошь. Шрамы на лбу, нашивки на пальто, форма визора — всё сохраняется между кадрами.
В тестах Analytics Vidhya модель удержала детали персонажа в 3 разных окружениях — без дополнительных промптов, без reference images, просто в рамках одного чата.
Для сторибординга это прорыв: написал «создай историю из 6 кадров про трёх пушистых друзей, которые строят домик на дереве» — и получил 6 картинок, где каждый персонаж выглядит одинаково.
Перевод текста прямо на картинке
Сгенерировал рекламный макет наушников с текстом "Feel The Bass". Потом написал: «локализуй текст на японский — "低音を感じろ" — не меняя композицию, свет и цвета». Модель заменила ТОЛЬКО текст, не тронув ничего остального. Проверили через Google Translate — почти 100% совпадение с оригинальным переводом.
Для маркетинговых команд это означает: один макет → промпт «переведи на 5 языков» → пять локализованных версий без дизайнера.
Семантический эдитинг — меняет только то, что попросили
Это не регенерация, а точечное редактирование. Тест: сцена с людьми на улице у водовозки. Промпт: «поменяй атмосферу на цирк, замени одежду на костюмы, сделай как тир. Не меняй субъектов и их позиции». Результат: водовозка, дерево, дым из трубы — всё на месте. Одежда поменялась, атмосфера поменялась. Люди стоят где стояли.
Thinking mode — reasoning перед рендерингом
Для сложных промптов с layout-ограничениями можно включить thinking mode:
response = client.models.generate_content( model="gemini-3.1-flash-image-preview", contents="Инфографика: цикл солнечной энергии, 5 этапов, стрелки между ними, подписи без ошибок", config=types.GenerateContentConfig( response_modalities=['TEXT', 'IMAGE'], thinking_config=types.ThinkingConfig( thinking_level="HIGH" ) ) )
На уровне HIGH модель дольше думает перед генерацией — разбирает промпт, планирует композицию, а потом рисует. Под капотом цепочка: Planning → Generation → Review → Self-Correction → Output. В тесте с инфографикой солнечной энергии — ноль опечаток в текстовых подписях.
Уровни: MINIMAL (дефолт, максимальная скорость), HIGH (больше reasoning, точнее результат), DYNAMIC (модель сама решает, сколько думать).
Как попробовать через API
Минимальный пример на Python (нужен google-genai >= 1.51.0):
from google import genai from google.genai import types client = genai.Client() response = client.models.generate_content( model="gemini-3.1-flash-image-preview", contents="Кот-программист в наушниках за ноутбуком, pixel art", config=types.GenerateContentConfig( response_modalities=['TEXT', 'IMAGE'], image_config=types.ImageConfig( aspect_ratio="16:9", image_size="2K" ), ) ) for part in response.parts: if part.text: print(part.text) elif image := part.as_image(): image.save("cat_developer.png")
Поддерживаемые aspect ratio: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9. Разрешения: 512px, 1K (дефолт), 2K, 4K.
Для редактирования — передаёте картинку + промпт:
image_bytes = Path("photo.jpg").read_bytes() response = client.models.generate_content( model="gemini-3.1-flash-image-preview", contents=[ types.Part.from_bytes(data=image_bytes, mime_type="image/jpeg"), "Замени фон на закат над океаном" ], config=types.GenerateContentConfig( response_modalities=['TEXT', 'IMAGE'] ) )
Для многоходовых сессий с сохранением контекста между запросами используйте thought_signature — модель вернёт его в ответе, и при следующем запросе передайте обратно, чтобы сохранить «память» о предыдущих генерациях.
Все изображения автоматически получают водяной знак SynthID и метаданные C2PA Content Credentials.
Где доступен
Nano Banana 2 стал дефолтной моделью генерации изображений в Gemini app — бесплатно, во всех режимах (Fast, Thinking, Pro). Подписчики AI Pro и Ultra сохраняют доступ к Nano Banana Pro через меню «три точки → Regenerate with Pro».
Для разработчиков — preview в AI Studio, Gemini API, Vertex AI, Gemini CLI и Antigravity. В Google Search модель раскатывается в 141 стране через Lens и AI Mode.
Подводные камни
Контент-фильтр IMAGE_SAFETY блокирует легитимный контент. Это не новая проблема — она тянется ещё с Nano Banana Pro. Разработчики на Google AI Forum жалуются, что фильтр блокирует fashion-фотографии нижнего белья для e-commerce, обычные портреты и маркетинговые макеты. Фильтр мониторит не только промпт, но и промежуточные результаты генерации — может заблокировать на полпути. Также в январе 2026 Google ужесточил ограничения на генерацию известных IP-персонажей — Disney, Marvel и подобное отклоняется сразу.
Качество «на уровне Pro» — заявление самого Google, независимых замеров пока нет. Единственный конкретный ориентир — текст на изображениях: ~90% точности против 94% у Pro. На Arena.ai модель показывает высокие позиции, но это рейтинг по пользовательским предпочтениям, а не объективный бенчмарк. Для задач, где качество критично (студийные съёмки, высокая детализация), Google сам рекомендует оставаться на Pro.
API в preview — без гарантий стабильности. Модель gemini-3.1-flash-image-preview — именно preview. API может измениться, rate limits жёстче, чем в GA, SLA нет. На бесплатных аккаунтах квоты быстро заканчиваются. Google не объявил дату перехода в GA.
Бесплатный тир с ограничениями. В Gemini app модель бесплатна, но некоторые возможности (включая ряд настроек в API) доступны только подписчикам Pro/Ultra. При активном использовании на бесплатном плане квота заканчивается быстро.
Альтернативы
- Midjourney v7 — непревзойдённое качество для художественных изображений и стилизации. Но текст на картинках рендерит с точностью ~71% (против 90% у NB2), нет официального API для автоматизации, и нет ничего похожего на real-time grounding. Для пайплайнов не подходит, для визуального арта — по-прежнему лучший
- GPT Image 1.5 (OpenAI) — лучшее следование сложным промптам и точный текст на изображениях. OpenAI заменил DALL-E на генерацию через GPT-4o, а теперь GPT Image 1.5. Но нет бесплатного тира для массовой генерации, цена выше, и нет аналога character consistency
- Flux Kontext (Black Forest Labs) — open-source модель на 12B параметров. Можно хостить у себя — никаких контент-фильтров, полный контроль. Хороший текст на картинках и стилизация. Обратная сторона — нужен GPU для инференса, собственная инфраструктура и больше ручной работы
Вердикт
Nano Banana 2 — это не «ещё одна модель для картинок». Real-time grounding, character consistency и перевод текста на изображении — три фишки, которых нет ни у кого из конкурентов в одном пакете. Если строишь пайплайн генерации маркетинговых визуалов, e-commerce карточек или сторибордов — переходи сейчас, $0.067 за картинку при 4-6 секундах генерации окупает себя моментально. Для fashion и любого контента «на грани» — готовься к битве с IMAGE_SAFETY фильтром, и в этом случае Flux Kontext на своём сервере решит проблему. А если нужна максимальная детализация без компромиссов — Nano Banana Pro никуда не делся, он просто спрятался в меню.
Как попробовать
- Бесплатно в Gemini app — открой gemini.google.com, выбери режим Fast и попроси «нарисуй кибер-детектива с голубым визором в неоновом городе». Nano Banana 2 уже дефолтная модель
- Проверь консистентность — в том же чате напиши «помести этого детектива в пустыню». Если шрамы и нашивки на месте — консистентность работает
- Попробуй grounding — попроси «фотореалистичный вид из окна на Биг-Бен с текущей погодой в Лондоне». Модель сама залезет в поиск
- Через API —
pip install google-genai>=1.51.0, ключ из AI Studio, модельgemini-3.1-flash-image-preview - Документация — ai.google.dev/gemini-api/docs/image-generation