> 27 Feb 2026 · 9 мин

Nano Banana 2 — Google выкатил генератор картинок, который делает 4K за 5 секунд и стоит вдвое дешевле Pro

Google взял свою Pro-модель для генерации картинок, пересадил на архитектуру Flash — и получил Nano Banana 2. Формально это Gemini 3.1 Flash Image (кодовое имя GEMPIX2), но маркетинг у Google сегодня работает лучше инженеров: название «Nano Banana» стало вирусным ещё с первой версии в августе 2025-го, и теперь Google сам показывает «Loading Nano Banana 2…» прямо в интерфейсе Gemini.

TL;DR: Nano Banana 2 генерирует картинки от 512px до 4K за 4-6 секунд вместо 20-60 у Pro, стоит ~$0.067 за изображение (вдвое дешевле), держит до 5 персонажей и 14 объектов в рамках одного воркфлоу. Убийственные фишки — real-time grounding через Google Search (генерит картинку с актуальной погодой), перевод текста прямо на изображении без изменения композиции и thinking mode для сложных промптов. API: gemini-3.1-flash-image-preview.

Что нового по сравнению с Pro

Вся линейка Nano Banana до сих пор выглядела так: базовый Nano Banana (август 2025) → Nano Banana Pro (ноябрь 2025) → и теперь Nano Banana 2. Pro давал лучшее качество, но генерил картинку 20-60 секунд. Nano Banana 2 — это компромисс: качество близкое к Pro, но на архитектуре Flash, которая отрабатывает за 4-6 секунд.

Скорость — 4-6 секунд вместо 20-60. Это не «чуть быстрее», это принципиально другой UX — можно итерировать в реальном времени
Разрешение — от 512px до 4K, 14 aspect ratio включая 21:9 и экзотику вроде 1:8
Цена — ~$0.067 за картинку против $0.134 у Pro. Для 10 000 изображений в месяц — экономия ~$8 000 в год
Текст — рендерит текст на изображении на 100+ языках с точностью ~90% (у Pro — 94%)
Консистентность — до 5 персонажей и 14 объектов в одном воркфлоу сохраняют внешность между кадрами

Фишки, которые реально впечатляют

Real-time grounding через Google Search

Nano Banana 2 — единственная модель генерации изображений, которая лезет в интернет прямо во время генерации. Пишешь: «фотореалистичный вид из окна квартиры на Эйфелеву башню с реальной погодой в Париже прямо сейчас» — модель проверяет через Google Search, что в Париже облачно, и генерирует картинку с правильным небом. Ни Midjourney, ни DALL-E так не умеют — они работают только с тем, что знали на момент обучения.

Для разработчиков это включается одной строкой:

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents="Фотореалистичный MacBook Pro M5 на столе в кофейне",
    config=types.GenerateContentConfig(
        response_modalities=['TEXT', 'IMAGE'],
        tools=[{"google_search": {}}]
    )
)

Модель подтянет реальные фото продукта из поиска и учтёт их при генерации — вместо того, чтобы фантазировать, как выглядит «MacBook Pro M5».

Консистентность персонажей между кадрами

Раньше для серии картинок с одним персонажем приходилось либо мучить ControlNet, либо рисовать руками. Nano Banana 2 делает это нативно: генерируешь кибер-детектива с голубым визором — потом помещаешь его в неоновый ночной рынок, стерильный корпоративный лобби, пыльную пустошь. Шрамы на лбу, нашивки на пальто, форма визора — всё сохраняется между кадрами.

В тестах Analytics Vidhya модель удержала детали персонажа в 3 разных окружениях — без дополнительных промптов, без reference images, просто в рамках одного чата.

Для сторибординга это прорыв: написал «создай историю из 6 кадров про трёх пушистых друзей, которые строят домик на дереве» — и получил 6 картинок, где каждый персонаж выглядит одинаково.

Перевод текста прямо на картинке

Сгенерировал рекламный макет наушников с текстом "Feel The Bass". Потом написал: «локализуй текст на японский — "低音を感じろ" — не меняя композицию, свет и цвета». Модель заменила ТОЛЬКО текст, не тронув ничего остального. Проверили через Google Translate — почти 100% совпадение с оригинальным переводом.

Для маркетинговых команд это означает: один макет → промпт «переведи на 5 языков» → пять локализованных версий без дизайнера.

Семантический эдитинг — меняет только то, что попросили

Это не регенерация, а точечное редактирование. Тест: сцена с людьми на улице у водовозки. Промпт: «поменяй атмосферу на цирк, замени одежду на костюмы, сделай как тир. Не меняй субъектов и их позиции». Результат: водовозка, дерево, дым из трубы — всё на месте. Одежда поменялась, атмосфера поменялась. Люди стоят где стояли.

Thinking mode — reasoning перед рендерингом

Для сложных промптов с layout-ограничениями можно включить thinking mode:

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents="Инфографика: цикл солнечной энергии, 5 этапов, стрелки между ними, подписи без ошибок",
    config=types.GenerateContentConfig(
        response_modalities=['TEXT', 'IMAGE'],
        thinking_config=types.ThinkingConfig(
            thinking_level="HIGH"
        )
    )
)

На уровне HIGH модель дольше думает перед генерацией — разбирает промпт, планирует композицию, а потом рисует. Под капотом цепочка: Planning → Generation → Review → Self-Correction → Output. В тесте с инфографикой солнечной энергии — ноль опечаток в текстовых подписях.

Уровни: MINIMAL (дефолт, максимальная скорость), HIGH (больше reasoning, точнее результат), DYNAMIC (модель сама решает, сколько думать).

Как попробовать через API

Минимальный пример на Python (нужен google-genai >= 1.51.0):

from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents="Кот-программист в наушниках за ноутбуком, pixel art",
    config=types.GenerateContentConfig(
        response_modalities=['TEXT', 'IMAGE'],
        image_config=types.ImageConfig(
            aspect_ratio="16:9",
            image_size="2K"
        ),
    )
)

for part in response.parts:
    if part.text:
        print(part.text)
    elif image := part.as_image():
        image.save("cat_developer.png")

Поддерживаемые aspect ratio: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9. Разрешения: 512px, 1K (дефолт), 2K, 4K.

Для редактирования — передаёте картинку + промпт:

image_bytes = Path("photo.jpg").read_bytes()

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents=[
        types.Part.from_bytes(data=image_bytes, mime_type="image/jpeg"),
        "Замени фон на закат над океаном"
    ],
    config=types.GenerateContentConfig(
        response_modalities=['TEXT', 'IMAGE']
    )
)

Для многоходовых сессий с сохранением контекста между запросами используйте thought_signature — модель вернёт его в ответе, и при следующем запросе передайте обратно, чтобы сохранить «память» о предыдущих генерациях.

Все изображения автоматически получают водяной знак SynthID и метаданные C2PA Content Credentials.

Где доступен

Nano Banana 2 стал дефолтной моделью генерации изображений в Gemini app — бесплатно, во всех режимах (Fast, Thinking, Pro). Подписчики AI Pro и Ultra сохраняют доступ к Nano Banana Pro через меню «три точки → Regenerate with Pro».

Для разработчиков — preview в AI Studio, Gemini API, Vertex AI, Gemini CLI и Antigravity. В Google Search модель раскатывается в 141 стране через Lens и AI Mode.

Подводные камни

Контент-фильтр IMAGE_SAFETY блокирует легитимный контент. Это не новая проблема — она тянется ещё с Nano Banana Pro. Разработчики на Google AI Forum жалуются, что фильтр блокирует fashion-фотографии нижнего белья для e-commerce, обычные портреты и маркетинговые макеты. Фильтр мониторит не только промпт, но и промежуточные результаты генерации — может заблокировать на полпути. Также в январе 2026 Google ужесточил ограничения на генерацию известных IP-персонажей — Disney, Marvel и подобное отклоняется сразу.

Качество «на уровне Pro» — заявление самого Google, независимых замеров пока нет. Единственный конкретный ориентир — текст на изображениях: ~90% точности против 94% у Pro. На Arena.ai модель показывает высокие позиции, но это рейтинг по пользовательским предпочтениям, а не объективный бенчмарк. Для задач, где качество критично (студийные съёмки, высокая детализация), Google сам рекомендует оставаться на Pro.

API в preview — без гарантий стабильности. Модель gemini-3.1-flash-image-preview — именно preview. API может измениться, rate limits жёстче, чем в GA, SLA нет. На бесплатных аккаунтах квоты быстро заканчиваются. Google не объявил дату перехода в GA.

Бесплатный тир с ограничениями. В Gemini app модель бесплатна, но некоторые возможности (включая ряд настроек в API) доступны только подписчикам Pro/Ultra. При активном использовании на бесплатном плане квота заканчивается быстро.

Альтернативы

Midjourney v7 — непревзойдённое качество для художественных изображений и стилизации. Но текст на картинках рендерит с точностью ~71% (против 90% у NB2), нет официального API для автоматизации, и нет ничего похожего на real-time grounding. Для пайплайнов не подходит, для визуального арта — по-прежнему лучший
GPT Image 1.5 (OpenAI) — лучшее следование сложным промптам и точный текст на изображениях. OpenAI заменил DALL-E на генерацию через GPT-4o, а теперь GPT Image 1.5. Но нет бесплатного тира для массовой генерации, цена выше, и нет аналога character consistency
Flux Kontext (Black Forest Labs) — open-source модель на 12B параметров. Можно хостить у себя — никаких контент-фильтров, полный контроль. Хороший текст на картинках и стилизация. Обратная сторона — нужен GPU для инференса, собственная инфраструктура и больше ручной работы

Вердикт

Nano Banana 2 — это не «ещё одна модель для картинок». Real-time grounding, character consistency и перевод текста на изображении — три фишки, которых нет ни у кого из конкурентов в одном пакете. Если строишь пайплайн генерации маркетинговых визуалов, e-commerce карточек или сторибордов — переходи сейчас, $0.067 за картинку при 4-6 секундах генерации окупает себя моментально. Для fashion и любого контента «на грани» — готовься к битве с IMAGE_SAFETY фильтром, и в этом случае Flux Kontext на своём сервере решит проблему. А если нужна максимальная детализация без компромиссов — Nano Banana Pro никуда не делся, он просто спрятался в меню.

Как попробовать

Бесплатно в Gemini app — открой gemini.google.com, выбери режим Fast и попроси «нарисуй кибер-детектива с голубым визором в неоновом городе». Nano Banana 2 уже дефолтная модель
Проверь консистентность — в том же чате напиши «помести этого детектива в пустыню». Если шрамы и нашивки на месте — консистентность работает
Попробуй grounding — попроси «фотореалистичный вид из окна на Биг-Бен с текущей погодой в Лондоне». Модель сама залезет в поиск
Через API — pip install google-genai>=1.51.0, ключ из AI Studio, модель gemini-3.1-flash-image-preview
Документация — ai.google.dev/gemini-api/docs/image-generation

Nano Banana 2 — Google выкатил генератор картинок, который делает 4K за 5 секунд и стоит вдвое дешевле Pro