> · 7 мин

Gemini 3.1 Flash-Lite — $0.25 за миллион токенов, качество взрослого Flash и 363 токена в секунду

Gemini 3.1 Flash-Lite — $0.25 за миллион токенов, качество взрослого Flash и 363 токена в секунду

Gemini 3.1 Flash-Lite — $0.25 за миллион токенов, качество взрослого Flash и 363 токена в секунду

Google сегодня тихо выкатила модель, на которую стоит обратить внимание каждому, кто гоняет LLM на больших объёмах. Gemini 3.1 Flash-Lite — это не просто очередной апдейт «лёгкой» модели. Это попытка дать качество полноценного Flash по цене, от которой не плачет бухгалтерия.

TL;DR: Gemini 3.1 Flash-Lite — $0.25 за миллион входных токенов и $1.50 за выходные. По бенчмаркам обходит 2.5 Flash (не Lite, а полный!), при этом выдаёт 363 токена/сек и first token в 2.5 раза быстрее. Мультимодальная, с thinking levels и контекстом на 1M токенов. Для высоконагруженных задач — перевод, модерация, extraction, роутинг — сейчас это лучшее соотношение цена/качество на рынке.

Что умеет и за сколько

Модель доступна прямо сейчас через Gemini API в AI Studio и Vertex AI. Model ID — gemini-3.1-flash-lite-preview.

Ключевые характеристики:

  • Контекст: 1M токенов на вход, 64K на выход
  • Вход: текст, изображения, видео, аудио, PDF
  • Выход: только текст (без генерации картинок и аудио)
  • Цена: $0.25/1M вход, $1.50/1M выход (аудио $0.50/1M вход)
  • Batch: скидка 50% — $0.125/$0.75 за миллион
  • Free tier: есть, с лимитами
  • Скорость: 363 tok/s, TTFT в 2.5 раза быстрее 2.5 Flash

Что поддерживается: function calling, structured outputs, кэширование, batch API, code execution, file search, URL context, search grounding, и — что особенно важно — thinking levels.

Чего нет: генерация изображений, аудио, Live API, computer use.

Thinking levels — главная фича для экономии

Flash-Lite — не просто быстрая модель. Она позволяет управлять глубиной рассуждений через thinking_level. Четыре уровня: minimal, low, medium, high.

На практике это выглядит так:

from google import genai
from google.genai import types

client = genai.Client()

# Быстрый ответ без раздумий — для классификации, роутинга
response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents="Classify this email: 'Your order has shipped'",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level="minimal")
    ),
)

# Глубокий анализ — для суммаризации, extraction
response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents="Analyze this contract and extract key obligations...",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level="high")
    ),
)

Зачем это нужно? Представь конвейер: на входе 10 000 запросов в минуту. 80% — простая классификация, minimal thinking, 2-3 токена рассуждений. 15% — средняя сложность, medium. И только 5% — тяжёлые, high. Один разработчик на HN делится, что обрабатывает 400 req/s через кэш хэшей промптов с 20-секундным окном и разными thinking levels — и укладывается в бюджет.

Бенчмарки: Lite, который бьёт не-Lite

Вот где становится интересно. По данным DeepMind model card, 3.1 Flash-Lite набирает:

  • GPQA Diamond — 86.9% (научные знания)
  • MMMU-Pro — 76.8% (мультимодальное рассуждение)
  • LiveCodeBench — 72.0% (генерация кода)
  • Video-MMMU — 84.8% (понимание видео)
  • MMMLU — 88.9% (мультиязычный QA)
  • Arena Elo — 1432

Для контекста: Gemini 2.5 Flash (полная версия, не Lite) на MMMU-Pro показывала результат ниже. То есть Lite-модель третьего поколения обгоняет полноценную модель второго. Google называет это "frontier-class performance", и по цифрам — не врут.

Но есть нюанс. Бенчмарки GPQA и MMMU — от Google. Независимых замеров от Artificial Analysis пока мало: подтверждают скорость (2.5x TTFT, +45% output speed), но полноценного сравнения качества с конкурентами на одних и тех же задачах ещё нет. Arena Elo 1432 — это данные arena.ai, и здесь доверие выше.

Кому нужна: конкретные сценарии

1. Роутинг запросов. Flash-Lite с minimal thinking — идеальный классификатор. Определяет, какая модель нужна для конкретного запроса. На 400 req/s с кэшированием — $0.25/1M это копейки.

2. High-volume extraction. PDF-накладные, контракты, медицинские формы. Мультимодальность + structured outputs + 1M контекст = прочитал 200 страниц, вернул JSON.

3. Перевод и локализация. MMMLU 88.9% — это сильный мультиязычный результат. Для перевода документации, интерфейсов, пользовательского контента — отношение качество/цена трудно побить.

4. Realtime-сценарии. 363 tok/s и 2.5x TTFT — если строишь чат-бота или голосового ассистента, где важна задержка до первого слова, Flash-Lite вырывается вперёд.

5. Модерация контента. Оценить 100 000 комментариев в день? На batch-тарифе ($0.125 вход) это будет стоить центы.

Подводные камни

Цена выросла в 2.5–3.75 раза по сравнению с 2.5 Flash-Lite. Это главная боль. Предыдущий Lite стоил $0.10/$0.40, новый — $0.25/$1.50. Один стартап-фаундер на HN пишет, что корпоративные контракты, просчитанные на тарифах Flash 1.5, стали убыточными уже на 2.5 Flash, а на 3.1 — едва выходят в ноль. Если у тебя unit-экономика завязана на Lite-тарифы — пересчитай прямо сейчас.

Ответы обрываются на полуслове. Проблема, унаследованная от Flash-семейства: модель иногда сигнализирует о завершении раньше, чем закончила мысль. Не из-за лимита токенов, а баг в stop-сигнале. На GitHub Gemini это Priority 2 уже несколько месяцев. Workaround — повторный запрос или увеличение max_output_tokens.

Preview означает preview. Model ID заканчивается на -preview. Это значит: API может измениться, производительность может колебаться, и SLA по доступности нет. Для прототипов и внутренних инструментов — ок. Для продакшена с клиентами — подожди stable-релиза, как это было с 2.5 Flash-Lite (stable вышел через ~3 месяца после preview).

Knowledge cutoff — январь 2025. Больше года назад. Для задач, где актуальность данных важна, придётся использовать search grounding (5000 бесплатных запросов/мес, потом $14/1000).

Альтернативы

  • Gemini 2.5 Flash-Lite — $0.10/$0.40, стабильная, GA. Если качества хватает и бюджет жмёт — она никуда не делась. Но без thinking levels и с заметно худшими бенчмарками
  • GPT-4o-mini — $0.15/$0.60. Близка по цене, 128K контекст. Выигрывает по цене выходных токенов ($0.60 vs $1.50), но проигрывает по контексту (128K vs 1M) и мультимодальности
  • Claude Haiku 4.5 — $1.00/$5.00. В 4 раза дороже на входе и в 3.3 раза на выходе. Лучше для задач, где критично точное следование инструкциям, но для high-volume — бюджет не сходится
  • GPT-5 nano — $0.05/$0.40. Самый дешёвый вариант на рынке, но значительно ниже по качеству. Для совсем простых задач типа классификации — хватает

Вердикт

Если гоняешь десятки тысяч запросов в день и тебе нужно больше, чем может 2.5 Flash-Lite, — 3.1 Flash-Lite сейчас лучший выбор по цена/качество. Thinking levels + мультимодальность + 1M контекст за $0.25/1M — ни Claude Haiku, ни GPT-4o-mini этого не дают. Но если ты сидел на 2.5 Flash-Lite и качества хватало — подумай, готов ли платить в 3 раза больше за апгрейд. И не ставь preview-модель в продакшен с клиентами — дождись stable.

Как попробовать

  1. Открой AI Studio, в селекторе моделей выбери Gemini 3.1 Flash-Lite Preview
  2. Установи SDK: pip install google-genai
  3. Попробуй с разными thinking levels:
from google import genai
from google.genai import types

client = genai.Client(api_key="YOUR_API_KEY")

response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents="Summarize this PDF and extract all dates and amounts",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level="medium")
    ),
)
print(response.text)
  1. Для batch-обработки (50% скидка) используй Batch API
  2. Документация модели — на ai.google.dev
$ ls ./related/

Похожие статьи

subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe