Gemini 3.1 Flash-Lite — $0.25 за миллион токенов, качество взрослого Flash и 363 токена в секунду
Gemini 3.1 Flash-Lite — $0.25 за миллион токенов, качество взрослого Flash и 363 токена в секунду
Google сегодня тихо выкатила модель, на которую стоит обратить внимание каждому, кто гоняет LLM на больших объёмах. Gemini 3.1 Flash-Lite — это не просто очередной апдейт «лёгкой» модели. Это попытка дать качество полноценного Flash по цене, от которой не плачет бухгалтерия.
TL;DR: Gemini 3.1 Flash-Lite — $0.25 за миллион входных токенов и $1.50 за выходные. По бенчмаркам обходит 2.5 Flash (не Lite, а полный!), при этом выдаёт 363 токена/сек и first token в 2.5 раза быстрее. Мультимодальная, с thinking levels и контекстом на 1M токенов. Для высоконагруженных задач — перевод, модерация, extraction, роутинг — сейчас это лучшее соотношение цена/качество на рынке.
Что умеет и за сколько
Модель доступна прямо сейчас через Gemini API в AI Studio и Vertex AI. Model ID — gemini-3.1-flash-lite-preview.
Ключевые характеристики:
- Контекст: 1M токенов на вход, 64K на выход
- Вход: текст, изображения, видео, аудио, PDF
- Выход: только текст (без генерации картинок и аудио)
- Цена: $0.25/1M вход, $1.50/1M выход (аудио $0.50/1M вход)
- Batch: скидка 50% — $0.125/$0.75 за миллион
- Free tier: есть, с лимитами
- Скорость: 363 tok/s, TTFT в 2.5 раза быстрее 2.5 Flash
Что поддерживается: function calling, structured outputs, кэширование, batch API, code execution, file search, URL context, search grounding, и — что особенно важно — thinking levels.
Чего нет: генерация изображений, аудио, Live API, computer use.
Thinking levels — главная фича для экономии
Flash-Lite — не просто быстрая модель. Она позволяет управлять глубиной рассуждений через thinking_level. Четыре уровня: minimal, low, medium, high.
На практике это выглядит так:
from google import genai from google.genai import types client = genai.Client() # Быстрый ответ без раздумий — для классификации, роутинга response = client.models.generate_content( model="gemini-3.1-flash-lite-preview", contents="Classify this email: 'Your order has shipped'", config=types.GenerateContentConfig( thinking_config=types.ThinkingConfig(thinking_level="minimal") ), ) # Глубокий анализ — для суммаризации, extraction response = client.models.generate_content( model="gemini-3.1-flash-lite-preview", contents="Analyze this contract and extract key obligations...", config=types.GenerateContentConfig( thinking_config=types.ThinkingConfig(thinking_level="high") ), )
Зачем это нужно? Представь конвейер: на входе 10 000 запросов в минуту. 80% — простая классификация, minimal thinking, 2-3 токена рассуждений. 15% — средняя сложность, medium. И только 5% — тяжёлые, high. Один разработчик на HN делится, что обрабатывает 400 req/s через кэш хэшей промптов с 20-секундным окном и разными thinking levels — и укладывается в бюджет.
Бенчмарки: Lite, который бьёт не-Lite
Вот где становится интересно. По данным DeepMind model card, 3.1 Flash-Lite набирает:
- GPQA Diamond — 86.9% (научные знания)
- MMMU-Pro — 76.8% (мультимодальное рассуждение)
- LiveCodeBench — 72.0% (генерация кода)
- Video-MMMU — 84.8% (понимание видео)
- MMMLU — 88.9% (мультиязычный QA)
- Arena Elo — 1432
Для контекста: Gemini 2.5 Flash (полная версия, не Lite) на MMMU-Pro показывала результат ниже. То есть Lite-модель третьего поколения обгоняет полноценную модель второго. Google называет это "frontier-class performance", и по цифрам — не врут.
Но есть нюанс. Бенчмарки GPQA и MMMU — от Google. Независимых замеров от Artificial Analysis пока мало: подтверждают скорость (2.5x TTFT, +45% output speed), но полноценного сравнения качества с конкурентами на одних и тех же задачах ещё нет. Arena Elo 1432 — это данные arena.ai, и здесь доверие выше.
Кому нужна: конкретные сценарии
1. Роутинг запросов. Flash-Lite с minimal thinking — идеальный классификатор. Определяет, какая модель нужна для конкретного запроса. На 400 req/s с кэшированием — $0.25/1M это копейки.
2. High-volume extraction. PDF-накладные, контракты, медицинские формы. Мультимодальность + structured outputs + 1M контекст = прочитал 200 страниц, вернул JSON.
3. Перевод и локализация. MMMLU 88.9% — это сильный мультиязычный результат. Для перевода документации, интерфейсов, пользовательского контента — отношение качество/цена трудно побить.
4. Realtime-сценарии. 363 tok/s и 2.5x TTFT — если строишь чат-бота или голосового ассистента, где важна задержка до первого слова, Flash-Lite вырывается вперёд.
5. Модерация контента. Оценить 100 000 комментариев в день? На batch-тарифе ($0.125 вход) это будет стоить центы.
Подводные камни
Цена выросла в 2.5–3.75 раза по сравнению с 2.5 Flash-Lite. Это главная боль. Предыдущий Lite стоил $0.10/$0.40, новый — $0.25/$1.50. Один стартап-фаундер на HN пишет, что корпоративные контракты, просчитанные на тарифах Flash 1.5, стали убыточными уже на 2.5 Flash, а на 3.1 — едва выходят в ноль. Если у тебя unit-экономика завязана на Lite-тарифы — пересчитай прямо сейчас.
Ответы обрываются на полуслове. Проблема, унаследованная от Flash-семейства: модель иногда сигнализирует о завершении раньше, чем закончила мысль. Не из-за лимита токенов, а баг в stop-сигнале. На GitHub Gemini это Priority 2 уже несколько месяцев. Workaround — повторный запрос или увеличение max_output_tokens.
Preview означает preview. Model ID заканчивается на -preview. Это значит: API может измениться, производительность может колебаться, и SLA по доступности нет. Для прототипов и внутренних инструментов — ок. Для продакшена с клиентами — подожди stable-релиза, как это было с 2.5 Flash-Lite (stable вышел через ~3 месяца после preview).
Knowledge cutoff — январь 2025. Больше года назад. Для задач, где актуальность данных важна, придётся использовать search grounding (5000 бесплатных запросов/мес, потом $14/1000).
Альтернативы
- Gemini 2.5 Flash-Lite — $0.10/$0.40, стабильная, GA. Если качества хватает и бюджет жмёт — она никуда не делась. Но без thinking levels и с заметно худшими бенчмарками
- GPT-4o-mini — $0.15/$0.60. Близка по цене, 128K контекст. Выигрывает по цене выходных токенов ($0.60 vs $1.50), но проигрывает по контексту (128K vs 1M) и мультимодальности
- Claude Haiku 4.5 — $1.00/$5.00. В 4 раза дороже на входе и в 3.3 раза на выходе. Лучше для задач, где критично точное следование инструкциям, но для high-volume — бюджет не сходится
- GPT-5 nano — $0.05/$0.40. Самый дешёвый вариант на рынке, но значительно ниже по качеству. Для совсем простых задач типа классификации — хватает
Вердикт
Если гоняешь десятки тысяч запросов в день и тебе нужно больше, чем может 2.5 Flash-Lite, — 3.1 Flash-Lite сейчас лучший выбор по цена/качество. Thinking levels + мультимодальность + 1M контекст за $0.25/1M — ни Claude Haiku, ни GPT-4o-mini этого не дают. Но если ты сидел на 2.5 Flash-Lite и качества хватало — подумай, готов ли платить в 3 раза больше за апгрейд. И не ставь preview-модель в продакшен с клиентами — дождись stable.
Как попробовать
- Открой AI Studio, в селекторе моделей выбери Gemini 3.1 Flash-Lite Preview
- Установи SDK:
pip install google-genai - Попробуй с разными thinking levels:
from google import genai from google.genai import types client = genai.Client(api_key="YOUR_API_KEY") response = client.models.generate_content( model="gemini-3.1-flash-lite-preview", contents="Summarize this PDF and extract all dates and amounts", config=types.GenerateContentConfig( thinking_config=types.ThinkingConfig(thinking_level="medium") ), ) print(response.text)
- Для batch-обработки (50% скидка) используй Batch API
- Документация модели — на ai.google.dev