> diffnotes · 08 Jun 2026 · обновлено 15 Jul 2026 · 9 мин

Бесплатные AI-модели в 2026: 30 штук за $0 — какие тянут кодинг, а какие сливают ваш код в обучение

ai llm open-source openrouter ollama free-models

Ещё год назад «бесплатная нейросеть» означала урезанный чат с лимитом в 10 сообщений и моделью двухлетней давности. Сейчас на OpenRouter лежит около тридцати моделей за $0, среди которых открытый флагман OpenAI, 550-миллиардный Nemotron от NVIDIA и Kimi K2.6, который входит в топ-3 кодинг-моделей вообще. Всё это можно дёргать через API прямо сегодня, без карты.

Подвох есть, и он серьёзнее, чем кажется. Часть этих «бесплатных» моделей платит за себя вашими промптами: логирует всё и учится на этом. Ниже — что реально стоит брать и куда нельзя совать рабочий код.

TL;DR: На OpenRouter сейчас ~30 моделей за $0 — лучшие для кодинга это openai/gpt-oss-120b:free, moonshotai/kimi-k2.6:free и Nemotron от NVIDIA с контекстом 1M. Для приватности гоняйте open-weights локально через Ollama (GPT-OSS 20B влезает в 16 ГБ). Но stealth-модель Owl Alpha и часть free-роутов логируют ваши промпты и учатся на них, а лимит 200 запросов в день убивает любой серьёзный агентский цикл.

Три разных «бесплатно», которые путают

Когда говорят «бесплатная модель», имеют в виду три совершенно разные вещи, и от того, какую вы выбрали, зависит и приватность, и лимиты.

Бесплатные роуты на агрегаторе. OpenRouter держит пул моделей с ценником $0 за вход и выход. Вы получаете API-ключ, дёргаете модель по её ID — платформа сама раздаёт запросы между провайдерами, которые согласились отдавать инференс даром. Удобно, но именно тут живёт большинство подвохов с логированием.

Бесплатные тиры у самих лабораторий. Google AI Studio, Groq, Mistral дают свой прямой API с лимитом. Карта обычно не нужна, провайдер один и тот же, политика приватности предсказуемая.

Open-weights, которые вы запускаете сами. GPT-OSS, Qwen3-Coder, Gemma 4 — это открытые веса: скачал и крутишь на своём железе. Ноль платы за токены, ноль логирования, но нужна видеокарта.

OpenRouter: 30 моделей за $0 прямо сейчас

Зайдите на openrouter.ai/collections/free-models — список обновляется по реальному трафику. На 7 июня там 30 бесплатных моделей. Вот те, ради которых стоит приходить.

Owl Alpha (openrouter/owl-alpha) — stealth-модель с контекстом 1.05M токенов, заточена под агентов и тулколлинг, совместима с Claude Code и OpenClaw. Через неё уже прогнали 2.18 триллиона токенов, то есть народ ей пользуется всерьёз. Кто за ней стоит, официально не раскрыто. И вот тут первый красный флаг: в карточке прямым текстом написано, что промпты и ответы логируются и идут на улучшение модели. Запомните это, вернёмся.

OpenAI gpt-oss-120b (openai/gpt-oss-120b:free) — открытый флагман OpenAI под Apache 2.0. 117B параметров в MoE, активны 5.1B, контекст 131K, полный доступ к chain-of-thought и нативный тулколлинг. По заявлению OpenAI, версия 120b почти догоняет o4-mini на бенчмарках рассуждений, хотя независимых замеров на free-эндпоинте пока мало. Архитектурно это серьёзная модель, а не демка.

Kimi K2.6 (moonshotai/kimi-k2.6:free) — пожалуй, главный сюрприз списка. Мультимодальная модель Moonshot для long-horizon кодинга и генерации UI из промпта, с архитектурой agent swarm на сотни параллельных субагентов. В рейтинге buildmvpfast она держит третье место среди кодинг-моделей вообще, и при этом доступна бесплатно. Контекст 262K.

Nemotron 3 от NVIDIA — целое семейство открытых моделей с контекстом 1M. nvidia/nemotron-3-super-120b-a12b:free (120B, активны 12B) и старший nvidia/nemotron-3-ultra-550b-a55b:free (550B, активны 55B) построены на гибриде Mamba-Transformer и заточены под оркестрацию агентов и многошаговое планирование. Веса, датасеты и рецепты открыты, так что можно сначала пощупать через free-API, а потом поднять у себя.

Gemma 4 31B (google/gemma-4-31b-it:free) — плотная мультимодалка Google на 30.7B, контекст 256K, 140+ языков, режим reasoning и function calling, лицензия Apache 2.0. Понимает картинки. Хорошо тянет код и работу с документами.

Poolside Laguna (poolside/laguna-m.1:free и laguna-xs.2:free) — специализированные кодинг-агенты с контекстом 262K, XS.2 под Apache 2.0. Если строите агента именно под софтверные задачи, добавьте в список на тест.

Запустить любую из них — это один curl. Берёте ключ на OpenRouter, и:

curl https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-oss-120b:free",
    "messages": [{"role": "user", "content": "Напиши функцию debounce на TypeScript с дженериками"}]
  }'

Не хотите выбирать модель руками? Есть роутер openrouter/free, который сам подберёт доступную бесплатную модель под требования запроса (тулколлинг, structured output). Но именно с ним легко нарваться на случайный провайдер с непредсказуемой политикой данных.

Запустить у себя: Ollama и open-weights

Если код рабочий и сливать его в чужой лог нельзя, единственный по-настоящему приватный вариант — локальный запуск. Платы за токены нет, логов тоже. Цена входа: видеокарта.

GPT-OSS 20B — рабочая лошадка для тех, у кого нет фермы. 21B в MoE, активны 3.6B, влезает в 16 ГБ VRAM, по бенчмаркам OpenAI сопоставима с o3-mini. Под Apache 2.0, можно файнтюнить и гонять коммерчески. Запуск:

ollama run gpt-oss:20b

Qwen3-Coder-Next — если ваша задача именно агентский кодинг. 80B суммарно, активны всего 3B, контекст 256K. По замерам команды Qwen, модель берёт 44.3% на SWE-Bench Pro, то есть играет на уровне Sonnet 4.5 при кратно меньшем размере активных параметров. Запускается на 64-гиговом MacBook или RTX 5090.

Gemma 4 — выбор по железу. Семейство из четырёх мультимодальных моделей под Apache 2.0: E2B просит ~3 ГБ, E4B около 5 ГБ, 26B MoE укладывается в 16 ГБ, а плотная 31B хочет 24 ГБ. Все четыре понимают картинки. То есть «локальная нейросеть» теперь реальна даже на ноутбуке без дискретной видеокарты.

Бесплатные API-тиры: Google, Groq, Mistral

Когда хочется прямого API от лаборатории, а не агрегатора, расклад на середину 2026 такой:

Google AI Studio — самый щедрый тир, без карты и без срока годности. Gemini 2.0 Flash-Lite даёт 30 запросов в минуту и 1500 в день, Flash — 1M токенов в минуту. Минус: Pro-модели почти недоступны (Gemini 2.5 Pro это 50 запросов в день, на этом продукт не построишь).

Groq — про скорость. 30 запросов в минуту, до 14 400 в день, time-to-first-token меньше 200 мс за счёт их LPU-железа. Важная деталь: Groq не обучается на ваших данных. Потолок по качеству: Llama 3.3 70B.

Mistral — скромные 2 запроса в минуту, но тир живёт неделями реального использования, карта не нужна.

А вот у Anthropic бесплатного API-тира нет вообще. Хотите Claude через API — платите с первого токена. Так что если ваша мечта была гонять Opus задаром через API, её придётся закрыть, бесплатный путь к Claude только через подписку Claude Code или Cowork.

Подводные камни

Бесплатный сыр в 2026 хорош, но мышеловка реальная. Четыре вещи, которые испортят вам день, если не знать заранее.

Бесплатные модели исчезают без предупреждения. Вы строите агента на конкретном ID, а через месяц провайдер перестал отдавать инференс даром, и модель просто пропала из free-пула. OpenRouter прямо пишет, что менее популярные модели ротируются из бесплатного тира со временем. Никогда не делайте free-модель единственной точкой опоры в проде.

Логирование и обучение на ваших промптах. Сам OpenRouter по умолчанию работает в режиме Zero Data Retention — он ваши данные не хранит. Но конкретный провайдер за бесплатным роутом может и хранить, и учиться. Owl Alpha об этом честно предупреждает: «промпты и ответы могут логироваться и использоваться для улучшения модели». Вставили туда кусок проприетарного кода или ключ? Считайте, отправили его в чужой датасет. Лечится в настройках приватности OpenRouter: там отдельный тумблер «не роутить к провайдерам, которые обучаются на данных», причём раздельно для платных и бесплатных моделей.

Стена из лимитов. У бесплатного тира OpenRouter потолок 20 запросов в минуту и 200 в день (1000 в день, если закинуть $10 на баланс). Один агентский прогон в стиле Claude Code съедает эти 200 запросов за полчаса. И размножить ключи не выйдет: у Google лимиты считаются на проект, а несколько проектов ради обхода нарушают их же ToS.

Reasoning-токены жрут квоту незаметно. У моделей с рассуждением скрытые токены мышления тоже считаются в лимит токенов в минуту. На бесплатном тире с жёстким TPM длинная цепочка рассуждений упирается в потолок там, где простой ответ прошёл бы спокойно.

Альтернативы

Если очертить три стратегии «как не платить», каждая со своим компромиссом:

Локально через Ollama — ноль логов и лимитов, полная приватность. Цена: ваше железо и время на настройку. Лучший выбор для рабочего кода.

Google AI Studio free — самый большой бесплатный объём по API (1500 запросов в день) и мультимодальность из коробки. Цена: практически только Flash-модели, Pro почти закрыт.

Groq free — когда критична скорость и важно, что на ваших данных не учатся. Цена: потолок качества на уровне Llama 3.3 70B.

Когда вырастете из бесплатного, не спешите на подписку за $200. Дешёвый платный API закрывает потребность с запасом: DeepSeek V4-Pro отдаёт миллион выходных токенов за $0.87, Gemini Flash стоит копейки. Платно, но без разорения.

Вердикт

Для учёбы, пет-проектов и прототипов бесплатные модели в 2026 реально хороши: берите gpt-oss-120b:free или Kimi K2.6 на OpenRouter и не думайте о счетах. Для агентского кодинга на каждый день лучший расклад — поднять Qwen3-Coder-Next локально через Ollama: и приватно, и без лимитов. А вот рабочий код и данные клиентов в бесплатные stealth-модели вроде Owl Alpha совать нельзя: то, что вы туда отправили, уедет в обучение, и это написано в их же карточке. Бесплатное опасно ровно в одном сценарии: когда оно незаметно становится несущей опорой продакшена. В самый неподходящий момент модель пропадёт из пула или вы упрётесь в дневной лимит. Держите free для экспериментов, а под прод закладывайте либо локальный запуск, либо платный роут с ZDR.

Как попробовать за десять минут

Заведите ключ на openrouter.ai — карта не нужна. Сразу зайдите в настройки приватности и выключите роутинг к провайдерам, которые обучаются на данных.
Дёрните openai/gpt-oss-120b:free тем curl-ом выше или подставьте moonshotai/kimi-k2.6:free, чтобы сравнить на своей задаче.
Для локального запуска поставьте Ollama и выполните ollama run gpt-oss:20b — этого хватит для приватного кодинга на 16 ГБ VRAM.
Нужен объём — возьмите бесплатный ключ в Google AI Studio и стройте на Gemini Flash-Lite (1500 запросов в день).
Правило на каждый день: эксперименты — на бесплатном, рабочий код — только локально или на платном ZDR-роуте.