> 21 Feb 2026 · 5 мин

Кто лучше гуглит: Claude Opus 4.6, GPT-5.3 Codex или Gemini 3.1 Pro

ai llm gemini claude deep-research gpt comparison

Февраль 2026 — три модели за 16 дней. Claude Opus 4.6 (4 февраля), GPT-5.3 Codex (5 февраля), Gemini 3.1 Pro (19 февраля). Все три — frontier, все три заявляют лидерство. Но есть один вопрос, который бенчмарки кодинга не закроют: кто из них реально умеет искать информацию в интернете?

Не генерировать текст из обучающих данных. Не галлюцинировать ссылки. А именно — открыть браузер, пройти по десяткам страниц, собрать данные и выдать точный ответ с источниками.

TL;DR: Gemini 3.1 Pro чуть впереди по BrowseComp (85.9% vs 84.0% у Claude), но Claude Opus 4.6 индексирует в 4 раза больше источников и делает это в 2.5 раза быстрее. GPT-5.3 Codex вообще не про это — для ресёрча у OpenAI отдельный продукт на o3. Победитель зависит от того, что именно вы ищете.

BrowseComp: бенчмарк, который решает

BrowseComp — это 1 266 задач, где модель должна найти конкретную информацию в интернете. Не просто ответить на вопрос из памяти, а реально погуглить, перейти по ссылкам, просеять десятки страниц и найти единственный правильный ответ.

Результаты:

Gemini 3.1 Pro — 85.9%
Claude Opus 4.6 — 84.0%
GPT-5.2 — 65.8%

Gemini вырвался вперёд на 1.9 процентных пункта. Для контекста: предыдущий Gemini 3 Pro набирал 59.2%, а Opus 4.5 — 67.8%. Обе модели совершили скачок за один релиз: Gemini +26.7pp, Claude +16.2pp.

А вот GPT-5.3 Codex в этом списке отсутствует — OpenAI не публиковала его BrowseComp-скор. И это не случайно.

Три модели — три философии

Тут надо понять кое-что важное: эти модели решают разные задачи.

Claude Opus 4.6 — Anthropic целенаправленно оптимизировала его под агентные сценарии. Веб-поиск, работа с инструментами, multi-step reasoning. На API у Claude теперь динамическая фильтрация результатов поиска — модель сама пишет и запускает код, чтобы отсеять нерелевантные результаты ещё до попадания в контекст. Это экономит токены и повышает точность.

Gemini 3.1 Pro — Google вложился в ширину. Лучший BrowseComp, лучший ARC-AGI-2 (77.1%), лучший GPQA Diamond (94.3%). Плюс интеграция с Google Workspace — Gemini Deep Research может лезть в ваш Gmail, Google Drive, Docs и Sheets. Для тех, кто живёт в экосистеме Google, это киллер-фича.

GPT-5.3 Codex — это кодинг-модель. Точка. OpenAI оптимизировала её под Terminal-Bench (77.3%), SWE-Bench Pro (56.8%) и длинные агентные сессии кодинга. Для веб-ресёрча у OpenAI есть отдельный продукт — Deep Research, работающий на o3-pro. Сравнивать Codex с Opus в задачах поиска — как сравнивать гоночный болид с внедорожником на бездорожье.

Deep Research: продуктовое сравнение

Бенчмарки бенчмарками, но что на практике? Все три компании выпустили продукты для глубокого ресёрча.

ChatGPT Deep Research (o3-pro)

Ищет и анализирует сотни источников
Отчёт за 5–30 минут
С февраля 2026 — можно подключить любой MCP-сервер и ограничить поиск доверенными сайтами
Доступен на Plus ($20/мес) и Pro ($200/мес) планах

Gemini Deep Research

62 источника за 15+ минут
Лучшая точность данных среди всех
Интеграция с Gmail, Google Drive, Docs, Sheets, Chat — можно искать по вашим приватным данным
Часть Gemini Advanced ($19.99/мес)

Claude (через API с web search tool)

261 источник за 6+ минут — в 4 раза больше источников, чем Gemini
Динамическая фильтрация: модель сама пишет код для обработки результатов
Минимальное количество галлюцинаций среди всех
Нет отдельного продукта «Deep Research» — используется через API или Claude Code

Цифры показательные: Claude быстрее и покрывает больше источников. Gemini точнее в данных и глубже интегрирован с вашими файлами. OpenAI даёт максимум гибкости через MCP.

Цена вопроса

Через API разница колоссальная:

Gemini 3.1 Pro — $2 / $12 за миллион токенов (input/output)
Claude Opus 4.6 — $15 / $75 за миллион токенов
GPT-5.3 Codex — $15 / $60 за миллион токенов

Gemini дешевле Opus в 7.5 раз на вход. Для задач, где нужно прогнать много запросов — разница в бюджете будет ощутимой. При разовом ресёрче через чат-интерфейс — подписки стоят примерно одинаково ($20/мес).

Так кто побеждает?

Зависит от сценария:

«Нужен точный ответ на конкретный вопрос» — Gemini 3.1 Pro. Лучший BrowseComp, лучшая точность данных, а если вопрос связан с вашими Google-документами — вообще без конкурентов.

«Нужен глубокий отчёт по теме с максимумом источников» — Claude Opus 4.6. Больше всего проиндексированных страниц, быстрее всех, минимум галлюцинаций. Через Claude Code с web search tool — мощнейший инструмент для ресёрча.

«Нужен ресёрч внутри рабочего процесса кодинга» — GPT-5.3 Codex + Deep Research. Codex для кода, Deep Research (o3-pro) для поиска. Два инструмента, одна экосистема.

«Бюджет ограничен, нужно много запросов» — Gemini 3.1 Pro. При $2/MTok можно позволить себе в 7 раз больше запросов, чем с Opus.

Кому это важно

Разработчику — попробуйте Claude Code с --web-search для ресёрча прямо из терминала. Для массовых запросов через API — Gemini 3.1 Pro с его ценой сэкономит бюджет в разы
Тимлиду — для internal knowledge base и документации в Google Workspace — Gemini Deep Research не имеет аналогов. Для external research — Claude Opus 4.6 покрывает больше источников
Следишь за рынком — веб-ресёрч стал полноценным бенчмарком. BrowseComp теперь так же важен, как SWE-Bench. Модели больше не просто отвечают на вопросы — они реально ищут в интернете

Как попробовать

Claude Opus 4.6: Зайдите на claude.ai, включите модель Opus 4.6 в настройках — веб-поиск включён по умолчанию. Через API: добавьте web_search tool в запрос
Gemini 3.1 Pro: Откройте gemini.google.com, выберите 3.1 Pro, нажмите «Deep Research». Попробуйте запрос с привязкой к вашему Google Drive
ChatGPT Deep Research: В chatgpt.com выберите Deep Research в меню моделей. С февраля можно добавить MCP-серверы для кастомных источников
Сравните на одном запросе: спросите все три модели один и тот же сложный вопрос — например, «Какие open-source LLM-фреймворки вышли за последнюю неделю?» — и сравните глубину ответов
Для API: попробуйте Gemini API с grounding через Google Search — это $2/MTok за полноценный веб-ресёрч