Кто лучше гуглит: Claude Opus 4.6, GPT-5.3 Codex или Gemini 3.1 Pro
Февраль 2026 — три модели за 16 дней. Claude Opus 4.6 (4 февраля), GPT-5.3 Codex (5 февраля), Gemini 3.1 Pro (19 февраля). Все три — frontier, все три заявляют лидерство. Но есть один вопрос, который бенчмарки кодинга не закроют: кто из них реально умеет искать информацию в интернете?
Не генерировать текст из обучающих данных. Не галлюцинировать ссылки. А именно — открыть браузер, пройти по десяткам страниц, собрать данные и выдать точный ответ с источниками.
TL;DR: Gemini 3.1 Pro чуть впереди по BrowseComp (85.9% vs 84.0% у Claude), но Claude Opus 4.6 индексирует в 4 раза больше источников и делает это в 2.5 раза быстрее. GPT-5.3 Codex вообще не про это — для ресёрча у OpenAI отдельный продукт на o3. Победитель зависит от того, что именно вы ищете.
BrowseComp: бенчмарк, который решает
BrowseComp — это 1 266 задач, где модель должна найти конкретную информацию в интернете. Не просто ответить на вопрос из памяти, а реально погуглить, перейти по ссылкам, просеять десятки страниц и найти единственный правильный ответ.
Результаты:
- Gemini 3.1 Pro — 85.9%
- Claude Opus 4.6 — 84.0%
- GPT-5.2 — 65.8%
Gemini вырвался вперёд на 1.9 процентных пункта. Для контекста: предыдущий Gemini 3 Pro набирал 59.2%, а Opus 4.5 — 67.8%. Обе модели совершили скачок за один релиз: Gemini +26.7pp, Claude +16.2pp.
А вот GPT-5.3 Codex в этом списке отсутствует — OpenAI не публиковала его BrowseComp-скор. И это не случайно.
Три модели — три философии
Тут надо понять кое-что важное: эти модели решают разные задачи.
Claude Opus 4.6 — Anthropic целенаправленно оптимизировала его под агентные сценарии. Веб-поиск, работа с инструментами, multi-step reasoning. На API у Claude теперь динамическая фильтрация результатов поиска — модель сама пишет и запускает код, чтобы отсеять нерелевантные результаты ещё до попадания в контекст. Это экономит токены и повышает точность.
Gemini 3.1 Pro — Google вложился в ширину. Лучший BrowseComp, лучший ARC-AGI-2 (77.1%), лучший GPQA Diamond (94.3%). Плюс интеграция с Google Workspace — Gemini Deep Research может лезть в ваш Gmail, Google Drive, Docs и Sheets. Для тех, кто живёт в экосистеме Google, это киллер-фича.
GPT-5.3 Codex — это кодинг-модель. Точка. OpenAI оптимизировала её под Terminal-Bench (77.3%), SWE-Bench Pro (56.8%) и длинные агентные сессии кодинга. Для веб-ресёрча у OpenAI есть отдельный продукт — Deep Research, работающий на o3-pro. Сравнивать Codex с Opus в задачах поиска — как сравнивать гоночный болид с внедорожником на бездорожье.
Deep Research: продуктовое сравнение
Бенчмарки бенчмарками, но что на практике? Все три компании выпустили продукты для глубокого ресёрча.
ChatGPT Deep Research (o3-pro)
- Ищет и анализирует сотни источников
- Отчёт за 5–30 минут
- С февраля 2026 — можно подключить любой MCP-сервер и ограничить поиск доверенными сайтами
- Доступен на Plus ($20/мес) и Pro ($200/мес) планах
Gemini Deep Research
- 62 источника за 15+ минут
- Лучшая точность данных среди всех
- Интеграция с Gmail, Google Drive, Docs, Sheets, Chat — можно искать по вашим приватным данным
- Часть Gemini Advanced ($19.99/мес)
Claude (через API с web search tool)
- 261 источник за 6+ минут — в 4 раза больше источников, чем Gemini
- Динамическая фильтрация: модель сама пишет код для обработки результатов
- Минимальное количество галлюцинаций среди всех
- Нет отдельного продукта «Deep Research» — используется через API или Claude Code
Цифры показательные: Claude быстрее и покрывает больше источников. Gemini точнее в данных и глубже интегрирован с вашими файлами. OpenAI даёт максимум гибкости через MCP.
Цена вопроса
Через API разница колоссальная:
- Gemini 3.1 Pro — $2 / $12 за миллион токенов (input/output)
- Claude Opus 4.6 — $15 / $75 за миллион токенов
- GPT-5.3 Codex — $15 / $60 за миллион токенов
Gemini дешевле Opus в 7.5 раз на вход. Для задач, где нужно прогнать много запросов — разница в бюджете будет ощутимой. При разовом ресёрче через чат-интерфейс — подписки стоят примерно одинаково ($20/мес).
Так кто побеждает?
Зависит от сценария:
«Нужен точный ответ на конкретный вопрос» — Gemini 3.1 Pro. Лучший BrowseComp, лучшая точность данных, а если вопрос связан с вашими Google-документами — вообще без конкурентов.
«Нужен глубокий отчёт по теме с максимумом источников» — Claude Opus 4.6. Больше всего проиндексированных страниц, быстрее всех, минимум галлюцинаций. Через Claude Code с web search tool — мощнейший инструмент для ресёрча.
«Нужен ресёрч внутри рабочего процесса кодинга» — GPT-5.3 Codex + Deep Research. Codex для кода, Deep Research (o3-pro) для поиска. Два инструмента, одна экосистема.
«Бюджет ограничен, нужно много запросов» — Gemini 3.1 Pro. При $2/MTok можно позволить себе в 7 раз больше запросов, чем с Opus.
Кому это важно
- Разработчику — попробуйте Claude Code с
--web-searchдля ресёрча прямо из терминала. Для массовых запросов через API — Gemini 3.1 Pro с его ценой сэкономит бюджет в разы - Тимлиду — для internal knowledge base и документации в Google Workspace — Gemini Deep Research не имеет аналогов. Для external research — Claude Opus 4.6 покрывает больше источников
- Следишь за рынком — веб-ресёрч стал полноценным бенчмарком. BrowseComp теперь так же важен, как SWE-Bench. Модели больше не просто отвечают на вопросы — они реально ищут в интернете
Как попробовать
- Claude Opus 4.6: Зайдите на claude.ai, включите модель Opus 4.6 в настройках — веб-поиск включён по умолчанию. Через API: добавьте
web_searchtool в запрос - Gemini 3.1 Pro: Откройте gemini.google.com, выберите 3.1 Pro, нажмите «Deep Research». Попробуйте запрос с привязкой к вашему Google Drive
- ChatGPT Deep Research: В chatgpt.com выберите Deep Research в меню моделей. С февраля можно добавить MCP-серверы для кастомных источников
- Сравните на одном запросе: спросите все три модели один и тот же сложный вопрос — например, «Какие open-source LLM-фреймворки вышли за последнюю неделю?» — и сравните глубину ответов
- Для API: попробуйте Gemini API с grounding через Google Search — это $2/MTok за полноценный веб-ресёрч