GPT-5.4 — миллион токенов, computer use быстрее человека и плагины для Excel, которые превращают ChatGPT в офисного работника
GPT-5.4 — миллион токенов, computer use быстрее человека и плагины для Excel, которые превращают ChatGPT в офисного работника
Ни недели без большого релиза. OpenAI выкатили GPT-5.4 — и на этот раз фокус сместился с чата на работу. Буквально: модель теперь умеет управлять компьютером, заполнять формы на сайтах, работать прямо внутри Excel и Google Sheets, и делает всё это быстрее junior-аналитика из инвестбанка.
TL;DR: GPT-5.4 — первая mainline-модель OpenAI с нативным computer use, контекстным окном на 1M токенов и встроенными плагинами для Excel/Sheets. На бенчмарке OSWorld обогнала людей (75% vs 72.4%), на задачах инвестбанковских таблиц набирает 87.3%. API доступен прямо сейчас: $2.50/$15 за миллион токенов.
Computer use — модель за рулём
GPT-5.4 — первая mainline-модель OpenAI с нативной поддержкой computer use. Не экспериментальный preview, а production-ready фича прямо в API и Codex.
На практике это выглядит так: модель видит экран, кликает кнопки, заполняет формы, навигирует по сайтам, работает в приложениях. На странице релиза OpenAI показали демку заполнения форм — и скорость впечатляет. Модель проходит форму за секунды, с точностью, которая не снится ни одному автозаполнению в браузере.
Цифры:
- OSWorld-Verified — GPT-5.4 Thinking: 75.0%, Claude Opus 4.6: 72.7%, человек: 72.4%. Модель обогнала людей на бенчмарке реального взаимодействия с десктопом
- Прыжок с GPT-5.2 — с 47.3% до 75.0%. Плюс 28 процентных пунктов за одно поколение
Работает это через цикл build-run-verify-fix: модель не просто кликает вслепую. Она выполняет действие, проверяет результат на скриншоте, и если что-то пошло не так — исправляет. В Codex доступен экспериментальный skill «Playwright (Interactive)», который связывает кодинг и computer use: можно дебажить веб-приложение визуально прямо во время его написания.
Агент — не просто маркетинговое слово
OpenAI позиционирует GPT-5.4 как движок для AI-агентов. Не «модель, которую можно использовать в агенте», а модель, которая спроектирована быть агентом — с длинными сессиями, множеством инструментов и самостоятельным принятием решений.
- Toolathlon (бенчмарк tool calling) — GPT-5.4: 54.6%, GPT-5.3-Codex: 51.9%, Claude Opus 4.6: 44.8%. Разрыв с Claude — почти 10 процентных пунктов
- BrowseComp (глубокий веб-поиск) — GPT-5.4 Pro: 89.3%, Gemini 3.1 Pro: 85.9%
- GDPval (44 профессии, задачи knowledge work) — GPT-5.4: 83.0%, Claude Opus 4.6: 78.0%
Новая фича в API — tool search. Раньше, если у агента было 36 MCP-серверов, все определения инструментов грузились в контекст разом. Теперь модель получает лёгкий индекс и подтягивает полные определения только когда они реально нужны. На бенчмарке Scale MCP Atlas (250 задач, 36 MCP-серверов) tool search сэкономил 47% токенов при той же точности. Для разработчиков агентов это прямая экономия на API.
Миллион токенов контекста
Контекстное окно GPT-5.4 — 1 000 000 токенов через API. GPT-5.2 давал 256K. GPT-5.3 Codex тоже дотягивался до 1M, но был заточен только под кодинг.
GPT-5.4 — первая общая модель OpenAI с таким окном. Загрузи целый кодбейс, стопку PDF или полную историю агентной сессии в один запрос.
Но ценник нелинейный: после 272 000 input-токенов цена удваивается. Формально миллион есть, но последние 728K стоят $5.00/1M вместо $2.50. Для длинных агентных сессий, которые OpenAI как раз рекламирует, это важно закладывать в бюджет.
Excel и Google Sheets — ChatGPT за рабочим столом
OpenAI выпустил плагины, которые встраивают GPT-5.4 прямо в ячейки Excel и Google Sheets. Не «скопируй таблицу в ChatGPT и вставь обратно», а модель работает внутри таблицы — анализирует данные, строит формулы, обновляет финансовые модели.
Внутренний бенчмарк: задачи, типичные для junior-аналитика инвестбанка. GPT-5.4 набрал 87.3%, GPT-5.2 — 68.4%. Плюс 19 п.п. — по заявлению OpenAI, это разница между «черновик на доработку» и «можно отправлять партнёру».
И это прямой удар по Claude, который до GPT-5.4 был лучшим по работе с длинными документами. OpenAI заходит на ту же территорию — но с козырем: модель не просто анализирует таблицу, она живёт в ней.
Человеческие оценщики предпочли презентации GPT-5.4 в 68% случаев по сравнению с GPT-5.2, по заявлению OpenAI. Независимых замеров пока нет.
GPT-5.4 Thinking — рассуждения с рулевым колесом
В ChatGPT появилась версия GPT-5.4 Thinking. Шесть направлений улучшений:
- Кодинг и tool calling — точнее следует инструкциям, лучше работает с инструментами
- Мультимодальность — улучшено восприятие изображений
- Длинные воркфлоу — может думать дольше на сложных задачах, не теряя контекст предыдущих шагов
- Эффективность токенов — меньше reasoning-токенов на тот же результат
- Агентный поиск — лучше синтезирует информацию из нескольких источников
- Бизнес-задачи — таблицы, customer service, финансовый анализ
Главная фича: можно менять направление рассуждений прямо в процессе. Модель показывает preamble — план решения — и ты корректируешь курс, не начиная заново. Для multi-step задач это критически важно: раньше, если модель пошла не туда на шаге 3 из 10, приходилось перезапускать всё.
GPT-5.4 Thinking — первая mainline-модель с compaction training: модель обучена сохранять ключевой контекст при длинных агентных цепочках, даже когда ранние шаги уходят за пределы окна внимания.
GPT-5.4 Thinking заменяет GPT-5.2 Thinking. Три месяца до закрытия старой версии.
Меньше галлюцинаций — с оговорками
По заявлению OpenAI:
- Отдельные утверждения на 33% реже оказываются ложными (vs GPT-5.2)
- Полные ответы на 18% реже содержат хотя бы одну ошибку
Числа получены на внутренних бенчмарках OpenAI. Независимых замеров пока нет — модель вышла сегодня. Учитывая историю серии GPT-5 (5 000 пользователей на Reddit назвали GPT-5.0 «awful», Gary Marcus написал «overhyped and underwhelming»), реальную картину покажут следующие недели.
Цены и доступ
API доступен прямо сейчас через Chat Completions, Responses API и Assistants API:
- gpt-5.4 — $2.50/1M input, $15/1M output
- gpt-5.4-pro — $30/1M input, $180/1M output (только Pro и Enterprise планы)
- Batch/Flex — скидка 50%
- Priority — 2× стоимость
- Контекст >272K — двойная цена за input
Сравнение input/output за 1M токенов:
- GPT-5.4 — $2.50 / $15
- Claude Opus 4.6 — $15 / $75
- Gemini 3.1 Pro — $1.25 / $10
GPT-5.4 — самый дешёвый по input среди топовых моделей. На output дешевле Gemini. А GPT-5.4 Pro ($30/$180) стоит дороже Claude Opus вдвое по input и в 2.4 раза по output.
В ChatGPT модель раскатывается на Plus, Team и Pro. Enterprise и Edu — через early access в админке.
Подводные камни
-
Удвоение цены после 272K токенов. OpenAI рекламирует 1M контекст, но реально первые 272K стоят $2.50/1M, а остальные 728K — $5.00/1M. Агентная сессия на 800K input-токенов обойдётся не в $2.00, а в $3.32 — на 66% дороже «базовой» цены. Для систем с десятками MCP-серверов и длинным контекстом это быстро складывается.
-
Computer use — первое поколение в mainline-модели. Бенчмарки впечатляют, но OSWorld-Verified — контролируемая среда с предсказуемыми интерфейсами. Реальный мир — это капчи, динамические попапы, нестандартная вёрстка. Claude Computer Use при запуске тоже показывал красивые демки, а потом пользователи столкнулись с реальностью. OpenAI продемонстрировал заполнение форм — но не показал обработку ошибок.
-
Принудительная миграция с GPT-5.2 Thinking за три месяца. Для enterprise-клиентов с production pipelines это жёсткий дедлайн. Каждое обновление линейки GPT-5 (5.0 → 5.1 → 5.2 → 5.3) сопровождалось жалобами на изменения в поведении модели. Миграция на GPT-5.4 Thinking без полного регрессионного тестирования — русская рулетка с production-нагрузками.
-
Бенчмарки от вендора без независимой проверки. Все ключевые цифры — 33% меньше галлюцинаций, 87.3% на spreadsheet-задачах, 68% preference rate — это внутренние метрики OpenAI. Модель вышла сегодня, независимых замеров ещё нет. Серия GPT-5 исторически недотягивала до маркетинговых обещаний в реальных сценариях.
Альтернативы
-
Claude Opus 4.6 — лидер по качеству рассуждений. GPQA Diamond: 94.4% vs 94.3% у GPT-5.4 — фактически паритет. Computer use есть, но как отдельная фича, не нативная часть модели. Дороже по input ($15 vs $2.50), зато нет ценового скачка на длинном контексте. Для задач, где важно качество ответа больше, чем скорость клика по интерфейсу — остаётся лучшим выбором.
-
Gemini 3.1 Pro — самый дешёвый в тройке ($1.25/$10 за 1M), контекст 2M токенов без ценовых сюрпризов. Проигрывает по computer use и tool calling (BrowseComp: 85.9% vs 89.3% у GPT-5.4 Pro), но для длинных контекстов без агентных задач — экономически выгоднее.
-
GPT-5.3 Codex — если нужен только кодинг. Тот же 1M контекст, заточен под программирование, дешевле. Нет computer use, нет Excel-плагинов, нет tool search — но для чистого кодинга в IDE всё ещё отличный вариант.
Вердикт
GPT-5.4 — это не «ещё одна модель на полпроцента лучше». Это заявка на новую нишу: модель-работник, которая не просто отвечает на вопросы, а выполняет задачи в реальных приложениях. Если строишь агента для enterprise-автоматизации — GPT-5.4 с tool search и computer use сегодня лучший стартовый набор. Если нужен кодинг-ассистент — Claude Opus по-прежнему сильнее на reasoning-тяжёлых задачах. Computer use в production ставить рано — дай месяц на реальные отзывы за пределами контролируемых демок.
Как попробовать
- API — модели
gpt-5.4иgpt-5.4-proдоступны в OpenAI Platform прямо сейчас через Chat Completions, Responses API и Assistants API - ChatGPT — обновите приложение, GPT-5.4 раскатывается на Plus, Team и Pro планы
- Excel/Sheets — найдите «ChatGPT for Excel and Google Sheets (beta)» в ChatGPT
- Computer use — в Codex доступен skill «Playwright (Interactive)» для визуального дебага веб-приложений
- Tool search — если у вашего агента несколько MCP-серверов, включите tool search в API-запросе и сравните расход токенов с обычным режимом