> · 8 мин

GPT-5.4 — миллион токенов, computer use быстрее человека и плагины для Excel, которые превращают ChatGPT в офисного работника

GPT-5.4 — миллион токенов, computer use быстрее человека и плагины для Excel, которые превращают ChatGPT в офисного работника

GPT-5.4 — миллион токенов, computer use быстрее человека и плагины для Excel, которые превращают ChatGPT в офисного работника

Ни недели без большого релиза. OpenAI выкатили GPT-5.4 — и на этот раз фокус сместился с чата на работу. Буквально: модель теперь умеет управлять компьютером, заполнять формы на сайтах, работать прямо внутри Excel и Google Sheets, и делает всё это быстрее junior-аналитика из инвестбанка.

TL;DR: GPT-5.4 — первая mainline-модель OpenAI с нативным computer use, контекстным окном на 1M токенов и встроенными плагинами для Excel/Sheets. На бенчмарке OSWorld обогнала людей (75% vs 72.4%), на задачах инвестбанковских таблиц набирает 87.3%. API доступен прямо сейчас: $2.50/$15 за миллион токенов.

Computer use — модель за рулём

GPT-5.4 — первая mainline-модель OpenAI с нативной поддержкой computer use. Не экспериментальный preview, а production-ready фича прямо в API и Codex.

На практике это выглядит так: модель видит экран, кликает кнопки, заполняет формы, навигирует по сайтам, работает в приложениях. На странице релиза OpenAI показали демку заполнения форм — и скорость впечатляет. Модель проходит форму за секунды, с точностью, которая не снится ни одному автозаполнению в браузере.

Цифры:

  • OSWorld-Verified — GPT-5.4 Thinking: 75.0%, Claude Opus 4.6: 72.7%, человек: 72.4%. Модель обогнала людей на бенчмарке реального взаимодействия с десктопом
  • Прыжок с GPT-5.2 — с 47.3% до 75.0%. Плюс 28 процентных пунктов за одно поколение

Работает это через цикл build-run-verify-fix: модель не просто кликает вслепую. Она выполняет действие, проверяет результат на скриншоте, и если что-то пошло не так — исправляет. В Codex доступен экспериментальный skill «Playwright (Interactive)», который связывает кодинг и computer use: можно дебажить веб-приложение визуально прямо во время его написания.

Агент — не просто маркетинговое слово

OpenAI позиционирует GPT-5.4 как движок для AI-агентов. Не «модель, которую можно использовать в агенте», а модель, которая спроектирована быть агентом — с длинными сессиями, множеством инструментов и самостоятельным принятием решений.

  • Toolathlon (бенчмарк tool calling) — GPT-5.4: 54.6%, GPT-5.3-Codex: 51.9%, Claude Opus 4.6: 44.8%. Разрыв с Claude — почти 10 процентных пунктов
  • BrowseComp (глубокий веб-поиск) — GPT-5.4 Pro: 89.3%, Gemini 3.1 Pro: 85.9%
  • GDPval (44 профессии, задачи knowledge work) — GPT-5.4: 83.0%, Claude Opus 4.6: 78.0%

Новая фича в API — tool search. Раньше, если у агента было 36 MCP-серверов, все определения инструментов грузились в контекст разом. Теперь модель получает лёгкий индекс и подтягивает полные определения только когда они реально нужны. На бенчмарке Scale MCP Atlas (250 задач, 36 MCP-серверов) tool search сэкономил 47% токенов при той же точности. Для разработчиков агентов это прямая экономия на API.

Миллион токенов контекста

Контекстное окно GPT-5.4 — 1 000 000 токенов через API. GPT-5.2 давал 256K. GPT-5.3 Codex тоже дотягивался до 1M, но был заточен только под кодинг.

GPT-5.4 — первая общая модель OpenAI с таким окном. Загрузи целый кодбейс, стопку PDF или полную историю агентной сессии в один запрос.

Но ценник нелинейный: после 272 000 input-токенов цена удваивается. Формально миллион есть, но последние 728K стоят $5.00/1M вместо $2.50. Для длинных агентных сессий, которые OpenAI как раз рекламирует, это важно закладывать в бюджет.

Excel и Google Sheets — ChatGPT за рабочим столом

OpenAI выпустил плагины, которые встраивают GPT-5.4 прямо в ячейки Excel и Google Sheets. Не «скопируй таблицу в ChatGPT и вставь обратно», а модель работает внутри таблицы — анализирует данные, строит формулы, обновляет финансовые модели.

Внутренний бенчмарк: задачи, типичные для junior-аналитика инвестбанка. GPT-5.4 набрал 87.3%, GPT-5.2 — 68.4%. Плюс 19 п.п. — по заявлению OpenAI, это разница между «черновик на доработку» и «можно отправлять партнёру».

И это прямой удар по Claude, который до GPT-5.4 был лучшим по работе с длинными документами. OpenAI заходит на ту же территорию — но с козырем: модель не просто анализирует таблицу, она живёт в ней.

Человеческие оценщики предпочли презентации GPT-5.4 в 68% случаев по сравнению с GPT-5.2, по заявлению OpenAI. Независимых замеров пока нет.

GPT-5.4 Thinking — рассуждения с рулевым колесом

В ChatGPT появилась версия GPT-5.4 Thinking. Шесть направлений улучшений:

  1. Кодинг и tool calling — точнее следует инструкциям, лучше работает с инструментами
  2. Мультимодальность — улучшено восприятие изображений
  3. Длинные воркфлоу — может думать дольше на сложных задачах, не теряя контекст предыдущих шагов
  4. Эффективность токенов — меньше reasoning-токенов на тот же результат
  5. Агентный поиск — лучше синтезирует информацию из нескольких источников
  6. Бизнес-задачи — таблицы, customer service, финансовый анализ

Главная фича: можно менять направление рассуждений прямо в процессе. Модель показывает preamble — план решения — и ты корректируешь курс, не начиная заново. Для multi-step задач это критически важно: раньше, если модель пошла не туда на шаге 3 из 10, приходилось перезапускать всё.

GPT-5.4 Thinking — первая mainline-модель с compaction training: модель обучена сохранять ключевой контекст при длинных агентных цепочках, даже когда ранние шаги уходят за пределы окна внимания.

GPT-5.4 Thinking заменяет GPT-5.2 Thinking. Три месяца до закрытия старой версии.

Меньше галлюцинаций — с оговорками

По заявлению OpenAI:

  • Отдельные утверждения на 33% реже оказываются ложными (vs GPT-5.2)
  • Полные ответы на 18% реже содержат хотя бы одну ошибку

Числа получены на внутренних бенчмарках OpenAI. Независимых замеров пока нет — модель вышла сегодня. Учитывая историю серии GPT-5 (5 000 пользователей на Reddit назвали GPT-5.0 «awful», Gary Marcus написал «overhyped and underwhelming»), реальную картину покажут следующие недели.

Цены и доступ

API доступен прямо сейчас через Chat Completions, Responses API и Assistants API:

  • gpt-5.4 — $2.50/1M input, $15/1M output
  • gpt-5.4-pro — $30/1M input, $180/1M output (только Pro и Enterprise планы)
  • Batch/Flex — скидка 50%
  • Priority — 2× стоимость
  • Контекст >272K — двойная цена за input

Сравнение input/output за 1M токенов:

  • GPT-5.4 — $2.50 / $15
  • Claude Opus 4.6 — $15 / $75
  • Gemini 3.1 Pro — $1.25 / $10

GPT-5.4 — самый дешёвый по input среди топовых моделей. На output дешевле Gemini. А GPT-5.4 Pro ($30/$180) стоит дороже Claude Opus вдвое по input и в 2.4 раза по output.

В ChatGPT модель раскатывается на Plus, Team и Pro. Enterprise и Edu — через early access в админке.

Подводные камни

  1. Удвоение цены после 272K токенов. OpenAI рекламирует 1M контекст, но реально первые 272K стоят $2.50/1M, а остальные 728K — $5.00/1M. Агентная сессия на 800K input-токенов обойдётся не в $2.00, а в $3.32 — на 66% дороже «базовой» цены. Для систем с десятками MCP-серверов и длинным контекстом это быстро складывается.

  2. Computer use — первое поколение в mainline-модели. Бенчмарки впечатляют, но OSWorld-Verified — контролируемая среда с предсказуемыми интерфейсами. Реальный мир — это капчи, динамические попапы, нестандартная вёрстка. Claude Computer Use при запуске тоже показывал красивые демки, а потом пользователи столкнулись с реальностью. OpenAI продемонстрировал заполнение форм — но не показал обработку ошибок.

  3. Принудительная миграция с GPT-5.2 Thinking за три месяца. Для enterprise-клиентов с production pipelines это жёсткий дедлайн. Каждое обновление линейки GPT-5 (5.0 → 5.1 → 5.2 → 5.3) сопровождалось жалобами на изменения в поведении модели. Миграция на GPT-5.4 Thinking без полного регрессионного тестирования — русская рулетка с production-нагрузками.

  4. Бенчмарки от вендора без независимой проверки. Все ключевые цифры — 33% меньше галлюцинаций, 87.3% на spreadsheet-задачах, 68% preference rate — это внутренние метрики OpenAI. Модель вышла сегодня, независимых замеров ещё нет. Серия GPT-5 исторически недотягивала до маркетинговых обещаний в реальных сценариях.

Альтернативы

  • Claude Opus 4.6 — лидер по качеству рассуждений. GPQA Diamond: 94.4% vs 94.3% у GPT-5.4 — фактически паритет. Computer use есть, но как отдельная фича, не нативная часть модели. Дороже по input ($15 vs $2.50), зато нет ценового скачка на длинном контексте. Для задач, где важно качество ответа больше, чем скорость клика по интерфейсу — остаётся лучшим выбором.

  • Gemini 3.1 Pro — самый дешёвый в тройке ($1.25/$10 за 1M), контекст 2M токенов без ценовых сюрпризов. Проигрывает по computer use и tool calling (BrowseComp: 85.9% vs 89.3% у GPT-5.4 Pro), но для длинных контекстов без агентных задач — экономически выгоднее.

  • GPT-5.3 Codex — если нужен только кодинг. Тот же 1M контекст, заточен под программирование, дешевле. Нет computer use, нет Excel-плагинов, нет tool search — но для чистого кодинга в IDE всё ещё отличный вариант.

Вердикт

GPT-5.4 — это не «ещё одна модель на полпроцента лучше». Это заявка на новую нишу: модель-работник, которая не просто отвечает на вопросы, а выполняет задачи в реальных приложениях. Если строишь агента для enterprise-автоматизации — GPT-5.4 с tool search и computer use сегодня лучший стартовый набор. Если нужен кодинг-ассистент — Claude Opus по-прежнему сильнее на reasoning-тяжёлых задачах. Computer use в production ставить рано — дай месяц на реальные отзывы за пределами контролируемых демок.

Как попробовать

  1. API — модели gpt-5.4 и gpt-5.4-pro доступны в OpenAI Platform прямо сейчас через Chat Completions, Responses API и Assistants API
  2. ChatGPT — обновите приложение, GPT-5.4 раскатывается на Plus, Team и Pro планы
  3. Excel/Sheets — найдите «ChatGPT for Excel and Google Sheets (beta)» в ChatGPT
  4. Computer use — в Codex доступен skill «Playwright (Interactive)» для визуального дебага веб-приложений
  5. Tool search — если у вашего агента несколько MCP-серверов, включите tool search в API-запросе и сравните расход токенов с обычным режимом
$ ls ./related/

Похожие статьи

subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe