> · 8 мин

OpenAI вкатил GPT-5 в голос — три Realtime-модели одним релизом, и Translate за 3 цента в минуту

OpenAI вкатил GPT-5 в голос — три Realtime-модели одним релизом, и Translate за 3 цента в минуту

OpenAI вкатил GPT-5 в голос — три Realtime-модели одним релизом, и Translate за 3 цента в минуту

7 мая OpenAI тихо выкатил в API сразу три новых аудио-модели. Без пресс-конференции, без отдельной презентации, обычным постом в блоге. Anthropic в это время разгребал пиар после Code with Claude без обещанного Sonnet 4.8, xAI хвастался свежим Grok 4.3. На фоне такой повестки тройной voice-релиз почти потерялся. Зря.

TL;DR: GPT-Realtime-2 это первая голосовая модель с GPT-5-уровнем reasoning. GPT-Realtime-Translate переводит речь с 70+ языков на 13 за $0.034/мин, без пауз и без "досказывания фразы". GPT-Realtime-Whisper стримит STT за $0.017/мин. Цены на основную модель ($32/$64 за 1M аудио-токенов) кусаются, но кэш ввода стоит $0.40, ровно на два порядка дешевле, и на длинных сессиях это меняет экономику.

Что приехало в один день

Три модели, все доступны в Realtime API прямо сейчас:

  • GPT-Realtime-2, флагман с reasoning уровня GPT-5. Speech-to-speech end-to-end, без промежуточного перегона через STT и TTS. Это значит, что модель слышит интонацию и паузы, и сама генерирует ответ голосом, а не сначала транскрибирует, потом думает текстом, потом озвучивает. Контекст 128K, поддерживает tool calling. Может в момент разговора лезть в календарь или внешний API.
  • GPT-Realtime-Translate, синхронный перевод. 70+ языков на вход, 13 на выход. Ключевой момент: переводит на лету, не дожидаясь конца фразы. Bolna AI в Индии прогнал на хинди, тамильском и телугу, получил Word Error Rate на 12.5% ниже, чем у любой другой модели, которую они тестировали.
  • GPT-Realtime-Whisper, стриминговая транскрипция. Это не старый Whisper. Старый был батчевой моделью, которая работает с записью целиком и оптимизирована под точность. Новый стримит текст пока ты говоришь, оптимизирован под латентность.

Цены и что они означают

  • GPT-Realtime-2: $32 за 1M аудио-входа, $0.40 за кэшированный, $64 за 1M аудио-выхода
  • GPT-Realtime-Translate: $0.034 за минуту аудио
  • GPT-Realtime-Whisper: $0.017 за минуту аудио

Главная цифра здесь, $0.40 за 1M кэшированных токенов на входе. Это в 80 раз дешевле некэшированного $32. Для агента, который на длинной сессии переслушивает один и тот же контекст инструкций десятки раз, разница превращается из "дорого" в "приемлемо".

Translate за $0.034/мин это около $2 в час. Живой синхронный переводчик в Москве или Лондоне стоит от $50/час. Качество не сравнимо в обе стороны, машинный перевод стабильнее, но менее нюансированный, а для tier-1 поддержки или приёма заказов через колл-центр граница окупаемости пробита.

Что разработчик может построить сегодня

Минимальный пример вызова GPT-Realtime-2 через WebSocket. То же API, что было у gpt-realtime, просто с новым model id:

const ws = new WebSocket('wss://api.openai.com/v1/realtime?model=gpt-realtime-2', {
  headers: {
    'Authorization': `Bearer ${process.env.OPENAI_API_KEY}`,
    'OpenAI-Beta': 'realtime=v1'
  }
});

ws.on('open', () => {
  ws.send(JSON.stringify({
    type: 'session.update',
    session: {
      modalities: ['audio', 'text'],
      instructions: 'You are a customer support agent. Use tools when needed.',
      voice: 'alloy',
      tools: [/* your function definitions */]
    }
  }));
});

ws.on('message', (data) => {
  const event = JSON.parse(data);
  if (event.type === 'response.audio.delta') {
    // play PCM16 chunk
  }
});

Что именно изменилось по сравнению с gpt-realtime 1.5: instruction-following стал заметно крепче на ветвящейся логике, контекст с 32K вырос до 128K, появился собственно reasoning. Модель думает над ответом и при этом удерживает темп разговора. Японский интегратор Oflight, сравнивая 1.5 и 2.0 на сложных кейсах саппорта, репортит +26 пунктов на "трудных" сценариях.

Для перевода код ещё короче. Translate берётся через тот же Realtime API, но с другим model id и упрощённой сессией: на входе аудио, на выходе аудио другого языка плюс текстовая транскрипция.

Кто уже строит

  • Deutsche Telekom пилотит multilingual voice для саппорта, чтобы немец и турецкий говорящий звонили в один контактный центр и говорили каждый на своём языке.
  • Vimeo делает переведённое воспроизведение медиа на лету. То есть видео на английском, а зритель в Бразилии слушает синхронный португальский.
  • BolnaAI строит voice agents для Индии. Их CTO Pratik Sachan прямо сказал: "12.5% меньше WER на хинди/тамильском/телугу, чем у любой другой модели". Это claim от пользователя API, а не маркетинговая цифра OpenAI.

Подводные камни

Контекст путается с акцентами. Ещё в gpt-realtime 1.5 жители Hacker News и Reddit жаловались, что модель путает язык, если у тебя сильный акцент. Английский с индийским говором она может принять за хинди и переключиться на хинди-режим. OpenAI заявляет улучшения в 2.0, но проблема архитектурная. В нативном speech-to-speech модель сама принимает решение о языке без отдельного language detection с порогом уверенности. Если строишь voice-агента для глобальной аудитории, закладывай fallback и явное указание языка в session.update.

13 выходных языков на Translate это мало. На вход 70+, на выход 13. То есть итальянец сможет послушать перевод с японского, но если итальянцу нужно ответить, и японец слушает по-итальянски, ты в нужной паре. А если у тебя пара "тайский ↔ финский", то один из концов не покрыт. Полный список 13 в официальном анонсе не раскрыт прямо в основном посте, приходится копать в playground или в документации API.

Цена на некэшированный аудио-ввод реально кусается. $32 за 1M аудио-токенов на входе это примерно $0.20 за минуту голоса, плюс выход. Час разговора без кэша легко уносит $30-50. Все рекламные расчёты идут от $0.40 за кэшированный токен, но кэш работает только если ты переиспользуешь префикс контекста. Если у тебя каждый разговор это новый клиент с новой историей, кэш не спасёт. Сравните с Gemini 3.1 Flash Live, где end-to-end speech-to-speech идёт за $0.00165/мин, и поймёте, что premium-tier Realtime-2 это для тех, кому нужен именно reasoning, а не просто разговор.

Streaming Whisper это не точный Whisper. В документации чёрным по белому: stream-версия оптимизирована под latency, а не под fidelity. Для официальных протоколов, юридических расшифровок, медицинских записей нужен второй проход через батчевый Whisper после звонка. Один поток не закрывает оба сценария, и об этом не пишут крупными буквами в маркетинге.

WebRTC + Realtime API исторически были глючные. На статусе OpenAI 5 марта 2026 был High Error Rate в EU-регионе на Realtime API. Это не первый и не последний инцидент. Если строишь production voice-сервис, закладывай retry-логику и fallback на Gemini Live или Cartesia. Не подписывай SLA на основе одного только вендорского.

Альтернативы

  • Google Gemini 3.1 Flash Live: native multimodal speech-to-speech по $0.00165/мин, в 200 раз дешевле Realtime-2 за аудио. 90+ языков на конверсацию, 90.8% на ComplexFuncBench Audio. Минус: собственный WebSocket-протокол, не event schema OpenAI, переезд означает переписку клиентского кода. Лучше для тех, кто уже на Google Cloud.
  • Cartesia Sonic 2 / Sonic Turbo: 40-90ms first audio, лучшая в индустрии естественность голоса в blinded human evaluations, on-prem и on-device deployments. Но 15 языков, и это TTS+STT отдельными модулями, не end-to-end speech-to-speech reasoning.
  • ElevenLabs Conversational AI: 75-150ms first audio, voice cloning из 3 секунд сэмпла. Дороже OpenAI ($165-330+ за 1M chars против $15), но ощущается человечнее на дикторских задачах. Не reasoning-модель, берёт LLM-провайдера снаружи.
  • Deepgram Nova-3: STT-фокус, самая быстрая транскрипция в индустрии, ниже WER чем у gpt-4o-transcribe в Reddit-замерах. Если нужна только транскрипция без reasoning, это профессиональный инструмент.

Вердикт

Если строишь voice-агента, где важна способность модели рассуждать и звать tools посреди разговора, переходи на GPT-Realtime-2. Конкуренции реально нет: Gemini Live дешевле, но reasoning у него не GPT-5-уровня; Cartesia не делает reasoning вообще. Для саппорта с эскалацией это новый дефолт.

Если строишь синхронный переводчик или multilingual интерфейс, Translate за $0.034/мин экономически перебивает живых переводчиков в любой стандартной задаче. Проверь только что твоя пара языков попадает в 13 выходных. Не подписывай контракты на юридический и медицинский синхрон, там нужны люди.

Если просто нужна дешёвая стриминговая транскрипция, посмотри сначала на Deepgram, потом на Realtime-Whisper. Цена $0.017/мин у OpenAI ниже не самая на рынке, но если ты уже в OpenAI-стеке, переход внутри одного API меньше боли, чем интеграция нового вендора.

А если у тебя простой FAQ-бот без reasoning, оставайся на gpt-realtime 1.5 или, если экономика жмёт, переезжай на Gemini Live. Платить $30/час за разговор без кэша, чтобы проиграть голосование "перевести на оператора", это нерациональный спенд.

Как попробовать

  1. Открой Playground для Realtime, там можно потыкать GPT-Realtime-2 в браузере без кода.
  2. Если у тебя Codex, открой этот промпт в Codex и попроси добавить voice agent в существующее приложение.
  3. Возьми OpenAI cookbook со структурой Realtime API клиента (WebSocket + PCM16 + session.update) и подмени model на gpt-realtime-2.
  4. Для Translate просто отправляй аудио в свежую сессию с указанием target language через session config. Текст транскрипции и аудио перевода прилетят в response.audio.delta и response.audio_transcript.delta.
  5. Прежде чем разворачивать в продакшен, прогоняй A/B на своём top-10 интент-сценариев. Ставка на reasoning-модель имеет смысл, если хотя бы половина диалогов реально требует ветвящейся логики.

Полная страница релиза с деталями на openai.com.

$ ls ./related/

Похожие статьи

gpt-56-leak-goblins.md
GPT-5.6 нашли в логах Codex — утечка, ставки на Polymarket и гоблины, из-за которых OpenAI торопится
> · 9 мин

GPT-5.6 нашли в логах Codex — утечка, ставки на Polymarket и гоблины, из-за которых OpenAI торопится

Security-исследователь нашёл gpt-5.6 в rollout-логах Codex, Polymarket даёт 82% на релиз до 30 июня. Разбираем, что реально известно о новой модели OpenAI, при чём тут гоблины с приростом +3881% и почему июнь столкнёт лбами сразу три лаборатории.

llm openai leak ai-models
nvidia-cosmos-3-open-omni-model.md
NVIDIA Cosmos 3 — первая полностью открытая omni-модель, которая рассуждает о физике и сама генерирует мир для роботов
> · 7 мин

NVIDIA Cosmos 3 — первая полностью открытая omni-модель, которая рассуждает о физике и сама генерирует мир для роботов

NVIDIA выложила Cosmos 3 — первую полностью открытую omni-модель, которая в одном стеке рассуждает о физике и сама генерирует видео, звук и действия для роботов, беспилотников и складского видео-анализа. Разбираем архитектуру из двух башен, версии Nano 8B и Super 32B, 6 открытых датасетов, лицензию с поводком и зачем NVIDIA раздаёт фронтир бесплатно.

ai open-source multimodal nvidia
claude-opus-48-dynamic-workflows.md
Claude Opus 4.8 — Anthropic переписал Bun на Rust за 11 дней. И ещё четыре фичи, которые меняют день разработчика
> · 9 мин

Claude Opus 4.8 — Anthropic переписал Bun на Rust за 11 дней. И ещё четыре фичи, которые меняют день разработчика

Anthropic выпустил Claude Opus 4.8 — апгрейд по цене 4.7. Динамические workflow в Claude Code (Bun переписан на Rust за 11 дней), fast mode в три раза дешевле и effort-control в UI claude.ai.

ai agents llm claude
subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe