> · 8 мин

OpenAI вкатил GPT-5 в голос — три Realtime-модели одним релизом, и Translate за 3 цента в минуту

OpenAI вкатил GPT-5 в голос — три Realtime-модели одним релизом, и Translate за 3 цента в минуту

OpenAI вкатил GPT-5 в голос — три Realtime-модели одним релизом, и Translate за 3 цента в минуту

7 мая OpenAI тихо выкатил в API сразу три новых аудио-модели. Без пресс-конференции, без отдельной презентации, обычным постом в блоге. Anthropic в это время разгребал пиар после Code with Claude без обещанного Sonnet 4.8, xAI хвастался свежим Grok 4.3. На фоне такой повестки тройной voice-релиз почти потерялся. Зря.

TL;DR: GPT-Realtime-2 это первая голосовая модель с GPT-5-уровнем reasoning. GPT-Realtime-Translate переводит речь с 70+ языков на 13 за $0.034/мин, без пауз и без "досказывания фразы". GPT-Realtime-Whisper стримит STT за $0.017/мин. Цены на основную модель ($32/$64 за 1M аудио-токенов) кусаются, но кэш ввода стоит $0.40, ровно на два порядка дешевле, и на длинных сессиях это меняет экономику.

Что приехало в один день

Три модели, все доступны в Realtime API прямо сейчас:

  • GPT-Realtime-2, флагман с reasoning уровня GPT-5. Speech-to-speech end-to-end, без промежуточного перегона через STT и TTS. Это значит, что модель слышит интонацию и паузы, и сама генерирует ответ голосом, а не сначала транскрибирует, потом думает текстом, потом озвучивает. Контекст 128K, поддерживает tool calling. Может в момент разговора лезть в календарь или внешний API.
  • GPT-Realtime-Translate, синхронный перевод. 70+ языков на вход, 13 на выход. Ключевой момент: переводит на лету, не дожидаясь конца фразы. Bolna AI в Индии прогнал на хинди, тамильском и телугу, получил Word Error Rate на 12.5% ниже, чем у любой другой модели, которую они тестировали.
  • GPT-Realtime-Whisper, стриминговая транскрипция. Это не старый Whisper. Старый был батчевой моделью, которая работает с записью целиком и оптимизирована под точность. Новый стримит текст пока ты говоришь, оптимизирован под латентность.

Цены и что они означают

  • GPT-Realtime-2: $32 за 1M аудио-входа, $0.40 за кэшированный, $64 за 1M аудио-выхода
  • GPT-Realtime-Translate: $0.034 за минуту аудио
  • GPT-Realtime-Whisper: $0.017 за минуту аудио

Главная цифра здесь, $0.40 за 1M кэшированных токенов на входе. Это в 80 раз дешевле некэшированного $32. Для агента, который на длинной сессии переслушивает один и тот же контекст инструкций десятки раз, разница превращается из "дорого" в "приемлемо".

Translate за $0.034/мин это около $2 в час. Живой синхронный переводчик в Москве или Лондоне стоит от $50/час. Качество не сравнимо в обе стороны, машинный перевод стабильнее, но менее нюансированный, а для tier-1 поддержки или приёма заказов через колл-центр граница окупаемости пробита.

Что разработчик может построить сегодня

Минимальный пример вызова GPT-Realtime-2 через WebSocket. То же API, что было у gpt-realtime, просто с новым model id:

const ws = new WebSocket('wss://api.openai.com/v1/realtime?model=gpt-realtime-2', {
  headers: {
    'Authorization': `Bearer ${process.env.OPENAI_API_KEY}`,
    'OpenAI-Beta': 'realtime=v1'
  }
});

ws.on('open', () => {
  ws.send(JSON.stringify({
    type: 'session.update',
    session: {
      modalities: ['audio', 'text'],
      instructions: 'You are a customer support agent. Use tools when needed.',
      voice: 'alloy',
      tools: [/* your function definitions */]
    }
  }));
});

ws.on('message', (data) => {
  const event = JSON.parse(data);
  if (event.type === 'response.audio.delta') {
    // play PCM16 chunk
  }
});

Что именно изменилось по сравнению с gpt-realtime 1.5: instruction-following стал заметно крепче на ветвящейся логике, контекст с 32K вырос до 128K, появился собственно reasoning. Модель думает над ответом и при этом удерживает темп разговора. Японский интегратор Oflight, сравнивая 1.5 и 2.0 на сложных кейсах саппорта, репортит +26 пунктов на "трудных" сценариях.

Для перевода код ещё короче. Translate берётся через тот же Realtime API, но с другим model id и упрощённой сессией: на входе аудио, на выходе аудио другого языка плюс текстовая транскрипция.

Кто уже строит

  • Deutsche Telekom пилотит multilingual voice для саппорта, чтобы немец и турецкий говорящий звонили в один контактный центр и говорили каждый на своём языке.
  • Vimeo делает переведённое воспроизведение медиа на лету. То есть видео на английском, а зритель в Бразилии слушает синхронный португальский.
  • BolnaAI строит voice agents для Индии. Их CTO Pratik Sachan прямо сказал: "12.5% меньше WER на хинди/тамильском/телугу, чем у любой другой модели". Это claim от пользователя API, а не маркетинговая цифра OpenAI.

Подводные камни

Контекст путается с акцентами. Ещё в gpt-realtime 1.5 жители Hacker News и Reddit жаловались, что модель путает язык, если у тебя сильный акцент. Английский с индийским говором она может принять за хинди и переключиться на хинди-режим. OpenAI заявляет улучшения в 2.0, но проблема архитектурная. В нативном speech-to-speech модель сама принимает решение о языке без отдельного language detection с порогом уверенности. Если строишь voice-агента для глобальной аудитории, закладывай fallback и явное указание языка в session.update.

13 выходных языков на Translate это мало. На вход 70+, на выход 13. То есть итальянец сможет послушать перевод с японского, но если итальянцу нужно ответить, и японец слушает по-итальянски, ты в нужной паре. А если у тебя пара "тайский ↔ финский", то один из концов не покрыт. Полный список 13 в официальном анонсе не раскрыт прямо в основном посте, приходится копать в playground или в документации API.

Цена на некэшированный аудио-ввод реально кусается. $32 за 1M аудио-токенов на входе это примерно $0.20 за минуту голоса, плюс выход. Час разговора без кэша легко уносит $30-50. Все рекламные расчёты идут от $0.40 за кэшированный токен, но кэш работает только если ты переиспользуешь префикс контекста. Если у тебя каждый разговор это новый клиент с новой историей, кэш не спасёт. Сравните с Gemini 3.1 Flash Live, где end-to-end speech-to-speech идёт за $0.00165/мин, и поймёте, что premium-tier Realtime-2 это для тех, кому нужен именно reasoning, а не просто разговор.

Streaming Whisper это не точный Whisper. В документации чёрным по белому: stream-версия оптимизирована под latency, а не под fidelity. Для официальных протоколов, юридических расшифровок, медицинских записей нужен второй проход через батчевый Whisper после звонка. Один поток не закрывает оба сценария, и об этом не пишут крупными буквами в маркетинге.

WebRTC + Realtime API исторически были глючные. На статусе OpenAI 5 марта 2026 был High Error Rate в EU-регионе на Realtime API. Это не первый и не последний инцидент. Если строишь production voice-сервис, закладывай retry-логику и fallback на Gemini Live или Cartesia. Не подписывай SLA на основе одного только вендорского.

Альтернативы

  • Google Gemini 3.1 Flash Live: native multimodal speech-to-speech по $0.00165/мин, в 200 раз дешевле Realtime-2 за аудио. 90+ языков на конверсацию, 90.8% на ComplexFuncBench Audio. Минус: собственный WebSocket-протокол, не event schema OpenAI, переезд означает переписку клиентского кода. Лучше для тех, кто уже на Google Cloud.
  • Cartesia Sonic 2 / Sonic Turbo: 40-90ms first audio, лучшая в индустрии естественность голоса в blinded human evaluations, on-prem и on-device deployments. Но 15 языков, и это TTS+STT отдельными модулями, не end-to-end speech-to-speech reasoning.
  • ElevenLabs Conversational AI: 75-150ms first audio, voice cloning из 3 секунд сэмпла. Дороже OpenAI ($165-330+ за 1M chars против $15), но ощущается человечнее на дикторских задачах. Не reasoning-модель, берёт LLM-провайдера снаружи.
  • Deepgram Nova-3: STT-фокус, самая быстрая транскрипция в индустрии, ниже WER чем у gpt-4o-transcribe в Reddit-замерах. Если нужна только транскрипция без reasoning, это профессиональный инструмент.

Вердикт

Если строишь voice-агента, где важна способность модели рассуждать и звать tools посреди разговора, переходи на GPT-Realtime-2. Конкуренции реально нет: Gemini Live дешевле, но reasoning у него не GPT-5-уровня; Cartesia не делает reasoning вообще. Для саппорта с эскалацией это новый дефолт.

Если строишь синхронный переводчик или multilingual интерфейс, Translate за $0.034/мин экономически перебивает живых переводчиков в любой стандартной задаче. Проверь только что твоя пара языков попадает в 13 выходных. Не подписывай контракты на юридический и медицинский синхрон, там нужны люди.

Если просто нужна дешёвая стриминговая транскрипция, посмотри сначала на Deepgram, потом на Realtime-Whisper. Цена $0.017/мин у OpenAI ниже не самая на рынке, но если ты уже в OpenAI-стеке, переход внутри одного API меньше боли, чем интеграция нового вендора.

А если у тебя простой FAQ-бот без reasoning, оставайся на gpt-realtime 1.5 или, если экономика жмёт, переезжай на Gemini Live. Платить $30/час за разговор без кэша, чтобы проиграть голосование "перевести на оператора", это нерациональный спенд.

Как попробовать

  1. Открой Playground для Realtime, там можно потыкать GPT-Realtime-2 в браузере без кода.
  2. Если у тебя Codex, открой этот промпт в Codex и попроси добавить voice agent в существующее приложение.
  3. Возьми OpenAI cookbook со структурой Realtime API клиента (WebSocket + PCM16 + session.update) и подмени model на gpt-realtime-2.
  4. Для Translate просто отправляй аудио в свежую сессию с указанием target language через session config. Текст транскрипции и аудио перевода прилетят в response.audio.delta и response.audio_transcript.delta.
  5. Прежде чем разворачивать в продакшен, прогоняй A/B на своём top-10 интент-сценариев. Ставка на reasoning-модель имеет смысл, если хотя бы половина диалогов реально требует ветвящейся логики.

Полная страница релиза с деталями на openai.com.

$ ls ./related/

Похожие статьи

mythos-week-political-explosion.md
Anthropic Mythos за 7 дней: NSA сканит Microsoft, Белый дом блокирует 70 компаний, Anthropic ловит утечку
> · 10 мин

Anthropic Mythos за 7 дней: NSA сканит Microsoft, Белый дом блокирует 70 компаний, Anthropic ловит утечку

За неделю Mythos из инженерной curiosity превратился в политическую гранату. NSA втихую сканит Microsoft на уязвимости, Белый дом блокирует расширение доступа, Anthropic расследует «несанкционированный доступ», а AISLE показала, что bug-finding воспроизводится на открытых моделях за $0.11 за M токенов.

ai llm claude anthropic
nemotron-3-nano-omni.md
NVIDIA Nemotron 3 Nano Omni: 30B-модель, которая видит, слышит и читает за один проход. И обходит Qwen3-Omni на каждом бенчмарке
> · 8 мин

NVIDIA Nemotron 3 Nano Omni: 30B-модель, которая видит, слышит и читает за один проход. И обходит Qwen3-Omni на каждом бенчмарке

NVIDIA выкатила открытую multimodal модель Nemotron 3 Nano Omni: 30B параметров, 3B активных, понимает video/audio/image/text одной моделью. 9x throughput vs другие omni-модели, 25 ГБ RAM в 4-бит. Бьёт Qwen3-Omni на каждом бенчмарке.

ai agents llm open-source
gnap-git-native-agent-protocol-v2.md
GNAP: оркестрируй рой AI-агентов через git-репо. 4 JSON-файла, ноль серверов
> · 6 мин

GNAP: оркестрируй рой AI-агентов через git-репо. 4 JSON-файла, ноль серверов

Farol Labs предлагает координировать AI-агентов через 4 JSON-файла в git-репо. Без серверов, без баз. Любой агент с git push автоматически в команде. Разбираем GNAP — RFC-черновик git-native оркестрации.

ai agents open-source git
subscribe.sh

$ cat /dev/blog/updates

> Свежие заметки о программировании,

> DevOps и AI — прямо в мессенджер

./subscribe