OpenAI выводит голосовой ИИ на новый уровень с Realtime API и GPT-Realtime

Отредактировано: Veronika Radoslavskaya

Компания OpenAI объявила о переводе своего Realtime API в статус общедоступного и представила передовую модель GPT-Realtime, что знаменует собой значительный прогресс в области голосового искусственного интеллекта. Эти разработки призваны обеспечить разработчикам и предприятиям более естественное и эффективное взаимодействие с пользователями.

GPT-Realtime — это самая передовая речевая модель OpenAI, способная обрабатывать и генерировать аудио напрямую. Это позволяет сократить задержки, улучшить понимание невербальных сигналов, таких как смех, и обеспечить плавное переключение между языками в середине предложения, а также корректировать тон и акцент. Модель также включает два новых голоса — Cedar и Marin.

Realtime API, ранее находившийся в бета-версии с октября 2024 года, теперь предлагает поддержку WebRTC для упрощения интеграции, ввод изображений для визуального анализа во время разговоров, протокол инициации сеансов (SIP) для интеграции с телефонными звонками и возможность повторного использования подсказок. Эти функции расширяют возможности голосовых агентов, предоставляя им доступ к дополнительным инструментам и контексту.

Внедрение GPT-Realtime и обновленного Realtime API является ответом на растущий спрос на более естественные и интуитивно понятные голосовые интерфейсы. По сравнению с предыдущими подходами, которые требовали последовательного использования нескольких моделей (речь-текст, обработка текста, текст-речь), GPT-Realtime обрабатывает аудио напрямую, что значительно снижает задержку и сохраняет тонкие нюансы речи.

По результатам тестов Big Bench Audio, GPT-Realtime демонстрирует 82,8% точности в задачах, связанных с рассуждением, что на 17% выше, чем у предыдущей модели OpenAI от декабря 2024 года. Показатели следования инструкциям и вызова функций также значительно улучшились.

OpenAI снизила стоимость использования Realtime API на 20% по сравнению с предыдущими тарифами. Новые ставки составляют 32 доллара за миллион входных аудио токенов и 64 доллара за миллион выходных аудио токенов. Кэшированные входные аудио токены стоят 0,40 доллара за миллион.

Эти инновации открывают новые горизонты для бизнеса, позволяя создавать более совершенные голосовые приложения для обслуживания клиентов, персональных помощников и образовательных платформ. Ожидается, что улучшенная естественность речи и расширенные возможности интеграции приведут к более глубокому вовлечению клиентов и повышению операционной эффективности.

Источники

  • WebProNews

  • Introducing gpt-realtime and Realtime API updates for production voice agents

  • o1 and new tools for developers

  • Realtime API | OpenAI Help Center

  • OpenAI updates the Realtime API with gpt-realtime, its most advanced voice AI model yet

  • OpenAI Introduces GPT-Realtime Speech Generation Model, Makes Realtime API Generally Available

Вы нашли ошибку или неточность?

Мы учтем ваши комментарии как можно скорее.

OpenAI выводит голосовой ИИ на новый урове... | Gaya One