OpenAI выводит голосовой ИИ на новый уровень с Realtime API и GPT-Realtime

19:16, 29 августа

Отредактировано: Veronika Radoslavskaya

Компания OpenAI объявила о переводе своего Realtime API в статус общедоступного и представила передовую модель GPT-Realtime, что знаменует собой значительный прогресс в области голосового искусственного интеллекта. Эти разработки призваны обеспечить разработчикам и предприятиям более естественное и эффективное взаимодействие с пользователями.

GPT-Realtime — это самая передовая речевая модель OpenAI, способная обрабатывать и генерировать аудио напрямую. Это позволяет сократить задержки, улучшить понимание невербальных сигналов, таких как смех, и обеспечить плавное переключение между языками в середине предложения, а также корректировать тон и акцент. Модель также включает два новых голоса — Cedar и Marin.

Realtime API, ранее находившийся в бета-версии с октября 2024 года, теперь предлагает поддержку WebRTC для упрощения интеграции, ввод изображений для визуального анализа во время разговоров, протокол инициации сеансов (SIP) для интеграции с телефонными звонками и возможность повторного использования подсказок. Эти функции расширяют возможности голосовых агентов, предоставляя им доступ к дополнительным инструментам и контексту.

Внедрение GPT-Realtime и обновленного Realtime API является ответом на растущий спрос на более естественные и интуитивно понятные голосовые интерфейсы. По сравнению с предыдущими подходами, которые требовали последовательного использования нескольких моделей (речь-текст, обработка текста, текст-речь), GPT-Realtime обрабатывает аудио напрямую, что значительно снижает задержку и сохраняет тонкие нюансы речи.

По результатам тестов Big Bench Audio, GPT-Realtime демонстрирует 82,8% точности в задачах, связанных с рассуждением, что на 17% выше, чем у предыдущей модели OpenAI от декабря 2024 года. Показатели следования инструкциям и вызова функций также значительно улучшились.

OpenAI снизила стоимость использования Realtime API на 20% по сравнению с предыдущими тарифами. Новые ставки составляют 32 доллара за миллион входных аудио токенов и 64 доллара за миллион выходных аудио токенов. Кэшированные входные аудио токены стоят 0,40 доллара за миллион.

Эти инновации открывают новые горизонты для бизнеса, позволяя создавать более совершенные голосовые приложения для обслуживания клиентов, персональных помощников и образовательных платформ. Ожидается, что улучшенная естественность речи и расширенные возможности интеграции приведут к более глубокому вовлечению клиентов и повышению операционной эффективности.

Источники

WebProNews
Introducing gpt-realtime and Realtime API updates for production voice agents
o1 and new tools for developers
Realtime API | OpenAI Help Center
OpenAI updates the Realtime API with gpt-realtime, its most advanced voice AI model yet
OpenAI Introduces GPT-Realtime Speech Generation Model, Makes Realtime API Generally Available

Читайте больше новостей по этой теме:

30 сентября

OpenAI представляет Sora 2: революция в генерации видео и аудио

30 сентября

Opera представляет Neon: браузер с ИИ-агентом для проактивной работы

26 сентября

Google DeepMind представляет Gemini Robotics 1.5 и ER 1.5 для повышения автономности роботов

Вы нашли ошибку или неточность?

Мы учтем ваши комментарии как можно скорее.

Центр уведомлений

Центр уведомлений

OpenAI выводит голосовой ИИ на новый уровень с Realtime API и GPT-Realtime

Источники

Читайте больше новостей по этой теме: