OpenAI революціонізує голосовий ШІ: Запуск Realtime API та моделі GPT-Realtime

Відредаговано: Veronika Radoslavskaya

Компанія OpenAI оголосила про загальну доступність свого Realtime API та представила нову модель GPT-Realtime, що знаменує собою значний крок уперед у сфері голосового штучного інтелекту. Ці інновації спрямовані на те, щоб зробити взаємодію людини з комп'ютером більш природною, ефективною та багатогранною.

GPT-Realtime — це найсучасніша модель OpenAI для перетворення мови на мову, яка обробляє та генерує аудіо безпосередньо, усуваючи потребу в окремих етапах перетворення мови на текст і тексту на мову. Такий підхід, що базується на єдиній архітектурі обробки аудіо, значно зменшує затримку та зберігає тонкі нюанси мови, такі як інтонація, емоції та темп. Це дозволяє створювати більш природні та виразні розмови, що є ключовим для реальних застосувань, від обслуговування клієнтів до персональних асистентів.

Нова модель демонструє значні покращення у ключових показниках. За даними OpenAI, GPT-Realtime досягла 82,8% точності в тесті Big Bench Audio для оцінки можливостей міркування, що на 17% більше порівняно з попередньою моделлю компанії. Крім того, показники виконання інструкцій покращилися на 9,9% на аудіо-бенчмарку MultiChallenge, а точність виклику функцій зросла на 16,8% на ComplexFuncBench. Ці досягнення свідчать про значний прогрес у здатності ШІ розуміти та реагувати на складні запити.

Realtime API тепер пропонує розширені можливості для розробників та підприємств. Серед них підтримка протоколу ініціації сеансів (SIP) для інтеграції з телефонними мережами, підтримка серверів протоколу контексту моделі (MCP) для спрощення підключення до зовнішніх інструментів та послуг, а також можливість обробки вхідних зображень для аналізу візуального контексту під час розмов. Крім того, API тепер підтримує асинхронні виклики функцій, що дозволяє моделі продовжувати розмову під час очікування результатів тривалих операцій, не перериваючи потік взаємодії.

OpenAI також знизила ціни на Realtime API на 20%, встановивши нові тарифи: 32 долари за мільйон аудіо вхідних токенів та 64 долари за мільйон аудіо вихідних токенів. Це робить передові голосові технології більш доступними для широкого кола користувачів. Ці вдосконалення відкривають нові горизонти для створення більш інтерактивних та людських голосових інтерфейсів. Здатність GPT-Realtime розуміти невербальні сигнали, такі як сміх, перемикатися між мовами в середині речення та адаптувати тон голосу робить його потужним інструментом для різноманітних галузей, включаючи обслуговування клієнтів, освіту та охорону здоров'я. Експерти галузі вважають, що ці розробки OpenAI значно посилять конкуренцію на ринку голосового ШІ та визначатимуть майбутні тенденції у цій сфері.

Джерела

  • WebProNews

  • Introducing gpt-realtime and Realtime API updates for production voice agents

  • o1 and new tools for developers

  • Realtime API | OpenAI Help Center

  • OpenAI updates the Realtime API with gpt-realtime, its most advanced voice AI model yet

  • OpenAI Introduces GPT-Realtime Speech Generation Model, Makes Realtime API Generally Available

Знайшли помилку чи неточність?

Ми розглянемо ваші коментарі якомога швидше.

OpenAI революціонізує голосовий ШІ: Запуск... | Gaya One