OpenAI Revoluciona la IA de Voz con el Lanzamiento del API Realtime y el Modelo GPT-Realtime

Editado por: Veronika Radoslavskaya

OpenAI ha anunciado un avance significativo en la inteligencia artificial conversacional con la disponibilidad general de su API Realtime y la introducción de su modelo GPT-Realtime. Este lanzamiento promete transformar la interacción por voz, ofreciendo experiencias más naturales y eficientes para desarrolladores y empresas.

El núcleo de esta innovación es GPT-Realtime, el modelo de voz a voz más avanzado de OpenAI hasta la fecha. A diferencia de los sistemas tradicionales que encadenan modelos de voz a texto y texto a voz, GPT-Realtime procesa y genera audio directamente. Este enfoque unificado reduce drásticamente la latencia y preserva matices cruciales del habla, como la entonación y las pausas, logrando interacciones notablemente más humanas.

Las mejoras de rendimiento son sustanciales. En evaluaciones clave como Big Bench Audio, GPT-Realtime ha demostrado un aumento del 17% en la precisión de razonamiento, alcanzando un 82.8% frente al 65.6% de modelos anteriores. La capacidad de seguir instrucciones ha mejorado un 10% en el benchmark MultiChallenge, y la precisión en la invocación de funciones ha escalado al 66.5% en ComplexFuncBench, lo que subraya la mayor inteligencia y fiabilidad del nuevo modelo para ejecutar tareas complejas.

La API Realtime se ha expandido con funcionalidades clave para la integración práctica. Ahora soporta entradas de imagen, permitiendo a los agentes de IA analizar contenido visual durante una conversación, y la integración a través del Protocolo de Inicio de Sesión (SIP) para llamadas telefónicas. Además, la compatibilidad con servidores remotos de Protocolo de Contexto de Modelo (MCP) y la capacidad de reutilizar indicaciones (prompts) simplifican el desarrollo y la personalización.

OpenAI también ha introducido dos nuevas voces exclusivas, Cedar y Marin, que aportan mayor expresividad y naturalidad. En términos de accesibilidad, OpenAI ha optimizado su estructura de precios, reduciendo los costos en un 20%. Las nuevas tarifas sitúan la entrada de audio en $32 por millón de tokens y la salida en $64 por millón de tokens, haciendo esta tecnología más asequible para una gama más amplia de desarrolladores y empresas.

Expertos en el campo consideran estas capacidades transformadoras para sectores como el servicio al cliente, la educación y los asistentes personales. La habilidad de GPT-Realtime para cambiar de idioma a mitad de una frase y ajustar el tono abre un abanico de posibilidades para crear experiencias de usuario más inmersivas y personalizadas. Aunque la latencia se ha reducido significativamente, algunos analistas señalan que sigue siendo un factor a considerar en aplicaciones de tiempo real que requieren respuestas ultrarrápidas.

Fuentes

  • WebProNews

  • Introducing gpt-realtime and Realtime API updates for production voice agents

  • o1 and new tools for developers

  • Realtime API | OpenAI Help Center

  • OpenAI updates the Realtime API with gpt-realtime, its most advanced voice AI model yet

  • OpenAI Introduces GPT-Realtime Speech Generation Model, Makes Realtime API Generally Available

¿Encontró un error o inexactitud?

Consideraremos sus comentarios lo antes posible.

OpenAI Revoluciona la IA de Voz con el Lan... | Gaya One