OpenAI Revoluciona a IA de Voz com Lançamento do GPT-Realtime e API Realtime

Editado por: Veronika Radoslavskaya

A OpenAI lançou o seu modelo mais avançado de conversão de voz em voz, o gpt-realtime, e disponibilizou o acesso ao mesmo através da API.

O GPT-Realtime, o modelo de fala para fala mais avançado da OpenAI até o momento, processa e gera áudio diretamente, eliminando a necessidade de modelos separados de conversão de fala para texto e texto para fala. Essa arquitetura unificada resulta em latência reduzida e uma captura mais fiel das nuances da fala, incluindo entonação, emoção e alternância de idiomas em meio a uma frase.

Em termos de desempenho, o modelo demonstrou melhorias notáveis: atingiu 82,8% de precisão no benchmark Big Bench Audio, um aumento considerável em relação aos 65,6% de seu antecessor de dezembro de 2024. A precisão no seguimento de instruções melhorou para 30,5% no benchmark MultiChallenge, e a capacidade de chamada de funções avançou para 66,5% no ComplexFuncBench.

A API Realtime foi aprimorada com funcionalidades voltadas para a produção, incluindo suporte para servidores remotos de Protocolo de Contexto de Modelo (MCP), entrada de imagem para análise visual e integração com o Protocolo de Iniciação de Sessão (SIP) para chamadas telefônicas. A OpenAI também introduziu duas novas vozes exclusivas, Cedar e Marin, projetadas para oferecer um discurso ainda mais natural e expressivo, além de atualizar suas oito vozes existentes.

Com o objetivo de democratizar o acesso a essa tecnologia, a OpenAI reduziu os preços da API Realtime em 20%. As novas tarifas são de US$ 32 por milhão de tokens de entrada de áudio e US$ 64 por milhão de tokens de saída de áudio. Essa otimização de custos visa tornar as interações de IA de voz mais acessíveis e econômicas.

A introdução do GPT-Realtime e da API Realtime posiciona a OpenAI na vanguarda do mercado de IA de voz, que deve atingir US$ 49,6 bilhões até 2028. Especialistas da indústria observam que essa tecnologia tem o potencial de transformar setores como atendimento ao cliente, educação e saúde.

Fontes

  • WebProNews

  • Introducing gpt-realtime and Realtime API updates for production voice agents

  • o1 and new tools for developers

  • Realtime API | OpenAI Help Center

  • OpenAI updates the Realtime API with gpt-realtime, its most advanced voice AI model yet

  • OpenAI Introduces GPT-Realtime Speech Generation Model, Makes Realtime API Generally Available

Encontrou um erro ou imprecisão?

Vamos considerar seus comentários assim que possível.