A OpenAI lançou o seu modelo mais avançado de conversão de voz em voz, o gpt-realtime, e disponibilizou o acesso ao mesmo através da API.
O GPT-Realtime, o modelo de fala para fala mais avançado da OpenAI até o momento, processa e gera áudio diretamente, eliminando a necessidade de modelos separados de conversão de fala para texto e texto para fala. Essa arquitetura unificada resulta em latência reduzida e uma captura mais fiel das nuances da fala, incluindo entonação, emoção e alternância de idiomas em meio a uma frase.
Em termos de desempenho, o modelo demonstrou melhorias notáveis: atingiu 82,8% de precisão no benchmark Big Bench Audio, um aumento considerável em relação aos 65,6% de seu antecessor de dezembro de 2024. A precisão no seguimento de instruções melhorou para 30,5% no benchmark MultiChallenge, e a capacidade de chamada de funções avançou para 66,5% no ComplexFuncBench.
A API Realtime foi aprimorada com funcionalidades voltadas para a produção, incluindo suporte para servidores remotos de Protocolo de Contexto de Modelo (MCP), entrada de imagem para análise visual e integração com o Protocolo de Iniciação de Sessão (SIP) para chamadas telefônicas. A OpenAI também introduziu duas novas vozes exclusivas, Cedar e Marin, projetadas para oferecer um discurso ainda mais natural e expressivo, além de atualizar suas oito vozes existentes.
Com o objetivo de democratizar o acesso a essa tecnologia, a OpenAI reduziu os preços da API Realtime em 20%. As novas tarifas são de US$ 32 por milhão de tokens de entrada de áudio e US$ 64 por milhão de tokens de saída de áudio. Essa otimização de custos visa tornar as interações de IA de voz mais acessíveis e econômicas.
A introdução do GPT-Realtime e da API Realtime posiciona a OpenAI na vanguarda do mercado de IA de voz, que deve atingir US$ 49,6 bilhões até 2028. Especialistas da indústria observam que essa tecnologia tem o potencial de transformar setores como atendimento ao cliente, educação e saúde.