OpenAI Revoluciona a IA de Voz com Lançamento do GPT-Realtime e API Realtime
Editado por: Veronika Radoslavskaya
A OpenAI lançou o seu modelo mais avançado de conversão de voz em voz, o gpt-realtime, e disponibilizou o acesso ao mesmo através da API.
O GPT-Realtime, o modelo de fala para fala mais avançado da OpenAI até o momento, processa e gera áudio diretamente, eliminando a necessidade de modelos separados de conversão de fala para texto e texto para fala. Essa arquitetura unificada resulta em latência reduzida e uma captura mais fiel das nuances da fala, incluindo entonação, emoção e alternância de idiomas em meio a uma frase.
Em termos de desempenho, o modelo demonstrou melhorias notáveis: atingiu 82,8% de precisão no benchmark Big Bench Audio, um aumento considerável em relação aos 65,6% de seu antecessor de dezembro de 2024. A precisão no seguimento de instruções melhorou para 30,5% no benchmark MultiChallenge, e a capacidade de chamada de funções avançou para 66,5% no ComplexFuncBench.
A API Realtime foi aprimorada com funcionalidades voltadas para a produção, incluindo suporte para servidores remotos de Protocolo de Contexto de Modelo (MCP), entrada de imagem para análise visual e integração com o Protocolo de Iniciação de Sessão (SIP) para chamadas telefônicas. A OpenAI também introduziu duas novas vozes exclusivas, Cedar e Marin, projetadas para oferecer um discurso ainda mais natural e expressivo, além de atualizar suas oito vozes existentes.
Com o objetivo de democratizar o acesso a essa tecnologia, a OpenAI reduziu os preços da API Realtime em 20%. As novas tarifas são de US$ 32 por milhão de tokens de entrada de áudio e US$ 64 por milhão de tokens de saída de áudio. Essa otimização de custos visa tornar as interações de IA de voz mais acessíveis e econômicas.
A introdução do GPT-Realtime e da API Realtime posiciona a OpenAI na vanguarda do mercado de IA de voz, que deve atingir US$ 49,6 bilhões até 2028. Especialistas da indústria observam que essa tecnologia tem o potencial de transformar setores como atendimento ao cliente, educação e saúde.
Fontes
WebProNews
Introducing gpt-realtime and Realtime API updates for production voice agents
o1 and new tools for developers
Realtime API | OpenAI Help Center
OpenAI updates the Realtime API with gpt-realtime, its most advanced voice AI model yet
OpenAI Introduces GPT-Realtime Speech Generation Model, Makes Realtime API Generally Available
Leia mais notícias sobre este tema:
Google Incorpora SynthID e C2PA ao Gemini, Democratizando a Verificação de Proveniência da IA
Alibaba Entra na Corrida dos Óculos Inteligentes com os Quark AI Glasses, Focando em Bateria para o Dia Todo
Perplexity Lança Funcionalidade de Memória para Assistentes de IA, Personalizando o Contexto em Todos os Modelos
Encontrou um erro ou imprecisão?
Vamos considerar seus comentários assim que possível.
